一级黄色片免费播放|中国黄色视频播放片|日本三级a|可以直接考播黄片影视免费一级毛片

高級搜索

留言板

尊敬的讀者、作者、審稿人, 關(guān)于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

姓名
郵箱
手機號碼
標題
留言內(nèi)容
驗證碼

一種基于N-gram模型和機器學習的漢語分詞算法

吳應良 韋崗 李海洲

吳應良, 韋崗, 李海洲. 一種基于N-gram模型和機器學習的漢語分詞算法[J]. 電子與信息學報, 2001, 23(11): 1148-1153.
引用本文: 吳應良, 韋崗, 李海洲. 一種基于N-gram模型和機器學習的漢語分詞算法[J]. 電子與信息學報, 2001, 23(11): 1148-1153.
Wu Yingliang, Wei Gang, Li Haizhou. A WORD SEGMENTATION ALGORITHM FOR CHINESE LANGUAGE BASED ON N-GRAM MODELS AND MACHINE LEARNING[J]. Journal of Electronics & Information Technology, 2001, 23(11): 1148-1153.
Citation: Wu Yingliang, Wei Gang, Li Haizhou. A WORD SEGMENTATION ALGORITHM FOR CHINESE LANGUAGE BASED ON N-GRAM MODELS AND MACHINE LEARNING[J]. Journal of Electronics & Information Technology, 2001, 23(11): 1148-1153.

一種基于N-gram模型和機器學習的漢語分詞算法

A WORD SEGMENTATION ALGORITHM FOR CHINESE LANGUAGE BASED ON N-GRAM MODELS AND MACHINE LEARNING

  • 摘要: 漢語的自動分詞,是計算機中文信息處理領(lǐng)域中一個基礎(chǔ)而困難的課題。該文提出了一種將漢語文本句子切分成詞的新方法,這種方法以N-gram模型為基礎(chǔ),并結(jié)合有效的Viterbi搜索算法來實現(xiàn)漢語句子的切詞。由于采用了基于機器學習的自組詞算法,無需人工編制領(lǐng)域詞典。該文還討論了評價分詞算法的兩個定量指標,即查準率和查全率的定義,在此基礎(chǔ)上,用封閉語料庫和開放語料庫對該文提出的漢語分詞模型進行了實驗測試,表明該模型和算法具有較高的查準率和查全率。
  • 梁南元,漢語計算機自動分詞知識,中文信息學報,1989,4(2),29-33.[2]王德春,應用語言學概論,上海,上海外語教育出版社,1997年12月第1版,88-120.[3]E. Charniak, C. Hendrickson, N. Jacoboson, M. Perkowitz, Equations for part-of speech tagging,AAAI-93, 1993, 784 789.[4]K. Church, A stochastic parts program and noun phrase parser for unrestricted text, ANLP-88,1998, 136-143.[5]S. Sakai, Morphological category bigram: A single language model for both spoken language and text, ISSD-93, 1993, 97-90.[6]M. Yamamoto, A re-estimation method for stochastic language modeling from ambigous obser-vations, in Proceeding of WVLC-96, California, 1996, 155-167.[7]趙以寶, 孫圣和, 一種基于單字統(tǒng)計二元文法的自組詞音字轉(zhuǎn)換算法,電子學報, 1998, 26(10), 55-58.[8]F. Jelinek, Self-Organized Language Modeling for Speech Recognition, IBM Research Report,IBM T, J. Watson Research Center, 1985. Reprinted in Reading in Speech Recognition, Waibel,A., and Lee, K-F. (Eds.), Morgan Kaufann Publishers, 1990, 450-506.[9]S.M. Katz, Estimation of probailities from sparse data for the language model component ofspeech recognizer, IEEE Trans. on Acousttics, Speech, and Signal Processing, 1987, ASSP-35(3),400-401.[10]R. Rosenfeld, The CMU statistical language modeling toolkit and its use in the 1994 ARPA CSR evaluation, In the Proc. of ARPA Spoken Language Systems Technology Workshop, Washington, 1995, 47-50.
  • 加載中
計量
  • 文章訪問數(shù):  4118
  • HTML全文瀏覽量:  173
  • PDF下載量:  1288
  • 被引次數(shù): 0
出版歷程
  • 收稿日期:  1999-09-29
  • 修回日期:  2000-04-06
  • 刊出日期:  2001-11-19

目錄

    /

    返回文章
    返回