劉 洋 余 甜 丁 藝
(西安郵電大學計算機學院 西安 710121)
隨著自然語言處理[1]以及人工智能[2]的飛速發展,越來越多的人們希望計算機可以代替人類的工作。如果想讓計算機“聽懂”人類的語言,計算機就需要對文本和詞語進行分析,那么中文分詞就成為了最重要的一部分。中文分詞的任務是將整個句子在不改變語義的前提下切分成一個個單詞。例如,可以將“失敗是成功之母”切分為“失敗/是/成功/之/母”。不同于英文的是,英文可以用空格符自然的將一句話切分成一個個單詞,而中文并沒有這樣自然的符號。因此,在文本分析,信息匹配,計算文本相似度等自然語言處理的范疇上,中文分詞是必不可少的一部分。
為了提高中文分詞的速度,本文提出了一種新的求解最大概率路徑的方法,將這種方法應用至中文分詞,并將基于該方法的中文分詞與JIEBA[3]中文分詞分別進行實驗,在搜狗新聞數據集下經過實驗驗證,與JIEBA 中文分詞相比,該方法可以在保證良好的分詞效果的基礎上提高分詞速度。
中文分詞一直都是自然語言處理中十分重要的部分。由于二義性,歧義以及一些問題,中文分詞一直都是人們討論的熱門話題[4~5]。
最早的中文分詞是在20世紀80年代由梁南元教授提出的一種基于“查字典”的方式。同時,也開發出了第一個分詞系統。基于查字典的方式是將句子與詞典中的詞條進行匹配[6]。若碰到復合詞時,就選擇最長的詞條進行匹配。……