摘要:提出一種基于后綴數(shù)組的無詞典分詞算法。該算法通過后綴數(shù)組和利用散列表獲得漢字的結(jié)合模式,通過置信度篩選詞。實(shí)驗(yàn)表明,在無需詞典和語料庫的前提下,該算法能夠快速準(zhǔn)確地抽取文檔中的中、高叔詞。適用于對(duì)詞條頻度敏感、對(duì)計(jì)算速度要求高的中文信息處理。
關(guān)鍵詞:中文信息處理;中文自動(dòng)分詞;后綴數(shù)組;散列表
中圖分類號(hào):TP391.12文獻(xiàn)標(biāo)識(shí)碼:A