摘要:一詞多義和多詞同義是語言中廣泛存在的現(xiàn)象,它給自然語言處理帶來了很多困難,解決這個(gè)難題的有效辦法是建立包含上下文信息的同義詞集。深入分析了概念、詞匯和特征詞三者的內(nèi)在關(guān)系,并在此基礎(chǔ)上提出了一種基于同義詞匯的特征詞的關(guān)聯(lián)性,從文本中挖掘同義詞集的算法。根據(jù)特征詞之間存在關(guān)聯(lián)性的特點(diǎn),算法以成熟的關(guān)聯(lián)規(guī)則挖掘算法作為基礎(chǔ),獲得了明顯優(yōu)于同類算法的實(shí)驗(yàn)效果。算法獲得的同義詞集附帶上下文信息,可有效解決文本中詞匯的多義性和同義性問題。
關(guān)鍵詞:自然語言處理;同義詞集;特征詞;概念
中圖分類號:TP301 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2009)07-2517-03