摘要:為了提高關鍵詞的提取準確率,在對現有關鍵詞抽取方法進行研究的基礎之上,針對影響關鍵詞提取準確率的分詞技術、同義詞現象等難點,提出了一種基于組合詞和同義詞集的關鍵詞提取算法。該算法首先利用組合詞識別算法極大地改進分詞效果,能識別網頁上絕大多數的新詞、未登錄詞,為提高關鍵詞自動抽取準確率奠定了堅實的基礎;同時利用構造的同義詞集,合并同義詞的詞頻,避免了同義詞在輸出結果中出現;利用綜合評分公式,充分考慮候選關鍵詞的位置、長度、詞性等特性。實驗數據表明,該方法有較高的提取準確率。
關鍵詞:組合詞;同義詞集;中文網頁;關鍵詞提取
中圖分類號:TP391.1 文獻標志碼:A 文章編號:1001-3695(2010)08-2853-04