摘要:提出了一種基于增量詞集頻率的文本主題詞提取算法,其核心思想是計算主題詞集頻率增量,算法從候選主題詞集提取主題詞時,計算單個候選主題詞對主題詞集頻率的增量,若增量小于給定閾值,則主題詞提取算法結束,否則將該候選主題詞加入主題詞集,繼續考察下一個候選主題詞。實驗結果表明,該算法取得了較好的效果,所獲得的主題詞能更貼切地反映文章的主要內容。
關鍵詞:增量詞集頻率;主題詞;自然語言處理
中圖分類號:TP301;TP391 文獻標志碼:A 文章編號:1001-3695(2010)09-3237-02