摘要:關鍵詞的提取是進行計算機自動文本分類和其他文本數據挖掘應用的關鍵。系統從語言的詞性角度考慮,對傳統的最大匹配分詞法進行了改進,提出一種基于動詞、虛詞和停用詞三個較小詞庫的快速分詞方法(FS),并利用TFIDF算法來篩選出關鍵詞以完成將Web文檔進行快速有效分類的目的。實驗表明,該方法在不影響分類準確率的情況下,分類的速度明顯提高。
關鍵詞:計算機應用;中文信息處理;關鍵詞提取;Web文檔分類
中圖法分類號:TP391
文獻標識碼:A
文章編號:1001-3695(2006)04-0032-03