摘 要:文本挖掘是一個對具有豐富語義的文本進行分析從而理解其所包含的內容和意義的過程,已經成為數據挖掘中一個日益流行而重要的研究領域。首先給出了文本挖掘的定義和框架,對文本挖掘中預處理、文本摘要、文本分類、聚類、關聯分析及可視化技術進行了詳盡的分析,并歸納了最新的研究進展。最后指出了文本挖掘在知識發現中的重要意義,展望了文本挖掘在信息技術中的發展前景。
關鍵詞:文本挖掘;中文分詞;特征選取;文本摘要;文本分類;文本聚類;關聯分析;數據可視化
中圖法分類號:TP311;TP18
文獻標識碼:A
文章編號:1OO1—3695(2006)02—0001—04