[摘要] 本文介紹了文本挖掘的研究狀況,分析了文本挖掘的基本概念和技術(shù),總結(jié)了文本挖掘的過程,特征的建立、特征集的縮減、常用算法、模式的提取與評(píng)價(jià)等,展望了文本挖掘的未來研究問題和方向。
[關(guān)鍵詞] 文本挖掘 文本特征 詞頻矩
一、引言
隨著Internet 應(yīng)用的普及,Web已經(jīng)發(fā)展成為擁有10億頁(yè)面的分布式信息空間,而且這個(gè)數(shù)字仍以每半年翻一番的速度增長(zhǎng)。在這些海量數(shù)據(jù)當(dāng)中,大部分信息是非結(jié)構(gòu)化的或是半結(jié)構(gòu)化的,蘊(yùn)含著巨大潛在價(jià)值的知識(shí)。人們迫切需要能夠從Web上快速、有效地發(fā)現(xiàn)這些有價(jià)值的知識(shí)。Web上信息多樣性決定了Web知識(shí)發(fā)現(xiàn)的多樣性。按照處理對(duì)象的不同,可以將Web知識(shí)發(fā)現(xiàn)分為兩大類:內(nèi)容發(fā)現(xiàn)和結(jié)構(gòu)發(fā)現(xiàn)。
二、文本挖掘的過程
文本挖掘?qū)ο笸ǔJ且唤MHTML 或是XML格式的文檔集。文本挖掘的一般處理過程如圖1所示。
1.文本特征