高新成,周中雨,王莉利,邵國(guó)銘,張 強(qiáng)
(1.東北石油大學(xué) 現(xiàn)代教育技術(shù)中心,黑龍江 大慶 163318; 2.東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
文本聚類(lèi)是將給定對(duì)象的集合劃分為不同子集的過(guò)程,目標(biāo)是使每個(gè)子集內(nèi)部的元素盡量相似,不同子集間的元素盡量迥異,其在文本挖掘中應(yīng)用廣泛.空間矢量模型VSM(vector space model)是文本數(shù)據(jù)挖掘的常用模型,其通過(guò)把詞條變成一維空間向量便于進(jìn)行空間向量計(jì)算.因此,聚類(lèi)效果主要受特征維度[1]大小和冗余特征的影響,文本特征中存在冗余特征,無(wú)監(jiān)督特征選擇是選取非冗余特征,使聚類(lèi)效果得到明顯提升.
傳統(tǒng)的特征選擇方式有文檔頻率DF、互信息MI、卡方檢驗(yàn)CHI和信息增益,這些方式均存在局限性且特征選擇后的精度較低問(wèn)題.目前特征選擇的目標(biāo)有兩個(gè): 一是基于特征選擇后聚類(lèi)效果得到提升; 二是如何獲得最多有用的文本特征[2-3].因此,本文設(shè)計(jì)一種基于二進(jìn)制蜉蝣算法優(yōu)化的特征選擇及文本聚類(lèi)算法,首先對(duì)文本特征進(jìn)行選擇,選擇出最優(yōu)子集并把特征選擇的最優(yōu)解作為K-means++算法的輸入,得到最優(yōu)的聚類(lèi)效果.
目前已有的特征選擇方法主要有3種: 過(guò)濾法、嵌入法和封裝法.過(guò)濾法是一種基于數(shù)學(xué)的統(tǒng)計(jì)方法,其特征選擇方法與后面的模型訓(xùn)練分開(kāi),聚類(lèi)效果較差; 嵌入法是將學(xué)習(xí)器訓(xùn)練過(guò)程與特征選擇過(guò)程融為一體,二者在同一優(yōu)化過(guò)程中完成,在學(xué)習(xí)器訓(xùn)練過(guò)程中自動(dòng)進(jìn)行……