999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞頻信息改進的IG特征選擇算法在文本分類中的應用研究

2018-01-29 17:14:26牛玉霞
軟件工程 2017年12期

摘 要:IG算法是一種有效的特征選擇算法,在文本分類研究領域中得到了廣泛應用。本文針對IG算法的不足,提出了一種基于詞頻信息的改進方法,分別從類內詞頻信息、類內詞頻位置分布、類間詞頻信息等方面進行了改進。通過實驗對改進的算法進行了測試,結果表明,改進的算法相對傳統算法更有效。

關鍵詞:詞頻信息;IG算法;特征選擇;文本分類

中圖分類號:TP391.1 文獻標識碼:A

Research on the Application of the IG Feature Selection Algorithm Based on Word

Frequency Information Improvement in Text Classification

NIU Yuxia

(Nantong Science and Technology Academy,Nantong 226007,China)

Abstract:As an effective feature selection algorithm,the IG algorithm has been widely used in the field of text classification.Aiming at the shortcomings of the IG algorithm,this paper proposes an improved method based on word frequency information,which improves the intra-class frequency information,the intra-class word frequency location distribution and the inter-class word frequency information.Experiments are carried out to test the improved algorithm,and the results show that the improved algorithm is more effective in comparison with the traditional one.

Keywords:word frequency information;IG algorithm;feature selection;text classification

1 引言(Introduction)

隨著信息技術的飛速發展,互聯網信息資源呈爆炸式增長。面對海量信息,如何合理管理資源,使人們能夠快速、準確地獲取有效信息,已經成為IT行業的研究熱點之一[1]。

文本分類技術是文本信息處理的關鍵技術之一,能夠很好地解決上述問題,在文本分類中,通常用向量空間模型來表示結構化文本,其中,文本特征的高維性和特征權值的稀疏性直接影響文本分類精度。因此,設計合理的特征降維方法可以提高文本自動分類的效率。特征選擇模式是常用的文本特征降維方式。該模式計算復雜度低,容易理解。特征選擇的主要方法有:文檔頻度(Document Frequency,DF)、互信息(Mutual Information,MI)、文本證據權(Weight of Evidence,WE)、統計量(Chi-square,CHI)、期望交叉熵(Expected Cross Entropy,ECE)、信息增益(Information Gain,IG)等。相關研究表明[2,3],在信息類別分布均衡的情況下,信息增益優勢明顯,但在類偏斜條件下,信息增益的分類效果就會下降。就信息增益的不足,探索相應的改進方法,提高文本分類的性能,有重要的現實意義。

2 信息增益文本特征選擇算法(Information gain

text feature selection algorithm)

信息增益(Information Gain,IG)的評估方法是以熵為理論基礎的[4]。熵越大,表明體系分布不確定、混亂。設X是隨機變量,它可能有n個取值,,…,,每個取值取到的概率分別為,,…,,則X的信息熵為:

(1)

當Y確定以后,則X的熵為

(2)

信息增益是熵的差值,表示在去掉變量的不確定性后得到的信息量,表示為:

(3)

IG是針對特征項而言的。設ω為特征項,C為文本類別,用ω在C類中是否出現所帶來的信息量來確定ω對C的信息增益值,如式(4)所示。

(4)

其中,n表示總的文檔類別數,表示在文檔集合中屬于類的文檔出現概率,表示含有特征項的文本在文檔集合中出現的概率,表示不含特征項在文檔集合中出現的概率,表示含特征項屬于類別的概率,表示含特征項不屬于類別的概率。

3 改進信息增益算法(Improved information gain

algorithm)

3.1 基于類內詞頻信息改進IG算法

傳統信息增益算法中計算的概率P均是基于文檔數量的,沒有考慮特征項詞頻因素[5]。比如,特征項中的與在類別中的大部分文本中出現,在其他類別中基本不出現,那么,和可能是的特征項。由式(3)計算得到的兩個特征項與類別之間的IG值應該基本接近。但是,如果特征項在類別中出現的次數遠遠大于特征項時,即特征項對的分類能力遠遠大于特征項,由式(3)計算得到的兩個特征項IG值仍然接近。因此,在評估特征項對文檔類別的分類能力時,傳統的信息增益算法考慮了在類別中出現特征項文檔的數量,而沒有考慮特征項在中各個文檔中出現的次數。endprint

由上述情況可知,某一個特征項在某一個文檔類別中出現的次數越多,則該特征項對文檔類別而言分類能力就越強,該特征項的IG應該放大,因此,考慮為特征項增加權重參數,出現頻數越大,則分配較大的權重值。記特征項集合,文本類別中的文本有,其中,是類別中包含文檔的總數。設特征項在文檔(屬類別)出現的頻數為,那么權重參數為:

(5)

不同類別中的文檔數量也有所不同,因此,將式(5)進一步做歸一化處理。

(6)

由改進的模型可以看出,特征項在文檔中出現的頻數與其權重值呈正比關系,即某一特征項在某類別中出現越頻繁,則分類能力就越強。

3.2 基于類內詞頻位置分布信息改進IG算法

相關研究表明,在文本類別中分類能力越強的特征項,不僅出現頻數要大,而且在該類別中的分布位置應該均勻[6,7]。比如,在類別中都出現了特征項和,特征項在每個文檔中都出現,而且出現頻數接近,分布均勻,特征項只在個別文檔中出現,而且出現頻數很高,在其他文檔中出現頻數很少,即特征項在類中呈偏斜分布。在這種情況下,我們認為特征項對類別的分類能力更強。但是,公式(3)沒有考慮這一因素,計算得到的結論恰恰相反。

因此,基于特征項在類內文本分布信息進行改進,在模型中引入樣本方差。樣本方差在統計學中用來表示樣本之間的離散程度,方差越大,表示樣本分布越不均勻,即越偏斜;方差越小,表示樣本與其均值之間的偏差越小,分布越均勻。在本文中,表示特征項在同一類別各個文檔中頻數的分布情況。

記特征項在類別的某一文檔中出現的頻數為,那么每個頻數之間的樣本方差可表示為

(7)

特征項在文檔類別中出現頻數的方差與其分類能力成反比,即方差越小,分類能力越強。所以,將式(7)表示的方差參數進行進一步修正,如式(8)所示。

(8)

在文檔類別中,特征項每個文本中分布越均勻,值就越大,相應的分類能力也就越強。

3.3 基于類間詞頻信息改進IG算法

特征項在不同的文本類別中出現的頻數也能反應其相對文本類別的分類能力[8]。如果特征項在類別中出現頻繁,且分布均勻,在其他類別中出現很少,那么表現出對類別較強的分類能力;相反,如果特征項在所有文檔類別中都頻繁出現,那么表現出的分類能力就較差。仍然以特征項在類別中的詞頻方差作為權重參數,特征項在不同類別中的詞頻數方差越大,則分類能力越強。

設特征項在類別的所有文檔中出現的頻數為,則特征項在每個類別中的頻數間樣本方差可表示為

(9)

在此基礎上,將參數做歸一化處理,如式(10)所示。

(10)

參數體現了特征項在不同文本類別中出現頻數的分布情況,分布越偏斜,則分類能力更強,反之則弱。

綜上所述,通過引入、、三個權重參數,對傳統IG算法進行了優化,得到改進的模型如式(11)所示。

(11)

改進的算法綜合考慮了類內詞頻信息、類內詞頻位值分布信息、類間詞頻分布信息三個因素的影響,即特征項在類內少數文檔類別中出現頻數越高,分類能力越強;特征項在類內出現頻數高,且分布均勻,分類能力越強;特征項在類別間分布越偏斜,分類能力越強。實驗表明,改進的特征選擇算法IGimp相對 IG效果更好。

4 實驗過程與結果分析(Experiment process and

result analysis)

4.1 選取實驗文本

本文對改進的模型進行了分本分類實驗,實驗數據來自復旦大學李榮陸教授提供的語料庫,包括教育、經濟、環境、計算機、醫藥、藝術、交通、政治、體育、軍事10個主題類別,選取926篇作為測試集,1851篇文本作為訓練集,具體分布情況如表1所示。

使用中科院ICTCLAS分詞系統進行分詞處理,剔除無用詞和停用詞,使用文中改進的模型進行特征提取,使用KNN分類算法進行測試。

4.2 確定實驗K值

KNN分類算法中的K值是不確定的,需要通過實驗,選擇準確率最高K的取值。用傳統IG算法,特征提取維數1000,K分別取5、8、10、12、14、18。從圖1中可以看出,當K取12時,分類器準確率達到最高,所以,在對比實驗中,K的值取12。

4.3 分析實驗結果

本文實驗比較了改進算法IGimp與傳統IG算法的分類效果,采用KNN分類算法、TF-IDF加權算法,使用查準率P、查全率R和F1測試值作為分類效果的評估指標。

查準率P=正確分類文本數/實際分類文本數

查全率R=正確分類文本數/類內文本數

F1=2×P×R/(P+R)

實驗統計結果如表2所示,其中,P、R和F1表示IG算法分類評估值,P-new、R-new和F1-new表示改進算法IGimp的分類評估值。

為直觀比較,將表2中的數據用直方圖表示,查準率P直方圖如圖2所示。從圖中可以看出,改進的算法的查準率在實驗文本的十個類別中都有所提高,平均提高率為4.27%,尤其是在教育、交通類中,分別提高了10.84%和6.75%。

圖3為查全率R對比直方圖,改進的算法在查全率方面平均提高率為3.04%,經濟、醫藥、藝術類別的查全率高于平均提高率,分別為7.24%、6.96%、4.94%,教育類的查全率稍有下降。

圖4為F1評估值對比直方圖,改進的算法F1值在十個種類中都有提高,平均提高率為3.8%,醫藥、經濟、教育類有明顯提高,分別提高了5.96%、5.88%、5.24%。

筆者利用宏平均查準率、宏平均查全率、宏平均F1三個評估指標,對改進算法IGimp與傳統IG算法F1做了比較,可以從整體上看出兩種算法的分類效果。具體數據如表3所示。endprint

從表3中可以看出,相比較IG算法,IGimp在宏平均查準率、宏平均查全率和宏平均F1方面分別提高了3.12%、2%、2.24%。

綜合分析改進IGimp算法的分類效果,在查準率、查全率和F1方面比IG算法的效果要好,僅在個別類別的查全率略有下降。從整體上看,改進IGimp算法的文本分類效果優于傳統IG算法。

5 結論(Conclusion)

本文針對信息增益算法在特征項頻數分布方面的不足進行了改進,引入了三個權重參數,分別從類內詞頻信息、類內詞頻分布、類間詞頻分布三個方面進行了改進,使得優化的信息增益模型IGimp有更強的類別特征選擇能力。通過對文本樣本分類實驗對比,證明了改進的IGimp算法有更強的文本分類能力。

參考文獻(References)

[1] Ghosh A K,Chaudhuri P,Murthy C A.Multiscale classi-fication using nearest neighbor density estimates[J].IEEETransactions on Systems,Man,and Cybernetics-part B:Cybernetics,

2006,36(5):1139-1148.

[2] Liu L,Ren J Y,Zhou J,et al.Carrier frequency offset and I/Q imbalance compensation for MB-OFDM based UWB system[J].Wireless Personal Communications,2013,71(2):1095-1107.

[3] Sharma R.Lalitha H.Kumar N.Design and development of nono data aided estimation algorithm for carrier frequency-offset and I/Q imbalancing in OFDM-based systems[C].Wireless and Optical Communications Networks,2013:1-4.

[4] 石慧.基于特征選擇和特征加權算法的文本分類研究[D].山東師范大學,2015.

[5] 劉海峰,劉守生,宋阿羚.基于詞頻分布信息的優化IG特征選擇方法[J].計算機工程與應用,2017,53(4):113-116;122.

[6] 黃志艷.一種基于信息增益的特征選擇方法[J].山東農業大學學報,2013,44(2):252-256.

[7] 任永功,楊榮杰,尹明飛,等.基于信息增益的文本特征選擇方法[J].計算機科學,2012,39(11):127-130.

[8] 熊忠陽,黎剛,陳小莉.文本分類中詞語權重計算方法的改進與應用[J].計算機工程與應用,2008,44(5):187-189.

作者簡介:

牛玉霞(1981-),女,碩士,講師.研究領域:計算機應用技術,物聯網技術.endprint

主站蜘蛛池模板: 国产成人精品一区二区秒拍1o| 亚洲第一精品福利| 日韩成人午夜| 国产swag在线观看| 国产免费黄| 狠狠色丁婷婷综合久久| 亚洲精品日产AⅤ| 免费观看精品视频999| 久久狠狠色噜噜狠狠狠狠97视色 | 丁香亚洲综合五月天婷婷| 亚洲av成人无码网站在线观看| 91在线丝袜| 亚洲自偷自拍另类小说| 国产在线视频福利资源站| 国产香蕉97碰碰视频VA碰碰看 | 欧美国产日韩在线播放| 成人无码一区二区三区视频在线观看| 亚洲国产欧美目韩成人综合| 日韩不卡高清视频| 国产欧美专区在线观看| 成年人午夜免费视频| 波多野结衣视频一区二区| 亚洲成网777777国产精品| 1769国产精品免费视频| 国产微拍一区二区三区四区| 国产aⅴ无码专区亚洲av综合网| 国产精品亚欧美一区二区| 九色免费视频| 欧美yw精品日本国产精品| 久久一色本道亚洲| 亚洲第一在线播放| 亚洲视频四区| 永久免费av网站可以直接看的| 精品综合久久久久久97超人| 丁香五月婷婷激情基地| 无码日韩视频| 日韩一区二区在线电影| 亚洲高清无在码在线无弹窗| 亚洲天堂精品在线| 亚洲人成网站在线播放2019| 91免费片| 人人妻人人澡人人爽欧美一区| 影音先锋丝袜制服| 97精品国产高清久久久久蜜芽| 亚洲精品无码人妻无码| 亚洲视频欧美不卡| 亚洲成在线观看| 又猛又黄又爽无遮挡的视频网站| a级毛片免费看| 亚洲精品视频免费| 中国一级特黄大片在线观看| 国产欧美网站| 免费又爽又刺激高潮网址 | 九色国产在线| 精品久久香蕉国产线看观看gif | 一本久道久久综合多人| 在线看片免费人成视久网下载| 色综合热无码热国产| 成人精品亚洲| 男人天堂亚洲天堂| 亚洲第一成人在线| 最新国产精品鲁鲁免费视频| 天堂亚洲网| 8090成人午夜精品| 国产视频一二三区| 国产香蕉97碰碰视频VA碰碰看| 国产成人亚洲日韩欧美电影| 国产一级妓女av网站| 一区二区三区成人| 亚洲永久免费网站| 国产精品黄色片| 国内嫩模私拍精品视频| 欧美精品aⅴ在线视频| 无码精品国产VA在线观看DVD| 久久久久青草线综合超碰| 国产精品任我爽爆在线播放6080 | 欧美国产精品拍自| 五月婷婷欧美| 国产91视频观看| 国产麻豆aⅴ精品无码| 中文字幕2区| 97超级碰碰碰碰精品|