999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息的文本分類改進方法研究

2017-10-21 03:47:04璇,孫偉,張
網絡安全與數據管理 2017年19期
關鍵詞:分類文本方法

余 璇,孫 偉,張 翔

(上海海事大學 信息工程學院,上海 201306)

基于互信息的文本分類改進方法研究

余 璇,孫 偉,張 翔

(上海海事大學 信息工程學院,上海 201306)

傳統的LDA主題模型沒有考慮詞頻對主題分類的影響,使得主題分布向高頻詞傾斜。為了綜合考慮詞頻和主題間的相關性,文中利用互信息能夠表達變量間相關性的特點,在互信息基礎上改進作為特征選擇方法,利用評價函數評價特征詞的權重值改進LDA算法分類過程,提高對主題分類貢獻度高的特征詞的作用。通過在新聞語料庫上的分類實驗證明了該方法的有效性,同時表明分類的準確率也有所提高。

主題模型;詞頻;互信息;特征選擇

0 引言

文本分類是指在給定分類體系下,根據文本內容自動確定文本類別的過程,本質上是一種模式識別過程,它可以對文本的特征模式進行識別,關鍵技術有語料庫的預處理、特征選擇、分類模型構建等。主題模型[1](topic modeling)是一種常見的機器學習方法,可以自動提取隱含在文檔集中的主題,并且按照詞的分布形式直觀地表達主題,無監督地分析文檔和預測新文檔,目前廣泛應用于對文本的分類。其中LDA(Latent Dirichlet Allocation)[2]主題模型由于其參數簡單,不產生過度擬合的現象,逐漸成為主題模型應用于文本分類的研究熱點。根據zipf定律,文檔中的詞頻分布符合冪律分布,在LDA主題模型學習時,這種冪律分布影響了詞對主題間相關性的表達能力。針對這一現象,利用評價函數通過特征選擇提取出文檔中特征詞,對特征集中的每一個特征詞進行評估,選取特定數目的特征詞組成特征子集表示文本,達到文本降維的目的。傳統的特征選擇方法有詞頻[3](Term Frequency,TF)、文檔頻率[4](Document Frequency,DF)、信息增益[5](Information Gain,IG)、互信息[6](Mutual Information,MI)、卡方統計[6](Chi-square Statistic,CHI)、期望交叉熵[6](Expected Cross Entropy,ECE)、文本證據權[6](Weight of Evidence for Text,WET)、優勢比[6](Odds Ratio,OR)等方法。文本利用詞頻與互信息結合做為評估函數提取特征詞,并在LDA模型中對特征詞進行加權處理,提高特征詞對文本主題分類的能力。

1 主題模型

LDA主題模型是一種對文本數據的主題信息進行提取的方法,通過對文本內容進行簡短的描述,保留本質的統計信息,高效地處理大規模數據集。LDA模型是一個產生式三層貝葉斯概率模型,分別是文檔層、主題層和詞層。

為了表述文檔中主題類間的相關性問題,在LDA模型的基礎上,Blei等人在LDA模型提出之后接著提出了CTM[7](Correlated Topic Model)模型,用邏輯正態分布(Logistic-Normal)替換Dirichlet主題先驗分布,通過引入主題間的協方差矩陣來描述主題相關性。Li等人提出PAM[8](Pachinko Allocation Model)模型,用一個有向無環圖(DAG)表示語義結構,在描述詞之間的相關性的同時,還描述了主題之間的相關性,通過主題相關性提高文本分類效果。張振平、宣國榮等人[9]于2005年提出一種基于分類錯誤率最小的改進型LDA特征選擇算法 ,采用迭代計算使Bayes分類錯誤率上界最小,取得比原LDA更好的分類效果。由于LDA模型應用廣泛,盧盛祺等人[10]提出了一種基于LDA模型的電影推薦方法,提高了視頻推薦的精度。

2 特征選擇

針對LDA模型的主題分布中詞分布不均勻現象,高頻詞的比重大導致能夠代表主題的多數詞被少量的高頻詞淹沒,使得主題表達能力降低,張小平、周雪忠[11]利用高斯函數對特征詞加權,改進模型的主題分布。雖然在數據預處理階段大量無用詞已被剔除,但在構造分類器時,其余的特征詞數量仍然很多,并且有很多特征詞表述類別信息能力較差,甚至會誤導分類結果。因此,為提高分類器的效率,更好地表示主題間的關系,本文從這些特征詞中進一步挑選出對類別貢獻大的特征詞構成特征向量。對于幾種不同的特征選擇方法,下面著重介紹詞頻和互信息。

2.1詞頻

詞頻指特征詞的頻次(Term Frequency,TF),即特征詞在所有文本即整個語料中出現的次數。設立閾值根據詞頻的大小對所有詞項進行篩選。

2.2互信息

作為計算語言學模型分析中的重要內容,互信息可以衡量兩個事件之間的相關性。兩個事件X和Y的互信息計算方法為:

H(X,Y)=H(X)+H(Y)-H(X,Y)

(1)

其中H(X,Y)是事件的聯合熵,定義為:

H(X,Y)=-∑p(x,y)log(p(x,y))

(2)

在文本分類中特征詞和主題類的互信息公式為:

(3)

其中,p(t)表示特征詞t在整個文檔集中出現的文檔頻,p(ci)是文檔集中第ci類文檔個數與整個文檔集中文檔個數的比值,p(t,ci)表示類別c中含有特征t的文檔個數。

3 基于詞頻和互信息結合的改進主題模型方法

3.1特征詞的抽取

特征詞在一篇文檔中的詞頻率并不絕對對應于該特征詞在該文檔中的重要性,互信息方法可以度量特征詞對于整個文檔集分類的重要程度,它根據文檔頻和特征詞與類別之間的關系判斷詞對主題類劃分的貢獻度。缺點是有可能導致最終所得的特征集中,能夠代表某類的特征詞較多,而代表其他類的較少,即會導致特征集合“不均勻”。

為了提高特征詞對文本分類的貢獻度,需要重新構造每篇文檔的特征向量,即在構造特征向量時,使用原來的特征詞構成特征向量,同時將在該文檔中以高詞頻出現的特征詞補充在向量列表中。本文通過詞頻與互信息結合的方式,用式(4)作為評價函數計算每個特征詞在一篇文檔中的貢獻度:

(4)

為了得到特征詞t與各個文檔的平均關聯程度,特征詞對于文檔集的平均互信息計算公式為:

(5)

在主題分類前由于不確定主題類,因此本文用互信息表示特征詞與文檔之間的相關程度,其中p(di)表示第i篇文檔的詞頻,p(t)表示特征詞t在整個文檔集中出現的詞頻,p(t,di)表示文檔i中含有特征詞t的詞個數。利用詞頻代替文檔頻表示特征詞與文檔的相關性方法,避免了僅僅考慮文檔頻不考慮詞頻導致的最終計算出的互信息值大量相同的現象,減緩最終根據閾值篩選特征詞時丟失很多有價值的特征詞的問題。

3.2模型的推導與估計

將文檔集表示為D篇文本,假設由K個主題混合產生表示每篇文本,主題類別個數K已知,并且主題類間相互獨立,忽略文本中的語法結構和詞出現的先后順序,每個主題k由詞的多項式分布形成。將LDA模型使用概率圖表示(如圖1),圖中黑色標志詞w是唯一可觀察到的變量,wdn表示第d篇文本的第n個詞,wdn∈V,V表示文檔中詞的字典集;zdn表示wdn產生的主題;α表示文檔集的主題先驗分布超參數;θd代表文檔d在主題上的分布比例,對于每篇文檔d,θd服從狄利克雷分布;主題φk表示字典V中的詞分布;圖中主題模型包含k個主題在詞上的分布φ1:k,文檔中詞的總個數用N表示。作為一個產生式概率模型,假設主題類個數確定,給定參數α和β,文檔d的物理產生過程描述為:(1)從p(θ|α)中隨機選擇一個K維向量θd,產生文檔d的主題分布;(2)通過p(wdn|θd,φ1:k)產生文檔d的每個詞wdn。

圖1 LDA圖概率模型表示

(6)

上式的條件概率計算中涉及到兩個Dirichlet-multinational共軛結構:

(7)

(8)

(9)

(10)

由式(9)、(10)得到LDA文本建模最終的參數采樣公式為:

p(zi=k|z,w,α,β)∞

p(zi=k,wi=t|z,w,α,β)∞

(11)

本文在詞頻與互信息結合的基礎上改進模型,通過對LDA模型進行擴展改變模型生成特征詞的過程, 提高表意性較強的特征詞在生成過程中的采樣分布。對此將特征詞在文檔中的權重考慮在參數采樣公式中,權重值公式參考前文提到的平均互信息計算公式,即

(12)

改變生成模型生成特征詞的概率,提出一個基于Gibbs Sampling公式基礎上的新公式:

p(zi=k|z,w,α,β)∞

p(zi=k,wi=t|z,w,α,β)∞

(13)

本文使用的主題模型方法在Gibbs Sampling采樣過程中對詞的權重值進行調整,并使用0均值標準化(Z-score standardization)(如式(12))方法在模型中詞概率值進行歸一化。

z=(p-μ)/σ

(14)

其中μ、σ分別為Gibbs Sampling迭代之前的特征詞頻率值的均值和方差,歸一化后Gibbs Sampling過程能夠順利收斂。

4 實驗及結果分析

4.1實驗數據和實驗環境

本實驗所使用的數據是搜狗實驗室提供的全網新聞數據,來自若干新聞站點2012年6月至7月期間國內、國際、體育、社會、娛樂等18個頻道的新聞數據,選取其中的30 000篇新聞數據,訓練數據20 000篇,測試數據10 000篇。

實驗PC為Thinkpad A6-3400M,主頻為1.4 GHz,采用Python2.7基于本文提出的詞頻與互信息結合的方法實現特征詞的提取,根據具體的評估函數計算特征詞對文本分類的貢獻度建立數據字典,通過Python實現改進后的主題模型,利用WEKA工具對分類效果進行評價。

4.2實驗評價標準

對分類器性能的全面評估需要考慮兩個方面的關鍵因素:一方面是分類器正確分類的能力;另一方面是分類器快速分類的能力。如何提高分類器正確分類的能力仍然是研究的熱點,目前常用的性能評估指標有召回率R(Recall)、準確率P(Precision)和F1值。

4.3特征詞選擇效果對比

為綜合評估本文提出的詞頻與互信息結合的主題模型特征選擇方法(簡稱TFMI-LDA模型)的有效性,將本文得到的特征詞與使用詞頻、互信息、信息增益分別得到的前10個特征詞及權重值變化進行對比,以體育類為例,結果如表1所示。

表1 不同特征選擇方法選擇出的特征詞及權重值變化比較

從表1可以看出,僅僅根據詞頻得到的特征詞如獎金、參與、視頻等特征詞對體育類主題的新聞表意性較差、對文本的理解貢獻度較低。根據互信息和信息增益的方法得到的關鍵詞中也有審核、收看等對主題區分度不高的詞,而通過本文的TFMI-LDA方法提取的關鍵詞,其中權重值最高的比賽、籃球、熱火、詹姆斯、高爾夫等詞都與體育類主題相關性較高,對文本分類貢獻度更高,更具代表性。

4.4準確率、召回率、F1值對比

為綜合評估本文提出的基于詞頻和互信息結合的主題模型文本分類方法的有效性, 將基于詞頻、互信息、信息增益、LDA模型作為基礎對比方法, 與本文TFMI-LDA方法進行對比實驗。LDA過程中的參數設定為:K=18,α=50/K,β=0.1。針對訓練的新聞數據,各特征選擇方法在特征詞數500~2 500之間的分類效果, 如圖2。

圖2 不同特征詞個數時幾種方法的F1值對比

從實驗結果可以看出,針對體育、社會、娛樂、財經等主題的新聞分類中,基于文本提出的TFMI-LDA方法在分類結果F1值上都要優于基于傳統的詞頻、互信息、信息增益特征選擇方法,隨著特征詞個數的增加,F1值逐漸增加,當特征詞個數在2 500時,分類結果F1值達到86%。

將特征詞個數選取為2 100個,在LDA模型的基礎上,分別使用本文提出的TFMI-LDA方法和前文提到的張小平、周雪忠等人通過高斯函數對特征詞加權的方法做對比實驗,選取體育、社會、娛樂、財經、國內、國際主題類,實驗準確率、召回率、F1值結果分別如圖3所示。

圖3 不同主題類下三種方法的準確率、召回率、F1值對比

觀察實驗結果,當設定相同的參數時,高斯函數加權法和本文的TFMI-LDA方法在傳統LDA模型基礎上實驗準確率、召回率、F1值都有所提高,并且TFMI-LDA方法比高斯函數加權法的F1值提高更多。

5 結論

傳統的LDA模型在主題分類時沒有考慮語料庫中高頻詞對分類結果的影響,本文提出基于詞頻與互信息結合的方法做特征提取,并用評價函數計算特征詞的貢獻度,改進LDA主題模型文本分類方法。實驗結果表示TFMI-LDA方法比傳統LDA模型具有更好的性能,分類準確率、召回率、F1值也有所提高。

[1] DEERWESTER S,DUMAIS S, FURNAS U,et al.Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990,41(6): 391-407.

[2] BLEI D,NG A,JORDAN M.Latent dirichlet allocation[J].Journal of Machine Learning Research, 2003(3):993-1022.

[3] 費曉紅,康松林,朱曉娟,等.基于詞頻統計的中文分詞研究[J].計算機工程與應用,2005,41(7):67-68.

[4] 楊凱峰,張毅坤,李燕. 基于文檔頻率的特征選擇方法[J].計算機工程,2010,36(9):33-35,38.

[5] 劉慶和,梁正友.一種基于信息增益的特征優化選擇方法[J].計算機工程與應用,2011, 47(12):130-132.

[6] 鄧彩鳳.中文文本分類中互信息特征選擇方法研究[D].重慶:西南大學,2011.

[7] BLEI D,LAFFERTY J.Correlated topic models[C].In;Proc,of International Conference on Machine Learning, 2006: 113-120.

[8] LI W,MCCALLUM A.Pachinko allocation:DAG(rstructured mixture models of topic correlations[C].In:Proc.of International Conference on Machine Learning, 2006:577-584.

[9] 張振平,宣國榮,鄭俊翔,等.一種基于最小分類錯誤率的改進型 LDA特征選擇算法[J].微型電腦應用,2005(4):4-6.

[10] 盧盛祺,管連,金敏,等.LDA模型在網絡視頻推薦中的應用[J].微型機與應用,2016,35(11): 74-79.

[11] 張小平,周雪忠,黃厚寬.一種改進的 LDA 主題模型[J].北京交通大學學報,2010,34(2): 111-114.

Research on text classification improvement method based on mutual information

Yu Xuan, Sun Wei, Zhang Xiang

(College of Information Engineering, Shanghai Maritime University , Shanghai 201306, China)

The traditional Latent Dirichlet Allocation(LDA) topic model does not consider the influence of word frequency on the subject classification, so that the distribution of the subject is tilted to the high frequency word.In order to comprehensively consider the correlation between word frequency and subject, this paper uses mutual information to express the characteristics of correlation between variables, and improves it as a feature selection method on the basis of mutual information. We use the evaluation function to evaluate the weight value of the characteristic word to improve the LDA algorithm classification process, and improve the contribution of the characteristic words with high contribution to the subject classification. The validity of the method is proved by the classification experiment in the news corpus, and the result shows that the accuracy of the classification is also improved.

topic model; word frequency; mutual information; feature selection

TP301.6

A

10.19358/j.issn.1674- 7720.2017.19.006

余璇,孫偉,張翔.基于互信息的文本分類改進方法研究[J].微型機與應用,2017,36(19):19-22.

2017-04-04)

余璇(1994-),通信作者,女,碩士研究生,主要研究方向:數據挖掘、文本分析。E-mail:15001882660@163.com。孫偉(1978-),男,博士,副教授,主要研究方向:智能信息處理(模糊認知圖)、移動傳感器網絡動態組網、物聯網技術等。張翔(1991-),男,碩士研究生,主要研究方向:數據挖掘、文本分析。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 日韩激情成人| 成人午夜视频网站| 欧美在线天堂| 制服丝袜亚洲| 亚洲国语自产一区第二页| 国产拍在线| 国产精品无码AV中文| 99热这里都是国产精品| 亚洲天堂首页| 热久久这里是精品6免费观看| 无码高潮喷水专区久久| 91av成人日本不卡三区| 91在线中文| 精久久久久无码区中文字幕| 欧美特黄一级大黄录像| 国产真实乱人视频| 又黄又湿又爽的视频| 欧美69视频在线| 在线综合亚洲欧美网站| 男女精品视频| 国产情侣一区二区三区| 亚洲中文字幕av无码区| 日韩av无码精品专区| 免费看美女自慰的网站| 国产精品无码翘臀在线看纯欲| 国内精品视频在线| 无码久看视频| 日本欧美午夜| 色窝窝免费一区二区三区| 国产女人在线视频| 青青青国产视频| 国产成人艳妇AA视频在线| 国产97色在线| 在线另类稀缺国产呦| 亚洲视频a| 欧美一区福利| 亚洲成aⅴ人在线观看| 丁香六月综合网| 凹凸国产分类在线观看| 亚洲日韩精品欧美中文字幕| 四虎亚洲国产成人久久精品| 啪啪永久免费av| 亚洲天堂久久新| 国产三级毛片| 色欲国产一区二区日韩欧美| 亚洲无码91视频| 无码 在线 在线| 亚洲第一成网站| 男女男精品视频| 国产免费久久精品99re不卡| 国产第八页| 99伊人精品| 国产精品自在在线午夜区app| 欧美va亚洲va香蕉在线| 久久这里只有精品66| 亚洲人成影院在线观看| 免费在线a视频| 欧美精品成人一区二区视频一| 在线看片中文字幕| 亚洲成人在线免费| 国产精品刺激对白在线| 国产男女XX00免费观看| 久久精品无码专区免费| 三上悠亚一区二区| 蜜臀AV在线播放| 亚洲va在线观看| 丁香婷婷在线视频| Aⅴ无码专区在线观看| 51国产偷自视频区视频手机观看| 亚洲乱码在线视频| 国产自视频| 强乱中文字幕在线播放不卡| 欧美一区福利| 国产成人永久免费视频| 亚洲色婷婷一区二区| 欧美日韩理论| 午夜爽爽视频| 亚洲综合专区| 又黄又爽视频好爽视频| 91精品国产无线乱码在线| 国产在线观看成人91| 亚洲Aⅴ无码专区在线观看q|