999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征貢獻度的特征選擇方法在文本分類中應(yīng)用

2011-02-08 09:39:24孟佳娜林鴻飛李彥鵬
大連理工大學(xué)學(xué)報 2011年4期
關(guān)鍵詞:分類特征文本

孟佳娜, 林鴻飛, 李彥鵬

(1.大連理工大學(xué)計算機科學(xué)與工程系,遼寧大連 116024;2.大連民族學(xué)院理學(xué)院,遼寧大連 116600)

0 引 言

文本分類是信息檢索與數(shù)據(jù)挖掘領(lǐng)域的研究熱點問題,其核心任務(wù)為根據(jù)給定的訓(xùn)練數(shù)據(jù),構(gòu)造高性能的分類器,實現(xiàn)對新文本的自動分類.在實際應(yīng)用中,根據(jù)預(yù)定義類別的數(shù)量不同,分類系統(tǒng)可分為兩類分類器和多類分類器兩種.從文本所屬類別的個數(shù)來看,文本分類技術(shù)又可以分為單標簽和多標簽兩種.

文本分類的主要算法包括樸素貝葉斯方法[1、2]、KNN[3]、最大熵方法[4]、神經(jīng)網(wǎng)絡(luò)[5]、支持向量機[6]方法等.最常用的文本特征表示模型是向量空間模型(vector space model,VSM),這種方法將分類文檔中出現(xiàn)的全部詞條作為特征,將分類空間視為一組正交詞條向量所張成的向量空間,原始空間的維數(shù)十分巨大,因此,找到一種有效的特征選擇方法顯得至關(guān)重要.文本分類中常用的特征選擇方法有文檔頻率(document frequency,DF)[7]、互信息(mutual information,MI)[7]、χ2統(tǒng)計(chi-square statistic,CHI)[7]及幾率比(odds ratio,OR)[8]等.文獻[7]比較了一些常用的特征選擇方法,并指出χ2統(tǒng)計和信息增益方法是最有效的,其次是文檔頻率和互信息.文獻[8]提出了幾率比的特征選擇方法,僅使用了多分類的樸素貝葉斯分類器在reuters-21578語料集上進行了實驗,并與其他方法進行了比較,同時提出該方法是效果最好的特征選擇方法.人們利用這些特征評價函數(shù)從不同的知識角度對特征項與文本之間的相關(guān)程度進行了研究[9、10],文獻[9]使用SVM分類器分析了不同特征選擇方法的效果,并提出了一種新的特征選擇方法BNS,該方法在一些特定的情況下分類結(jié)果優(yōu)于常用的方法.文獻[10]給出了一組特征選擇函數(shù)需滿足的基本約束條件,并基于該約束條件提出了一個構(gòu)造高性能特征選擇方法的通用方法.

上述方法從不同的角度改進了特征選擇方法,提高了分類效果,但忽略了特征詞在各個類中的分布情況,而特征詞在各個類的分布情況會反映特征對區(qū)分每個類的貢獻.本文提出基于特征詞在各個類的分布情況的統(tǒng)計信息,即特征貢獻度的一種特征選擇方法,這種方法通過計算特征的貢獻度值對特征進行選擇,傾向于選擇出在某一類文檔中頻繁出現(xiàn)同時在其他類中出現(xiàn)次數(shù)少的特征,認為這種特征能夠為文本分類提供更有價值的信息.

1 基于特征貢獻度(FCD)的特征選擇方法

1.1 FCD特征選擇方法

為了選擇出對分類貢獻度大的特征,本文首先用下面的公式計算每個特征的貢獻度值:

特征t的最終的FCD值計算公式定義為

由上式計算的FCD值越大,說明特征對于某一類區(qū)別于其他類的區(qū)分貢獻程度越大,對于分類的指導(dǎo)意義越大;該值越小,說明其對于類別區(qū)分的貢獻程度越弱,對于分類的指導(dǎo)性越小.本文算法在提取特征時,是按FCD值從大到小的次序依次提取,因此FCD值越高的特征將有更大的機會被選擇.

綜上所述,本文考慮到特征詞在各個類別中的分布情況不同,而特征在各個類的分布情況的統(tǒng)計信息對分類具有指導(dǎo)意義,從而提出了基于特征貢獻度的一種特征選擇方法,這種方法通過計算特征的貢獻度值對特征進行選擇,而特征貢獻度值能夠很好地反映出類別分布情況的統(tǒng)計信息.該方法傾向于選擇出在某一類文檔中出現(xiàn)次數(shù)多同時在其他類中出現(xiàn)次數(shù)少的特征,認為這種特征能夠為文本分類提供更有價值的信息.

1.2 舉 例

為說明本文方法進行特征選擇的具體情況,下面舉一個例子進行說明.表1列出了在一個簡單的文本語料集中特征的FCD值比較.其中,第1列表示語料集中出現(xiàn)的幾個特征,第2、3、4列分別表示該特征在三類文檔中出現(xiàn)的文檔數(shù),第5列為特征在數(shù)據(jù)集中出現(xiàn)的總文檔數(shù),最后一列為特征的FCD值.對于特征“corn”來說,它在所有文檔中只在corn類中出現(xiàn)過,此時,F(xiàn)CD(corn,corn)=(50-0)/(50+0)=1,同時,F(xiàn)CD(corn,{interest,trade})=(0-50)/(0+50)=-1,所以FCD(corn)=max{1,-1,-1}=1;對于特征“engineer”來說,它在所有文檔中的每一類中出現(xiàn)的次數(shù)相同,F(xiàn)CD(engineer,{corn,interest,trade})=(20-40)/(20+40)=-0.33,所以FCD(engineer)=-0.33;最后,考慮特征“database”,F(xiàn)CD(database,corn)=-30/40=-0.75,F(xiàn)CD(database,interest)=10/40=0.25,F(xiàn)CD(database,trade)=-20/40=-0.5,所以FCD(database)=0.25.

從以上例子可以看出,特征“corn”的FCD值最高,此特征對于類別區(qū)分的貢獻度最大;特征“engineer”的FCD值最低,此特征對于類別區(qū)分的貢獻度最小.本文方法正是依據(jù)選擇那些對于分類貢獻度大的特征來達到提高分類效果的目的的.

表1 在一個簡單的語料集上特征的FCD值比較Tab.1 Comparison between features FCD value in a simple corpus

2 實驗結(jié)果

本文選擇支持向量機(SVM)算法作為分類器,SVM是Vapnik提出的一種在缺乏先驗知識的條件下,以最小化結(jié)構(gòu)風(fēng)險為目標,對有限樣本進行學(xué)習(xí)的統(tǒng)計學(xué)習(xí)方法.Joachims于1998年將其引入自動文本分類研究領(lǐng)域,取得了非常理想的文本分類效果[11、12].為了說明本文方法的有效性,將其和一些常用的特征選擇方法進行了比較.主要包括χ2統(tǒng)計法、文檔頻率、幾率比及互信息選擇方法,實驗對比結(jié)果在后文給出.

2.1 語料集

實驗中使用了20Newsgroups[13]和reuters-21578[11]兩個語料集.20Newsgroups語料集是由互聯(lián)網(wǎng)用戶在Usenet上張貼的19 997條消息組成的.這些消息分布在20個不同的新聞組中,每個新聞組對應(yīng)一個文本類別.實驗中使用了其20news-bydate-matlab語料集,該語料集詳細的數(shù)據(jù)統(tǒng)計見表2.取其中的10個類別作為實驗語料集,5 633篇文檔作為訓(xùn)練集,3 742篇文檔作為測試集.實驗所采用的第2個語料集是reuters-21578,使用由David Lewis搜集的Mod Apte子集,包含reuters-21578最大的10個類,分別是acq、corn、crude、earn、grain、interest、money-fx、ship、trade、wheat.實驗中隨機選擇訓(xùn)練文檔7 193篇,測試文檔2 787篇.訓(xùn)練集中類的分布是不均衡的,最大類有文檔2 877篇,最小類只有181篇.

表2 20Newsgroups的bydate-matlab版本的語料集的數(shù)據(jù)統(tǒng)計Tab.2 Data statistics of 20Newsgroups corpus in bydate-matlab version

2.2 評價方法

文本分類的評價方法和準則不盡相同,本文使用宏平均F1(macro-averagingF1)和微平均F1(micro-averagingF1)[14]的評價方法.首先介紹查全率、查準率和F-Measure.查全率r和查準率p分別定義為

其中a表示分類器認為屬于這個類而實際也屬于該類的文檔數(shù),b表示分類器認為屬于這個類而實際不屬于該類的文檔數(shù),c表示分類器認為不屬于這個類而實際屬于該類的文檔數(shù).

其中β是一個調(diào)整參數(shù),用于以不同的權(quán)重綜合查全率和查準率.當β=1時,查全率和查準率被平等對待,如下式所示,這時F-Measure又被稱為

上面提出的查全率、查準率及F1-Measure都是針對單個類的分類情況而言的,當需要評價某個分類算法時,還需要將所有類上的結(jié)果綜合起來得到平均的結(jié)果.綜合的方法通常有兩種,分別為宏平均F1和微平均F1,即

2.3 實驗結(jié)果和分析

圖1和2分別列出了在20Newsgroups語料集上使用各種特征選擇方法的宏平均F1和微平均F1分類結(jié)果,從分類結(jié)果中可以看出,在選擇10 000個特征時,F(xiàn)CD方法在所有列出的特征選擇方法中分類效果最不好,其次是互信息方法;此時文檔頻率方法效果最好,其次是χ2統(tǒng)計方法,這可能與FCD方法和互信息方法選擇了大量的低頻詞有關(guān),而文檔頻率方法選擇的都是出現(xiàn)頻率最高的特征;在特征數(shù)逐步增大的過程中,F(xiàn)CD方法分類效果提高得非常明顯,在特征數(shù)達到35 000時,分類效果最好,而文檔頻率方法在特征數(shù)增加時,其分類效果提高得很小,而互信息方法在特征數(shù)增大時,分類效果提高得比較明顯.在特征數(shù)增大到一定程度時,F(xiàn)CD方法分類效果下降,這與其他的特征選擇方法的結(jié)果相同.圖3和4列出了在reuters-21578語料集上使用各種特征選擇方法在SVM分類器上的宏平均F1和微平均F分類結(jié)果,從分類結(jié)果中可以看出,F(xiàn)CD方法在特征數(shù)增大時,分類效果提高得比較緩慢,而OR和MI方法則提高得最為顯著.表3列出了所有特征選擇方法在語料集上的宏平均F1和微平均F1的最大值,綜合兩個語料集上的分類結(jié)果來看,F(xiàn)CD方法在所列出的幾種特征選擇方法中為所有分類器效果最好的,這也驗證了該方法的分類有效性.

圖1 有關(guān)的特征選擇方法在20Newsgroups語料集上的宏平均F1值Fig.1 Macro-F1 values of relative feature selection methods in 20Newsgroups corpus

圖2 有關(guān)的特征選擇方法在20Newsgroups語料集上的微平均F1Fig.2 Micro-F1 values of relative feature selection methods in 20Newsgroups corpus

圖3 有關(guān)的特征選擇方法在reuters-21578語料集上的宏平均F1Fig.3 Macro-F1 values of relative feature selection methods in reuters 21578 corpus

圖4 有關(guān)的特征選擇方法在reuters-21578語料集上的微平均F1Fig.4 Micro-F1 values of relative feature selection methods in reuters-21578 corpus

表3 有關(guān)的特征選擇方法在兩個語料集上的效果統(tǒng)計Tab.3 Performance statistic using relative feature selection methods in two text corpuses

3 結(jié) 語

文本分類是信息檢索、信息過濾和搜索引擎工作的技術(shù)基礎(chǔ).文本特征的高維性是影響各種分類器分類精度和效率的一個重要因素,如何進行有效的特征降維成為文本分類的一個研究熱點.因為文本分類是一個分類問題,所以類別信息對于特征選擇是很重要的.本文提出了一種稱之為FCD的特征選擇方法,該方法利用特征的統(tǒng)計結(jié)果將對于類別區(qū)分具有高貢獻度的特征過濾出來,實驗結(jié)果表明該方法與其他幾種常用的特征選擇方法相比簡單、有效,該結(jié)果在20Newsgroups和reuters-21578語料集上得到了驗證.

未來的工作將集中在將該方法用于具有更多特征和文檔的大語料集上,同時FCD方法沒有考慮何時特征和類別共現(xiàn),何時特征和類別不共現(xiàn),如果將該統(tǒng)計結(jié)果加入到特征選擇方法中,可能分類效果會得到提高.

[1]MITEHELL T.Machine Learning[M].New York:McGraw-Hill,1997

[2]MCCALLUM A,NIGAM K.A comparison of event models for Nave Bayes text classification[C]//Proceedings of the AAAI-98 Workshop on Learning for Text Categorization.Wisconsin:AAAI Press,1998

[3]COVER T M,HART P E.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27

[4]ADWAIT R.Maximum entropy models for natural language ambiguity resolution[D].Pennsylvania:University of Pennsylvania,1998

[5]NG Hwee-tou,GOH Wei-boon,LOW Kok-leong.Feature selection,perceptron learning,and a usability case study for text categorization[C]//Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press 1997

[6]VAPNIK V.The Nature of Statistical Leaning Theory[M].New York:Springer-Verlag,1995

[7]YANG Y,PEDERSEN J.A comparative study on feature selection in text categorization[C]//Proceedings of the 14thInternational Conference on Machine Learning(ICML′97).Nashville:Morgan Kaufmann Publishers,1997

[8]MLADENIC D,GROBELNIK M.Features selection for unbalanced class distribution and Nave Bayes[C]//Proceedings of the 16thInternational Conference on Machine Learning.Slovenia:Morgan Kaufmann Publishers,1999

[9]FORMAN G.An extensive empirical study of feature selection metrics for text classification[J].Journal of Machine Learning Research,2003,3(7-8):1289-1305

[10]徐 燕,李錦濤,王 斌,等.基于區(qū)分類別能力的高性能特征選擇方法[J].軟件學(xué)報,2008,19(1):82-89

[11]JOACHIMS T.Text categorization with support vector machines:Leaning with many relevant features[C]//Machine Learning:ECML-98.Chemnitz:Springer,1998

[12]JOACHIMS T.Making large-scale SVM learning practical[M]//Advances in Kernel Methods:Support Vector Learning.Cambridge:MIT Press,1999

[13]LANG K.NewsWeeder:Learning to filter netnews[C]//Proceedings of the 12th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publisher,1995

[14]YANG Yi-ming.An evaluation of statistical approaches to text categorization[J].Journal of Information Retrieval,1999,1(1-2):67-88

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 最新国产午夜精品视频成人| 日韩 欧美 国产 精品 综合| 精品国产女同疯狂摩擦2| 亚洲一区二区成人| 亚洲中文字幕av无码区| 伊伊人成亚洲综合人网7777| 国产成人艳妇AA视频在线| 国产成人乱码一区二区三区在线| 欧美激情首页| 国产日韩久久久久无码精品 | 波多野结衣视频网站| 国产高潮视频在线观看| 欧美精品啪啪一区二区三区| 国产成人精品免费视频大全五级| 亚洲欧美不卡中文字幕| 一区二区欧美日韩高清免费| jizz国产视频| 色135综合网| 91毛片网| a级免费视频| 免费看美女自慰的网站| 在线欧美a| 欧美精品亚洲精品日韩专区va| 国产乱视频网站| 在线观看国产网址你懂的| 久久婷婷国产综合尤物精品| 欧美精品1区| 欧美成人看片一区二区三区| 成人在线观看一区| 亚洲天堂福利视频| 中文字幕日韩丝袜一区| 无码不卡的中文字幕视频| 制服丝袜国产精品| 欧美区一区| 亚洲天堂色色人体| 一级毛片a女人刺激视频免费| 97视频免费在线观看| 亚洲日韩国产精品综合在线观看| 精品国产免费观看一区| 国产va在线观看| 在线观看91香蕉国产免费| 青青操视频在线| 国产一级在线播放| 免费三A级毛片视频| 国产永久免费视频m3u8| 不卡无码网| 色悠久久综合| 精品无码一区二区三区在线视频| 国产青青操| 久久91精品牛牛| 999国内精品久久免费视频| 久久永久视频| 欧美一区二区啪啪| 欧美精品二区| 91精品国产麻豆国产自产在线| 91精品小视频| 毛片手机在线看| 久久青草视频| 国产极品嫩模在线观看91| 久久久久青草大香线综合精品 | 亚洲成人在线免费观看| 亚洲a免费| 在线播放国产一区| 国产精品视频系列专区| 国产chinese男男gay视频网| 69av在线| 狠狠色成人综合首页| 伊人久综合| 超清人妻系列无码专区| 91精品免费久久久| 国产成人h在线观看网站站| 啪啪免费视频一区二区| 99re在线视频观看| 久久一本日韩精品中文字幕屁孩| 国产尤物视频在线| 国产人碰人摸人爱免费视频| 亚洲国产欧美目韩成人综合| 国产精品人莉莉成在线播放| 亚洲动漫h| 日本免费一级视频| 亚洲综合色在线| 人妻丝袜无码视频|