999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類中基于綜合度量的特征選擇方法

2013-12-03 03:19:12楊杰明劉元寧曲朝陽劉志穎
吉林大學學報(理學版) 2013年5期
關鍵詞:分類特征文本

楊杰明,劉元寧,曲朝陽,劉志穎

(1.東北電力大學 信息工程學院,吉林 吉林 132012;2.吉林大學 計算機科學與技術學院,長春 130012)

隨著IT應用的不斷增長,人工管理文本數字信息已成為一項不可能完成的任務.自動文本分類技術是處理海量文本信息的有效方法,近年來已在許多領域得到廣泛應用.目前,已有很多成熟算法應用于文本分類中,如Bayes分類器、支持向量機、決策樹、K-近鄰方法等.然而,文本分類中最大的特點是高維性,即使是一個并不太大的語料集,它的維度也能達到上萬維甚至十幾萬維.在機器學習過程中,高維度會帶來兩方面的問題:1) 在高維環境中,大部分成熟算法不能得到高效的應用;2) 在高維環境中訓練分類器時,不可避免地會產生過擬合現象[1].因此,降維成為文本分類中的一個重要研究方向.目前,降維主要有兩種實現方式,即特征選擇和特征提取.特征提取是在原有特征的基礎上,通過組合、轉換生成一組全新特征集合的技術,如特征項聚類、隱含語義索引[2]和獨立分量分析[3]等.特征提取方式能捕獲特征間的語義關系,但表示文本的特征不易理解、計算成本較高.特征選擇算法是根據某種特征度量函數,衡量一個特征在分類中所起作用的重要度,并按重要度排序,然后根據排序結果從原有的特征集合中選擇重要度最高的少數特征組成一個特征子集,最終實現文本的表示和分類器的訓練.特征選擇算法運算效率高、實現方便快捷,是當前文本分類中最常使用的降維方法[4-5].目前已有很多特征選擇方法應用在文本分類的降維過程中,如文檔頻率(DF)、信息增益(IG)、卡方檢驗(CHI)[6-7]、正交質心(OCFS)[8]和特征質心(FCFS)特征選擇算法[9]等.

本文提出一種新的特征選擇算法,該算法從兩方面綜合度量一個特征對于分類的重要性,并在20-Newgroups,Reuters和WebKB這3個數據集上與文檔頻率、信息增益、卡方檢驗、正交質心和FCFS特征選擇算法進行了對比.實驗結果表明,該算法能有效提高文本分類性能.

1 問題描述及相關技術

1.1 問題描述

預先給定一個整數K,在盡可能保證文本分類性能不受影響的前提下,特征選擇算法從原始的特征集合T中選擇一個子集T′(|T′|?|T|).Yang等[6]指出最佳的特征選擇算法和合適的特征子集數量不但不損害分類器的性能,反而能提高分類效果.目前,應用在文本分類中的特征選擇方法可分為3類,即嵌入式特征選擇(embed)、融合式特征選擇(wrapper)和過濾式特征選擇(filtering).嵌入式的特征選擇方法是將特征選擇的過程直接嵌入到分類器的學習過程中,而融合特征選擇方法是利用某個分類器學習算法作為特征的評價標準去選擇特征子集,再利用該特征子集訓練分類器.過濾式特征選擇方法先利用一個獨立的評價函數去度量一個特征對分類的重要程度,然后根據度量值對所有的特征進行排序,最后選擇K個度量值最高的特征構成特征子集.由于易于操作、計算成本低、分類效果好等特點,因此過濾式特征選擇方法應用廣泛.本文提出的算法也是過濾式特征選擇方法.

1.2 相關技術

1.2.1 文檔頻率 文檔頻率是一個簡單而有效的特征選擇算法,它計算包含某個特征的文檔數量.主要思想是如果一個特征出現在很少的文本中,則該特征對分類沒有用,甚至可能降低分類性能,所以該特征選擇算法保留那些具有高文檔頻率的特征.該算法可表示為

DF(tk,ci)=P(tk|ci).

1.2.2 信息增益 信息增益是機器學習領域常用的算法.如果一個特征的信息增益值越大,則表明該特征對分類越有用.特征tk相對于類別ci的信息增益可表示為

1.2.3 卡方檢驗 卡方檢驗是數理統計學中用于度量兩個變量獨立性的方法.在文本分類中,卡方檢驗被用于確定特征tk與類別ci的獨立性程度.如果χ2(tk,ci)=0,則表示特征tk和類別ci是相互獨立的,即特征tk對類別ci不具有任何代表性;反之,卡方檢驗值越大,該特征對分類越有用.卡方檢驗公式定義為

1.2.4 正交質心 正交質心先計算一個特征在每個類別和在整個訓練集中的質心,然后根據每個類質心與整個訓練集質心計算出該特征的分值.特征的分值越大,該特征包含越多的分類信息.一個特征的正交質心公式定義為

1.2.5 FCFS特征選擇算法 FCFS算法先計算特征tk出現在所有類別中的質心tck,然后將特征tk在類別ci中的特征頻率與tck的偏差作為該特征度量,值越大則越具有類別代表性.FCFS算法可描述為

FCFS(tk,ci)=tf(tk,ci)-tf(tk)/|C|.

2 算法設計

目前,大多數特征選擇算法都是在特征×類別矩陣的基礎上進行的.在特征×類別矩陣中,行表示出現在訓練集中的每個特征,列表示預定義的類別,矩陣中的元素表示某個特征出現在某一類別中的特征頻率,見表1.

表1 特征×類別矩陣Table 1 Feature×category matrix

2.1 算法思想

FCFS算法根據一個特征在不同類別中出現的特征頻率計算該特征在不同類別中的質心,然后計算該特征在某一類別中偏離該質心的距離.如果特征tk在類別ci中偏離質心的距離最大,則表明該特征tk擁有最多的類別ci信息.FCFS算法即為通過一個特征偏離類別質心的程度度量該特征在某一類別中相對于在其他類別中的重要程度.

正交質心特征選擇算法首先計算所有特征在整個訓練集中的質心及在每個類別中的質心,然后利用每個類別的質心和整個訓練集質心計算出所有特征對分類的重要程度.正交執行特征選擇算法主要是計算類別內部一個特征相對其他特征對分類的重要程度.

事實上,FCFS算法只關注了一個特征出現在某一類別中相對于出現在其他類別中的重要程度,而正交質心算法只考慮了某一類別中一個特征相對于其他特征的重要程度.上述兩種算法都只分別考慮了特征×類別矩陣中的一方面,即FCFS算法只關注特征×類別矩陣的行,而正交質心只關注特征×類別矩陣的列.如表1中的特征,按照FCFS算法特征project包含類別1的信息最多,而從正交質心算法的角度看則是特征design最能代表類別1.基于上述原因,本文提出一種新的特征選擇算法,該算法彌補了上述兩種算法的不足,同時考慮特征×類別矩陣的行和列,綜合度量一個特征對分類的重要程度.

2.2 算法描述

輸入:V,D,K.其中:V表示特征×類別矩陣,包含T個特征,C個類別,矩陣中元素tf(i,j),1≤i≤T,1≤j≤C,表示第i個特征在第j類別中的特征頻率;D表示類別中文本數量向量{d1,d2,…,dj},1≤j≤C,dj表示第j個類別中的文本數量;K表示要選擇的特征數量.

輸出:特征子集Vs.

算法如下:

1) 計算整個訓練集中的特征質心向量,M={m1,m2,…,mi},其中mi表示第i個特征的質心,

3) for每個特征ti∈V;

4) for每個類別ci∈C

計算特征ti在類別cj中相對于類間質心tci的偏移量,cp(i,j)=tf(i,j)-tci;

計算特征ti的總體重要性,ICFS(i,j)=tp(i,j)*cp(i,j);

end

end

5) 按照ICFS(i,j)對所有的特征進行排序;

6) 選擇ICFS(i,j)值最高的K個特征構成一個新的特征集合Vs.

3 實驗環境與結果

3.1 數據集

為了驗證算法的有效性,本文在3個不同的數據集上進行實驗驗證.其中,20-Newgroups是文本分類中常采用的語料集,共包含19 997個文本,且所有的文本被平均劃分到20個不同的類別中;Reuters-21578語料集中共包含21 578個路透社新聞報道,所有的新聞報道被不均勻的劃分到135個類別中,本文采用文本數量最多的10個類別;WebKB語料集中包含4個不同大學網站的網頁集合,8 282個網頁被劃分到7個不同的類別中.本文采用“course”,“faculty”,“project”和“student”4個類別作為訓練集.

3.2 分類器

在實驗過程中,本文使用兩個不同的分類器.其中,Bayes分類器是建立在出現于一個文本中的特征與其他特征無關的假設基礎上的分類算法.目前,Bayes分類器有兩種常用模型: 多項式模型和多元Bernoulli模型[10].本文采用多項式模型.支持向量機是一個高效的文本分類器.本文采用libsvm工具包[11],并選擇缺省參數和線性核.

3.3 評價準則

采用Micro-F1和準確率[12-14]度量本文提出特征選擇算法的性能:

其中:P表示查準率;R表示查全率;TP表示正確劃分為正類的數量;TN表示正確劃分為負類的數量;FP表示錯誤劃分為正類的數量;FN表示錯誤劃分為負類的數量.

3.4 實驗結果

3.4.1 Micro-F1性能比較 表2~表4分別列出了6個不同特征選擇算法應用在20-Newgroups,Reuters-21578和WebKB語料集上時,Bayes分類器和支持向量機分類器的Micro-F1性能比較結果.由表2可見,當ICFS特征選擇算法應用在20-Newgroups語料集時,Bayes和支持向量機的分類性能優于信息增益、文檔頻率和正交質心,次于卡方檢驗和FCFS算法.由表3可見,當ICFS算法應用在Reuters-21578語料集上時,Bayes和支持向量機分類器的性能均優于其他5個特征選擇算法.由表4可見,ICFS算法應用在WebKB語料集上時,分類器的性能優于其他特征選擇算法,特別是采用支持向量機分類器時.

表2 6種不同特征選擇算法應用在20-Newgroups語料集時Bayes分類器和支持向量機分類器的Micro-F1性能比較Table 2 Micro-F1 measure result by Na?ve Bayes and SVM classifiers for 6 feature selection algorithms on 20-Newsgroups

表3 6種不同特征選擇算法應用在Reuters-21578語料集時Bayes分類器和支持向量機分類器的Micro-F1性能比較Table 3 Micro-F1 measure result by Na?ve Bayes and SVM classifiers for 6 feature selection algorithms on Reuters-21578

表4 6種不同特征選擇算法應用在WebKB語料集時Bayes分類器和支持向量機分類器的Micro-F1性能比較Table 4 Micro-F1 measure result using Na?ve Bayes and SVM classifiers for 6 feature selection algorithms on WebKB

3.4.2 分類準確率性能比較 圖1~圖6為6種特征選擇算法應用在3個不同語料集上時Bayes和支持向量機分類器的分類準確率性能曲線.由圖1和圖2可見,應用ICFS特征選擇算法時的Bayes分類器和支持向量機分類器的準確率曲線高于信息增益、文檔頻率和正交質心算法,而低于卡方檢驗和FCFS算法.由圖3可見,ICFS算法應用在Retuers-21578語料集上時,Bayes分類器的準確率曲線除了當特征數量為800~1 600時僅次于FCFS外,高于其他特征選擇算法,特別是當特征數量較少時,性能的增加較明顯.由圖4可見,應用ICFS算法時,支持向量機分類器的分類準確率遠高于其他特征選擇算法,性能增加的幅度最高達到了1.6%.由圖5可見,ICFS算法應用在WebKB語料集上時,Bayes分類器的分類準確率曲線整體上高于其他特征選擇算法,但性能增加的幅度不大,低于0.6%.由圖6可見,ICFS算法與支持向量機分類器配合應用在WebKB語料集上時,分類準確率遠高于其他特征選擇算法.

圖1 6個特征選擇算法應用在20-Newgroups 語料集時Bayes分類器的準確率曲線 Fig.1 Accuracy performance curves of Na?ve Bayes combined with 6 feature selection algorithm on 20-Newsgroups

圖2 6個特征選擇算法應用在20-Newgroups語料 集時支持向量機分類器的準確率曲線 Fig.2 Accuracy performance curves of SVM combined with 6 feature selection algorithm on 20-newsgroups

圖3 6個特征選擇算法應用在Reuters-21578語料 集時Bayes分類器的準確率曲線 Fig.3 Accuracy performance curves of Na?ve Bayes combined with 6 feature selection algorithm on Reuters-21578

圖4 6個特征選擇算法應用在Reuters-21578語料 集上時的支持向量機分類器的準確率曲線 Fig.4 Accuracy performance curves of SVM combined with 6 feature selection algorithm on Reuters-21578

圖5 6個特征選擇算法應用在WebKB語料 集上時Bayes分類器的準確率曲線Fig.5 Accuracy performance curves of Na?ve Bayes combined with 6 feature selection algorithm on WebKB

圖6 6個特征選擇算法應用在WebKB語料集 上時支持向量機分類器的準確率曲線 Fig.6 Accuracy performance curves of SVM combined with 6 feature selection algorithm on WebKB

由實驗結果可見,本文提出的新的特征選擇算法在20-Newgroups語料集上并未獲得最優效果.主要是因為20-Newgroups語料集是一個平衡的語料集,而Reuters-21578和WebKB語料集都存在不同程度的不平衡性問題,所以本文提出的特征選擇算法在不平衡的環境下能較好地發揮作用.

綜上所述,本文提出的特征選擇算法由兩方面綜合地度量了一個特征對分類的重要程度.實驗結果表明,該特征選擇算法能有效提高分類器的分類性能,特別在不平衡數據集上能產生較大幅度的性能提升.

[1] Sebastiani F.Machine Learning in Automated Text Categorization [J].ACM Computing Surveys,2002,34(1): 1-47.

[2] Deerwester S,Dumail S T,Furnas G W,et al.Indexing by Latent Semantic Analysis [J].Journal of the American Society of Information Science,1990,41(6): 391-407.

[3] TANG Lei,LIU Huan.Bias Analysis in Text Classification for Highly Skewed Data [C]//Proceedings of the 5th IEEE International Conference on Data Mining (ICDM-05).Washington: IEEE Computer Society,2005: 781-784.

[4] YANG Jie-ming,LIU Yuan-ning,LIU Zhen,et al.A New Feature Selection Algorithm Based on Binomial Hypothesis Testing for Spam Filtering [J].Knowledge-Based Systems,2011,24(6): 904-914.

[5] YANG Jie-ming,LIU Yuan-ning,ZHU Xiao-dong,et al.A New Feature Selection Based on Comprehensive Measurement Both in Inter-Category and Intra-Category for Text Categorization [J].Information Processing and Management,2012,48(4): 741-754.

[6] YANG Yi-ming,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization [C]//Proceedings of the 14th International Conference on Machine Learning.San Francisco: Morgan Kaufmann Publishers Inc,1997: 412-420.

[7] Ogura H,Amano H,Kondo M.Feature Selection with a Measure of Deviations from Poisson in Text Categorization [J].Expert Systems with Applications: An International Journal,2009,36(3): 6826-6832.

[8] YAN Jun,LIU Ning,ZHANG Ben-yu,et al.OCFS: Optimal Orthogonal Centroid Feature Selection for Text Categorization [C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York: ACM Press,2005: 122-129.

[9] YANG Jie-ming,LIU Zhi-ying.A Feature Selection Based on Deviation from Feature Centroid for Text Categorization [C]//Proceedings of the Intelligent Control and Information Processing (ICICIP).Piscataway: IEEE Press,2011: 180-184.

[10] McCallum A,Nigam K.A Comparison of Event Models for Na?ve Bayes Text Classification [C]//AAAI-98 Workshop on Learning for Text Categorization.[S.l.]: AAAI Press,1998.

[11] Chang C C,Lin C J.LIBSVM: A Library for Support Vector Machines [EB/OL].2011-09-03.http://www.csie.ntu.edu.tw/~cjlin/libsvm.

[12] Forman G.An Extensive Empirical Study of Feature Selection Metrics for Text Classification [J].Journal of Machine Learning Research,2003,3: 1289-1305.

[13] WANG Gang,LIU Yuan-ning,ZHANG Xiao-xu,et al.Novel Spam Filtering Method Based on Fuzzy Adaptive Particle Swarm Optimization [J].Journal of Jilin University: Engineering and Technology Edition,2011,41(3): 716-720.(王剛,劉元寧,張曉旭,等.基于模糊自適應粒子群的垃圾郵件過濾新方法 [J].吉林大學學報: 工學版,2011,41(3): 716-720.)

[14] LIU Jie,JIN Di,DU Hui-jun,et al.New Hybrid Feature Selection Method RRK [J].Journal of Jilin University: Engineering and Technology Edition,2009,39(2): 419-423.(劉杰,金弟,杜惠君,等.一種新的混合特征選擇方法RRK [J].吉林大學學報: 工學版,2009,39(2): 419-423.)

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 成人免费午夜视频| 国产制服丝袜91在线| 看国产一级毛片| 在线观看视频99| 26uuu国产精品视频| 无码aaa视频| 亚洲成人www| 亚洲无码一区在线观看| 波多野结衣爽到高潮漏水大喷| 中文天堂在线视频| 日韩在线观看网站| 亚洲中文精品久久久久久不卡| 国产综合日韩另类一区二区| 午夜国产精品视频| 中文字幕日韩视频欧美一区| 亚洲性一区| yjizz国产在线视频网| 国产在线专区| 精品自窥自偷在线看| 日韩黄色精品| 国产一区二区影院| 就去吻亚洲精品国产欧美| 最新国产麻豆aⅴ精品无| 亚洲一区网站| 日韩欧美中文字幕在线精品| 91精品最新国内在线播放| 在线观看无码av五月花| 四虎AV麻豆| 一级毛片免费的| 亚洲成人福利网站| 欧美自慰一级看片免费| 亚洲va在线∨a天堂va欧美va| 一区二区三区成人| 久久这里只有精品66| 欧美在线视频不卡第一页| 伊人AV天堂| 久久久久久国产精品mv| 波多野结衣视频一区二区| 手机成人午夜在线视频| 日本黄色a视频| 麻豆精品在线视频| 亚洲中文字幕无码爆乳| 亚洲无线国产观看| 男人天堂伊人网| 一级片免费网站| 男人的天堂久久精品激情| 福利在线不卡一区| 波多野结衣中文字幕一区| 毛片网站观看| 亚洲性视频网站| 欧美在线国产| 色婷婷狠狠干| 伊人久久久久久久| 天天综合色网| 国产亚洲精品自在久久不卡| 日韩a级毛片| 精品在线免费播放| 久久久成年黄色视频| 久热这里只有精品6| 有专无码视频| 国产精品免费电影| 在线中文字幕网| 91精品国产自产91精品资源| 日本免费一级视频| 国产十八禁在线观看免费| 一级一毛片a级毛片| 国产主播在线观看| 国产精品成人免费综合| 亚洲v日韩v欧美在线观看| 亚洲男人的天堂在线| 国产精品冒白浆免费视频| 亚洲午夜福利在线| 国产精品冒白浆免费视频| 亚洲三级电影在线播放| 亚洲色图欧美在线| 成人免费黄色小视频| 五月婷婷激情四射| 性69交片免费看| 国产精品55夜色66夜色| 久久久精品无码一二三区| 中字无码av在线电影| 香蕉eeww99国产在线观看|