999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類中基于改進特征選擇方法的研究*

2016-08-10 05:33:05胡改蝶樊孝仁崔藝馨
計算機與數字工程 2016年7期
關鍵詞:效率

胡改蝶 樊孝仁 崔藝馨

(太原工業學院網絡與信息中心 太原 030008)

?

文本分類中基于改進特征選擇方法的研究*

胡改蝶樊孝仁崔藝馨

(太原工業學院網絡與信息中心太原030008)

摘要文本分類不僅可以提高分類的效率,而且可使人們更快地找到想要獲取的信息。在特征選擇方法的基礎上,分析了卡方統計法的缺點,對其提出了一種改進的方法,同時采用支持向量機分類的算法和詞頻-逆向文件頻率權重函數對其進行了驗證。通過實驗得出此方法可以在很大程度上提高文本分類精確度,使分類的效果更好。

關鍵詞效率; 文本分類; 特征選擇; 卡方統計法

Class NumberTP311

1引言

網絡發展到現今,幾乎所有的知識、信息和新聞等都可以從網絡中得到,但如何將網絡中的內容更好地進行分類,更加方便人們進行查找,便成了一個熱門話題。文本分類是屬于機器學習中的一個重要應用。文本分類就是將海量的且雜亂無章的文檔集通過計算機將其分別歸到不同的類別中,就像映射進程一樣,即將一個新文檔映射到現有的類別中去,這種映射有兩種,一種是一對一,另一種是一對多[1]。從模式分類的角度來看,常見的文本分類方法有基于統計方法、基于連接方法和基于規則方法[2]。文本分類大致步驟是:第一步是預處理;第二步是從上一步的語料庫中提取相應的特征,即特征提取;第三步是特征選擇;最后,重新對一個新文檔集進行分類[3]。

2特征選擇概述

所有的分類都要依賴于文本訓練樣例的特征詞規模,特征詞的規模達到數萬個是再正常不過的,甚至可以達到億級,因而做出決策模型的時間就很長,并且如此大的維數非常容易造成維度災難。降低維數的輸入而不影響分類準確率的方法有特征選擇與特征抽取[4]。

特征選擇也稱特征子集或屬性選擇,即從特征子集中找到最佳子集作為特征詞,因為最佳子集所含的維數最少,對分類準確率的貢獻就最大。特征選擇的目標是根據一個選擇標準在原始特征集中選擇一個子集,去掉不相關的特征,達到減少特征的個數,而且剩下的正相關的特征使模型得到了簡化,使分類效果與準確度大大提高[5~6]。特征選擇在文本分類中的方法比較多,有文檔頻率DF、信息增益IG、期望交叉熵ECE、卡方統計方法CHI、互信息MI、GSS Coefficient等[7]。

3卡方特征選擇統計法與改進

卡方特征選擇統計法從標準考慮角度來看,有距離、相關性和平衡度三種度量標準。其中,相關性度量標準在一定程度上能有效地去掉不相關的特征[8]。特征t在類別c中的CHI特征選擇方法如式(1)所示,公式計算所得到的結果越大,說明此特征與類別之間的相關性越大,分類的結果也就越好。

(1)

本文從相關性度量標準和平衡度度量標準來進行相應的研究,前者主要是在文檔中找到與特征相關比較大的詞,從而進行特征選擇[9];后者主要是在文檔中找到與特征平衡度較高的詞作為特征詞,從而進行特征選擇。但一些相關性不大的詞和平衡度不太高的詞卻沒有考慮在內。為了有效地解決這些問題,CHI特征選擇方法進行了改進,改進后的式(2)。

(2)

其中:總文檔數為n,類別為c,類別c中含有特征t的文檔概率η=1.0*tfi/n,類別c的文檔概率ξ=1.0*c/n。

4實驗與結果分析

4.1語料庫及實驗環境

本實驗的訓練與測試語料庫均由復旦大學信息與技術系國際數據庫中心自然語言處理小組整理所得,從中抽取了八個類別,分別是計算機、交通、軍事、環境、政治、體育、醫藥和經濟。其中訓練文本集有1569個,測試文本集有779個,文本集共2348個文本集。采用環境是Windows7專業版,Intel(R) Xeon(R) CPU E5504@2.00GHz處理器,2.00G內存,32位操作系統,Visual C++6.0開發語言。

4.2分類算法、權重及評價標準

文本分類算法有K-近鄰算法、支持向量機(SVM)算法、決策樹算法和樸素貝葉斯算法等,本實驗采用SVM分類算法,這種算法是在類別中找到一個決策邊界,只關心靠近邊界的實例,落在內部的實例將其丟掉,可以從高維度的特征空間中學習到較好的分類超平面[10]。文本分類特征權重方法有布爾函數、平均根函數、TF-IDF函數和對數函數等,本文特征權重選擇TF(IDF函數,它的理論是若一詞在文檔中出現的頻率TF高,同時在其他文檔中出現的次數比較少,那么這個詞就有很好的區分類別的能力,因而它是信息搜索中最常用的方法,在分類中廣泛應用[11]。實驗過程中特征選擇方法選用CHI,特征維數選擇500。文本分類的評價標準有查全率(R,Recall)、查準率(P,Precision)、漏報率、準確率、宏平均、微平均、ROC曲線、代價因子和F-測度(F)等,本實驗用到的評價標準是查全率(R)、查準率(P)和F-測度(F)[12]。

4.3結果分析

傳統的CHI與改進后的CHI的查全率和查準率實驗比較結果如表1所示,F-測度實驗比較結果如表2所示。從表1和表2中可以看出,改進后CHI方法的查全率R、查準率P和F-測度的評價標準值都比傳統CHI高,雖然某些值高出的并不明顯,但整體來說,改進后的實驗結果要好些。

表1 查全率和查準率實驗結果比較

表2 F-測度實驗比較結果

由于F-測度是由查全率與查準率得出的,在一定程度上F-測度結果是二者的綜合,所以本實驗給出了F-測度的比較曲線圖,如圖1所示。從圖1中可以更加直觀地看到,改進后的方法比傳統的方法的F-測度的分類效果明顯要好得多。

圖1 F-測度比較曲線圖

5結語

文本分類中的一個必不可少的、關鍵且重要的一步是特征選擇方法,CHI統計法是特征選擇方法中比較好的一種。本文將文本分類中CHI統計法進行了闡述與分析,并提出了一種改進的CHI方法,通過大量實驗,進一步說明改進的方法是適用的、可行的、高效的。

參 考 文 獻

[1] 王雷.文本分類相關技術研究[D].上海:復旦大學,2006.WANG Lei. Research On the Related Technology of Text Classification[D]. Shanghai: Fudan University,2006.

[2] 祝曉魯,白振興,賈海燕.自動文本分類技術研究[J].現代電子技術,2007(3):121-124.

ZHU Xiaolu, BAI Zhenxing, JIA Haiyan. A Survey of Algorithm of Text Categorization[J]. Modern Electronics Technique,2007(3):121-124.

[3] 陳艷秋,熊耀華.新型快速中文文本分類器的設計與實現[J].計算機工程與應用,2009,45(22):53-55.

CHEN Yanqiu, XIONG Yaohua. Design and implementation of new Chinese text classier[J]. Computer Engineering and Applications,2009,45(22):53-55.

[4] Ethem Alpaydin.機器學習導論[M].范明,昝紅英,牛常勇,譯.北京:機械工業出版社,2009:65-69.

Ethem Alpaydin. Machine learning[M]. FAN Ming, ZAN Hongying, NIU Changyong, et al. Beijing: China Machine Press,2009:65-68.

[5] 范小麗,劉曉霞.文本分類中互信息特征選擇方法的研究[J].計算機工程與應用,2010,46(34):123-125.FAN Xiaoli, LIU Xiaoxia. Study on mutual information-based feature selection in text categorization[J]. Computer Engineering and Applications,2010,46(34):123-125.

[6] M. Dash, H. Liu. Feature Selection for Classification. Intelligent Data Analysis,2010,1:131-156.

[7] 張玉芳,王勇,劉明,等.新的文本分類特征選擇方法的研究[J].計算機工程與應用,2013,49(5):132-135.

ZHANG Yufang, WANG Yong, LIU Ming, et al. New feature selection approach for text categorization[J]. Computer Engineering and Applications,2013,49(5):132-135.

[8] 范小麗.文本分類中特征選擇方法的研究與應用[D].西安:西北大學,2011.

FAN Xiaoli. Research and Application of Feature Selection Method in Text Categorization[D]. Xi’an: Northwest University,2011.

[9] 胡改蝶,馬建芬.文本分類中一種特征選擇方法的改進[J].計算機與現代化,2011(5):20-21.

HU Gaidie, MA Jianfen. Improvement of Feature Selection Method in Text Classification[J]. Computer And Modernization,2011(5):20-21.

[10] Nello Cristianini, John Shawe-Taylaor.李國正,王猛,曾華軍,譯.支持向量機導論[M].北京:電子工業出版社,2004:8-15.

Nello Cristianini, John Shawe-Taylaor. Li Guozheng, Wang Meng, Ze Huajun. Introduction to Support Vector Machine[M]. Beijing: Publishing House of Electronics Industry,2004:8-15.

[11] 宋惟然.中文文本分類中特征選擇和權重計算方法的研究[D].北京:北京工業大學,2013.

SONG Weiran. Researchon Feature Selection and Weighting Method for Chinese text Classification[D]. Beijing: Beijing University of Technology,2013.

[12] 郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計算機工程與應用,2012(27):119-122.

GUO Yawei, LIU Xiaoxia. Study on information gain-based feature selection in Chinese text categorization[J]. Computer Engineering and Applications,2012,48(27):119-122.

收稿日期:2016年1月4日,修回日期:2016年2月26日

作者簡介:胡改蝶,女,碩士,助理工程師,研究方向:自然語言處理,文本分類,機器學習,計算機網絡。樊孝仁,男,副教授,研究方向:信息與計算技術。崔藝馨,女,碩士,助理工程師,研究方向:計算機網絡,數據挖掘。

中圖分類號TP311

DOI:10.3969/j.issn.1672-9722.2016.07.022

Text Categorization Based on Improved Feature Selection in Text Categorization

HU GaidieFAN XiaorenCUI Yixin

(Network and Information Center, Taiyuan Institute of Technology, Taiyuan030008)

AbstractText categorization not only can improve the efficiency of categorization, but also can make people quickly find the information they want. On the basis of the feature selection method, this paper analyzes Chi-square (CHI) statistical method shortcomings, and proposes a Chi-square statistical method. At the same time, the Support Vector Machine (SVM) classification’s algorithm and Term Frequency-Inverse Document Frequency (TF-IDF) weight function are used on the validation. The experiment shows that this method can largely improve to the text categorization accuracy, the classification effect is greatly improved, make better classification.

Key Wordsefficiency, text categorization, feature selection, Chi-square statistical method

猜你喜歡
效率
你在咖啡館學習會更有創意和效率嗎?
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實驗拓展,提高復習效率
效率的價值
商周刊(2017年9期)2017-08-22 02:57:49
引入“倒逼機制”提高治霾效率
遼寧經濟(2017年6期)2017-07-12 09:27:16
質量與效率的爭論
中國衛生(2016年9期)2016-11-12 13:27:54
跟蹤導練(一)2
提高食品行業清潔操作的效率
OptiMOSTM 300V提高硬開關應用的效率,支持新型設計
“錢”、“事”脫節效率低
中國衛生(2014年11期)2014-11-12 13:11:32
主站蜘蛛池模板: 国产成人高清在线精品| 九色在线观看视频| 高h视频在线| 国产精品久久久精品三级| 久久久久久久97| 久青草网站| 国产一区二区免费播放| 成人年鲁鲁在线观看视频| 久久久噜噜噜久久中文字幕色伊伊| 国产sm重味一区二区三区| 99热这里只有精品2| 四虎永久在线| 国产精品亚洲一区二区三区z| 成人夜夜嗨| 99久久精品免费看国产免费软件 | 老司机aⅴ在线精品导航| 国产成人综合久久精品下载| 国产91精选在线观看| 亚洲精品国产成人7777| 亚洲丝袜第一页| 免费看久久精品99| 99视频国产精品| 国产精品无码影视久久久久久久 | 国产无遮挡猛进猛出免费软件| 成人在线观看不卡| 成人福利在线观看| 国产99免费视频| 亚洲最大福利视频网| 伊大人香蕉久久网欧美| 欧美无专区| 麻豆精品国产自产在线| 色偷偷综合网| 国产精品熟女亚洲AV麻豆| 亚洲成a∧人片在线观看无码| 99精品在线看| 国产va在线| 亚洲视频四区| 福利在线不卡一区| 亚洲全网成人资源在线观看| 四虎亚洲精品| 亚洲一级毛片免费看| 激情在线网| www亚洲天堂| 欧美色亚洲| 欧美日韩第三页| 国产精品自拍合集| 亚洲无码37.| 91久久青青草原精品国产| 亚洲视频一区在线| 亚洲精品第一页不卡| 久久久无码人妻精品无码| 九九这里只有精品视频| 国产主播一区二区三区| 国产激情国语对白普通话| 亚洲视屏在线观看| 欧美精品H在线播放| 素人激情视频福利| 青草午夜精品视频在线观看| 成人无码一区二区三区视频在线观看| 亚洲永久视频| 久久精品66| 专干老肥熟女视频网站| AV天堂资源福利在线观看| 狠狠综合久久久久综| 国产亚洲精品精品精品| 精品视频在线一区| 亚洲人视频在线观看| 九色在线观看视频| 亚洲日韩精品无码专区97| 三上悠亚一区二区| 色男人的天堂久久综合| 成人精品免费视频| 一级毛片中文字幕| 色综合久久无码网| 欧美一区二区人人喊爽| 国产美女人喷水在线观看| 亚洲一区二区视频在线观看| 一本大道东京热无码av| 精品国产99久久| 久久99国产乱子伦精品免| 国产亚洲精久久久久久久91| 日本高清免费不卡视频|