999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于經驗風險的中心文本分類算法

2013-12-03 03:18:44周曉堂歐陽繼紅李熙銘
吉林大學學報(理學版) 2013年5期
關鍵詞:分類特征文本

周曉堂,歐陽繼紅,李熙銘

(吉林大學 計算機科學與技術學院,長春 130012)

互聯網的快速發展為信息共享提供了一個通用平臺.文本是信息的主要載體,研究文本自動分類可系統地規范文本,提高信息檢索速度,因此,對文本分類算法的研究具有重要意義[1].近年來,人們已提出了許多文本分類算法,包括中心分類法[2]、樸素Bayes算法[3]、支持向量機[4]、人工神經網絡[5]、K近鄰算法[4]和決策樹[6]等.其中,中心分類法具有高效、健壯和計算簡便并易于編程等優點,得到廣泛應用.但中心分類法的訓練過程忽略了文本權值對類別中心的影響.針對中心分類法的缺陷,目前已提出了許多改進.文獻[7]提出的權重調整方法中,使用特征的“純度”表示每個特征的區別能力,然后根據驗證集上的錯誤率使用“純度”迭代調整文本向量中的所有特征權重,該方法認為平均分配在各類中的特征具有較低的“純度”和區別能力,而非平均分布在各類中的特征具有較高的“純度”和區別能力.文獻[8]提出的基于特征分布方法中,考慮了特征在類中的分布,并使用特征分布加強特征權重函數.文獻[9]提出的類-特征-中心方法中,應用類間和類內特征索引構建相對于傳統方法具有更好初始值的類中心向量.文獻[10]提出的拖拽方法利用訓練集上的分類錯誤信息通過拖拽方法改善類中心向量,并提出了按組更新的中心分類法,該方法對類中心進行拖拽,使其靠近屬于該類且被錯誤分到其他類的文本,同時遠離不屬于該類且被錯誤分到該類的文本.在引入訓練集分類錯誤信息的基礎上,為提高模型分類的泛化能力,譚松波等[11]又引入了訓練集邊界信息,定義了數據的假設邊界,并依此對類中心進行拖拽,使類中心靠近屬于該類且處在假設邊界附近的文本,該方法利用訓練集上的分類錯誤信息和訓練集的邊界信息定義了目標函數,通過利用梯度下降法求得目標函數的最小值指導類中心的拖拽.但該方法給出的目標函數并不處處光滑、可導,在應用梯度下降方法時,可能會產生異常結果.

本文在傳統中心分類法的基礎上,基于經驗風險最小化原則構建目標函數,通過引入Sigmoid函數平滑得到一個處處光滑、可導的目標函數,解決了文獻[11]中目標函數的可導性問題.使用最優化技術優化目標函數調整類中心向量,求得了代表性更強的類中心向量,進而提高了分類性能.實驗結果表明,本文算法具有與支持向量機相近的分類性能,并適用于偏斜數據集,魯棒性較強.

1 中心分類法

中心分類法的基本思想:根據訓練文本集合的信息為每個類別構建中心特征向量作為該類的代表向量,待分類文本則根據與各個中心特征向量的相似度決定所屬類別.

1) 預處理階段.使用向量空間模型處理非結構化的文本數據,計算每個文本對應的數值特征向量d=(w(t1,d),w(t2,d),…,w(tNT,d)),各項特征權重w(ti,d)的計算公式為

(1)

該數值特征向量由特征空間中的特征權重組成,包含了文本內部潛在的統計信息.其中:d表示來自訓練集的一篇文本;tf(ti,d)表示在文本d中特征ti的出現次數;Nti表示訓練集D中包含特征ti的文本總數;分母為規范化因子,使每個數值特征向量都具有單位長度,消除不同文本的不同長度對特征權重的影響.

(2)

3) 測試階段.中心分類法使用余弦函數度量測試文本d和類別中心Ci的相似度.相似度計算公式為

(3)

其中,“·”表示兩個向量的點積.

經過相似度對比,中心分類法認為測試文本d屬于與文本d具有最大相似度類別中心所代表的類別.引入變量Cjudge(d,C),判別公式為

(4)

2 本文算法

傳統中心分類法使用算術平均值計算類別的中心向量.該策略給每篇文本相同的權重,未考慮不同文本的表達能力是不同的,影響了中心向量的表達能力,從而影響了中心分類法的分類性能.針對此問題,本文基于經驗風險最小化的原則構建目標函數,通過梯度下降算法計算目標函數極值點求得類別中心向量.同時,為了解決文獻[11]中目標函數不是處處可導的問題,本文引入Sigmoid函數平滑目標函數,避免其不可導產生的不穩定因素.

(5)

其中: 函數Cneighbor(d,C)表示集合C中與文本d的相似度最高且屬于不同類別的類中心向量;函數Ctrue(d,C)表示集合C中與文本d同類的類中心向量;函數Sgn(x)是指示函數,定義如下:

(6)

由式(6)可見,當函數Sgn(cos(d,Cneighbor(d,C))-cos(d,Ctrue(d,C)))=0時,表明文本d被正確分類;否則,表明文本d被錯誤分類.因此,目標函數RSgn(D,C)有效表達了中心分類法在訓練集D上的經驗誤差.

通過最小化函數RSgn(D,C),可得到更具代表性的類中心,提高中心分類法的分類性能.但由于指示函數Sgn(x)的階梯函數性質,使得目標函數RSgn(D,C)不是處處光滑且不可導,不能直接使用解析法求解極值.因此,本文使用平滑單調函數Sigmoid(x)近似模擬指示函數Sgn(x),以得到處處光滑、可導的目標函數RSig(D,C),定義如下:

(7)

其中

(8)

λ為控制Sigmoid(x)函數形狀的參數.

最后,得到類中心的梯度更新公式為

(9)

(10)

其中

(11)

在經驗風險最小化原則下,使用梯度下降法獲得最優類中心的算法偽代碼如下:

輸入:訓練集D,最大迭代次數Max_iter.

輸出:最優類中心向量集CMax_iter.

按式(2)初始化起始類中心向量集C0

Fort=1∶Max_iter//迭代開始;

Fori=1∶ND//迭代的第一部分

計算文本di和當前所有類中心Ct-1的相似度

計算文本di的Cneigbor(di,Ct-1)值

End for

Fori=1∶K//迭代的第二部分

Forj=1∶NT

按式(9)更新類中心

End for

End for

End for//迭代結束

ReturnCMax_iter

3 實驗結果

3.1 實驗數據集及評價標準

實驗數據集選取來自TREC,OHSUMED和Reuters-21578這3個基準文本數據集中的4個子文本數據集la12,new3,ohscal和re1.其中: la12和new3來自TREC;ohscal來自OHSUMED;re1來自Reuters-21578.4個子文本數據集la12,new3,ohscal和re1的特征列于表1.由數據集規模大小可見,la12和ohscal是大數據集,new3和re1是小數據集;由數據集平衡程度可見,la12,ohscal,new3是平衡數據集,re1是不平衡數據集.

表1 文本數據集Table 1 Text data

實驗選用宏平均F1值和微平均F1值[12]度量分類性能.宏平均F1值為整個測試集上的F1值,微平均F1值為測試集各類別上F1值的均值.F1值為查準率和查全率的調和平均值,定義如下:

F1=2×[(查準率×查全率)/(查準率+查全率)].

(12)

3.2 實驗結果

為了獲得模型預測能力的準確估計,減弱訓練集、測試集分割時對實驗結果產生的影響,實驗過程采用三折交叉驗證方式[13].實驗選取的對比算法包括傳統中心分類法(BCC)及支持向量機的兩個變體SVMTorch和LibSVM.實驗結果如圖1和圖2所示.

圖1 不同方法的宏平均F1值對比Fig.1 Comparison of macro-F1 mean values by different methods

圖2 不同方法的微平均F1值對比Fig.2 Comparison of micro-F1 mean values by different methods

由圖1和圖2可見,本文算法的分類性能明顯高于傳統中心分類法.此外,本文算法在彌補了傳統中心分類法在平衡數據集上分類性能較差的缺點、使其分類性能逼近支持向量機方法的同時,進一步增強了傳統中心分類法在偏斜數據上分類性能較強的優勢,使其分類性能明顯優于支持向量機方法.

綜上所述,本文提出的經驗風險最小化原則下的中心分類法相比于傳統中心分類法,能得到代表性更強的類中心,其分類性能逼近支持向量機方法,且在偏斜數據集上優于支持向量機方法.

[1] XUE Gui-rong,XING Di-kan,YANG Qiang,et al.Deep Classification in Large-Scale Text Hierarchies [C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York: ACM,2008: 619-626.

[2] Han E H,George K.Centroid-Based Document Classification: Analysis and Experimental Results [C]//Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery.London: Springer-Verlag,2000: 424-431.

[3] Ashraf M K,Eibe F,Bernhard P,et al.Multinomial Naive Bayes for Text Categorization Revisited [C]//Proceedings of the 17th Australian Joint Conference on Artificial Intelligence.Berlin: Springer Verlag,2004: 488-499.

[4] Naohiro I,Tsuyoshi M,Takahiro Y,et al.Text Classification by Combining Grouping,LSA and kNN [C]//Proceedings of the 5th IEEE/ACIS International Conference on Computer and Information Science.Washington DC: IEEE Computer Society,2006: 148-154.

[5] Rowena C,Chunghsing Y,Katea S.A Neural Network Model for Hierarchical Multilingual Text Categorization [C]//Proceedings of the Second International Symposium on Neural Networks.Berlin: Springer Verlag,2005: 238-245.

[6] GAO Sheng,WU Wen,LEE Chin-hui,et al.A Maximal Figure-of-Merit (MFoM)-Learning Approach to Robust Classifier Design for Text Categorization [J].ACM Transactions on Information Systems,2006,24(2): 190-218.

[7] Shrikanth S,George K.A Feature Weight Adjustment Algorithm for Document Categorization [C]//Proceedings of the KDD-2000 Workshop on Text Mining.Boston: Citeseer,2000: 12-19.

[8] Verayuth L,Thanaruk T.Effect of Term Distributions on Centroid-Based Text Categorization [J].Information Sciences,2004,158: 89-115.

[9] GUAN Hu,ZHOU Jing-yu,GUO Min-yi.A Class-Feature-Centroid Classifier for Text Categorization [C]//Proceedings of the 18th International Conference on World Wide Web.New York: ACM,2009: 201-210.

[10] TAN Song-bo.Large Margin DragPushing Strategy for Centroid Text Categorization [J].Expert Systems with Applications,2007,33(1): 215-220.

[11] TAN Song-bo,CHENG Xue-qi.Using Hypothesis Margin to Boost Centroid Text Classifier [C]//Proceedings of the 2007 ACM Symposium on Applied Computing.New York: ACM,2007: 398-403.

[12] Michael B,Fredric G.The Relationship between Recall and Precision [J].Journal of the American Society for Information Science,1994,45(1): 12-19.

[13] Christopherd M,Prabhakar R,Schütze H.Introduction to Information Retrieval [M].New York: Cambridge University Press,2008: 151-176.

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲国产清纯| 高清免费毛片| 欧美五月婷婷| 中文字幕无线码一区| 色偷偷一区二区三区| 久久综合色视频| 久久精品一品道久久精品 | 国内精品一区二区在线观看| 国产亚洲欧美日韩在线观看一区二区| 国产精品护士| 色综合中文| 免费高清毛片| 99re在线免费视频| 成人va亚洲va欧美天堂| 亚洲国产中文在线二区三区免| 欧美精品高清| 久久精品国产999大香线焦| 亚洲视频无码| 亚洲国产成熟视频在线多多| 亚洲中文无码av永久伊人| 免费女人18毛片a级毛片视频| 亚洲欧美成aⅴ人在线观看| 40岁成熟女人牲交片免费| 在线无码私拍| 波多野衣结在线精品二区| 国产精品福利一区二区久久| 久久久亚洲色| 91久久国产综合精品| 国产在线观看精品| 韩国自拍偷自拍亚洲精品| 国产成人午夜福利免费无码r| 中国精品自拍| 日本a∨在线观看| 亚洲国产亚洲综合在线尤物| 国产精品香蕉| 亚洲国产成人精品青青草原| 伊人久综合| 亚洲黄色成人| 69av在线| 无码丝袜人妻| 97在线国产视频| 视频在线观看一区二区| 在线国产资源| 国产福利一区视频| 久久semm亚洲国产| 国产福利免费在线观看| 日本成人在线不卡视频| 不卡午夜视频| 亚洲精品男人天堂| 992Tv视频国产精品| 日韩天堂在线观看| 国产91丝袜在线播放动漫 | 欧美日韩在线第一页| 91精品国产一区自在线拍| 午夜视频日本| 操国产美女| 五月婷婷导航| 国产成年女人特黄特色大片免费| 91精品国产91久无码网站| 国产精品人成在线播放| 91最新精品视频发布页| 国产视频大全| 人人妻人人澡人人爽欧美一区 | 亚洲AV免费一区二区三区| 凹凸精品免费精品视频| 人妻丰满熟妇av五码区| 91小视频在线观看| 国产特级毛片| 国产成人精品18| 日韩第八页| 国产精品亚洲片在线va| 日韩大片免费观看视频播放| 国产综合网站| 波多野结衣二区| 在线另类稀缺国产呦| 最新国产网站| 国产菊爆视频在线观看| 成人午夜视频网站| 国产精品久久自在自线观看| 亚洲二区视频| a毛片在线| 国产一区二区人大臿蕉香蕉|