夏睿,宗成慶
(中國科學院 自動化研究所,北京 100190)
情感文本分類混合模型及特征擴展策略
夏睿,宗成慶
(中國科學院 自動化研究所,北京 100190)
針對篇章級別情感文本分類問題,分析了傳統的生成式模型和判別式模型的性能,提出了一種級聯式情感文本分類混合模型以及句法結構特征擴展策略.在該模型中,生成式模型(樸素貝葉斯分類器)和判別式模型(支持向量機)以級聯的方式進行組合,旨在消除對于分類臨界樣本,模型判決置信度不足引起的誤差.在混合模型的基礎上,提出了一種高效擴展依存句法特征的策略.該策略既提高了系統的正確率,又避免了傳統特征擴展方法所帶來的計算量增加的問題.實驗結果表明,混合模型及特征擴展策略與傳統方法相比,在算法準確性和效率上,都有顯著的提高.
文本分類;情感分類;混合模型;特征擴展
近10年來文本分類成為自然語言處理和模式識別領域的一個研究熱點.傳統的文本分類技術關注的是文本的客觀內容,如文本主題.基于主題的文本分類技術已有多年的研究基礎,發展較為成熟并且得到了廣泛應用[1];而情感文本分類所研究的對象是文本的主觀內容,如作者的傾向度,近年來逐漸發展成為一種獨特的文本分類任務,國內外都有著廣泛的研究[2].
情感文本分類的相關研究主要圍繞下面2個問題進行:1)設計合適的分類器模型;2)尋找能夠有效體現情感信息的特征表示方法.
對于問題1),情感文本分類沿襲了傳統的主題文本分類模型,常見的分類器有樸素貝葉斯模型(NB)、支持向量機(SVM)和最大熵模型(MaxEnt).文獻[3]對這3種分類器在情感文本分類任務中的性能進行了比較,實驗結果顯示在電影評論語料(Cornel movie-review dataset)中 SVM 表現最好,MaxEnt次之,NB最后,不過三者之間的差距并不顯著.然而后續研究表明,分類器的性能具有領域依賴性,對不同的領域而言,任何一個分類器性能都無法始終占優[4],例如在多領域情感分類語料(multi-domain sentiment dataset)中,NB性能要優于SVM.因此,對于情感文本分類,生成式模型和判別式模型孰優孰劣,一直是一個難以回答的問題.
對于問題2),傳統的文本分類方法基于詞袋模型(bag-of-words,BOW)進行文本表示,以單個詞作為特征的基本單元.情感分類有別于主題分類,它需要在特征中體現更多的情感信息,因此,很多研究者立足于挖掘文本中更多能夠有效表達情感的信息作為新的特征,如詞序及其組合信息[3,5]、詞性(partof-speech,POS) 信 息[6-8]、高 階 n 元 語 法 (ngram)[3-4]等,但是這些特征所達到的效果并不明顯.也有學者嘗試挖掘更深層次的文本信息,比如句法結構信息等[9-11],以期捕捉更加復雜的語法及語義特征(包括否定、轉折等),這些方法在一定程度上超過了基于詞袋的傳統方法,但是系統性能的提高仍然有限.同時,引入句法特征所帶來的最大問題就是特征空間的急劇增加,以及分類任務計算量的指數級增加.因此,如何更加有效地利用句法結構特征也是一個亟待解決的難題.
立足于解決上述2個問題,提出了一種基于生成式和判別式模型融合的情感文本分類方法.生成式和判別式分類器以一種級聯的方式進行結合,旨在利用判別式模型消除生成式模型對分類臨界處樣本的判決置信度不高引起的誤差.此外,遵循“奧卡姆剃刀”(Occam’s razor)原則,在二級判別式分類器上,只對部分臨界樣本進行特征向量擴展,引入句法結構特征,目的在于向難于分辨的樣本中加入更多的情感信息,同時又回避了將所有樣本都進行向量擴展所帶來的計算量的增加.
情感文本分類任務的主流分類方法是基于機器學習的統計模型.從建模本質加以區別,可以分為生成式模型(generative model)和判別式模型(discriminative model)2種.
生成式模型對特征和類別的聯合概率進行建模,然后利用貝葉斯公式計算后驗概率.這一類以貝葉斯決策理論為核心的分類器稱作貝葉斯分類器,它們是理論上的最優分類器.其中,樸素貝葉斯分類器(NB)假設了在給定類別的條件下,各個特征項之間相互獨立(條件獨立性假設),大大簡化了類條件概率密度的估計,是一種最簡單的生成式模型,在文本分類任務中被廣泛應用[12].然而,NB的假設條件過強,在樣本的特征相關性較大的情況下,分類性能往往得不到保證.
判別式模型則直接對后驗概率進行建模,通常依據一定的準則從樣本數據中訓練模型參數.支持向量機(SVM)[13]是文本分類任務中常用的判別式模型.SVM的基本思想一是尋找具有最大類間距離的決策面,二是將低維不可分問題轉化為高維可分問題,并且通過核函數在低維空間計算并構建分類面.然而,SVM分類器存在容易過學習的缺點,而且,在特征的獨立性條件滿足較好的情況下,性能不如貝葉斯模型.
通過對NB和SVM這2類模型的錯誤性分析發現,錯分樣本的分布是交叉的,一部分NB錯分的樣本SVM可以正確劃分,反之亦然.在Kitchen語料(將在4.1節中詳細介紹)中抽出100個正例樣本和100個負例樣本,計算歸一化對數聯合概率,作分布圖,如圖1所示,圖中加號(+)和點號(·)分別表示2類判決值log(p(x,+))和log(p(x,-)),虛線左邊表示正例樣本,虛線右邊表示負類樣本.

圖1 2類歸一化對數聯合概率分布Fig.1 Distribution of log-likelihood by NB
由圖1可見,縱坐標在0.5附近的水平中軸區域,2類判決值非常接近,正負2類樣本中出現錯分的比率較大;離水平中軸越遠,錯分比率越小.給定文檔x,為了衡量2類判決的置信度,定義2類歸一化對數聯合概率距離作為刻畫分類判決置信度的一個指標:

對相同的樣本作概率距離分布曲線,如圖2所示.與正確劃分的樣本相比,錯分樣本的概率距離統計上更加接近0.雖然也有一部分概率距離接近0的樣本也被正確劃分,認為它們的置信度仍然不高,這樣的判決帶有很大風險.
用水平線(如圖2中縱坐標為0.004的直線)表示置信度閾值,通過設置一個合理的閾值去衡量置信度,如果概率距離高于閾值,表示判決可信,否則認為判決不可信.

圖2 相同樣本歸一化對數聯合概率距離分布Fig.2 Distributions of distance between two-state loglikelihood
依據前面的分析,得到這樣的結論:當樣本處在2類空間的臨界面附近時,生成式模型NB的分類精度不高.而判別式模型SVM基于最大正負樣本分類距離準則,相對前者,它對于分類邊界處的樣本有著較高的判別能力.
基于上述想法,論文提出了一個生成式/判別式混合模型,模型結構如圖3所示.其中生成式分類器NB作為第1級分類器,判別式分類器SVM作為2級分類器,它們以級聯的方式進行組合.概率距離閾值作為衡量判決置信度的參數,決定2個分類器結合的程度.當NB判決的概率距離低于閾值時,轉由SVM進行二次判別.

圖3 級聯式混合模型結構Fig.3 Structure of the hybrid model
傳統的詞袋模型(BOW)中,一篇文檔被看作一個詞袋,完全忽略了詞之間的排序信息和句法關系.雖然高階n元語法,如二元語法(bigrams)和三元語法(trigrams),被用于代替單一的一元語法(unigrams)作為BOW的基本特征,然而文獻[3]表明在電影評論領域語料中,bigrams的效果還不如unigrams,其原因可能是傳統的bigrams和trigrams難于捕捉長距離的依賴關系,對情感分類作用不大.
依存句法信息被認為是情感分類中的有效特征[10,14].作為一種句子級粒度的文本結構表示方法,依存句法樹利用樹中父子節點的關系來表述句子中各詞之間的依存關系.以句子“I definitely recommend this film.”為例,它的依存句法樹如圖4所示.

圖4 依存句法結構樹示例Fig.4 Example of dependency parsing tree
得到依存句法樹之后,抽取每個父子節點的詞對作為新的特征(如例句中的“definitely recommend”和“film recommend”),這些詞對特征能夠捕捉句子中詞序信息和詞之間的長距離依賴關系,經常包含一元語法以外的情感信息.表1中列舉了3種不同的特征表示方法.

表1 情感特征表示方法示例Table 1 Examples of different feature representation
雖然句法結構可以表達更多的文本信息,但是它帶來的最大問題就是特征空間變成了原來的平方級,特征空間的急劇增加給后續任務,如特征選擇、分類,帶來了嚴重的計算負擔.
為了解決這個問題,在混合模型的基礎上,提出了一種高效引入獨立依存關系特征的策略:在混合模型生成式分類器中,概率距離高于閾值的樣本有較高的置信度,無需進行特征擴展;而概率距離低于閾值的樣本,在第1級分類器中被拒絕判決,在第2級分類器中需要引入句法結構特征以提高其可分性,如圖5所示.該策略不僅能夠提高分類精度,而且在效率上也占據優勢.

圖5 混合模型依存句法特征擴展策略Fig.5 Structure of the hybrid model with feature expansion strategy
1)語料:本文選用了多領域情感數據集(multidomain sentiment dataset)進行實驗.該語料由文獻[15]首次引入,之后也得到廣泛使用.該數據集由從Amazon.com抽取的4個領域(Book、DVD、Electronics和Kitchen)的產品評論語料組成,每個領域包含正負例評論文檔各1 000篇.實驗采用了全部4個領域的語料.
2)語言分析工具:詞性分析是句法分析的預處理步驟之一,選用MXPOST作為詞性分析器.另外,使用MSTParser進行依存句法分析,訓練集使用的是賓州書庫的WSJ部分.
3)分類器: 本文使用開源軟件 OpenPR-NB[3]和LibSVM[4]作為2種分類器的實現工具.其中OpenPRNB的參數設置為多項式模型和拉普拉斯平滑[12],LibSVM采用線性核函數,其他參數均保持默認.
1)交叉驗證:每個數據集被平均分成5份,所有的實驗結果均經過5倍交叉驗證.交叉驗證的每一次循環,4份作為訓練集,剩余1份作為測試集.
2)閾值參數訓練:閾值是混合模型的一個重要參數,為防止過擬合,參數訓練在訓練集內使用4倍的交叉驗證,最后使用4次循環的均值作為最后的參數,最優參數可以表示為

式中:F表示當前測試集表示當前訓練集,f表示當前訓練集中用于訓練參數的開發集,在(0,0.01]范圍內以0.005為步長尋找最優值.
首先,將NB和SVM作為基線系統,給出Hybrid模型的對比實驗結果,如表2所示.3個系統都以Unigrams作為BOW模型基本特征,分別用U@NB、U@SVM和U@Hybrid表示,特征選擇方法使用的是信息增益法(information gain,IG)[16],表 2 給出了2類實驗結果:一類是使用全部特征的分類正確率,表格中用All表示;另一類是經過IG特征選擇的最優特征子集的結果,用Best@IG表示.

表2 使用Unigrams特征時的系統性能比較Table 2 The system performance with Unigram features
從表2的結果可以看出,與基線系統NB和SVM相比,Hybrid模型無論是使用全部特征集還是使用最優特征子集,在4個數據集中均表現出了明顯的優勢.
此外,給出了在遞增的特征選擇子集下,3個模型特征數-分類正確率的曲線,如圖6所示.



圖6 系統在IG特征選擇下的分類性能Fig.6 The accuracy curve under IG feature selection
圖6中橫軸最右邊的數值就是使用全部特征的結果,3條曲線的縱軸最高點就是最優特征子集的結果(參見表2).由圖6可見,無論是在哪個特征子集上,混合模型的曲線均在最上方.
實驗2中首先在2個基線系統上對全部樣本都進行依存句法特征擴展(以unigrams和依存句法特征的合集作為新的特征集),接著在混合模型中引入第3節所述的句法結構特征擴展策略,表3給出了綜合對比結果.

表3 句法結構特征擴展后各方法的性能比較Table.3 The system performance with feature expansion strategy
其中U+P@NB和U+P@SVM分別表示NB分類器和SVM分類器加入依存句法特征的結果.非常明顯地看出,在加入句法結構特征之后,NB和SVM分類器的性能都有了顯著提高.這樣的實驗結果充分證實了句法結構信息確實是情感文本分類的顯著特征.
用U@NB&U+P@SVM表示在混合模型上引入句法結構特征的實驗結果,表3給出了2個方向上的結果比較:與混合模型使用原始特征相比,在2級分類器上擴展句法特征之后,分類正確率在5個領域上均有提高,提高幅值為(1.5~3.5)%;與NB和SVM擴展句法結構特征(U@NB、U+P@SVM)兩者之中最好的結果相比,各個領域都有(0.5~2)%的提高.因此綜合來看,混合模型輔以句法結構特征在2個方向的比較上都有顯著優勢.
由于該方法只在2級分類器上擴展句法特征的策略,訓練語料里絕大部分的樣本不需要特征擴展,僅僅需要對分類邊界的樣本進行擴展,因此該方法大大節省了系統開銷.
本文提出了一種情感文本分類混合模型,將生成式、判別式基分類器以一種級聯的方式進行組合,旨在消除傳統方法對分類邊界附近樣本由于判決置信度不高而帶來的誤差.2類概率“距離”用于衡量生成式模型判決的置信度,對于置信度不高的樣本,生成式模型拒絕判決,交由判別式模型進行分類.此外,還提出了在2級判別式模型中擴展句法結構特征的策略,通過對難以判決的臨界樣本增加依存句法信息,以提高其分類的精度,同時只在必要的樣本上進行特征擴展.實驗表明,與傳統方法相比,提出的混合模型及特征擴展策略不僅在分類精度上有顯著的、魯棒的提高,而且在算法效率上,避免了傳統特征擴展所帶來的高維計算負擔,提高了系統效率.
如何更好地將生成式模型和判別式模型融合到一起,以及如何有效地對句法結構特征進行特征選擇,是值得進一步研究的問題,這也是下一步即將進行的工作.
[1]宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008:23-28.
[2]PANG B,LEE L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2:1-135.
[3]PANG B.Thumbs up?sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Philadelphia,USA,2002:79-86.
[4]XIA R.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181:1138-1152.
[5]RILOFF E,PATWARDHAN S,WIEBE J,et al.Feature subsumption for opinion analysis[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Stroudsburg,PA,USA,2006:440-448.
[6]HATZIVASSILOGLOU V,WIEBE J.Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of the International Conference on Computational Linguistics(COLING).Saarbrücken, Germany,2000:299-305.
[7]XIA R,ZONG C Q.Exploring the use of word relation features for sentiment classification[C]//Proceedings of the 23rd International Conference on Computational Linguistics(COLING).Beijing,China,2010:1336-1344.
[8]XIA R,ZONG C Q.A POS-based ensemble model for cross-domain sentiment classification[C]//Proceedings of the International Joint Conference on Natural Language Processing(IJCNLP).Chiang Mai,Thailand,2011:614-622.
[9]GAMON M.Sentiment classification on customer feedback data:noisy data,large feature vectors,and the role of linguistic analysis[C]//Proceedings of the International Conference on Computational Linguistics(COLING).Barcelona,Spain,2004:841-847.
[10]KENNEDY A,INKPEN D.Sentiment classification of movie reviews using contextual valence shifters[J].Computational Intelligence,2006,22:110-125.
[11]DAVE K.Mining the peanut gallery:opinion extraction and semantic classification of product reviews[C]//Proceedings of the International World Wide Web Conference(WWW).Budapest,Hungary,2003:519-528.
[12]MCCALLUM A,NIGAM K.A comparison of event models for naive Bayes text classification[C]//Proceedings of the AAAI Workshop on Learning for Text Categorization.Madison,USA,1998:15-18.
[13]JOACHIMS T.Text categorization with support vector machines:learning with many relevant features[C]//Chemnitz,Germany:Springer,1998:237-243.
[14]KUDO T,MATSUMOTO Y.A boosting algorithm for classification of semi-structured text[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).Barcelona,Spain,2004:35-41.
[15]BLITZER J.Biographies,bollywood,boom-boxes and blenders:domain adaptation for sentiment classification[C]//Proceedings of the Association for Computational Linguistics(ACL).Prague,Czech Republic,2007:151-156.
[16]YANG Y,PEDERSEN J.A comparative study on feature selection in text categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning(ICML).Nashville,USA,1997:412-420.

夏睿,男,1981年生,博士,主要研究方向為模式識別、機器學習、自然語言處理和文本挖掘等.

宗成慶,男,1963年生,研究員,博士生導師,中科院自動化所模式識別國家重點實驗室副主任.亞洲自然語言處理聯合會(AFNLP)執行理事、國際學術期刊 IEEE Intelligent Systems副主編、ACM Transactions on Asian Language Information Processing副主編、International Journal of Computer Processing of Languages副主編、Journal of Computer Science and Technology編委、《自動化學報》編委、中國中文信息學會常務理事、中國人工智能學會理事,并曾在若干國際學術會議(包括ACL、COLING等本領域頂級國際會議)上擔任程序委員會及組織委員會主席、Area Chair、委員等職務.主要研究方向為自然語言處理的理論與方法、機器翻譯、文本分類等.在大規模口語語料庫建設、口語理解與翻譯、文本機器翻譯和自動分類等方面,提出了一系列新的技術和方法,多次在國際口語翻譯權威評測中獲得優異成績.申請國家發明專利10余項。在國內外重要學術刊物和會議上發表學術論文70余篇,出版學術專著1部.
A hybrid approach to sentiment classification and feature expansion strategy
XIA Rui,ZONG Chengqing
(Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
In this paper,focusing on sentiment text classification,the performance of generative and discriminative models for sentiment classification was studied,and a hybrid approach to sentiment classification was proposed.The individual generative classifier(naive Bayes,(NB)and the discriminative classifier(support vector machines,SVM)were merged into a hybrid version in a two-stage process in order to overcome individual drawbacks and benefit from the merits of both systems.On the basis of the hybrid classifier,an efficient strategy of incorporating dependency features was also presented.The strategy not only increases the accuracy of the system,but also avoids the defects of increased computing volume brought by the traditional feature expansion method.Experimental results show the apparent advantages of this approach in both classification accuracy and efficiency.
text classification;sentiment classification;hybrid model;feature expansion
TP391.1
A
1673-4785(2011)06-0483-06
10.3969/j.issn.1673-4785.2011.06.002
2011-05-12.
國家“863”計劃資助項目(2008AA01Z148);黑龍江省杰出青年科學基金資助項目(JC200703);哈爾濱市科技創新人才研究專項基金資助項目(2007RFXXG009).
夏睿.E-mail:rxia@nlpr.ia.ac.cn.