李超男
(四川大學計算機學院,成都 610065)
情感分類綜述
李超男
(四川大學計算機學院,成都610065)
隨著電子商務和媒體社交工具的普及,互聯網上充斥著極其豐富的信息資源。商業界、政界和學術界敏感的認識到這些數據的寶貴,大批研究者開始分析抽取這些數據中的信息。情感分類受到研究者們的密切關注,因為有效的情感分析可以引導人們消費、幫助商家改進研究新產品、對社會輿情進行監控等。介紹情感分類的機器學習方法和側重解決的問題,并對目前情感分類的研究進展進行總結歸納。
情感分類;情感分析;評價指標;特征選擇
目前,隨著媒體社交工具如微博、微信等的蓬勃發展,人們越來越喜歡在網上發表自己的情感和觀點。因此,對網絡上這些大量的帶有情感的數據進行分析分類對于電子商務中用戶決策和輿情監控等有重要的意義。情感分類是一種特殊的文本分類,它對包含有主觀傾向性的文本進行分析整理得到文本發表者對某種觀點的支持與否,如人們對于“衣服”的“尺碼、布料、做工、設計”等屬性的情感傾向。本文從機器學習方法和情感分類側重關注要解決的問題對情感分類研究工作進展進行分析、闡述、總結。
1.1有監督學習的情感分類
監督學習是一種根據給定標簽的數據集不斷調整函數參數使其達到期望目標的機器學習任務。Pang首次運用監督學習方式進行情感分類;他在文獻[1]中比較了樸素貝葉斯、最大熵和支持向量機三種分類算法及特征選擇策略(Bigram、Unigram、Parts-of-Speech)及詞位置和特征權重的選擇在情感分類中的效果,證明了情感分類任務比主題分類要復雜困難[1]。
此后,很多研究者致力于提高監督學習的情感分類研究。如Kim和Hovy借助主題來進行英語詞和句子的情感分類,后來他們利用使用語義角色標注的語義結構從網絡新聞媒體中分析文本發布者和該文本主題的觀點[2]。Balamurali and Joshi使用詞義特征(WordNet中的同義反義詞集)進行情感分類,實驗結果表明比基于詞特征的分類效果要好得多[3]。不同于傳統詞袋模型,Bespalov等將文檔看做BON (bag-ofngram,(n>3))并使用latent n-grams解決這種方法引發的維度災難[4]。
1.2半監督學習的情感分類
半監督學習是在大量沒有標注的數據集(US)和少量已標注數據集 (LS)上進行學習的問題。協同學習(Co-training)、自學習、Transductive SVM和EM是最常見的算法。Co-training是用在數聚集特征劃分到的不同特征集上獨立學習到的分類器在無標注數據集上進行分類或者標注。Wan就采用Co-training方法使用少量有標注的英文語料在大量的無標注中文語料上進行了高效的中文情感分類[5]。Li和Huang也采用了協同學習方法對分成個人和非個人兩種類別的文本清醒半監督情感分類[6]。Dasgupta和Ng采用以將明確的容易提煉的和模糊的難以分類的評論區分開來為主要思想的半監督方法進行極性分類[7]。
另外值得一提的是,Sindhwani和Melville采用基于文章和詞的二部圖即用詞的先驗知識結合未標記語料進行情感分類[8]。形、音、義是語言的三個屬性,其中義尤其重要。研究文本的詞義語義信息無疑對于自然語言處理數據挖掘有很重要的意義。隨著深度學習算法的日益成熟,自然語言處理研究者們將深度學習算法逐漸引入NLP任務中并取得較好效果。Zhou和Chen提出了一種由RBM和無監督學習方法結合構造的半監督學習算法AND[9]。
1.3無監督學習的情感分類
無監督學習的情感分類僅在未標注的數據集上進行學習,他們提取未標注數據集的情感傾向特征然后根據這些特征給數據集打上情感類別的標簽。最典型的無監督學習是聚類,聚類使得數據集中的數據按照某些相似的特征分類組織。聚類類型有劃分聚類(K-means、CLARA、PCM)、層 次 聚 類 (CURE、ROCK、CHEMALOEN)、基于密度聚類(DBSCAN、FDC、OPTICS)、基于網格聚類(SING、CLIQUE)和基于模型聚類(COBWEB、CLASSIT)。以往的無監督情感分類大多數都是借助種子詞集實現,例如:Turney抽取含有形容詞和副詞短語的語料,之后計算這些短語與種子詞“poor”及“excellent”的點互信息,然后用得到的點互信息計算短語的情感傾向得分[10]。
只考慮每個單詞的極性然后通過計算該詞語在各個極性中頻數的多少決定文檔的情感傾向效率是很低的,如:“完美”一詞表現出了直觀的積極性,但若是“完美的混亂”這個短語所表達的情感傾向就不同了;基于單個詞的向量空間模型雖在學習詞法信息方面取得很大成功,但它們不能準確捕捉長短語或句子多表達的綜合信息。Weichselbraun and Poria就在句子層面即結合上下文環境進行情感分類[11]。Richard Socher團隊依次提出向量矩陣空間,遞歸神經網絡RNN,MV-RNN和RNTN等基于語義分析樹結構的方法進行句子層面語義分析[12]。
2.1領域適應性
情感分類具有領域相關性,研究者發現監督學習的情感分類方法在訓練測試集分屬不同領域的數據集上分類效果較差。Hu和Liu研究發現對產品的評論分類結果與在新聞和文學上的評論分類結果是不同的[13]。所以解決領域適應性問題是情感分類的重要研究方向。研究者們一直在尋找一種有效的映射方法,使得一個領域的數據集特征可以映射到另一個領域的數據集特征,即找到這些特征的相關性。領域適應中的訓練集的選取、特征選擇和各種分類器的融合是具體的研究內容。Alec Go和Richa Bhayani用推特上的博文進行情感分類,這種數據集對于模型的建立非常重要,訓練出來的模型適用于其他領域[14]。吳瓊和劉悅提出基于熱傳導模型思想的框架進行跨領域情感分類[15]。
跨領域要求有大的涉及多領域的訓練數據集,如果采用有監督的方式就會耗費大量人工去標注數據集,所以絕大多數采取半監督或者無監督方法去自動學習數據集的特征。Deschacht and Moens提出了隱含詞語言模型,這個模型是無監督的,它通過對詞匯進行聚類減少了語義角色標注中詞匯化特征的稀疏性[16]。聚類緩解了詞匯化特征的稀疏性,但是在句法結構上提取的特征的稀疏性幾乎沒有方法進行有效的解決。在圖形處理計算視覺領域可以有效地自動學習發現圖片數據集的高層次特征并取得巨大成功的深度學習算法引起了NLP學者們的視線。莊濤就采用可以學習到兩個領域的公共特征的DBN模型減少了領域特征之間的稀疏性。Glorot和Bordes采用一種疊加自動去噪編碼器(Stacked Denoising Auto-Encoders)和稀疏整流裝置單元結合的深度學習方法用于情感分類,而他們設計的模型在含有22個領域的評論上效果很好[17]。
2.2數據不平衡
數據不平衡就是指收集的數據集中各類數據分布及其不均勻,如二分類問題,屬于正例和負例的數據比例為500:1,這種現象就屬于數據不平衡。在情感分類問題中,實際收集到的語料集大多是不均勻的,傳統的分類方法將會將類別偏向多數的類別降低分類器的分類性能。解決數據不平衡問題有兩種思路:第一種是數據層面,既然數據平衡那么就尋找適當的抽樣算法讓數據達到平衡,具有代表性的抽樣方法有重采樣(欠采樣和過采樣)、SMOTE、Informed Undersampling等;第二種是算法層面,主要考慮數據錯分即多的一類被分為少數,少數被分為多數這種誤分類所導致的代價函數,最主要的算法思想就是代價敏感學習。
一般情感分類器采用以下三個評價指標:正確率和召回率(查全率)以及F-score。

表1
正確率P和召回率R的計算公式分別如下:

F-score表示準確率和查全率的調和平均值。

情感分類作為自然語言處理中文本分類的一種,在商界和學術界都得到了很大關注,是科研工作者們的研究熱點也在研究過程中獲得很大進展。本文從機器學習方法和情感分類側重研究的問題出發,介紹了一系列的相關工作。情感分類技術中文本的表示(VSM、詞組、概念)、文本特征選擇方法(信息增益、χ2統計量、互信息……)、特征權重計算(TF-IDF、TFC、ITC、熵……)、分類器設計這些因素的選擇至關重要。目前的研究工作主要側重于文本特征的提取和分類模型的創建。
[1]Pang B,Lee L,Vaithyanathan S.Thumbs up:Sentiment Classification Using Machine Learning Techniques[C].Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10.Association for Computational Linguistics,2002:79-86.
[2]Kim S M,Hovy E.Determining the Sentiment of Opinions[C].Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:1367.
[3]Balamurali A R,Joshi A,Bhattacharyya P.Harnessing Wordnet Senses for Supervised Sentiment Classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1081-1091.
[4]Bespalov D,Qi Y,Bai B,et al.Sentiment classification with Supervised Sequence Embedding[C].Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer Berlin Heidelberg,2012:159-174.
[5]Wan X.Co-training for Cross-Lingual Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 1-Volume 1.Association for Computational Linguistics,2009:235-243.
[6]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI.2010,10:1371-1376.
[7]Dasgupta S,Ng V.Mine the Easy,Classify the Hard:a Semi-Supervised Approach to Automatic Sentiment Classification[C].Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:701-709.
[8]Sindhwani V,Melville P.Document-Word Co-Regularization for Semi-Supervised Sentiment Analysis[C].2008 Eighth IEEE International Conference on Data Mining.IEEE,2008:1025-1030.
[9]Zhou S,Chen Q,Wang X.Active Deep Networks for Semi-Supervised Sentiment Classification[C].Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1515-1523.
[10]Turney P D.Thumbs up or Thumbs Down:Semantic Orientation Applied to Unsupervised Classification of Reviews[C].Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2002:417-424.
[11]Weichselbraun A,Gindl S,Scharl A.Extracting and Grounding Context-Aware Sentiment Lexicons[J].IEEE Intelligent Systems,2013,28(2):39-46.
[12]Socher R,Perelygin A,Wu J Y,et al.Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank[C].Proceed
ings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).2013,1631:1642.
[13]Hu Y,Lu R,Li X,et al.Research on Language Modeling Based Sentiment Classification of Text[J].Journal of Computer Research& Development,2007,44(9):1469-1475.
[14]Go A,Bhayani R,Huang L.Twitter Sentiment Classification Using Distant Supervision[J].CS224N Project Report,Stanford,2009,1:12.
[15]吳瓊,劉悅,沈華偉,等.面向跨領域情感分類的統一框架[J].計算機研究與發展,2013,50(8):1683-1689.
[16]Deschacht K,Moens M F.Semi-Supervised Semantic Role Labeling Using the Latent Words Language Model[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing:Volume 1-Volume 1.Association for Computational Linguistics,2009:21-29.
[17]Glorot X,Bordes A,Bengio Y.Domain Adaptation for Large-Scale Sentiment Classification:A Deep Learning Approach[C].Proceedings of the 28th International Conference on Machine Learning(ICML-11).2011:513-520.
Sentiment Classification;Sentiment Analysis;Evaluation Index;Feature Selection
Overview of Sentiment Classification
LI Chao-nan
(College of Computer Science,Sichuan University,Chengdu 610065)
With the popularity of e-commerce and social media tools,Internet is full of extremely abundant source of information.Businessman,government staff and academia realized the great value of these data,which many researchers have begun to extract information from these data.Sentiment classification attract the attention of researchers,because the effective sentiment analysis can guide consumption,help to developing new products and monitoring public opinion and so on.Introduces the machine learning methods and key problems of the sentiment classification,and gives a summary to the research progress of the sentiment classification.
1007-1423(2016)29-0041-04
10.3969/j.issn.1007-1423.2016.29.009
李超男(1991-),女,河南濮陽人,研究生碩士,研究方向為數據挖掘
2016-07-12
2016-10-10