徐小龍
摘要:隨著互聯網技術的普及與應用,微博類社交媒體吸引了大量的用戶,每天產生大量的文本信息,包括用戶身邊各類事件的報道、表達觀點、記錄個人心情等信息。對中文文本的分析研究具有重要的理論及應用價值。其中,情感分析是中文文本分析的一項重要的研究方向。然而,目前英文的情感分析方法得到了較大發展,由于中文與英文在詞法、句法等方面存在較大差異,英文情感分析的方法應用于中文情感分析取得的效果并不理想。該文意在研究目前中文文本情感分析的方法及研究現狀,總結中文情感分析的發展趨勢。
關鍵詞:主觀性判定;情感分析;機器學習;情感字典
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)02-0149-03
A Review of Sentiment Analysis of Chinese Text
XU Xiao-long
(School of Software Engineering,Tongji University, Shanghai 201800, China)
Abstract: With the popularization and application of Internet technology, Weibo media social media has attracted a large number of users, generating a large amount of textual information every day, including the coverage of various types of events around users, expressing opinions and recording personal feelings and other information. The analysis of Chinese texts has important theoretical and practical value. Emotional analysis is an important research direction in Chinese text analysis. However, at present, the method of emotion analysis in English has been greatly developed. Due to the great differences between Chinese and English in lexical and syntactic aspects, the effect of the method of English emotional analysis applied to Chinese emotion analysis is not satisfactory. This article aims to study the current Chinese text emotion analysis methods and research status, summarizes the development trend of Chinese emotion analysis.
Key words: Subjectivity Identification; Sentiment Analysis; Machine Learning; Sentiment Lexica
1 背景
隨著互聯網技術在日常生活中多方面的滲透以及移動智能終端廣泛普及,新浪微博、電子商務平臺等熱門互聯網應用吸引了大量的用戶,每天會有大量用戶在微博平臺產生海量的用戶數據,包括個人發表的觀點、發布的身邊事件、記錄的用戶心情等各類數據信息,面對如此海量的數據采用人工處理的方式采集分析出有價值的數據是一件人員成本、時間成本很高的任務,甚至是不可能通過人工方式完成的任務。通過機器自動獲取、并處理海量的文本數據能夠輔助數據分析人員研究例如影評,商品評價就是一類蘊含巨大商業價值的用戶數據。情感分析是文本分析的一個重要研究方向。 情感分析是一個自然語言處理的集合研究,它包括很多子問題,例如“概念提取”、“主觀性提取”、“命名實體抽取”、“諷刺手法辨識”等。針對英文文本的情感分析進行了大量的研究,并取得了一定程度的研究成果,值得注意的是近年來,越來越多的研究人員針對中文的情感分析問題進行了大量的研究[1-5]。目前中文文本情感分析主要分為兩大類方法,一類是直接針對中文文本進行處理分析,另一類是使用機器翻譯工具將中文翻譯成英文,然后采用針對英文的分析方法進行分析。本文主要討論的方法是針對基于第一類方法的文本分析方法。
1.1 情感分析
“情感”在中文語境下,包括態度、意見、感覺和情緒等幾個方面的定義。情感分析目標的不同分為單詞層次、句子層次及文檔層次,本文主要關注的文檔層次的情感分析問題。情感分析問題可以認為是確定感情分類(積極情感或消極情感)、或者為文本標注情感標簽(憤怒、喜悅、悲傷等)的問題。
目前情感分析的重點還是在于情感極性的判斷。中文語言不同于英文的一些特性,導致中文文本的情感分類也有別于英文情感分類。中文不同于英文的最明顯的特征是字與字之間沒有空格分隔,一段中文文本就是又一批等距的單字組成;其次是許多中文單詞是由多個單字組成的,分開或者組合錯誤就會失去原有的意義,因此在分析中文文本之前需要進行分詞處理。另一個重要的區別是中文的句法結構跟英文存在較大的差異。在進行文本情感極性分類時,無論采用那類情感極性判斷方法,都需要用依賴于中文情感語料庫或中文情感詞典。
1.2 語料庫與情感詞典endprint
情感標注語料庫與情感詞典看似相似,實際上是兩種不同的語言表達結構。在情感分析中的應用對應了兩類不同的分析方法,標注情感的語料庫一般應用于基于機器學習方法中,而情感詞典一般應用于常識的情感分析方法依賴于情感詞典。
語料庫是文本的集合,其中不僅包含單詞或詞匯,還包含了其他可以表征目標語言特性的表達形式,例如真實的篇章等,而且一般是機器可讀的形式保存在計算機中。在基于機器學習的情感分類中,包含了大量的情感表達的語料庫是訓練情感分類器的重要保障。由于目前缺乏標注良好龐大的中文語料庫,因而影響了中文情感分析的研究。因此,有大量語言學研究者從事了中文語料庫的研究相關工作,試圖擴展及改進現有的中文語料庫, Li C, Bo X,等人采用深度學習算法對13550條影評數據進行了標注[6]。
與基于語料庫的情感分析方法不同,基于情感詞典方法的情感分析方法更加直接。情感詞典是可以表達主觀感受、情感或者意見的詞匯或短語的集合。根據情感詞典的標注信息的不同,可以分為三類。一類是只包含情感詞的詞典(NELL),第二類是包含情感詞和情感詞的情感極性信息的詞典(NTUSD、HowNet),第三類是包含情感詞和情感詞情感極性值的詞典(Senti Word Net)。然而,不同于英語語言,中文單詞多具有語義和語法歧義,因此不容易簡單地確定情感詞的極性,導致可用的中文情感詞典也是有限的,限制了中文的情感分析的研究。因此,構建中文情感詞典在中文情感研究中占有重要意義。構建中文情感詞典的方式大致可以歸納為三種,一種是通過手工方式構建,但需要花費大量的人力物力;另一種是基于詞典的方式,從一個較小的情感詞集合,在詞典中尋找它們的近義詞和反義詞,然后逐漸擴充情感詞典的包含的情感詞集合;第三種構建情感詞典的方式是基于語料庫的方式,該方式又有兩種方法,一種是根據某個領域語料庫中部分詞匯的情感極性,可以通過語料庫計算出其他詞匯的情感極性,從而達到構建情感詞典的目標;另一種方法是將一個普適的情感詞典利用特定領域的情感分類器調整為一個特定領域的情感詞典。
1.3 情感分析方法總結
中文情感分析的第一步是要對文本進行分詞處理,然后根據后續采用方法不同可以將中文情感分析的方法總結為兩類,如圖1所示,一類是基于機器學習算法的分析方式;另一種是基于先驗知識的方式。基于機器學習的方式,將中文情感分析的問題,轉化成判別文本情感類別的二或多分類問題(積極情緒、消極情緒);基于先驗知識的方式,采用情感詞典進行分析,利用情感詞典中標注的單詞或短語的清晰來標注文本中出現的情感詞的極性,然后根據一定的計算公式(例如,代數求和)得到文本的最終情感極性。
2 基于機器學習的情感分類方法
基于機器學習算法的情感分析通常采用有監督分類器算法進行情感分析,該方法不需要預先定義語義規則,但需要用到良好標注的情感語料庫用來訓練分類模型。
2.1 基于監督機器學習算法的流程
基于機器學習的情感分析方法的一般流程分成分類器模型訓練階段和分類器驗證與應用階段,如圖2所示,在模型訓練階段,在完成文本預處理后,首先提取文本的詞匯特征、語法特征以及語義等征,例如否定詞提取、詞性標注、n-gram特征(單元gram、二元Gram);接下來,運用語料庫文本數據訓練分類器模型,常用的分類算法有樸素貝葉斯(NB)、支持向量(SVM)、多層神經網絡等。訓練模型完成后,在待分析文本上應用訓練好的分類器應,可以得到文本的情感分類信息。
2.2 基于機器學習的情感分析研究方向
機器學習算法在處理分類問題上具有優異的處理能力,因此被普遍用來解決文本情感分類問題。以往的研究工作主要集中在三個研究方向。1)提取更加有效的特征,該研究方向解決兩類問題,一類是通過提取更復雜的特征來達到比簡單的特征更高的分類效果;另一個問題是判斷哪些特征對最終分類更有價值。Zhai等人在自己的研究中,指出除了一些簡單特征(ngarm),情感詞、子句以及一些子句組合也可以用來提取特征[7]。 蘇等人在自己的研究中考慮了語義特征,采用神經網絡學習單詞的向量表示,最終應用SVM進行文本情感分類,最終情感分類準確率達到90%。2)研究更加有效的模型,例如李等人提出一種新穎的遞歸神經深度模型(RNDM),可以基于遞歸深度學習算法預測情感信息,該模型關注于用句子層次的情感二分類問題,性能比樸素貝葉斯(NB)、支持向量更加優良[6]。3)第三個研究方向是研究者試圖采用新的適用于中文情感分類的機器學習方法,例如高等人[10],提出了一種基于聚類算法的中文情感分析方法。從微博等中文文本中提取出情感詞序列,利用最大公共情感序列長度計算兩兩情感序列間的距離,最后采用k-medoids聚類算法將不同的文本按照情感進行聚類,該算法不需要標記訓練樣本并針對短文本具有較好的處理效果,但該方法對預處理的分詞準確度比較敏感。
3基于情感詞的情感分析
除基于機器學習的情感分類方法外,另一類稱為基于情感詞的無監督方法。針對預處理分詞后得到的單詞序列,有兩種不同的處理方式,
第一種方式是最簡單直接的代數運算分析方式,即將文檔分詞處理后的結果,逐個詞在情感詞典查找對應的情感極性值,然后將所有的值進行求和。如果最終結果大于零,則文檔情感極性為積極的,否則,為消極情感。第二種處理方式,會考慮語言的語法規格等,采用更復雜的分析模型。
為了獲得更好的分類效果,第二類分析方式是研究者關注的重點。例如,采用位置索引敏感的算法計算每個分詞的情感傾向,然后計算各位置情感傾向值的平均值作為最終的情感傾向。此外,Zagibalov等人提出一種不依賴任何標注訓練樣本僅僅需要輸入少量常用情感詞和副詞[8],該方法在識別語句級別情感的效果能達到監督分類器的效果。該研究中將情感的情感分析和主客觀判斷作為連續的問題討論而非一個分類問題。由于中文詞匯具有歧義性,許多研究工作集中在判斷中文的隱喻。李等人提出中文情感的多意思及判別強度服從正態分布,因此提出基于正態分布的中文情感詞的語義判斷的量化分析方法。endprint
到目前為止,我們已經看到了中文的情感分析研究將基本組件限制在單字或單詞級別。即使先進的算法(基于機器學習的或基于情感詞典的)取得了較好的判別效果,然而字或詞級別的分析可能不能夠推理出真實的情感。基于概念級別的情感分析需要研究人員更多的關注,有研究證明概念層次的情感分析更能夠接近文本背后的真實情感,這跟我們的知識世界是由大量概念之間關聯組成的不無關系。圖3[9]表明,自然語言的研究正在逐漸從基于詞匯語義分析發展到基于詞組語義分析。目前位置,中文的情感分析研究工作中還沒有基于概念層次的工作。
4 結束語
隨著國內電子商務、社交網絡的發展,每天產生海量的用戶數據。如此海量的數據靠手動的分析處理幾乎是一項不可能完成的工作。準確高效地識別這些文本中蘊含的用戶情感對于企業、政府部門都具有重大價值。基于英文的情感分析方法已經取得了較大的發展,但是由于中文與英文在語言特性上的差異,針對英文的情感分析方法并不能直接遷移到針對中文的情感分析中。
通過本文對以往針對中文情感分析方法的總結發現,目前針對中文的情感分析中沒有充分應用文本中的包含的概念層次知識。
參考文獻:
[1] Zhao Y, Qin B, Liu T. Creating a fine-grained corpus for chinesesentiment analysis[J]. IEEE Intell Syst., 2014, 30(5):36-43.
[2] Liu L, Lei M, Wang H. Combining domain-specific sentimentlexicon with hownet for chinese sentiment analysis[J]. J Comput.2013, 8(4):878-83.
[3] Zengcai S, Hua X, Zhang D, et al. Chinese sentimentclassification using a neural network tool - word2vec[C]// 2014.
International conference on multisensor fusion and informationintegration for intelligent systems (MFI). IEEE, 2014: 1-6.
[4] Li R, Shi S, Huang H, Chao S, et al. A method ofpolarity computation of chinese sentiment words Based on Gaussiandistribution[C]// Computational linguistics and intelligent textprocessing. Springer, 2014: 53-61.
[5] Zhuo S, Xing W, Luo X. Chinese text sentiment analysis basedon fuzzy semantic model[C]// 2014 IEEE 13th International conferenceon cognitive informatics & cognitive computing (ICCI*CC). IEEE, 2014: 535-540.
[6] Li C, Bo X, Gaowei W, He S, et al. Recursive deeplearning for sentiment analysis over social data[C]// Proceedings of the 2014 IEEE/WIC/ACM international joint conferences on web intelligence (WI) and intelligent agent technologies (IAT)-volume 02. IEEE Computer Society, 2014: 180-185.
[7] Zhai Z, Hua X, Kang B, et al. Exploiting effective featuresfor chinese sentiment classification[J]. Expert Syst Appl.2011, 38(8):9139-46.
[8] Zagibalov T, Carroll J. Unsupervised classification of sentimentand objectivity in chinese text[C]//Third international jointconference on natural language processing, p. 304. 2008.
[9] Cambria E, White B. Jumping nlp curves: a review of naturallanguage processing research[J]. IEEE Comput Intell Mag.,2014, 9(2):48-57.
[10] Wei G, An H, Dong T,et al. A novel micro-blog sentimentanalysis approach by longest common sequence and k-medoids[C].PACIS, 2014: 38. .endprint