宋繼紅+葛達明
摘 要:微博作為一種用戶發表看法和觀點的載體已成為互聯網上一個重要的情感交流平臺,博文搜索為這種交流提供了方便快捷的途徑。基于HowNet等中文情感詞典的微博情感詞的抽取和分類,計算詞語語義相似度和傾向性。對文本情感傾向的加權值、表情、和情感詞增強因素等進行綜合考慮。實驗結果表明表情情感傾向對微博情感傾向起著重要作用;在表情和文本情感傾向比值固定的情況下,調整因素和中性區間的選擇會對情感傾向判斷準確率產生影響;通過與基于HowNet語義相似度的計算模型比較,該文方法使得情感傾向判斷準確率有所提高。
關鍵詞:情感提取;情感分析;微博文本
中圖分類號:TP399 文獻標識碼:A
1 引言(Introduction)
微博文本中往往包含了大量的文本作者對于某事件的情感,例如對微博文本、時事的態度、意見、評價等,研究如何高效的對輿論信息進行情感挖掘與趨勢分析,從而更好地分析網民群體的行為規律。通過分析,能夠實現對網絡流行事件或突發事件的快速分析,對于政府機構輿情分析、企業市場決策、消費行為分析等方面具有重要意義。當前,主要有兩大類針對情感分析的方法,分別是基于語義的方法與基于機器學習的方法[1]。一個詞匯的語義傾向是指通過對微博文本個體詞匯褒貶度進行分析得到的度量值,取值區間為±1。微博文本的情感傾向值最終通過匯總組合個體詞匯的情感傾向度量值得到[2]。基于機器學習的情感分析方法的思路是構造一個分類器,并使用已分類的訓練集來訓練這一分類器,研究重點在于如何提高訓練效果[3]與獲得高質量的訓練集[4]。
中文微博的情感分析一般可以分為三個步驟。第一步為微博語料的收集和預處理;第二步根據給定的規則從微博文本中抽取出情感詞并且標注情感詞極性;第三步依據情感傾向值計算方法,對微博文本進行傾向性計算,得出整體情感傾向值。微博情感分析工作的主要流程如圖1所示。
圖1 中文微博情感分析工作流程圖
Fig.1 Flow chart of Chinese micro-blog
emotion analysis
2 微博語料的收集和文本預處理(Collection and
text pretreatment of micro-blogging corpus)
微博語料的獲取途徑主要有通過互聯網上提供的語料庫獲得和通過微博爬蟲程序或網站應用程序編程接口(API)函數獲取三種方式[5]。互聯網上提供的微博語料數量大質量優,但因需要經過收集整理再發布的過程,往往難以獲得最新的數據。基于微博的爬蟲程序不同于傳統的爬蟲程序依靠超鏈接關系而是通過節點之間的社交關系來獲取整個微博的網絡數據。單獨采用微博爬蟲程序往往會在局部陷入深度優先搜索,難以采集到大范圍的微博數據[6]。大多數網站都加入了反機器人機制如驗證碼、驗證滑塊等,進一步增加了爬蟲程序獲取數據的難度;多數微博平臺都提供了使用API接口訪問的功能,但在實際使用過程中常常受到諸多限制,因此本文采用三者結合的方法進行語料收集。
文本預處理主要使用自然語言處理技術對微博文本進行分詞與詞性標注[7]。國內對于自然語言處理技術的研究由來已久,目前已比較成熟。本文采用中國科學院計算技術研究所的漢語詞法分析系統(ICTCLAS)作為詞法分析器,該系統歷經多次內核升級,分詞速度與精度均處于國內一流水平。
3 微博情感分類抽取和標注(The extraction and labeling
of micro-blogging emotional classification)
3.1 文本表情處理
中文微博網站提供了豐富的表情符號,借助這些符號,可以比較容易地將微博分為主觀性文本和客觀性文本,從而使得分析結果更加精確。主觀性文本的情感傾向又分為積極和消極兩類,客觀性文本的情感傾向為中性。本文對表情強度采取了人工標注強度的方法。強度值為(0,1)之間代表正向情感表情,消強度值為(-1,0)之間代表負向情感表情,強度值為0表示中性表情。下表列舉了一些具有代表性的正向、負向和中性表情,如表1所示。
3.2 微博文本情感詞典構建
現有的中文情感詞典較少,比較成熟的有臺灣大學簡體情感詞典(NTUSD)[8]和知網(HowNet)中文情感詞典[9]。本文對NTUSD、HowNet、情感詞匯本體庫和中文褒貶意詞典等詞典進行整理、去重,同時加入搜狗實驗室提供的互聯網詞庫,擴充網絡流行語。加入了程度副詞和否定詞,整理后的情感詞典包括正向情感詞4800個、負向情感詞6200個。
與基于句子的情感分析不同,微博文本段落的情感分析與判斷對情感詞典提出了更高的要求。對情感詞和程度副詞賦予權重,從而定量地度量文本傾向性可以提升文本情感的準確性。情感詞的強度劃分在(-1,1),分別用(0,1)和(-1,0)代表正面情感詞語的權重和負面情感詞語的權重;程度副詞的權重劃分在(0.2,1.2),按照強度由強到弱劃分為5級,如表2所示。若出現多個程度副詞修飾一個詞語的情況,則多個程度副詞的綜合權重為所有程度副詞權重之乘積。
4 基于文本和表情的情感計算方法(Emotional
computing method based on text and emotion)
基于表情的微博情感分析可以使用五元組Q(A,S,F,E,T)表示,其中A、S、F、E、T分別表示程度副詞、情感傾向、表情情感傾向、增強因子與發表的時間。其中發表時間T對于微博情感分析結果影響可以忽略不計,特將五元組簡化為四元組Q(A,S,F,E)。微博情感值的計算過程從而可以轉換為從微博文本中抽取出程度副詞、情感傾向、表情情感傾向、增強因子并對其進行處理的過程。
微博文本的情感傾向由表情和文本的情感兩部分組成,微博文本的情感傾向值可以通過對這兩部分的情感傾向值加權處理來得出。
(1)
其中,Q(P)、Q(PS)、Q(PT)分別為微博總體的情感傾向值、微博表情的情感傾向值,以及微博文s本的情感傾向值。其中λ為變量,取值區間為(0,1),代表總體情感傾向值中表情與文本情感傾向所占的比重。
微博表情的情感傾向值可根據如公式(2)得到:
(2)
其中,Q(psi)為微博文本中第i個表情的情感強度。
使用HowNet提供的詞匯語義相似度計算工具計算義原之間的相似度,可以得到詞語之間的相似程度。進而計算出詞語的情感傾向,最終計算出微博文本的情感傾向值Q(PT)。對于兩個漢語詞語W1和W2,如果W1有n個義項:x1,x2,…,xn;W2有m個義項:y1,y2,…,ym,則規定W1和W2的相似度為各義項相似度之最大值,即
(3)
義原相似度的計算公式為
(4)
其中,α為變量,取值區間為(0,+∞);d(xi,yj)表示義原xi和義原yj的義原距離,由詞匯語義相似度計算工具得出。一般地對于一個不在情感詞典中的詞語,其情感傾向值可以通過對比其與情感詞典中的詞之間的距離得到。具體計算方法為:將詞語W分別與正面和負面情感詞典中的每個種子詞進行比較得到其正、負面情感傾向值,再通過比較其與正負向情感值之間的均差,得出其情感傾向值。某個詞語W的情感傾向值可以通過下式計算得出
(5)
其中,Pi、Nj分別表示情感詞典中的一個正向情感種子詞與一個負向情感種子詞。
對于得到的情感傾向值,可以應用程度副詞和否定詞對其進行修正,經過修正后Q(W)的計算公式為
(6)
其中,Mn與Ma分別表示否定詞權重與程度副詞權重,,Ni為第i個否定詞的極性權重,,Ai代表情感詞典中第i個程度副詞的權重。
對一個語句中多個情感詞傾向值進行累加可以得到整個語句的情感傾向值Q(W),而對構成微博文本的多條語句的情感傾向值求和可以得出微博文本的總體情感傾向值Q(PT),計算公式如下
(7)
微博情感傾向Q(P)的最終計算公式由表情和文本的情感兩部分組成,公式為
5 實驗結果與分析(Experimental results and
analysis)
實驗目的是對測試集中的每條文本賦予一個情感傾向值來代表文本的褒貶意程度,文本的情感傾向值由其中包含的情感詞的情感值相加得到。情感傾向值判斷準確率=判斷正確的文本數與測試集總文本數之比。實驗數據來源于微博搜索與搜狗實驗室提供的互聯網語料庫數據,樣本集中共計含有微博文本5000余條,其中正向、負向、中性文本數量分別為1500條、2000條、1200條。對測試數據進行比對分析,同時考慮微博表情符號、程度副詞和反向詞的影響因素對文本進行加權處理,得到的實驗結果如圖2所示,P代表分析準確率。
分析圖中的折線數據中可以得出,λ使正面情感與負面情感的分析準確率表現均較好的區間為(0.4,0.5)。表3給出了當λ=0.4時程度副詞與否定詞等增強因素加權前后對正面情感,以及負面情感的分析準確率對照情況。可以看出,當λ取值區間為(±0.2,±0.8)時,加權后的判斷準確率與加權之前均有提升,無論是正向情感還是負向情感,當λ=±0.4準確率達到最大值。超過±0.4后判斷準確雖也有提升,但是幅度不及之前。同時,負面情感傾向的判斷準確率要明顯高于正面情感傾向的判斷準確率,其主要原因可能是受情感字典中正向與負向詞語數量不同和文本樣本空間中正向與負向文本的比例不同的影響。其中Pqz、Phz分別為加權修正前后正面情感判斷準確率,Pqf、Phf分別為判斷準確率以及加權修正后負面情感判斷準確率。
6 結論(Conclusion)
本文方法通過對NTUSD、HowNet、情感詞匯本體庫和中文褒貶意詞典進行整理,基于HowNet的義原情感判別,加入程度副詞和表情,以及否定詞對文本情感的影響。實驗結果顯示程度副詞與表情傾向對微博文本情感傾向起著至關重要的作用,當λ參數取值一定時,情感值傾向判斷的準確率會
受到中性區間的影響。
參考文獻(References)
[1] Zhang L,et al.Sentiment Analysis Based on Light Reviews.Ruan Jian Xue Bao/Journal of Software,2014,25(12):2790-2807.
[2] Wang Wei,et al.Extraction of Comparative Elements Using Conditional Random Fields.Acta Automatica Sinica,2015,41(8):1385-1393.
[3] Riloff E,Wiebe J.Learning Extraction Patterns for Subjective Expressions[A].Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP-03)[C].Sapporo,Japan:EMNLP,2003:105-112.
[4] Seyed Ali Bahrainian Andreas Dengel.Sentiment Analysis of Texts by Capturing Underlying Sentiment Patterns[J].Web Intelligence and Agent Systems,2015(13):53-68.
[5] 李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計算機應用研究,2015,32(4):978-981.
[6] Anna Stavrianou,Caroline Brun.Expert Recommendations Based on Opinion Mining of User-Generated Product Reviews[J].Computational Intelligence,2015(31):165-183.
[7] 李清敏.面向微博情感分析的本體自動抽取關鍵技術研究[D].北京:首都師范大學,2014.
[8] 李揚,潘泉.基于段文本情感分析的敏感信息識別[J].西安交通大學學報,2016,50(9):80-84.
[9] Neviarouskaya Alena,Prendinger Helmut.Attitude Sensing in Text Based on a Compositional Linguistic Approach[J].Computational Intelligence,2015,2(31):256-300.
作者簡介:
宋繼紅(1963-),女,碩士,副教授.研究領域:計算機網絡通
信,計算機網絡遠程控制,嵌入式技術.
葛達明(1990-),男,碩士生.研究領域:智能信息處理.