李雪紅 郭 暉 閆泓濤
(1.海軍大連艦艇學院訓練部 大連 116000)(2.海軍工程大學電子工程學院 武漢 430033)
基于改進依存句法的微博情感分析研究*
李雪紅1郭 暉2閆泓濤2
(1.海軍大連艦艇學院訓練部 大連 116000)(2.海軍工程大學電子工程學院 武漢 430033)
分析微博情感傾向分析重要意義,針對微博文本特點,提出一種改進依存句法分析算法進行情感傾向分析。改進算法通過引入表情、標點等符號詞的感情極性分析,采用基于中心情感詞的語法距離分析詞語情感極性,通過實例研究發現改進算法在微博情感傾向分析中效果明顯。
情感傾向分析; 依存句法分析; 中心情感詞; 微博
Class Number TP309.7
微博(Micro Blog)是一種通過Web、WAP及其他客戶端,基于用戶關系的信息分享、信息傳播和信息獲取的一種集成化、開放化社交服務平臺[1]。用戶通過簡短的文字、圖片、鏈接等發布發表自己的心情、狀態以及各類話題,由于微博便利快捷的特點,微博用戶及其發布量急速增長。微博國外最早代表是2006年開設的Twitter網站,全球已擁有5.17億注冊用戶,其中1.4億活躍用戶。中國在2009年開設了新浪微博,目前用戶達到5.03億,活躍用戶4600萬。2010年中國互聯網輿情報告指出,微博成為網絡輿論主要載體[2]。
大量微博用戶發布的文本信息包含了用戶的情緒情感。研究微博中情感傾向分析在商業產品評論、垃圾郵件過濾等領域有著廣泛應用,特別是有助于輿情監控、輿情發現、輿論引導等工作實現[3],從而有效進行社會情緒疏導,及時避免盲目群體事件發生和惡化,具有很強的社會意義。
情感傾向分析是按照文本表達的情感傾向性對文本進行分析[4]。本文在研究微博文本特點基礎上,分析當前文本情感傾向分析基本方法,提出了一種改進的依存句法算法對微博進行情感分析,通過語句的依存句法結構確定中心情感詞,再根據依存關系和語法結構距離研究微博中包括句子結構詞、表情和標點符號在內情感特征詞的情感傾向值,最后確定整個文本句子的情感傾向。
2.1 微博文本特點
微博作為一種新興的互聯網信息交互平臺,用戶以140字左右的文字更新消息,并實現即時分享,同時與手機短信、社交網站和博客等多種互聯網交互平臺和方式互通聯系。這里主要研究以文本為主體信息的微博,微博文本信息主要包括以下幾個特點:
1) 文本長度短,結構不規范。微博文本長度一般限制在140字左右,且句子結構隨意性大。
2) 表述方式內容不規范。微博大量采用網絡語言,表情符號等,且對于標點符號、成語等沒有規范使用。
3) 話題交互性強。微博很多都是針對某話題或主題的評論,要結合上下文進行系統分析。
2.2 文本情感分析基本方法
文本情感分析主要任務就是根據文本來判斷作者的情感傾向,主要利用底層情感信息抽取的結果將情感文本單元分為若干類別,如分為褒貶,喜悲等對立兩類或更為細致的感情類別(如喜怒哀樂等),并進行分析歸納。文獻[5]最早給出了情感分析的概念,文獻[6]針對中文的文本情感分析的任務、內容和主要技術進行描述。
文本情感分析可分為三個研究層次,即情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納。情感信息抽取是抽取情感文本中有價值的情感信息,是情感分析的基礎任務,為后續文本情感分析提供數據基礎;情感信息分類主要包括主客觀信息的二元分類和主觀信息的情感分類,同時還包括觀點分類;情感信息的檢索和歸納是用戶交互任務,前者是為用戶檢索出主題相關且包含情感信息的文檔,后者是針對大量主題相關的情感文檔,自動分析和歸納整理出情感分析結果。
文本情感分析按照處理文本的粒度不同可以分為詞語級,語句級和篇章級;按照不同分析目的,可以分為主客觀分析和主觀分析,前者主要研究作者對客觀事物的褒貶評價,后者則主要研究作者自身的喜怒感受;按照分析內容的不同,可分為對新聞事件的情感分析和對商品評價的情感分析;按照技術處理手段可分為基于詞典的情感分析和基于機器學習的情感分析,前者主要是利用基礎情感詞典對文本中詞語進行情感分析,后者則是利用SVM方法、神經網絡、樸素貝葉斯等分類器進行文本情感分析;按照有無人工參與可分為無監督分類方法和有監督分類方法,主要區別在于是否需要人工詞語情感標注。
結合微博文本的長度較短,結構不規范,中文語法結構復雜等特點,針對現行文本情感分析方法在微博文本情感分析上的不足和欠缺,針對性提出了改進依存句法分析算法,采用語句級基于詞典的改進依存句法分析(Improved Chinese Dependency Parsing,ICDP),算法主要改進在于圍繞中心情感詞分析進行依存句法分析情感傾向。
本文提出一種基于改進中文依存句法算法來進行微博文本情感分析,基于情感詞典給出情感值,分析句法結構確定中心情感詞,從句法結構和與中心詞距離研究句中各類詞、表情及標點符號的情感值,最后對微博文本進行情感傾向歸一化求平均得到文本情感傾向。
3.1 依存句法分析算法
句法分析是根據給定的語法體系,自動推導出句子的句法結構,分析句子包含的句法單元及其之間關系,并轉化為結構化的句法分析樹[7]。中文文本的句法分析是基于漢語這一表意型語系的,其書寫形式和句子結構相對英語更加復雜,要先進行句子分詞和詞性判定。文獻[8~9]分別對中文自動分詞技術和無監督詞性標注技術進行了研究。
依存句法分析是一種基于規則的句法分析方法。基于規則句法分析是由人工組織語法規則,建立語法知識庫,通過條件約束和檢查來實現句法結構建立,完成分析樹。分為三種基本類型:自頂向下,自底向上和兩者結合的方法。文獻[10]指出兩者結合的算法在理論上最接近人實現句法分析的過程,最具有心理語言學的價值。
依存句法分析使用的語法體系包括短語結構語法和依存語法,其中依存語法是用詞與詞之間的依存關系來描述語言結構,也叫從屬關系語法,該方法是法國語言學家Tesniere于1959年提出,認為結構語法可概括為關聯、組合和轉位三大核心,從而建立起支配詞和從屬詞聯結而成的從屬關系。
采用哈爾濱工業大學研究的LTP平臺依存句法分析器確立的24種依存關系[11],如表1所示。
在依存語法理論中,依存是指詞與詞之間的支配與被支配關系,這種關系是不對等,有方向的,處于支配地位的為支配詞,被支配地位的為從屬詞,依存關系用有向弧表示為依存弧,方向由支配詞指向從屬詞,依存弧上標記依存關系符號。例如對語句“武漢是座很美麗的城市!”的結構分類如圖1所示。

表1 依存關系符號表

圖1 依存句法分析實例圖
目前國內針對中文文本的依存句法分析算法一般采用兩類方法,一是中心情感詞分析,通過情感強度來確定中心情感詞,分析該詞情感極性得到句子情感傾向;二是句法分析,通過對句子中帶情感的形容詞、名詞等進行情感分析,根據對其進行修飾詞的文本距離等進行情感強化或弱化修飾。這些方法主要存在以下問題:一是中心情感詞選擇按照情感強度進行,沒有對文中所有帶情感詞及句子的句法結構進行分析;二是簡單的將修飾詞對中心詞的情感修飾強度用文本長度衡量,忽略了文本結構長度;三是對文本中新興的帶有網絡特點的標點、符號等的情感研究重視不夠。
3.2 改進的依存句法分析
由于微博文本的語言結構不規范和標點、表情等符號語言廣泛使用,一般分析方法不能滿足高標準情感傾向分析要求。針對微博文本特性和當前分析方法的不足,本文研究一種改進的依存句法分析,該算法步驟和采用的主要技術為
1) 句子分詞和詞性判定。將分析對象劃分為若干詞語并對詞語性質如名詞、動詞、形容詞等進行判定。
2) 詞語極性計算。主要基于情感詞典,如HowNet詞典對詞語進行情感極性判定,確定句中支配詞的正負、褒貶信息。
3) 分析語句句法結構。采用依存句法分析得到語句的結構分析樹。
4) 計算修飾詞極性。對句中形容詞、副詞等從屬詞通過結構分析樹計算其情感極性。
5) 計算語句情感傾向。對文本中各語句進行分析,按照句間關系詞通過歸一化平均處理等方法確定文本情感傾向。
改進算法針對現有依存句法分析算法在三個方面進行改進:
1) 增加了對標點、表情等符號詞語的情感極性分析。
2) 由常規的對各詞的情感極性計算改進為確定中心情感詞,結合句法分析結構設計的所有情感詞進行計算。
3) 增加結合情感修飾詞與中心情感詞的語法結構距離分析其情感極性。
3.2.1 符號詞的極性分析
本文中提及的符號詞主要包括表情符號和標點符號,表情符號大部分是由標點符號與字母組合而成的,如“:D”表示笑臉等。對于表情符號,通過分析不同微博應用平臺中表情符號的含義,通過機器學習等方法得到表情符號感情極性值Ee,并將這些值記錄在新建的情感詞典中;對于標點符號,通過分析不同語態,如感嘆句,疑問句,反問句等對感嘆號,問號等分析其對語句情感的影響作用λi。
假設文本初始情感極性值或傾向值為Ei,表情符號感情極性值Ee,標點符號對語句情感的影響作用λi,那么考慮符號詞后的句子情感傾向值Ef為
Ef=(Ei+Ee)·λi
3.2.2 分析結構確定中心情感詞
在文本句子分析中通過分析句子結構,特別是對長句的句間結構分析,得到句子的中心情感詞,即表達句子情感的核心詞。核心詞根據依存句法中依存弧確定,當一個詞不是句子中任何詞的從屬詞時,即該詞的依存弧入度為零時,即認為該詞為句子的核心詞HED。
根據句子核心詞HED確定中心情感詞的一般步驟為
1) 根據句子核心詞HED,尋找HED下一個依存關系詞。
2) 判斷依存關系詞是否為形容詞或名詞,否則繼續步驟1)。
3) 根據情感詞典判定是否為情感詞,否則繼續步驟1),直到尋找到情感詞Wm。
4) 當依存關系為獨立分句IC或依存分句DC時,將依存關系IC、DC的從屬詞作為分句的核心詞繼續步驟1),確定分句的情感詞Wh。
5) 根據分句間關系結構詞確定主從句關系,根據主從句首連詞確定主從句的從屬關系,進而確定從句相對主句的情感相對傾向度比重λh。
那么考慮主從句關系,整個句子的情感極性值Eh為
Eh=E(W1)+E(W2)·λ2h+…+E(Wi)·λih
E(W1)、E(Wi)分別為以主句和第i個從句以W1和Wi為中心情感詞計算的情感傾向值,λh為主從句情感傾向比重,中文語系中主從句的8種基本關系[12]的情感相對比重,按照平鋪陳述句的情感比重為1,依據層次分析法按主從關系的相對情感比較,從而得到8種基本關系情感比重如表2所示。

表2 主從句關系及其情感比重
3.2.3 詞語語法距離的情感分析
詞語的語法距離主要研究在依存句法分析背景下,這種距離是區別于常規的詞語間字數長度距離的,主要考慮樹中兩個詞先后檢索到達的順序差絕對值。這里重點研究副詞針對中心情感詞的語法距離,對于不同類型的依存結構關系賦予不同的語法距離,例如對于“的”字結構DE關系,由于“的”字在ADV結構中可忽略,其語法距離為0,獨立分句IC關系其分句中詞語情感主要基于分句中心情感詞分析,其距離為無窮大。通過對不同依存關系分析,關系對應的語法距離如表3所示。

表3 依存關系的語法距離
根據依存關系分析樹結構,句中兩個詞有且僅有一條可達路徑,那么計算句子中某個詞與中心情感詞的語法距離方法為
其中,n為可達路徑中依存弧(關系)的個數,di為第i個依存關系對應的語法距離。那么假設原句情感極性值為E0,考慮影響情感權重λi的程度副詞的語法距離,否定副詞在ADV關系對象前取負,語法距離越遠對中心情感詞的影響越小,可以分析得到句子情感極性值Ed為
按照上述方法對句子S1“他很不友好”和句子S2“他不很友好”兩個句子進行分析對比如表4所示。

表4 分析對比表
假設否定詞“不”為情感極性值取負,程度副詞“很”為情感極性值乘1.25,中心情感詞“友好”的情感極性值為1,那么得到兩個句子的情感極性值為

可以看出:分析結果符合實際句意表達,S1較S2的負向情感更加重,可以發現考慮語法距離的句子情感極性值計算方法是科學有效的。
4.1 實驗數據及指標
為了測試本文改進算法的情感分析效果及其改進程度,本文采用新浪微博中隨機抽取的1000篇微博,大部分通過網絡爬蟲獲取,部分通過手動獲取。情感詞典采用Hownet,并在結構分析中提取標點符號和結構連詞,采用準確率(Precision)、召回率(Recall)和微F測度(F-Score)作為評價指標,準確率用于評價信息檢索、分類算法等的效果,召回率反應算法的查全率,微F測度反應了算法的綜合效果。
對于三個不同指標,還考慮對于正面和負面兩種類型情感極性值文本及其平均值。如果微博文本的情感傾向性值大于0,則該短文本為正文本;如果短文本的情感傾向性值小于0,則該短文本為負文本;如果短文本的情感傾向性值等于0,則該短文本為中性文本。設數據集中的正文本個數為NP,負文本個數為NN,分類中的正文本正確個數為nP,負文本正確個數為nN則準確率計算如下:負文本準確率:PN=nN/NN,正文本準確率:PP=nP/NP,平均準確率:PA=nP+nN/(NP+NN)。同樣可得到召回率的正負文本值和平均值。那么微F測度計算公式為:F=2*P*R/(P+R)。
4.2 實驗結果
采用本文改進依存句法分析算法A2對1000篇微博進行情感分析,對比文獻[13]的一般依存句法分析算法A1,針對不同篇幅微博采用兩種方法進行情感分析對比,篇長70字以下的結果如表5所示。

表5 短篇微博情感分析試驗對比
對于篇長70字到140字的中長篇幅微博文本進行情感分析結果如表6所示。

表6 長篇微博情感分析試驗對比
通過不同篇幅文本微博的兩種情感分析方法對比,可以得到以下結論: 1) 改進依存句法分析算法在準確率、召回率和微F測度上較一般算法均有所改進; 2) 對于字數少于70字的短篇微博,改進算法A2具有更好情感分析效果。
微博已經逐漸成為社會輿情重要關注對象,研究微博情感傾向具有重要意義,但由于微博文本的語法結構不規范和表達方式多樣化特點,全面有效的微博文本情感分析難度較大。本文為了分析微博情感,針對當前依存句法分析缺陷,對依存句法分析算法進行改進,引入表情標點等符號詞的感情極性分析,采用基于中心情感詞的語法距離分析詞語情感極性方法,通過實例發現較一般依存句法分析效果提高,特別對短篇微博改進效果更加明顯。
[1] 平亮,宗利永.基于社會網絡中心性分析的微博信息傳播研究[J].圖書情報知識,2010(6):92-97. PING Liang, ZONG Liyong. Based on the analysis of the social network centricity weibo information dissemination study[J]. Journal of book intelligence knowledge,2010(6):92-97.
[2] 中國互聯網信息中心.第二十五次中國互聯網發展狀況統計報告[R].中國互聯網統計報告,2010(1):1-10. China Internet network information center. 25 times China Internet development statistics report[R]. China’s Internet statistics report,2010(1):1-10.
[3] 賈焰,劉江寧,周斌.微博的輿情特點及其謠言治理[J].行政管理改革,2012(6):37-41. JIA Yan, LIU Jiangning, ZHOU Bin. Microblogging public opinion characteristics and rumors governance[J]. Journal of administrative reform,2012(6):37-41.
[4] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848. ZHAO Yanyan, QIN Bing, LIU Ting. Text sentiment analysis[J]. Journal of software,2010,21(8):1834-1848.
[5] Bo Pang, Lillian lee. Thumbs up: Sentiment Classification Using Machine Learning Techniques. EMNLP’02, July 6-7, Philadelphia, USA,2002:22-240.
[6] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應用,2011,31(12):3321-3323. WEI Wei, XIANG Yang, CHEN Qian. Chinese text sentiment analysis review[J]. Journal of computer applications,2011,31(12):3321-3323.
[7] 宗成慶.統計自然語言處理[M].北京:清華大學出版社,2008:125-126. ZONG Chengqing. Statistical natural language processing[M]. Beijing: Tsinghua university press,2008:125-126.
[8] 鄭曉剛,韓立新,白書奎,等.一種組合型中文分詞方法[J].計算機應用與軟件,2012(7):26-29. ZHENG Xiaogang, HAN Lixin, BAI Shukui, et al. A combination of Chinese word segmentation method[J]. Journal of computer applications and software,2012(7):26-29.
[9] 孫靜,李軍輝,周國棟.基于條件隨機場的無監督中文詞性標注[J].計算機應用與軟件,2011(4):21-24. SUN Jing, LI Junhui, ZHOU Guodong. Unsupervised Chinese part-of-speech tagging based on conditional random field[J]. Journal of computer applications and software,2011(4):21-24.
[10] 王文然.基于依存句法分析的互聯網細粒度觀點挖掘研究[D].大連:東北財經大學,2011:43-44. WANG Wenran. Based on dependent fine-grained syntactic analysis of Internet opinion mining research[D]. Dalian: Northeast university of finance and economics,2011:43-44.
[11] 馬金山.基于統計方法的漢語依存句法分析研究[D].哈爾濱:哈爾濱工業大學,2007:52-55. MA Jinshan. Chinese dependency based on statistical method of syntax analysis[D]. Harbin: Harbin institute of technology library,2007:52-55.
[12] 宋京生.漢英從屬連詞比較[J].四川外語學院學報,2001(5):63-66. SONG Jingsheng. Chinese-english subordinate conjunction comparison[J]. Journal of sichuan foreign language institute,2001(5):63-66.
[13] 馮時,付永陳,陽鋒,等.基于依存句法的博文情感傾向分析研究[J].計算機研究與發展,2012(11):2395-2406. FENG Shi, FU Yongchen, YANG Feng, et al. Based on the analysis of interdependence syntactic post emotional tendency study[J]. Journal of computer research and development,2012(11):2395-2406.
Micro-blog Sentiment Analysis Based on Improved Dependency Parsing
LI Xuehong1GUO Hui2YAN Hongtao2
(1. Military Training Division. Dalian Naval Academy, Dalian 116000) (2. College of Electronics Engineering, Naval University of Engineering, Wuhan 430033)
Micro-blog sentiment orientation analysis’s important signification is analyzed firstly. Then a new improved dependency parsing is proposed to analyze micro-blog sentiment orientation on the base of analyzing the peculiarity of micro-blog texts. This improved algorithm includes the sentiment orientation analysis of emoticons and punctuation, and analyze sentiment orientation based on the distance to the kernel emotional words in syntax structure. Experimentations show the algorithm has good applicability and robustness.
sentiment orientation analysis, dependency parsing, kernel emotional words, Micro-blog
2016年9月3日,
2016年10月28日
李雪紅,女,碩士,副教授,研究方向:計算機應用技術。郭暉,女,碩士,講師,研究方向:軟件工程,計算機應用技術。閆泓濤,女,研究方向:計算機技術,通信技術。
TP309.7
10.3969/j.issn.1672-9722.2017.03.021