董秦濤 蘇亞峰 屈志毅董秦濤 蘇亞峰 屈志毅
摘 要 對文本情感分析研究進行總結,從情感詞抽取、語料庫和情感詞典構建、主觀分析三個方面對文本情感分析研究相關文獻進行梳理、評述,最后介紹了實際應用。
關鍵詞 情感分析 情感詞抽取 語料庫 情感詞典
中圖分類號:TP3 文獻標識碼:A
0引言
網絡已經進入到了“交互式網絡”時代。人們從網絡獲取信息的同時,也直接在各種網絡平臺表達喜、怒、哀、樂等各種情感。這些主觀性文本每天以指數級的速度增長,僅靠人工進行分析不僅需要消耗大量的人力和時間,還易造成信息遺漏。
因此采用計算機快速地進行文本信息分類和情感信息的抽取,通過挖掘和分析文本中的立場、觀點、情緒等主觀信息,對文本情感傾向做出判斷,成為目前學術界研究的一個熱點,即文本情感分析。
1文本情感分析概述
情感分析是指分析發表者在傳達信息時所隱含的情緒狀態,對發表者的態度、意見進行判斷或者評估。文本情感分析是自然語言理解領域的重要研究分支,涉及統計學、語言學、心理學、人工智能等領域的理論與方法。
文本情感分析的主要任務就是根據文本信息來判斷發表者的情感傾向,主要利用底層情感信息抽取的結果將情感文本單元分為若干類別本文將分別從情感詞抽取、語料庫和情感詞典構建、主觀分析三個方面對文本情感分析研究相關文獻進行梳理,最后介紹了實際應用。
2情感詞抽取
情感詞又稱極性詞、評價詞語,特指帶有情感傾向性的詞語。評價詞語的抽取和判別,主要方法可分為基于大規模語料庫的統計方法 (表情符號可以視為情感詞的一種)、利用詞典計算相似度方法。
2.1基于語料庫的情感詞抽取和判別
利用大語料庫的統計特性,其最大優點在于簡單易行;缺點是可利用的語料庫有限,評價詞語在大語料庫中的分布等現象并不容易歸納。Wilson T等人對主觀性文本進行系統的分析研究,挖掘大量的主觀性文本形成主觀表達式庫,并基于此完成文本的主客觀分類和褒貶分類。RILOFF E等人用手工方法制定模板并以此選取種子情感詞,通過使用迭代的方法可以獲取名詞詞性的情感詞。
2.2基于詞典的情感詞抽取及判別方法
使用詞典中的詞語之間的詞義聯系挖掘評價詞語,其最大優點是獲取情感詞全面、準確,缺點是存在一詞多義現象。朱嫣嵐等人提出基于HowNet詞的語義相似度和語義相關的情感詞極性計算方法。Yang C等人使用PMI(Point wise Mutual Information),通過計算一個詞和已知極性的種子詞(或表情符號)的點互信息量,推斷該詞是不是情感傾向詞。王昌厚等人基于模式的Bootstrapping方法,從微博語料中抽取情感評價詞,通過模式劃定新詞的邊界,跨過新詞識別的過程,直接進行情感傾向詞的抽取。
3語料庫、情感詞典構建
語料庫:WIEBE J等人建立多視角問答語料庫對535篇廣泛來源的新聞進行了語句級人工標注,而且對語句的低層進行了標注,標出了情感文本的發表者、對象、極性、強度等要素。除了情感,還標注了情緒、推斷、信念等。
情感詞典:STONE P等人收集了1915個褒義詞和2 293個貶義詞,并按照極性、強度、詞性等打上不同的標簽,對于詞匯還列出不同的義項,可以區別不同義項和詞性下的褒貶極性,也相當于對每個單詞都構建了一組語義消歧規則。HowNet評價詞詞典,包含9193個中文評價詞語,9142個英文評價詞語,并被分為褒貶兩類。
4主觀分析
在情感分析中,分析意見的屬性與語句上下文正確理解對判斷情感極性至關重要。屬性極性判定的步驟為:(1)對句子進行詞性標注;(2)提取句子中所有的名詞利用挖掘算法尋找頻繁項集;(3)對頻繁項集的項進一步篩檢;(4)從文本中抽取出包含特征詞的句子(情感句);(5)通過對情感詞的極性定位結合句子中可能出現的程度副詞和否定詞做出抽取屬性的傾向性判定。
5文本情感分析應用
(1)用戶評論分析與決策
在購買產品或者服務前,消費者可以獲取相關的評論可以提供參考,提供者可以通過評論進一步改進產品或者服務質量。LIU B等人研究并開發的產品信息反饋系統,利用網絡上的顧客評論資源,提取并統計消費者對產品特征的評價,采用可視化方式顯示統計和比較結果。
(2)輿情監控
政府機構可以通過公眾對新聞事件或國家政策的看法來了解輿。朱元波在其碩士論文中設計了在線網絡挖掘系統,對暴恐組織網上串聯進行監督。
6結語
本文就國內外文本情感分析研究情況進行了總結和梳理,重點介紹了文本情感分析研究中的幾個關鍵問題:情感詞抽取、語料庫和情感詞典構建、主觀分析,最后文本情感分析實際應用進行了概括。文本情感分析,特別是中文文本情感分析是一個新興的研究方向,具有非常廣闊的應用前景。
參考文獻
[1] 楊立公,朱儉,湯世平.文本情感分析綜述.計算機應用,2013,33(6):1574-1578.
[2] 朱嫣嵐,閔錦,周雅倩等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,20(1):14-20.
[3] 王昌厚,王菲.使用基于模式的Bootstrapping方法抽取情感詞[J].計算機工程與應用,2014,50(1):127-129.
[4] 李思.基于合并模型的中文文本情感分析.第五屆全國信息檢索學術會議,2009,1( 1):322-328.