〔摘 要〕伴隨著互聯網的不斷發展和普及,網絡以其獨特的優勢正逐漸成為社會輿論的主陣地,隨著大量信息的涌現,如何從中發掘有用的輿情信息為我們的決策、管理服務成為當前亟待解決的問題。本文在介紹了觀點挖掘技術之后,提出了基于觀點挖掘的輿情信息分析方法,在構建模型的基礎上,通過實例予以說明。
〔關鍵詞〕觀點挖掘;網絡輿情;信息分析
DOI:10.3969/j.issn.1008-0821.2010.11.011
〔中圖分類號〕G350 〔文獻標識碼〕A 〔文章編號〕1008-0821(2010)11-0046-04
Analysis of Net-Mediated Public Sentiment Information
Based on the Opinion Mining TechnologyJi Xiang
(School of Society,Soochow University,Suzhou 215000,China)
〔Abstract〕With the rapid development of the Internet,it comes more and more popular,With its unique advantage it is becoming the main battlefield of public opinion.However with the emergence of large amounts of information on the Internet,we face to solve a problem that how to find useful information which can be used for our decision-making and management services from the public opinion.This article introduced the characteristics of net-mediated public sentiment,analyzed the functions of opinion mining technology,then put forward a model of net-mediated public sentiment information analysis,and explained the applications of opinion mining technology with a case study.
〔Keywords〕opinion mining;net-mediated public sentiment;information analysis
網絡輿情是指以互聯網為傳播媒介,圍繞某些熱點和焦點問題的發生、發展和變化,公眾所表達出來的具有較強影響力、傾向性的觀點和言論,主要通過BBS、Blog、跟貼、轉貼等方式傳播并加以強化,并且會對事件本身產生一定的影響。據CNNIC調查,截至2009年12月30日,中國網民規模達到3.84億人,普及率達到28.9%。與傳統媒體相比,網絡媒體以其所特有的自由、開放、交互、虛擬等特性已成為公眾表達民意,參與經濟、政治生活的主要輿論平臺。人民網輿情監測室發布的《2009年中國互聯網輿情分析報告》指出,互聯網已成為新聞輿論獨立源頭,2009年度77件影響較大的社會熱點事件約三成的社會輿論因網絡而興起。網民這一“新意見階層”正以一股強大的力量,推動著社會的發展。
1 網絡輿情的兩面性
網絡這把“雙刃劍”在給人們工作、學習、生活帶來極大便利的同時也帶來了一系列的消極影響。一方面它可以成為政府了解民意、輔助決策、下情上達的工具,但另一方面也可能成為虛假信息、極端情緒或反動言論滋生的溫床,威脅社會穩定。
網絡輿情是社會輿情的一種表現形式,是一股強大的輿論力量,它不僅影響公眾、社會的輿論傾向,還可以反作用于輿情熱點事件,甚至對事件的發展起到決定性的影響。一方面我們要認識到網絡輿情對社會發展的促進作用,如網絡反腐倡廉、民主監督等。但同時也要清醒地認識到一些不良或者別有用心的虛假、反動信息對和諧社會的消極影響,必須謹慎處理由此帶來的一系列問題,倘若處理不善很容易將其推到對立面去。
網絡輿情的兩面性,要求對網絡輿情信息進行有效的獲取、監測、建立網絡輿情預警機制,及時發現不良輿情及可能形成不良輿情的潛在信息,加以必要的引導和控制。這對于主動、準確、及時地獲取可靠的網絡輿情信息,堅持正確的輿論導向具有重要的意義。如何對網絡上所存在的海量非結構化信息進行深入分析,發掘其中有價值的信息,甄別不同的觀點傾向,并以此來作為我們的輿情引導的參考依據,是當前輿情工作的重要內容。
2 觀點挖掘概述
觀點挖掘(Opinion Mining)是近年來在出現于信息檢索和計算機語言交叉領域的一個新課題,觀點挖掘所關注的是文本所表達的觀點,而不是文本的主題內容。觀點挖掘屬于深層次的文本挖掘,它能夠從大量的信息中提取作者對于某一對象所持的立場,它所要解決的主要任務是識別文檔中作者所表達的主觀意見。
依據研究對象的層次不同,觀點挖掘可以劃分為以下兩類:
2.1 文檔級(Document—level)觀點挖掘
文檔級的觀點挖掘亦稱作情感分類(sentiment classification),它以文章、段落為單位,將觀點挖掘看做文本分類問題,將評價文本劃分為幾大類別,如積極的(Positive)和消極的(Negative)。這種方法類似于對詞語感情色彩——褒義、中性和貶義的劃分,優點是簡單易行,可操作性強,但由于缺乏上下文背景及所處的具體語境,只能從宏觀上整體把握文本的情感傾向,無法發現具體細節。
2.2 語句級(Sentence—level)觀點挖掘
語句級的觀點挖掘又稱基于特征的觀點挖掘,以語句為分析對象,通過對事物特征的細化,分析作者對每一個特征的具體觀點,從而判斷作者的觀點傾向,這種方法的優點是可以發現評價的具體細節,置信度高,但操作較為繁瑣。如在分析某一款電腦的時候,就可以將其特征細分為:性能、價格、外觀、續航時間、品牌等多個方面,分析時分別統計作者對每個特征的具體認識,再綜合評價以免以偏概全。
與文本挖掘相比,觀點挖掘基于文本挖掘但它將關注的重點從信息本身轉移到信息所包含的觀點上,通過對信息觀點的傾向分析來獲取作者對于某一問題的立場。這一方法在很多領域具有廣泛的應用,如基于產品評論的觀點挖掘——通過用戶對產品的主觀評價,獲取用戶喜好,幫助生產商改進產品提升競爭力;基于觀點挖掘的股價走勢分析——分析股民的正負心里預期即其觀點傾向,推斷其買賣行為,既而判斷股價走勢;基于用戶喜好的產品內容推薦——根據用戶歷史評價發現用戶喜好,挖掘用戶的興趣點,并主動將相關信息推送給用戶等。
觀點挖掘在網絡輿情信息分析中的運用主要體現在以下5個方面:
3.1 發現網絡輿情潛在熱點
處于萌芽時期的輿情信息一般都相對比較隱蔽,很難判斷其未來趨勢,但是一般情況下形成爆發輿情的都是那些具有較強觀點傾向的言論,及時發現網絡上存在的這些源頭,加以必要的引導和控制,可以很好地預防輿情事件的發生。如虛假信息的泛濫問題,虛假信息在發布初期也許并不會引起很多人的注意,但是在經過某些別有用心的人添油加醋大肆渲染之后其后果可能是災難性的,通過觀點挖掘盡早發現這些潛在熱點,提前采取措施及時消除不良影響。
3.2 對網絡輿情進行預警
網絡輿情事件的發展往往是一個動態變化的過程,及時發現潛在問題是網絡輿情預警的主要任務,處于潛伏期且異常活躍的負面輿情信息,一旦爆發出來,便會給社會帶來不良影響。建立基于觀點挖掘的網絡輿情預警機制可以在負面輿情的發展超過一定的閾值時發出報警,以便及時采取措施。
3.3 判斷網絡輿情信息的未來走勢
由于輿情的變化具有層次性和區域性,且經歷從量變到質變的過程,判斷輿情變化的走勢是輿情信息分析的高級階段也是輿情分析的關鍵之所在。通過觀點挖掘技術對某一問題的網絡輿情信息進行動態跟蹤,根據觀點的不斷變化,推斷輿情的未來走勢。但由于輿情的發展受到很多方面因素的影響,僅僅通過觀點挖掘分析也不一定能夠徹底解決,必須綜合考慮各方面的因素。
3.4 指導網絡輿情的引導
輿情信息分析的結果可以用來指導輿情工作的開展,對網絡輿情進行引導要做到有的放矢,有目的性地進行。如三鹿奶粉事件涉及到食品安全監管機制、政府問責機制、道德與法律等多個方面,基于此種狀況,可以在廣泛征集民意的基礎上,對所涉及的各個方面進行一個熱點排行,給有關部門的決策提供一個優先次序,從而將民眾最關心最亟待解決的問題優先解決。
3.5 全面掌握社情民意
網絡為政府管理部門提供了一個豐富信息源,其中包含了民眾對一些問題的基本看法,利用好這一資源可以幫助政府深入地了解民意。如政府樓市改革的“國十條”頒布之后,從網民在BBS或者Blog上發表的意見,可以看出網民對這一問題的關注程度,觀點挖掘可以分析出民眾對這一問題的基本態度和不同的觀點傾向,幫助決策者了解社情民意,作為今后工作或改革的重要依據。
4 基于觀點挖掘的網絡輿情信息分析模型
依照信息的處理流程,基于文檔級的觀點挖掘方法,本文所構建的網絡輿情信息分析系統可以劃分為五個組成部分,分別是信息收集模塊、信息篩選模塊、基礎數據庫、學習模塊和觀點挖掘模塊,其中基礎數據庫是整個模型的支撐點、觀點挖掘模塊中的詞匯極性判斷是核心。
國內外目前對詞語的極性判定雖然有多種方法,但歸納起來講主要是以下兩類:字典法,通過建庫的方法將常見詞語的極性進行一一列舉,使用時通過匹配的方法將觀點詞與字典中標引詞進行對比判斷其極性。早在20世紀60年代Stone和Lasswell就開始著手研究構建的英文情感詞典,截至2004年這一詞典已經收納了1915個褒義詞和2 291個貶義詞,這種方法的優點是準確性高,缺點是效率低、建庫工作量大;關聯法,為了彌補字典法的缺點,Hatzivassiloglou和McKeown在1997年首次提出了關聯法,這一思想認為褒義詞和褒義詞,貶義詞和貶義詞總是成對出現的,如“美麗大方”、“誠實善良”等,它將最常見的形容詞選作種子詞匯并將其劃分成褒義和貶義兩大類,如需判斷某一詞匯的極性只需計算其與種子詞匯出現的頻率,如與褒義詞出現的頻率大于貶義詞則判斷為褒義,反之亦然。這種方法的難點在于種子詞匯的選取,優點在于自動化程度高。
本文所構建的基于觀點挖掘的網絡輿情信息分析模型如圖1。
圖1 基于觀點挖掘的網絡信息分析模型
首先信息收集模塊,借助一定的采集工具(如搜索引擎、網絡蜘蛛等),按照一定的采集策略,從互聯網中抓取各種類型的文檔,并按照一定的順序排擋。信息收集模塊將采集到的信息在經篩選模塊的處理之后,剔除一些不相關的冗余信息,并建立必要的索引和關聯規則,形成輿情信息庫。參照輿情熱點詞庫,從輿情信息庫中提取輿情熱點提交給觀點挖掘模塊處理。在觀點挖掘模塊,系統將獲得待處理輿情信息,經過分詞、特征抽取、傾向性判定、約束關系抽取等數據處理過程后,調用語料庫(如SentiWordNet、知網情感語料庫,)進行詞匯極性標定,獲取待評價信息的極性,并將其作為觀點挖掘出的結果,經過進一步的統計分析形成輿情報告。
5 觀點挖掘應用案例
本文以2009年網絡關注度最高的“鄧玉嬌案”為分析對象,從互聯網上采集了部分BBS和Blog信息,以winisis和SentiWordNet語料庫為基本工具,通過定量計算,分析網民對此事件的基本態度。由于所選語料庫只能處理與英文相關的信息內容,所以在信息采集方面使用的都是英文信息。具體步驟如下:
(1)以“dengyujiao”為關鍵詞從google中檢索出與此相關的文章17篇,逐一復制至Text文檔中保存。
(2)利用winisis建立一個wlyq.mst數據庫,將17篇文獻依次導入,利用winisis的詞典功能統計詞頻,并將結果導出至wlyq.dct。
(3)將導出的數據經過處理后按詞頻降序排列。(如表1) 表1 詞頻統計表(部分)
序號單詞詞頻序號單詞詞頻1THE45016IS552A25617FOR513OF18418S514TO18419AS505AND16020SAID506DENG14121HAVE447IN11922PUBLIC448WAS10823YOU449ON8324CASE4310SHE8325WHO4211HER7626AT4112THAT7227OFFICIAL4113I7028IT3614WITH6429NOT3615YUJIAO6230GUIDA35
(4)手工刪除了一些非情感詞(如介詞、連詞、人名等),根據詞頻篩選出78個詞頻不低于3的情感詞,作為定量分析的對象。
(5)將78個情感詞對照SentiWordNet語料庫判斷其極性(如圖2),SentiWordNet語料庫就將評價文本劃分為主觀(Subjective)和客觀(Objective)兩大方面,主觀方面又分為積極(Positive)和消極(Negative)兩大情感類別。它將詞語的極性賦予3個值:Pos(s)、Neg(s)和Obj(s),其中Pos(s)+Neg(s)+Obj(s)=1。統計結果如表2所示。圖2 SentiWordNet語料庫截圖
表2 極性統計表(部分)
序號單詞詞頻PosNegObj1stabbed160.1250.250.6252sexual70.3750.250.3753opposite70.6250.1250.254lashed500.1250.8755hero50.37500.6256abused40.3750.1250.57good40.62500.3758like40.50.250.259fucking40.250.250.510best30.12500.87511criticism300.50.512excessive30.1250.3750.513angry30.250.50.2514suspect30.3750.50.12515abused30.3750.1250.5
通過對案例的分析結合進一步統計的結果可以發現,網民對此案的態度還是比較客觀的,對鄧玉嬌基本上是持一個同情、贊賞的態度,對不法官員表達了譴責和憤懣。
案例中存在的不足主要有兩個方面,首先案例的分析是基于文檔級的觀點挖掘,只能從宏觀上把握主流觀點和言論,無法具體到某一細節;其次案例的數據處理過程中,人為參與過多,譬如關鍵情感詞的選取,可能會存在一定的主觀因素。
參考文獻
[1]中國互聯網絡信息中心(CNNIC).第24次中國互聯網絡發展狀況統計報告[EB].http:∥www.cnnic.net.cn/uploadfiles/pdf/2009/7/16/125126.pdf,2010-01-14.
[2]Andrea Esuli,Fabrizio Sebastiani.SentiWordNet:A Publicly Available Lexical Resource for OpinionMining[EB].http:∥citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.61.7217rep=rep1type=pdf,2010-02-08.
[3]王輝,王暉昱,左萬利.觀點挖掘綜述[J].計算機應用研究,2009,22(1):25-29.
[4]Bing Liu,Minqing Hu,Junsheng Cheng.Opinion observer:analyzing and comparing opinions on the Web[EB].http:∥citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.81.7520rep=rep1type=pdf,2010-02-01.
[5]余傳明.從產品評論中挖掘觀點:情報理論與實踐[J].信息系統,2009,32(7):124-128.
[6]郭峰.基于觀點挖掘的股價走勢預測[D].上海:復旦大學,2009.
[7]Giuseppe Attardi,Maria Simi.Blog Minging through Opinionated Words[EB].http:∥trec.nist.gov/pubs/trec15/papers/upisa.blog.final.pdf,2010-01-14.
[8]Pimwadee Chaovalit,Lina Zhou[EB].http:∥suraj.lums.edu.pk/~cs631s05/Papers/moviereview.pdf,2010-01-14.
[9]戴媛,姚飛.基于網絡輿情安全的信息挖掘及評估指標體系研究[J].情報理論與實踐,2008,31(6):873-876.
[10]楊勇濤.Web輿情觀點挖掘關鍵技術研究[D].成都:電子科技大學,2009.
[11]黃曉斌.文本挖掘在網絡輿情信息分析中的應用[J].情報科學,2009,27(1):94-99.