摘要:隨著互聯網的不斷普及和發展,互聯網延續了突發公共事件和熱點話題此起彼伏的狀態,網民的表達意愿和參與意識持續高漲,踴躍發聲建言,在一系列突發事件上,“新意見階層”進一步凸顯出網絡輿論的巨大能量,從而形成網絡輿情。本文從網絡輿情的概念出發,引出觀點挖掘在網絡輿情中的應用,基于本體構建了一個觀點挖掘系統,提取網絡輿情評論中的正面和負面評論,并進行比較。該系統能夠為用戶提供更加準確的情感傾向性分析結果
關鍵詞:觀點挖掘 本體 網絡輿情
1、網絡輿情的概念
中國互聯網絡信息中心(CNNIC)2011年1月發布的《第27次中國互聯網絡發展狀況統計報告》[1]顯示,截至2010 年 12 月,中國網民規模達到4.57 億,我國網民規模已占全球網民總數的23.2%。網絡新聞用戶規模達3.5億人,博客及論壇的用戶規模也分別達到2.9億和1.4億。如此龐大的受眾群體和如此豐富的應用,使得大量進步、有益的信息得以共享,同時也給不少反動、低級的言論提供了傳播途徑,使之成為引發群體性事件、社會突發事件等的重要隱患。
劉毅將網絡輿情[2]定義為:“由個人以及各種社會群體構成的公眾通過互聯網表達和傳播,對自己關心或與自身利益緊密相關的各種公共事務所持有的多種情緒、意愿、態度和意見交錯的總和”。網絡輿情通常是來源于社會現實事件,而人們將表達和傳播對該事件意見的場所拓展到了互聯網上,從而形成強大的網絡輿論勢力。網絡輿情的主體是參與討論的網民,而其客體則是網絡輿情事件本身或者公共事件;另一方面網絡輿情又具有直接性、突發性、偏差性,因此,進行網絡輿情監控系統建設、防范負面網絡輿情危害社會于未然,顯得特別重要。挖掘這些輿情觀點可以為輿情管控工作提供有效的參考依據,并且能及時了解民眾的心聲。
2、觀點挖掘及其研究現狀
觀點挖掘由傳統的數據挖掘技術演變而來。觀點挖掘(Opinion Mining)又稱為文本意見挖掘或情感傾向性分析等,涉及到自然語言處理、信息檢索、數據挖掘等多個研究領域。觀點挖掘旨在抽取網絡文檔中所評論對象的屬性和組成要素,用以判定評論是正面的、負面的或中立的。網絡輿情是觀點在網絡上的表達,因此可以使用觀點挖掘技術對網絡輿情進行分析。
目前觀點挖掘主要從文檔、句子、特征三個級別進行分析,其方法主要有語義相關度計算和機器學習方法。語義相關度計算大多基于極性詞典進行,計算主體的褒貶程度,比較有代表性的研究是Turney提出的PMI-IR方法。但是,人們通常對于某一話題進行觀點表達的時候除了對總體上的評價外,還包括對其中某個部分或者特性的評價,特征級別的觀點分析主要是應用于產品特性的抽取和對特性發表觀點的抽取,Hu和Liu(2004,2005)提出一些抽取產品特征及觀點的方法。Liu, Wu和Yao(2006) 研究觀點搜索的問題,他們的目標是搜索產品的具體特征和并且在產品評論中找到它們。
在機器學習方法方面,代表性的研究是Pang等人以Usenet上的電影評論作為語料進行了研究,采用了不同的特征選擇方法和機器學習方法(樸素貝葉斯,最大熵和支持向量機)進行挖掘比較,結果顯示支持向量機取得比較好的結果。Chaovalit和Zhou (2005)比較了語義傾向方法和機器學習方法,將兩種方法用于電影評論,發現機器學習方法更加可靠。
3、基于本體的觀點挖掘系統
3.1 本體的概念
本體(Ontology)通常被稱為領域模型(Domain Model)或概念模型(Conceptual Model),是關于特定知識領域內各種對象、對象特性以及對象之間可能存在的關系的內容理論。本體已經成為知識工程、知識管理、自然語言處理、智能信息集成等各方面研究的熱點。
3.2 觀點挖掘系統總體設計
目前基于計算詞語和種子詞集相似度的情感分析研究不夠充分,因此本文提出了一個高效的結合分析方法。這個方法加入了領域本體,可以更好地識別領域詞匯;使用有指導的機器學習技術從文檔中抽取觀點和特征,加強接下來的分類任務;在情感分類方面使用較為高效的支持向量機(SVM)在特征級別將文檔歸為正面、負面。利用上述思想設計基于本體的觀點挖掘系統,系統的結構如圖1:
圖1 觀點挖掘系統整體架構
系統主要關注特征級別的情感分類,詞性標注、情感特征識別、情感特征為三個關鍵模塊:
(1)詞性標注
使用哈爾濱工業的大學的LTP工具將每個文檔進行分詞處理,并對每個詞使用POS (part-of-speech)標簽標注(如動詞、名詞等)。
(2)識別情感特征
已有的語言結構具有信息交換及檢索上的不足,因此在這個系統中,首先使用FCA分析方法構建一個領域概念結構即本體,然后使用領域本體抽取特征。
(3) 情感分類
在情感分類中,我們使用線性的SVM在特征級別進行情感分類,通過線性可分的超平面將特征歸為正面或負面。
(4)性能衡量
我們使用精確度和召回率評價系統的性能,計算方法如下:
同理可得負面特征的精確率Pnegative和召回率Rnegative。
4、結論
隨著互聯網用戶迅速增長,網民使用互聯網對輿情事件發表意見的參與性越來越強,而表達的網絡輿情觀點也越來越多,如何敏銳地從這些觀點中挖掘出有用的信息,做出有效地判斷并對輿情事件進行監測預警研究是當前迫切需要解決的重要問題。本文對網絡輿情的特點和挖掘方法進行了分析,根據所分析的因素,構建系統對輿情事件的觀點進行挖掘,為危機預警提供了幫助,為社會管理者提供了管理依據。
參考文獻:
[1] 中國互聯網絡信息中心.中國互聯網絡發展狀況統計報告 ,2011
[2] 劉毅.網絡輿情研究概論[M].天津: 天津人民出版社, 2007
[3] Turney, P. Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews[J]. In Proceedings of the meeting of the association for computational linguistics (ACL’02) (pp. 417–424), 2002.
[4] Bo Pang and Lillian Lee. Using very simple statistics for review search: An exploration. In Proceedings of the International Conference on Computational Linguistics (COLING), 2008. Poster paper.