









[摘 要]面對民眾觀點日益沸騰的互聯網時代,如何理解網絡輿情的傾向性,并且對輿情加以合理的引導是一個日益重要的課題。本文利用PLSA模型對不同時間段上的網絡輿情話題進行子話題提取,采用基于HowNet的語義相似度模型對相應的子話題進行情感分析,通過與閾值的比較得出該話題的褒貶程度。
[關鍵詞]話題特征詞;PLSA模型;語義相似度;情感傾向性
doi:10.3969/j.issn.1673 - 0194.2016.22.098
[中圖分類號]TP393.09 [文獻標識碼]A [文章編號]1673-0194(2016)22-0-02
0 引 言
隨著互聯網的快速發展,網絡逐漸成為民眾取得和發布信息的主要平臺。但是,正是由于網絡的便利性和虛擬性,網絡信息的真實性魚龍混雜,而面對稂莠不齊的信息源,廣大民眾不僅能夠隨時隨地接收,還能夠任意轉發。對網絡輿論進行適當的引導是非常必要的,否則可能引發不良后果,以致形成一定程度的恐慌,更進一步影響到其他民眾的正常社會生活。
因此,準確了解公眾的看法,對普通民眾情緒進行及時有效的引導是人們一直以來不斷努力的方向。本文試圖通過PLSA模型和基于HowNet的語義相似度模型,探究網絡輿情的情感傾向性,從而提出對策,以滿足政府和企業輿情監控以及控制的要求,為政府機構輿論引導的方向和內容提供依據明確的參考。
1 網絡輿情情感傾向性分析模型
網絡輿情話題情感傾向性分析模型共分為2個部分:話題提取和情感分析。其中話題提取主要采取的是PLSA模型,情感分析主要采取的是基于HowNet的語義相似度模型。
1.1 話題提取
1.1.1 文本采集
本文研究的是網絡熱點事件的情感傾向性,因此在數據采集過程中,首先要確定一個網絡熱點事件,然后利用網絡爬蟲到知乎、豆瓣、微博、新聞等平臺上獲取該網絡熱點事件的信息。
1.1.2 文本分詞
本文主要采用ICTCLAS漢語分詞系統。具體ICTCLAS文本分詞處理過程如圖1所示。
采用Java編程實現初步文本分詞,再利用停用詞表和Java程序,進行停用詞處理,從而得到相應的文檔-詞共現矩陣。
1.1.3 子話題抽取
采用PLSA模型對子話題進行抽取,生成k個子話題,并得到特征詞在k個子話題上的概率分布。具體PLSA模型的應用如下:
PLSA模型,全稱為概率潛在語義分析模型,將概率統計模型與EM算法相結合,實現對子話題的抽取。PLSA的概率模型圖,如圖2所示。
其中D表示文檔,Z表示主題,W表示觀察到的單詞。
在該PLSA概率模型中,已知(di,wj),Zk是隱含變量。則(di,wj)的聯合分布見公式(1)。
其中,P(zk|di)和P(wj|zk)都對應多項式分布,筆者通過最大期望(Expectation Maximization,EM)算法來估計多項式分布中的參數。該算法主要分為E步驟和M步驟,然后進行迭代求解。
針對PLSA模型中的參數估計,在E步驟中,使用貝葉斯公式直接計算Zk的后驗概率,見公式(2)。
在M步驟中,是利用E步驟中的后驗概率求得P(zk|di)和P(wj|zk),然后進行迭代求解,得到參數值見公式(3)、(4)。
1.2 情感分析
本文對網絡輿情情感傾向性的分析主要是通過對話題特征詞傾向值的度量,判斷該網絡熱點事件的褒貶程度。其中,默認0為閾值,即傾向值大于0時判斷為褒義,小于0時則判斷為貶義。
對于話題特征詞傾向值的度量,本文是基于知網HowNet,進行語義相似度的計算,從而計算得到相應的情感傾向值。在知網中,詞語是通過義原來描述的,所以將詞語的情感相似度轉化為義原的情感相似度。義原相似度的計算公式為式(5)。
其中,α為權值,w為詞語。
將最大的義原相似度作為詞語相似度,公式為(6)。
其中,y詞語的義原。
假設共有k對基準詞,則單詞w的語義傾向值計算公式(7)。
其中,key-pi、key-ni分別為褒義基準詞、貶義基準詞,Orientation(w)為單詞w的語義傾向值:
通過加權求和可以得到特征詞的情感傾向性值。
2 基于話題特征詞的情感傾向性實證分析
筆者通過實例進行分析,從而驗證本文所提網絡輿情情感分析方法的可行性。本文以2016年5月份的熱點輿論“江蘇高考減招”作為本文情感傾向性分析的對象。利用網絡爬蟲來爬取新浪微博2016年5月9日到5月11日關于“江蘇高考減招”話題的所有微博,設置的時間間隔為1天,劃分實驗預料,在5月9日到5月11日這個時間段,新浪微博中關于這個話題的討論熱度從熱烈到逐漸平緩,因此,選擇這個時間段對輿情情感的變化和分布進行探究。
2.1 PLSA輿情子話題抽取
筆者將半結構化信息處理后,得到純文本語料。隨后,進行分詞統計并且構建“文檔-詞語”的共現矩陣。接著,采用PLSA模型進行子話題抽取,得到每時段子話題及其概率矩陣。表1列出了抽取的4個時間點的子話題,以及出現概率在前5位的話題詞及其概率。
在表1中,整個時間段都被一個子話題貫穿,計算后,兩個子話題之間語義上的關聯度均大于本文設定的閾值0.5,因此,子話題“北京本科率”存在語義上的延續性。
2.2 基于特征詞的情感詞提取
本文以5月9日江蘇高考減招消息出現當天所產生的一個子話題為例,首先將與本話題有關的文本進行資料篩選;隨后,重新進行分類整理;接著,依據特征詞的不同,將句子保存到不同的特征詞文檔中,整理與之相對應的情感詞。
筆者通過BIYING搜索引擎對上述得出的情感詞進行搜索,選擇出現頻率最高的詞匯作為基準詞,選取依據為按照返回的Hits數進行排序的詞組,再以特征詞“減招”的情感關鍵詞為例,通過基于How-Net的詞匯傾向性計算方法得到部分詞匯的傾向值,如下表所示:
通過計算,最后可得到5月9日“江蘇高考減招”子話題中的特征詞“減招”的情感傾向值。計算的結果表明,對于江蘇高考減招,多數民眾認為這一項新政策十分不公平,并且對此懷有強烈的憤怒和不滿情緒,但值得注意的是,盡管不滿情緒高漲,超過半數的群眾還是會接受這項政策。
3 結 語
網絡輿情情感傾向性分析主要包括子話題抽取和情感分析兩大部分。而本文在這兩大部分上都進行了一定的創新,主要創新在子話題的抽取上采用Thomas Hofmann的PLSA模型,在情感分析上采用了基于HowNet的語義相似度分析。但是,這些模型仍然需要進一步改進。第一,將不同的句子結構都統一看成是陳述句進行分析,并沒有考慮其對情感表達的影響,就像反問句就與陳述句有完全不一樣的句意表達效果。第二,該模型需要花費大量的時間進行文本資料的人工整理,在大數據時代下,此種模型的實用性略差。所以未來的工作主要就是將現有的模型實現完全智能化,降低人工成本;考慮語法、句子結構等因素,得到更準確的情感傾向性。
主要參考文獻
[1]黃衛東,陳凌云,吳美蓉.網絡輿情話題情感演化研究[J].情報雜志,2014(1).
[2]黃衛東,林萍,董怡,李宏偉.基于話題特征詞的網絡輿情參與情感演化分析[J].情報雜志,2015(11).
[3]Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J].Machine Learning,2001(1/2).