基于LDA模型的網絡輿情研究進展與演化分析

2020-05-26 02:46:22蔣明敏王雪芬

泰山學院學報 2020年2期

蔣明敏，王雪芬，劉玥

（南京信息工程大學當代中國馬克思主義研究院，江蘇南京 210044）

一、引言

科學文獻的主題挖掘可以幫助情報服務機構快速準確地捕捉學科主題和脈絡，分析主題演化路徑，并對學科未來的研究熱點和發展趨勢做出預測［1］。從知識結構層面來看，研究主題屬于隱性層次，代表某個學科領域的研究方向，表現為若干個或一組關鍵詞的集合；科學文獻屬于顯性層次，是研究主題的外在表現和知識載體［2］。面對海量科學文獻，如何有效挖掘隱性研究主題和潛在演化模式，是眾多研究學者關注的問題。

主題模型可以在大規模的文獻數據中，通過主題的概率分布來表示數據集內部的特征信息。既解決了傳統聚類算法的“維數災難”問題，又進一步挖掘了科學文獻的潛在演化模式。其中，最為主流的主題模型是由Blei等提出的LDA模型（Latent Dirichlet Allocation）。然而，隨著文獻數量的急劇增長，研究人員已經不滿足于靜態時間下研究主題的挖掘和分析。在研究主題的演化路徑中，“時間”維度是一個重要的標簽，但傳統LDA模型并沒有考慮文獻時間這一維度，而現實情況是研究主題在時間序列趨勢下不斷演化。

基于此，本文以“網絡輿情”為研究對象，以CNKI數據庫中的文獻標題和摘要為數據來源，結合多種停用詞表進行中文分詞并提取領域術語。在LDA主題挖掘的基礎上，引入文獻時間信息，計算不同時間維度的研究主題概率分布相似度，分析研究主題隨時間的演化規律，為學科主題挖掘和演化分析研究提供新的思路和方法。

二、國內外研究現狀

當前學科主題挖掘與演化分析主要采用共詞網絡和主題模型的分析方法［3］，主題模型是以非監督學習的方式對文檔集合的隱含語義結構（latent semantic structure）進行聚類的統計模型，可以用于收集、分類和降維文本。最具代表性的主題模型是2003年由Blei等人提出的LDA主題模型：引入Dirichlet先驗分布，構建“文檔——主題——關鍵詞”三層貝葉斯模型，運用概率方法對模型求解，挖掘文檔主題［4］。目前LDA模型在不同領域的主題挖掘研究中已被深入應用，如陳偉等［5］利用LDA主題模型和隱含馬爾科夫模型，從技術主題的轉移概率角度分析技術主題的語義演化趨勢，對于技術主題預測起到一定作用；吳菲菲等［6］利用LDA主題模型抽取專利技術主題，以主題相似度為關系權重新構建專利引用網絡，以此分析技術主路徑及其演化規律，屬于基于圖挖掘的主題演化分析方法；曲佳彬等［7］利用LDA主題模型設計主題演化方法，通過主題過濾和主題關聯確定學科領域主題之間的語義關系；王曰芬等［8］以國內知識流領域為研究對象，利用LDA主題模型探索分類視角下的主題提取與分布狀態，得到11個不同學科的熱點主題及其所揭示的知識點；王文娟等［9］利用LDA對海洋酸化相關研究進行了主題分析，確定了科研立項重點以及各主題的強度；楊慧等［10］選取國際氣候領域作為試點對象，對政策文本數據進行了LDA主題挖掘，并結合主題強度變化為我國相關政策制定提出了完善建議；Kim等［11］利用LDA主題模型對Twitter用戶發布的信息進行興趣主題挖掘，實現興趣內容推送和好友推薦；Song等［12］構建基于“主語——行為——賓語”結構的LDA主題模型，實現對產業領域中專利文獻主題的內容分析；Suominen等［13］基于專利數據通過LAD模型對企業研發方向進行分析和預測，并基于Gephi進行主題可視化，但未進行專利和論文整合數據的對比研究。

縱觀上述研究，基于LDA模型的學科主題挖掘與演化分析已取得諸多研究成果。然而少有研究考慮時間標簽信息，缺乏時間維度上的研究主題關聯與演化分析。基于此，本文提出多時間窗口下基于LDA模型的主題挖掘和演化分析框架，為學科主題挖掘、關聯和演化研究提供新的思路和方法。

三、研究思路與方法

本文研究框架主要包括三個部分：數據預處理、LDA主題聚類分析和多時間窗口主題演化分析。

（一）數據預處理

首先，選擇合適的檢索詞在CNKI數據庫查找相關的中文文獻，選取文獻的標題和摘要作為主題挖掘的數據來源。對原始數據進行數據清洗，過濾征稿啟事、新聞報道、會議通知等內容，進而進行中文分詞、去除停用詞和提取領域術語，其中去除停用詞主要是過濾出現頻率很高，卻無實際含義的詞語，包括英文字符、數字、數學字符、標點符號及使用頻率特高的單漢字等，以便提高后續分析的準確度和效率。

本文選取tf-idf作為H-LDA主題模型的文本向量特征，tf-idf（term frequency-inverse document frequency）是一種詞頻和逆向文件頻率的統計方法，可以很好地反映出某個詞語對于一份文檔的重要程度，詞語的重要性隨著它在文檔中出現的次數成正比增加，但同時也會隨著它在語料庫中出現的頻率成反比下降［14］。

（二）LDA主題聚類分析

LDA（Latent Dirichlet Allocation）主題聚類模型由Blei等提出，是一種“文檔——主題”生成模型，包含詞、主題和文檔三層結構。三層結構都符合多項式概率分布，即文檔到主題服從多項式分布，主題到詞服從多項式分布［15］。LDA主題模型克服了基于傳統向量空間模型建模時文本矩陣稀疏、忽略文本語義等缺陷，其基本流程如圖1所示。其中，表示詞分布，表示主題分布，是主題分布的先驗分布（即Dirichlet分布）參數，是詞分布的先驗分布參數，z表示模型生成的主題，w表示模型最終生成的詞，S表示文檔的詞語數量，D表示文檔數量。

圖1 LDA主題模型

運用LDA主題模型對預處理后的文本數據進行層次主題聚類，通過計算困惑度得到最優主題集合，以及每篇研究文獻所屬的主題。為從時間維度上梳理研究主題的演化路徑，本文將文本數據劃分為多個時間窗口，運用LDA模型挖掘不同時間窗口的研究主題，并采用歸一化后的JS散度（Jensen-Shannon divergence）計算不同研究主題的相似度，從而勾勒出多時間窗口下研究主題的演化路徑和趨勢。

四、案例分析

隨著移動通訊技術的發展和智能終端的普及，越來越多的人們以互聯網為載體，以社交平臺和自媒體為渠道，在網絡上表達情感、態度、意見和觀點，并與他人交流，形成網絡輿情［16］。網絡輿情是社會輿情在互聯網空間的映射，是社會輿情的直接反映。在Web2.0環境下，政府部門需要對網絡輿情予以正視，做好網絡輿情治理工作，創造健康的網絡環境。從研究文獻來看，輿情治理與管控一直是研究者關注的重點，國內外在輿情監測、輿情傳播、輿情應急管理等領域已經產生了大量的研究成果。基于此，本文運用第三節提出的研究思路和方法，對網絡輿情的研究主題進行挖掘和聚類，分析近10年研究主題的演化路徑，從而為輿情治理的理論研究和實踐應用提供對策建議。

（一）數據來源及預處理

本文使用CNKI期刊論文數據庫進行文獻檢索，檢索關鍵詞為“網絡輿情”“輿情治理”“突發事件”“應急管理”“意見領袖”“自媒體”等，檢索時間為2019年10月15日，時間跨度為2009年至2018年。經人工篩選后得到相關文獻11634篇，數量演化趨勢如圖2所示。從圖中可以看出，近10年網絡輿情研究的文獻數量呈現穩步增長趨勢，在2016年達到頂峰（1765篇）。

圖2 文獻數量演化趨勢

根據網絡輿情的相關研究主題，結合多個中文停用詞表，運用Jieba分詞工具對11634篇文獻標題和摘要進行分詞，得到“輿情”“情報”“民意”“危機”“化解”“傳播”“突發事件”等領域詞匯。定義，其中為第n篇文獻的文本向量。對所有的文本向量進行tf-idf特征提取，作為LDA主題模型的輸入參數。

（二）主題聚類分析

LDA是一種無監督聚類算法，其主題抽取效果與迭代次數（iteration）密切相關。本文以文獻數量最多的2015-2016區間為例，設置測試主題數分別為10，20，30，當迭代次數增加時，模型迅速收斂，迭代至50次之后，不同主題數的收斂效果均無明顯區別，收斂趨勢如圖3所示。綜合考慮運算速度和收斂效果，本文將迭代次數設定為100次。

圖3 迭代次數對機器學習效果的影響

本文運用LDA模型中的Perplexity（困惑度）參數確定網絡輿情研究文獻的最優主題數。分別計算2009-2010、2011-2012、2013-2014、2015-2016和2017-2018區間不同主題數的困惑度值，（如圖4所示），確定不同區間的最優主題數為5、7、14、27和16。

根據上述參數訓練對多時間窗口的文獻數據進行LDA分析，結果如下：

（1）2009-2010

在2009-2010時間窗口LDA模型聚類得到的5個主題均有實際含義（見圖4），主題關鍵詞分布和標簽如表1所示。

圖4 不同主題數的困惑度值

表1 2009-2010時間窗口中LDA主題標簽及關鍵詞分布

從表1可以看出，在當前時間窗口下網絡輿情的研究主題較少，主要集中在輿情傳播、輿情影響和輿情應急等領域。其中，高校輿情是指在校大學生通過多個渠道對其所關心的事件、政策和新聞發表個人看法、意見和情緒。在校大學生處在青年時期，其人生觀、價值對和世界觀容易被他人影響，因此高校輿情監測和管控對社會輿情治理有著非常重要的意義。

（2）2011-2012

在2011-2012時間窗口LDA模型聚類得到的7個主題中，去除由虛詞組成的主題聚類（2個），其余5個主題的關鍵詞分布和標簽如表2所示。從表2可以看出隨著互聯網的發展和普及，新型媒體如博客已替代傳統媒體成為輿情傳播的主要媒介。高校輿情監測和管控仍然是研究的重點，同時各級政府和社會機構也開始對輿情治理機制進行深入探討。

表2 2011-2012時間窗口中LDA主題標簽及關鍵詞分布

（3）2013-2014

在2013-2014時間窗口LDA模型聚類得到的14個主題中，去除由虛詞組成的主題聚類（2個），去除與輿情研究無關或相關度較小的主題聚類（2個），去除研究文獻數量為0的主題聚類（1個），其余9個主題的關鍵詞分布和標簽如表3所示。從表3可以看出，在這一時間段涌現出新的研究主題，如“輿情文化建設”研究中提及社會主義文化建設需要提高公民信息素養，微博等自媒體的興起使得自媒體輿情的傳播和管控成為研究的焦點。隨著網絡輿情研究的不斷深入，越來越多的學者運用傳染病動力學、系統動力學、演化計算等數學模型研究輿情傳播。同時，在食品安全和反腐倡廉等領域，輿情的監測和管理也逐步得到重視。

表3 2013-2014時間窗口中LDA主題標簽及關鍵詞分布

（4）2015-2016

在2015-2016時間窗口LDA模型聚類得到的27個主題中，去除由虛詞組成的主題聚類（3個），去除與輿情研究無關或相關度較小的主題聚類（4個），去除研究文獻數量為0的主題聚類（1個），其余9個主題的關鍵詞分布和標簽如表4所示。從表4可以看出，在2015-2016這一事件窗口，新的研究主題大量涌現，如“意見領袖”“謠言管控”“微博輿情”等，說明隨著微博、微信、知乎等網絡自媒體平臺的興起，用戶和網民在輿情傳播過程中的作用越來越大，“高校輿情”“輿情監測”“輿情應急管理”則一直是研究學者關注的重點。由于輿情傳播媒介和渠道的增多，增強輿情掌控和建立輿情治理的司法制度已成為亟需解決的問題。同時，隨著輿情模型研究的深入，越來越多的學者運用機器學習的方法對輿情傳播的走向和熱點進行預測。

表4 2015-2016時間窗口中LDA主題標簽及關鍵詞分布

（5）2017-2018

在2017-2018時間窗口LDA模型聚類得到的16個主題中，去除由虛詞組成的主題聚類（3個），去除與輿情研究無關或相關度較小的主題聚類（4個），去除研究文獻數量為0的主題聚類（1個），其余9個主題的關鍵詞分布和標簽如表5所示。

表5 2017-2018時間窗口中LDA主題標簽及關鍵詞分布

從表5可以看出，在這一時間窗口“高校輿情”仍然是關注的重點，同時網民和用戶的“輿情情感”也得到了關注。隨著生活水平的提高，“旅游輿情”主題逐漸受到研究學者的重視，如“青島天價龍蝦”事件在微博等自媒體平臺上引起極大的關注。同時“輿情反轉”研究主題第一次出現，原因在于在輿情傳播的不同階段，由于信息的不完全性和不對稱性，輿論導向和網民關注度可能出現較大的反差，如“重慶公交墜橋”事件。

（三）主題演化分析

針對LDA模型聚類得到的主題及關鍵詞，計算兩個相鄰時間窗口的JS散度，得到主題相似度矩陣，并對主題演化路徑可視化，如圖5所示。

圖5 不同時間窗口的主題演化路徑

圖中圓圈大小代表主題所含文獻數量的多少，圓圈越大，文獻數量越多。圓圈之間連線的粗細代表主題相似度，連線越粗，相似度越高。

從圖5可以看出，高校輿情和輿情應急管理一直是研究學者關注的焦點，因此不同時間窗口相關主題的相似度較高，連線較粗。此外，相似度較高的主題還包括以下演化路徑：

1.“輿情傳播”→“輿情研究模型”→“輿情預測”

2.“輿情系統”→“輿情監測模型”→“輿情預警平”

3.“新型輿情傳播媒介”→“微博輿情”→“自媒體輿情”

4.“食品安全輿情”→“醫療輿情”→“旅游輿情”

5.“新型輿情傳播媒介”→“輿情意見領袖”→“輿情媒體引導”

五、結語

本文結合LDA主題模型及多時間窗口，嘗試從時間維度上梳理科學文獻研究主題的演化路徑。在對網絡輿情研究的主題演化分析中，本文將所采集文本數據劃分為5個時間窗口，并運用LDA模型挖掘不同時間窗口的研究主題，進而采用歸一化后的JS散度計算不同研究主題的相似度，深入探求多時間窗口下網絡輿情相關研究主題的演化路徑和趨勢，其結果為輿情治理的理論研究與實踐應用提供數據支撐。研究結果也進一步證明，LDA主題模型及多時間窗口的綜合運用，能有效挖掘科學文獻研究主題的演化路徑，更為準確、清晰地揭示研究主題的演化規律。