艾敬怡 耿亮 安彧 胡孜睿



摘? 要: 根據(jù)前人研究成果對網(wǎng)絡輿情影響因素進行分析,構(gòu)建出基于相關向量機的網(wǎng)絡輿情反轉(zhuǎn)預測模型。通過對46個輿情事件的訓練和預測,發(fā)現(xiàn)相關向量機的預測精度和預測時間均優(yōu)于支持向量機。由此可知,相關向量機具有良好的應用前景,對于及時發(fā)現(xiàn)反轉(zhuǎn)輿情,規(guī)避輿情反轉(zhuǎn)風險具有現(xiàn)實意義。
關鍵詞: 網(wǎng)絡輿情; 輿情反轉(zhuǎn); 相關向量機; 支持向量機
中圖分類號:G206.3? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)05-113-05
Research on the prediction of network public opinion reversal
based on relevance vector machine
Ai Jingyi, Geng Liang, An Yu, Hu Zirui
(School of Science, Hubei University of Technology, Wuhan, Hubei 430068, China)
Abstract: In this paper, we analyze the influencing factors of network public opinion, and construct a prediction model of network public opinion reversal based on RVM. Through the training and prediction of 46 public opinion events, it is found that the prediction accuracy and prediction time of RVM are better than those of SVM. It can be seen that RVM has good application prospects, which is of practical significance for timely detection and avoidance of the risk of public opinion reversal.
Key words: network public opinion; public opinion reversal; relevance vector machine (RVM); support vector machine (SVM)
0 引言
據(jù)第49次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2021年12月,我國網(wǎng)民規(guī)模達10.32億,網(wǎng)民人均每周上網(wǎng)時長為28.5小時[1]。網(wǎng)絡輿情事件逐漸呈現(xiàn)出頻率高、規(guī)模大、傳播門檻低、影響廣等特點,這增加了大眾甄別、判斷虛假輿情的難度[2,3]。網(wǎng)絡輿情反轉(zhuǎn)在傳播過程中,網(wǎng)民的態(tài)度情緒前后互逆,當更多的事件細節(jié)不斷出現(xiàn),真相慢慢浮出水面時,該事件的熱度可能會再一次猛然上升,使得輿情事件爆發(fā)頻次增加,討論時間延長,輿情的發(fā)展環(huán)境呈現(xiàn)出與普通輿情不同的狀態(tài),增加了政府或相關監(jiān)管部門治理網(wǎng)絡輿情的難度,有些輿情反轉(zhuǎn)事件甚至會引發(fā)社會不穩(wěn)定情緒和社會矛盾[4]。面對網(wǎng)絡輿情反轉(zhuǎn)帶來的一系列影響,本文探究了網(wǎng)絡輿情反轉(zhuǎn)的影響因素,基于相關向量機(RVM)的方法構(gòu)建了網(wǎng)絡輿情反轉(zhuǎn)預測模型,預測網(wǎng)絡輿情事件是否會反轉(zhuǎn),并與傳統(tǒng)的支持向量機模型進行對比分析,最終獲得更為準確的預測結(jié)果,期望能為政府治理網(wǎng)絡輿情反轉(zhuǎn)提供參考依據(jù),構(gòu)建清朗的網(wǎng)絡環(huán)境。
1 研究現(xiàn)狀
1.1 網(wǎng)絡輿情的定義與特征
對于網(wǎng)絡輿情的定義,不同的學者對其有著不同的見解與認識。姜勝洪認為網(wǎng)絡輿情是指媒體工作者或公民借助互聯(lián)網(wǎng),對某一社會問題或熱點事件等的集中反映,這些意見或言論一般具有一定的影響力,同時帶有傾向性[5];劉毅認為網(wǎng)絡輿情就是指在網(wǎng)絡空間內(nèi),公眾對自己比較關心的或者與自身利益緊密相關的事務所擁有的多種情緒、意見和態(tài)度的綜合[6]。
1.2 網(wǎng)絡輿情反轉(zhuǎn)相關研究
目前針對輿情反轉(zhuǎn)的研究主要分為定性研究和定量研究兩種方法。定性研究主要集中在網(wǎng)絡輿情反轉(zhuǎn)的內(nèi)涵[7]、成因[8]、影響因素[9]和應對策略[10]等方面。袁野等從事件性質(zhì)、報道傾向、報道形式、首發(fā)平臺和網(wǎng)民相關度五個角度識別網(wǎng)絡輿情反轉(zhuǎn)的影響因素[9]。少數(shù)學者針對網(wǎng)絡輿情反轉(zhuǎn)做了定量研究,主要預測輿情反轉(zhuǎn)事件的類別和預測輿情事件是否會發(fā)生反轉(zhuǎn)。王楠等提出了改進KE-SMOTE算法,可以將不均衡的輿情事件樣本進行處理,構(gòu)建以神經(jīng)網(wǎng)絡為基礎的集成學習預測模型[11]。
上述學者的研究成果為本文奠定了良好的理論基礎,但是依舊存在只針對一個具體輿情反轉(zhuǎn)事件進行分析和輿情事件數(shù)量較少的問題。相關向量機(RVM)是一種常用的監(jiān)督學習算法,由于其優(yōu)越的學習能力,已在醫(yī)學影像處理,故障智能診斷和高光譜圖像分類等方面取得了較好的應用效果,但是尚未出現(xiàn)運用相關向量機預測網(wǎng)絡輿情反轉(zhuǎn)的研究。基于此,本文隨機抽取了46個網(wǎng)絡輿情事件,選取了合理的輿情特征指標,構(gòu)建了基于相關向量機方法的反轉(zhuǎn)輿情預測模型,并與傳統(tǒng)的支持向量機模型進行對比分析,從而為治理網(wǎng)絡輿情提供參考支持。
2 相關向量機
2.1 相關向量機簡介
相關向量機(Relevance Vector Machine,簡稱RVM)是一種與支持向量機(SVM)類似的稀疏概率模型,能較好地應用于回歸問題和分類問題。RVM除了具有SVM的典型優(yōu)點以外,還克服了SVM固有的一些局限,如與SVM相比,RVM更稀疏,從而測試時間更短,效率更高;RVM的核函數(shù)[K(x,xi)]不受Mercer條件的限制,其應用范圍更廣等。
2.2 RVM分類模型
對于二分類問題,假設訓練樣本集合為[X=xn,tnNn=1],[xn∈Rd],[tn∈0,1]為類別標簽,則RVM的分類函數(shù)如式⑴所示:
[yx,w=n=1NwnKx,xn+w0]? ⑴
其中,[w=w0,w1,…,wNT],[K(x,xn)]為核函數(shù)。
通過logistic sigmoid連接函數(shù)[σy=1/1+e-y]將[yx]轉(zhuǎn)換為線性模型,則數(shù)據(jù)集的似然估計概率如式⑵所示:
[pt|w=n=1Nσyxn,wtn1-σyxn,w1-tn]? ⑵
為了確保模型的稀疏性,RVM為每個權(quán)參數(shù)[wi]都引入了一個單獨的超參數(shù)[αi],并定義其服從零均值高斯先驗概率分布:
[pw|σ=i=0NNwi|o,α-1i]? ⑶
假設給定新的待測試樣本[x*],則相應的目標值[t*]的預測分布如式⑷所示:
[pt*|t=pt*|w,αpw,α|tdwdα]? ⑷
3 網(wǎng)絡輿情反轉(zhuǎn)預測模型
3.1 網(wǎng)絡輿情反轉(zhuǎn)指標構(gòu)建
根據(jù)信息傳播機理和網(wǎng)絡輿情的有關理論,網(wǎng)絡輿情事件的組成要素包括主體、客體、本體和媒體四部分。本文以網(wǎng)絡輿情的四個組成要素和相關學者的研究成果為依據(jù)構(gòu)建網(wǎng)絡輿情反轉(zhuǎn)的指標體系,如表1所示。
⑴ 輿情事件類型(T)
《2020年中國互聯(lián)網(wǎng)輿情報告》顯示2015-2019年輿情事件類型主要集中在社會矛盾、公共安全和公共管理。本文令輿情事件類型[N∈0,1],將極易發(fā)生反轉(zhuǎn)的社會公德與倫理、行政執(zhí)法、民生生活和文化教育歸為一類,賦值1,將不屬于這幾個類型的事件賦值為0。
⑵ 輿情首發(fā)主體權(quán)威度(A)
首發(fā)主體就是輿情突發(fā)事件的首次發(fā)布人或機構(gòu)。權(quán)威媒體的新聞制作方式較嚴謹,而非權(quán)威媒體的新聞制作方式不受報道規(guī)則的拘束。因此首發(fā)主體是否為官方媒體,也是影響輿情是否會反轉(zhuǎn)的關鍵因素。本文令輿情首發(fā)主體[N∈0,1],如該事件首發(fā)主體為信任度較高的官方媒體渠道則賦值為1,反之賦值為0。
⑶ 權(quán)威媒體參與度(PT)
對于網(wǎng)絡事件來說,進行相關報道的權(quán)威媒體越多,說明事件的清晰度越高,可信程度越高,發(fā)生反轉(zhuǎn)的可能性也就越低。因此,報道輿情事件的權(quán)威媒體數(shù)量也是衡量輿情是否反轉(zhuǎn)的重要指標之一。本文根據(jù)國家信息中心發(fā)布的《2021中國網(wǎng)絡媒體發(fā)展報告》確定了20家權(quán)威網(wǎng)絡媒體,其中,中央媒體10家,商業(yè)媒體10家。令權(quán)威媒體參與度為[N∈-1,0,1],若有0-6家媒體報道此事件,說明參與度較低,賦值為-1;若有7-13家媒體報道則說明參與度中等,賦值為0;若有14-20家媒體報道則說明參與度較高,賦值為1。
⑷ 輿情熱度(H)
輿情熱度指的是輿情事件受關注的程度。輿情熱度通常是由原創(chuàng)微博發(fā)布數(shù)(O)、轉(zhuǎn)發(fā)數(shù)(B)、評論數(shù)(C)和點贊數(shù)(D)來體現(xiàn)。
① 本文借鑒文獻[12]的方法建立輿情熱度評價指標體系,所有數(shù)據(jù)以天為時間單位進行統(tǒng)計,其對應關系如下所示。
第[i]天的原創(chuàng)微博發(fā)布數(shù)、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)分別為:
[Oi=n,Bi=j=1nbi,j,Ci=j=1nci,j,Di=j=1ndi,j]? ⑸
因此第[i]天的輿情熱度[Hi]表達式為:
[Hi=w1×Oi+w2×Bi+w3×Ci+w4×Di]? ⑹
② 本文利用信息熵[13]計算各項指標的權(quán)重。
本文采用效益性指標,為了消除指標類型不同和量綱不一致的問題所帶來的影響,使用極值法對該指標進行無量綱化處理,得到第[j]項指標的熵權(quán)值為:
[wj=1-ejj=1n1-ej=1-ejn-j=1nej0≤wj≤1且j=1nwj=1] ⑺
⑸ 視聽化程度(E)
視聽化程度用以衡量網(wǎng)絡輿情事件的傳播方式,分為純文本類、圖片加文本類和視頻加文本類。一般認為視聽化比例越高的事件,其內(nèi)容直觀性更強,所包含的信息量也就越多,越難以造假。其計算方式參考輿情熱度。
因此,第[i]天的輿情視聽化程度[Ei]為:
[Ei=w5×PVi+w6×PPi]? ⑻
[PVi]為第[i]天的視頻微博數(shù)占博文總數(shù)比例,[PPi]為第[i]天的圖片微博數(shù)占博文總數(shù)比例。
⑹ 網(wǎng)民情感傾向(ET)
網(wǎng)民情感傾向是指公眾對此次輿情事件的所表現(xiàn)出的主觀態(tài)度,可分為正向、負面和中立三種狀態(tài)。原創(chuàng)微博最能體現(xiàn)網(wǎng)民的觀點態(tài)度,本文借鑒文獻[4]的方法計算網(wǎng)民情感傾向。
第[i]天網(wǎng)民負向情感的占比率為[Pi,-],正向情感的占比率為[Pi,+],中立情感的占比率為[Pi,0]:
[Pi,-=Ni,-NAi,Pi,+=Ni,+NAi,Pi,0=Ni,0NAi]? ⑼
其中,[Ni,-]、[Ni,+]、[Ni,0]分別表示第[i]天網(wǎng)民負向、正向、中立情感的原創(chuàng)微博數(shù),[NAi]表示第[i]天原創(chuàng)博文總數(shù)量。
⑺ 事件-網(wǎng)民相關度(RE)
事件-網(wǎng)民相關度是指網(wǎng)絡輿情事件與網(wǎng)民的利益相關程度。本文令網(wǎng)民相關度為[N∈0,1,2],一般社會現(xiàn)象定義為弱關聯(lián),賦值為0;涉及公共利益的公共服務、基礎等事件屬于中關聯(lián),賦值1;涉及公眾財產(chǎn)和生命安全的事件則屬于強關聯(lián),則賦值2[9]。
3.2 構(gòu)建基于RVM的網(wǎng)絡輿情反轉(zhuǎn)模型
基于RVM的網(wǎng)絡輿情反轉(zhuǎn)預測模型實現(xiàn)過程如圖1所示。
⑴ 數(shù)據(jù)獲取。從搜狐網(wǎng)、新華網(wǎng)等主流網(wǎng)站和清博大數(shù)據(jù)等平臺獲得輿情事件的一些具體信息并進行分析。運用GooSeker軟件爬取微博平臺輿情事件的相關數(shù)據(jù),如評論數(shù)、轉(zhuǎn)發(fā)數(shù)、首發(fā)平臺和權(quán)威媒體參與數(shù)等。
⑵ 數(shù)據(jù)預處理。對原始指標的數(shù)據(jù)進行歸一化處理。根據(jù)指標構(gòu)建過程可知輸入數(shù)據(jù)為:[x=T,A,PT,Hi,Ei,Pi,-,Pi,+,Pi,0,RE],同時輸出數(shù)據(jù)的類別標簽為是否發(fā)生反轉(zhuǎn),令[y∈0,1],其中0表示事件不發(fā)生反轉(zhuǎn),1表示事件發(fā)生反轉(zhuǎn)。
⑶ 將獲得的數(shù)據(jù)分成兩類,訓練樣本和測試樣本,以標準化處理過的訓練數(shù)據(jù)進行RVM預測模型的訓練,選取合適的核函數(shù)和核函數(shù)參數(shù),得到符合此數(shù)據(jù)指標精度要求的RVM預測模型。
⑷ 將標準化處理過的測試集輸入到RVM模型中進行性能測試并分析結(jié)果。
4 模型運用與評估
4.1 模型應用實例
本文隨機抽取了46個2016~2021年發(fā)生的網(wǎng)絡輿情熱點事件,其中輿情反轉(zhuǎn)事件和輿情不反轉(zhuǎn)事件各23個,選取30個事件作為訓練樣本集,剩余16個事件作為測試樣本集。事件的相關信息如表2所示。
通過GooSeker等平臺軟件爬取輿情事件相關信息。首先確定輿情事件的關鍵詞,爬取一定時間下有關此關鍵詞的所有原創(chuàng)博文信息。本文選擇了事件發(fā)生后24小時內(nèi)的相關信息進行分析。
將已得到的指標值與標簽輸入matlab軟件分別進行RVM和SVM模型的構(gòu)建與訓練,并進行接下來的測試,得到測試樣本的預測結(jié)果如表3所示。
4.2 模型的評估與驗證
在模型的評估過程中,通常會使用準確率、精確率、召回率和特異度四個指標,其具體含義如表4所示。
在本文中正類為輿情反轉(zhuǎn)事件,負類為輿情不反轉(zhuǎn)事件。由此可得到RVM模型和SVM模型的總體評估結(jié)果和驗證結(jié)果如表5、表 6所示。
根據(jù)實驗結(jié)果可以看出,RVM算法在輿情反轉(zhuǎn)事件中的預測效果較好,總體準確率較高,其值為0.875,而SVM模型的總體準確率為0.625。相對RVM模型來說,SVM模型在反轉(zhuǎn)事件的預測上表現(xiàn)出了較差的效果,八個輿情反轉(zhuǎn)事件中只正確識別出了二個事件,其余事件全部錯分為輿情不反轉(zhuǎn)事件,RVM模型在輿情反轉(zhuǎn)和不反轉(zhuǎn)事件中都只錯分了一個事件。
因為兩種模型都是在matlab軟件中實現(xiàn)的,所以可以比較兩種模型對樣本的訓練時間和預測時間如表7所示。由此可知,相關向量機的訓練時間較長但是預測時間較短,在進行大規(guī)模輿情時間的預測時,數(shù)據(jù)量較大,使用RVM模型能夠大幅縮短預測時間,具有時效性。
本文的目的是要根據(jù)輿情事件的初期指標值,正確預測輿情事件的反轉(zhuǎn)與否,從而為營造清朗的網(wǎng)絡空間提供參考和幫助。從預測準確度上看,RVM模型比SVM模型的預測精度更高,能較好地識別出輿情反轉(zhuǎn)事件;從預測時間角度看,RVM模型的預測時間較SVM模型的短,在大規(guī)模預測輿情事件時具有更實際的應用前景。
5 結(jié)束語
本文借鑒了網(wǎng)絡輿情及其反轉(zhuǎn)的相關理論和研究成果,對影響輿情事件反轉(zhuǎn)與否的因素指標進行了分析并將其量化處理為模型指標,構(gòu)建了基于相關向量機的網(wǎng)絡輿情反轉(zhuǎn)預測模型。通過對爬取到的46個樣本數(shù)據(jù)進行訓練和預測來評估RVM模型,并將其與常用的SVM模型進行對比、分析,得到了RVM模型比SVM模型更具有預測優(yōu)勢的結(jié)論。
同時本文也還存在一些問題。如模型輸出結(jié)果只有反轉(zhuǎn)與不反轉(zhuǎn)兩類標簽,在后續(xù)的研究中可以將預測準確度進行細化;此外,可以增加模型的指標,如網(wǎng)民年齡分布和地域分布或者事件擴散程度等,達到得到更為準確的預測結(jié)果。
參考文獻(References):
[1] 中國互聯(lián)網(wǎng)絡中心.第49次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R/OL].(2022-02-25)[2022-06-24].http://www.cnnic.net.cn/n4/2022/0401/c88-1131.html
[2] 張明新.國內(nèi)網(wǎng)絡輿情建模與仿真研究綜述[J].系統(tǒng)仿真學報,2019,31(10):1983-1994
[3] 田世海,孫美琪,張家毓.基于貝葉斯網(wǎng)絡的自媒體輿情反轉(zhuǎn)預測[J].情報理論與實踐,2019,42(2):127-133
[4] 江長斌,鄒悅琦,王虎,等.基于SVM的自媒體輿情反轉(zhuǎn)預測研究[J].情報科學,2021,39(4):47-53,61
[5] 姜勝洪.網(wǎng)絡輿情的內(nèi)涵及主要特點[J].理論界,2010(3):151-152
[6] 劉毅.網(wǎng)絡輿情與政府治理范式的轉(zhuǎn)變[J].前沿,2006(10):140-143
[7] 夏一雪,蘭月新,劉茉,等.大數(shù)據(jù)環(huán)境下網(wǎng)絡輿情反轉(zhuǎn)機理與預測研究[J].情報雜志,2018,37(8):92-96,207
[8] 孫好.后真相時代輿情反轉(zhuǎn)的成因探析[J].青年記者,2018(23):18-19
[9] 袁野,蘭月新,張鵬,等.基于系統(tǒng)聚類的反轉(zhuǎn)網(wǎng)絡輿情分類及預測研究[J].情報科學,2017,35(9):54-60
[10] 劉琪,肖人彬.觀點動力學視角下基于意見領袖的網(wǎng)絡輿情反轉(zhuǎn)研究[J].復雜系統(tǒng)與復雜性科學,2019,16(1):1-13
[11] 王楠,李海榮,譚舒孺.基于輿情事件演化分析及改進KE-SMOTE算法的輿情反轉(zhuǎn)預測研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2022,6(2):396-407
[12] 楊樹仁,沈洪遠.基于相關向量機的機器學習算法研究與應用[J].計算技術(shù)與自動化,2010,29(1):43-47
[13] 魏志惠,何躍.基于信息熵和未確知測度模型的微博意見
領袖識別——以“甘肅慶陽校車突發(fā)事件”為例[J].情報科學,2014,32(10):38-43