管 健,孫凱強,王樂豪
(南京信息工程大學自動化學院,江蘇 南京210044)
據CNNIC最新發布的《第45次中國互聯網絡發展狀況統計報告》統計[1],中國網民規模為9.04億,網絡輿情是以網民為主體,以互聯網為平臺,所產生的具有一定影響力的表現。2020年,新冠疫情對中國造成巨大的損失,網絡成為民眾接收信息的主要方式,疫情期間發生的事件在龐大的網絡群體中產生了巨大的輿論,帶來的影響不可小覷。負面的新冠輿情會引導民眾走入歧途,導致一些極端的事件發生,也會對社會和經濟造成不小的威脅。筆者從事新冠疫情研究與預測方向,新冠輿情是研究的重點,所以設計了有效的方法實現對新冠輿情事件預警等級的快速評價,及時地作出預警,制定出有效的應對策略非常重要。本文基于模糊推理方法,以微博為平臺,通過對新冠輿情事件的分析,快速并準確地對新冠輿情事件作出預警等級的評價,可以準確并且迅速地輔助引導新冠輿論方向,從而使得負面的新冠輿論對社會和經濟等造成的損失最小化。
網絡輿情的研究一直是輿情研究的熱點,目前網絡輿情研究主要是指標的建立和模型的建立。指標的建立途徑如下:①從輿情整體出發,對指標進行篩選;②從輿情事件的性質出發,比如突發性事件等,確定特定的指標;③從不同的媒體平臺出發,比如新聞、微博、論壇等;④從不同的主體出發,比如國家、高校等多角度來建立[2-3]。對于指標權重的確立,本文運用熵權法確定指標權重,從而構建模型,建立預警等級,實現對微博上新冠事件的監測和預警,最后根據案例的分析使得所提出的方法具有有效性和科學性。
本文針對輿情預警的基準,以微博為平臺,從新冠本身出發。新冠期間,發生的輿論事件本身對社會造成的影響程度,構造危機評估體系。微博是輿論爆發極為明顯的一個平臺,匯聚了各個明星、媒體、知名博主等許多可以推動輿論發展的載體,但明星與知名博主本身由于情感的摻雜,存在復雜的情況。相對來說熱門微博帶有準確的信息表達能力,對于輿論的發展主題強調明確,相對客觀,所以有更多民眾參與討論,表達觀點。
通過明確指標的設計規則,構造事件關注度、事件傳播速度、民眾情感傾向、民眾參與程度、累計點贊率和累計轉發率6個輿情二級指標,如圖1所示。

圖1 輿情指標
事件發生后,事件的關注度與傳播速度是從事件本身出發,給社會造成的影響直接展示了事件的影響程度。事件關注度是事件發生日到微博當天發帖量最高的日期的天數,天數越多代表影響程度越高。關注度的表達式為:

式(1)中:S1為關注度;d1-d2為發帖量最高的日期與事件發生日期間隔天數。
事件傳播速度表達式為:

式(2)中:S2為傳播速度;S(t1)為截至6月份總發帖數;t1為事件發生天數。
微博上民眾對輿論事件關注度直接反映為參與評論的人數以及對事件的評論的情感傾向。本文中,針對4個事件運用scrapy框架爬蟲,從微博上爬取了截至6月份為止所有的微博博文和評論,爬取評論近80萬條。通過自然語言處理包HanLP對數據進行清洗,去除停用詞、表情、符號等,篩選評論近64萬條,采用重復二分法對數據進行訓練,訓練正向與反向情感的微博語料庫各2萬條用作測試集,對每條評論進行情感分類。民眾的負面情感越多,輿論的社會影響也隨之越深,表達式為:

式(3)中:S3為負面情感比例;?為有效的負面情感數量;ρ為有效的正面情感數量。
民眾關注度最直接的體現為民眾參與話題討論的程度,對6月份之前所有的相關微博的評論數量S4進行統計,直接反映了民眾的關注度。
事件的持續發展是輿論的持續的表現,事件的累計點贊與轉發尤為體現,累計點贊率與累計轉發率表達式為:

式(4)(5)中:S(t2)為截至6月份總點贊數;t2為事件持續傳播天數;S(t3)為截至6月份總點贊數;t3為事件持續傳播天數。
對微博新冠輿情的分析,首先建立合適的指標來描述分析對象。然后建立隸屬度函數據進行模糊化。利用給定的規則進行推理,將模糊數據合成出模糊推理值。最后對模糊推理值進行解模糊處理。主要分為5個流程,如圖2所示。

圖2 模糊推理基本流程圖
本文采用基于模糊熵權法來確定指標權重,相較于目前針對多屬性權重確定方法,比如層次分析法(AHP)、德爾菲法等方法,采用熵權法擁有更多的客觀性,降低了主觀帶來的誤差[4-5]。

得出屬性權重ω=(ω1,ω2,…,ωn)T。
模糊子集由其隸屬函數定義,對給定的論域U,U中的任一元素u,都有一個數μA(u)∈[0,1]與之對應,則稱A為U上的模糊集,μA(u)稱為A對U的隸屬度。
首先對輿情分析中的一級指標進行模糊化,建立事件重要程度模糊集、民眾關注度模糊集、事件發展態勢模糊集三個一級指標通過模糊綜合評判的方式獲得其隸屬度。
3.3.1 事件重要程度
事件重要程度主要是由事件的影響程度以及事件的傳播速度融合來獲取的,利用模糊綜合加權平均作為該指標的隸屬度,權值為ω1、ω2。取事件重要度論域為A=[0,1],x1∈[0,1]為歸一化的影響程度,x2∈[0,1]為歸一化的傳播速度,則將重要程度的評價程度模糊子集分為A1={重要},A2={不重要}。為了更好地表示指標的特性與隸屬關系,本文選用平滑的Gauss型隸屬函數。事件的重要程度評價模糊隸屬函數為:

式(7)(8)中:σ為寬度,根據實際情況取值為0.141 4。
3.3.2 民眾關注度
民眾關注度主要由民眾情感傾向與民眾參與程度融合獲取的,權值為ω3、ω4。取民眾關注度論域為B=[0,1],x3∈[0,1]為歸一化的情感傾向,x4∈[0,1]為歸一化的關注度,則將關注度評價程度模糊子集分為B1={高},B2={低}。則民眾關注度評價程度的模糊隸屬函數為:

式(9)(10)中:σ為寬度,根據實際情況取值為0.141 4。
3.3.3 事件發展態勢
事件發展態勢由累計點贊率與累計轉發率融合來獲取的,權值為ω5、ω6。取事件發展態勢論域為C=[0,1],x5∈[0,1]為歸一化的點贊率,x6∈[0,1]為歸一化的轉發率,則將事件發展態勢評價程度模糊子集表示為C1={嚴重},C2={不嚴重}。則事件發展態勢評價程度模糊隸屬函數為:

式(11)(12)中:σ為寬度,根據實際情況取值為0.141 4。
為了提升算法的精度,將指標數據進行歸一化處理,本文采用L2范數歸一化,具體步驟如下:
對一組向量X=[x1,x2,x3,…,xn],其L2范數定義為,則歸一化表達式為:

將輿情預警等級論域Z=[0,1],取模糊子集為Z1={輕級},Z2={中級},Z3={重級},Z4={特重級}。模糊隸屬度函數依舊選取Gauss型隸屬函數表達式為:

式(14)(15)中:σ為寬度,根據實際情況取值為0.07。
對輿情事件等級進行評估時,每個一級指標下的二級指標經過計算得到的模糊評判值,基于模糊推理規則,結合專家經驗,提出如下規則庫[6-7]:

由于三個一級指標對于整體輿情等級的判定屬于串聯疊加的關系,所以用“and”或者“并且”來連接條件規則,所以本文模糊規則如下所示:
R(k):假如a是Aia并且b是Bib并且c是Cic那么z是Zjz
其中,i=1,2,j=1,2,3,4。輸入變量參數個數為NA=2,NB=2,NC=2,所以規則數量k=NA×NB×NC為8個,a、b、c為輸入變量,z為輸出變量,Aia、Aib、Aic為前提條件項,分別為:

Zjz輸出變量的一個模糊子集zm(m=1,2,3,4),即
最終的輿情等級的評判是由所有指標共同完成的,每個一級指標由其所有二級指標計算而來的輿情模糊隸屬度都會對最終的等級評判產生比較大的影響,等級評判的目的是選出所有前提條件下的最優值。所以,選取“min-max”運算合成模糊集[8]。現將所有的條件與規則合成模糊集:

需要對每個事件給出輿情等級的評估,本文利用模糊集的貼近度來將等級對應的模糊集與屬性所對應的模糊集進行分類,給定論域U上的模糊集P與Q,貼近度d(P,Q)定義為:

采用在論域Z=[0,1]上,有Z1={輕級},Z2={中級},Z3={重級},Z4={特重級},若存在1≤j≤4,則:
d(Z′,Zi)(i=1,2,3,4)=max{d(Z′,Zj)}(19)
則表示該微博事件輿情與Zi等級最貼近,則將Zi作為該微博事件的輿情等級[9]。
選取國內4個新冠期間熱門微博事件韓紅基金會、李文亮事件、武漢封城、雙黃連口服液事件。根據指標獲取的數據,進行歸一化處理。從獲取的微博數據中,例如,事件的影響程度體現在微博熱門發帖數從事件出現開始到發帖數最高的一天持續的天數,持續時間如圖3所示。

圖3 4個新冠微博輿情事件微博發帖數日變化
表1為處理好的4個新冠微博輿情事件的數據,4個微博輿情事件日發帖數持續時間最長的是武漢封城。
由于是國內新冠疫情最嚴重的城市,武漢一直是人們關心的熱點,所以持續時間最長為76 d。李文亮輿情事件在發生之后,在李文亮先生去世之后,微博發帖數飛速升高,2020-03-19,國家監委發布《關于群眾反映的涉及李文亮醫生有關情況調查的通報》,日熱門微博數達到最高,日熱門微博數189個,日熱門點贊數達到2 278 339個,之后微博日發帖數小有波折,但一直處于下降趨勢,06-14,日熱門微博數有突然增長趨勢,因為李文亮先生孩子出世,但并沒有超過頂峰,所以持續時間為48 d。韓紅基金會事件,在司馬三忌發帖針對韓紅基金會開始,日發帖數迅速長高,但由于民眾大多不相信,且政府官方及時澄清,所以微博影響程度不高,為7 d。雙黃連口服液事件從提出開始,立即有專家出來澄清,所以在微博上信息接收及時,該事件沒有得到較好的發酵,影響程度不高,2 d之后,日熱門微博數達到最高。
通過公式(13)對指標數據進行歸一化處理,得到具體數據如表1所示。

表1 新冠微博輿情事件的歸一化數據
根據指標以及指標數據等各種輿情事件信息,邀請了同專業不同年級30名同學分別對二級指標對該指標的一級指標的影響程度作出評價,綜合評價結果如表2所示。

表2 模糊評價表
通過公式(13)給出的權重計算方法,得出所有事件重要度、民眾關注度、事件發展態勢的評價權重為ω1=[0.749 3,0.250 7]T,ω2=[0.669 2,0.330 8]T,ω3=[0.768 1,0.231 9]T。
根據3.5的推理規則中,每一條規則Rk都對應一個單值輸出,本文共8個規則,結合公式(7)~(12)計算模糊隸屬度,根據公式(16)(17)合成出最優的模糊集,根據公式(18)(19)與公式(14)(15)計算4個輿情等級貼近度,每個事件利用計算貼近度的方式,計算結果如表3所示。

表3 各事件的輿情等級評判
網絡信息化條件越加豐富化的今天,網絡輿情分析及預警是目前一項重要的工程,需要多個因素指標共同研究,輿論的防控工作才會更能成為一個整體,輿情分析和預警工作是相關部門提高處理輿論的能力的重要基礎。基于模糊推理的微博新冠輿情分析模型對指標的研究有非常大的優勢,理解起來很容易,具有比較高的價值。