王飛
(甘肅政法學院 信息工程學院,甘肅 蘭州 730070)
計算機技術研究
基于貝葉斯網絡的應急預測算法在群體性突發事件網絡輿情中的優勢研究
王飛
(甘肅政法學院 信息工程學院,甘肅 蘭州 730070)
隨著網絡社會的逐漸發展,群體性突發事件可以通過互聯網形成網絡輿情,并對政府及企業處理群體性突發事件帶來極大挑戰.網絡輿情的變動機制、阻動機制、啟動機制與驅動機制分別在爆發、終結、形成與擴散階段起到了引導作用.論文闡述了貝葉斯網絡應急預測算法在網絡輿情中群體事件性能方面的優勢.
群體性;突發事件;網絡輿情;演變
依據網絡輿情中群體性事件的詞語群體度計算、群體事件詞語權重計算和群體詞的提取結果,并且按群體性事件的演化過程,核心是網絡輿情的群體性事件中的狀態變化,構造出以下三種子網絡,依次為輸入-狀態、狀態-狀態、狀態-輸出子網絡,根據三個子網絡里面的公共變量把以下三種子網絡連接起來,就組成了對網絡輿情的群體性事件進行預估出的一個齊備的網絡系統.
(1)輸入-狀態子網絡.該網絡由輸入變量和狀態變量以及控制輸入變量互相作用關系構成.設定網絡輿情中群體事件的環境輸入變量集合用EI={eii|1≤i≤m}表示,控制輸入變量集合表示為XI={Xik|1≤k≤m},事件狀態變量集合描述成MP={mpj|1≤j≤n},承載體狀態變量集合用IP={ipj|1≤j≤m}描述.MP為列變量,EI為行變量,關聯矩陣X=(Xij)m×n根據專家經驗構造得出,若Xij≥α,那么eii和mpj經過有向邊進行連接;針對XI里面的所有控制措施Xik,基于目的與控制對象,Xik與mpj或ipj經過有向邊進行連接,建立了輸入-狀態子網絡.
可以通過條件概率將網絡中的因果關系描述成:P (mpj|eii)能夠體現出網絡輸入對事件狀態的影響程度;P(mpj, ipj|Xik)能夠體現出控制輸入對時間和承載體的影響程度.
(2)狀態-狀態子網絡.用于對狀態變量之間的因果關系進行一定程度的反映.假如事件形態變量的集合為MP;承載體狀態變量的集合為IP;事件生命周期變量為lc.依據輸入-狀態子網絡所體現出的模式,把MP看成列變量與行變量,構建出的關聯矩陣是Y=(bij)n×n,行變量為MP,列變量是IP,所建立的關聯矩陣是C=(cij)n×m;如果bij≥α或cij≥α,則通過有向邊連接相關變量;最終,把變量lc和承載體狀態ipj及事件狀態mpj(描述事件生命周期)連接在一起,建立了狀態-狀態子網絡[2].
可通過條件概率將該網絡中的因果關系描述成:令mpj∈MP,p(mpj|mpi)能夠體現事件狀態變量之間的影響程度;p(ipj|mpi)能夠體現事件狀態變量對承載體狀態變量的影響程度;P(lc|mpi,ipj)能夠體現不同的事件狀態與承載體狀態相應的事件生命周期.
(3)狀態-輸出子網絡.事件狀態變量集合用MP來描述;該網絡能夠表達輸出變量和狀態變量之間的因果關系.使用IP表示一個集合,該集合包括承載體的狀態變量;輸出變量集合表示為O={oj|1≤j≤m};與事件有關的外部環境變量集合描述為EO={eoj|1≤j≤p};事件損失變量集合用LO={lok|1≤k≤q}描述,并且,O=EO∪LO.假如群體性事件的狀態變量為S=MP∪IP,行變量為S,列變量為EO,建立的關聯矩陣D為(dij)(m+n)×p,將IP作為行變量,將LO作為列變量,塑造關聯矩陣E=(ejk)m×q;假設dij≥α或者eij≥α,那么經過有向邊把相關變量進行連接,建立了狀態——輸出子網絡.
通過條件概率將該網絡含有的因果關系描述成:p (oj|mpi和p(oj|ipj),依次用于描述當事件或承載體在某一狀態時,群體事件對外部環境的影響或導致損失的概率.
(4)基于(1)—(3)所構造的子網而形成的網絡輿情中基于群體事件預測的貝葉斯網絡:把承載體狀態變量與事件狀態變量當做公共節點,把前述的三個子網組合起來,建造了網絡輿情中群體性事件的整體預測網絡.
用以下公式表示:


網絡輿情群體性事件的所有變量之間相互依賴的條件間關系用公式(1)表述,同時表達了群體性事件全部要素的聯合概率的分布可能性,經過分析式(1),可以求得網絡里全部節點的邊緣概率,最終活動先驗與后驗的概率統計網絡.
網絡輿情群體性事件的貝葉斯網絡推理用以下公式表示:

該公式的前提是重要狀態變量和輸出變量作為目標變量,經過對式(2)的分析可以知道,網絡輿情群體性事件貝葉斯網絡的推理式為正向推理,因此可以預測在某環境輸入的狀態情況下群體性事件生成的影響和重要狀態的取值.
進行相關的實驗分析并驗證文章中提出的算法.實驗中將新浪微博,通過新浪微博XPI和網絡爬蟲,10天內共204252條新浪微博,對原始微博數據中的微博文本信息、傳播信息和用戶信息進行采集,將其作為本文實驗數據.
對網絡輿情中群體性事件進行應急預測的傳統聚類算法和本文算法進行比較,重點比較兩種不同算法時間性能,使用圖1表述.

圖1 傳統算法與本文算法執行時間情況比較
分析圖1看出該文章提出的算法在時間性能方面比傳統聚類算法優越很多,傳統聚類算法上升的梯度增加明顯,前提是數據規模慢慢擴大,算法效率明顯比較低;但論文所提出的算法在執行時間梯度方面比較平穩,所以論文提出的算法效率比較高.
除了以上描述,論文提出算法的優勢還有準確率、召回率方面,得到的結果如圖2所示.

圖2 傳統算法與本算法性能結果比較
由圖2得出結論,論文提出算法的準確率和召回率都比傳統聚類算法高,原因是本論文提出的算法把用戶的影響力權重值加入考慮范圍,也有效提取了群體詞,這樣的到的群體詞可以更準確地表達網絡輿情中群體性事件;并且傳統聚類算法準確率很低,因為沒有辦法準確定位一個最優化的群體詞序列.
論文構建了一種有關群體性公共事件的應急預測算法,該算法重建了網頁內容,并進一步計算得出網絡詞語的基礎權重值,同時依據來自網頁中的傳播特性與計算出的網絡詞語的基礎權重值求出一段時期內的詞語的權重值.結合總體考慮詞語權重信息和用戶的影響力,同時給群體性一個準確概念,之后再依據其斷定一個詞是否是群體詞.依照群體性公共事件變化的過程,把基礎變成網絡輿情的群體性事件的狀態,按次序分別建立三種子網絡,構建網絡輿情的群體性公共事件預測的整個網絡結構.論文最后以先驗與后驗概率網絡為前提,計算得出了上述網絡中全部節點的邊緣概率值,由此推論出了網絡輿情中群體性事件的貝葉斯網絡模型,由此得出了網絡輿情中群體性事件的應急預測方案.仿真后的實驗結論得出論文建立的貝葉斯方法準確性比較高.
〔1〕保羅·拉扎斯菲爾德,伯納德·貝雷爾森,黑茲爾·高德特.人民的選擇:選民如何在總統選戰中做決定[M].北京:中國人民大學出版社,2012.1-15.
〔2〕周耀明,張慧成,王波.網絡輿情演化模式分析[J].信息工程大學學報,2012(03):334-341.
〔3〕Shang Y. An Agent Based Modelfor Opinion Dynamics with Random ConfidenceThreshold[J]. Communications in Nonlinear Science and NumericalSimulation.2014,19(10):3766-3777.
〔4〕陳桂茸,蔡皖東,徐會杰,等.網絡輿論演化的高影響力優先有限信任模型 [J].上海交通大學學報,2013(01):155-160.
〔5〕周耀明,王波,張慧成.基于Emd的網絡輿情演化分析與建模方法[J].計算機工程,2012(21):5-9.
〔6〕熊熙,胡勇.基于社交網絡的觀點傳播動力學研究[J].物理學報,2012(15):104-110.
〔7〕王根生.網絡輿情群體極化動力模型與仿真分析[J].情報雜志,2012,31(3):20-24.
〔8〕陸安,劉業政.基于連續影響函數的群體觀點演化模型與仿真[J].管理學報,2014,11(2):283-287.
〔9〕夏玲玲.基于在線社交網絡的謠言控制策略研究[D].南京郵電大學,2013.
〔10〕顧亦然,夏玲玲.在線社交網絡中謠言的傳播與抑制[J].物理學報,2012(23):544-550.
〔11〕李青,朱恒民.基于BA網絡的互聯網輿情觀點演化模型研究[J].情報雜志,2012(3):6-9+35.
〔12〕劉小波.基于Netlogo平臺的輿情演化模型實現[J].情報資料工作,2012(1):55-60.
〔13〕Cioffi-Revilla C.Introduction to Computational Social Science:Principles and Applications[M].Springer.2014: 358.
〔14〕劉怡君,周濤.社會動力學[M].北京:科學出版社,2012. 23-25.
〔15〕MarchiS, Page S E. Agent-Based Modeling[J]. Annual Review of Political Science.2014,17(1):1-20.
TP311.134
A
1673-260X(2017)08-0011-02
2017-05-17
教育部人文社會科學研究西部和邊疆地區項目資助(NO.14XJC840002);甘肅省社科規劃項目(NO.YB098);甘肅省高等學校科研項目資助(NO.2014B-064);甘肅政法學院校級科研資助重點項目(NO.GZFXZDLW008);甘肅省教育科學“十二五”規劃課題資助(NO.GS[2014]GHBZ019);甘肅政法學院教改重點項目(NO.GZJG2015-A04)