◆印曉天
?
基于SPARK ON YARN的網絡輿情預警技術
◆印曉天
(公安部第一研究所 北京 100048)
隨著互聯網的快速發展,近年來網絡輿情熱點事件頻發,一些不良熱點事件嚴重影響了網絡社會治安,因而迫切要求網絡監管者提高網絡管理水平,然而傳統的人工監控方式無法準確有效地發現潛在的危害事件并采取相關預警措施。因此,本文從傳播媒體級別、地域空間分布、帖子數量、爆料者影響力、意見傾向狀況、信息文本長度、事件內容這七個方面建立相應的指標項以及對應的預警分數,基于此預警指標體系,本文以spark on yarn為基礎構建分布式預警框架,對海量的網絡輿情數據進行深度分析挖掘,最后,本文以“六安教師討薪”為例子進行說明,來分析預警效果。
指標體系;預警;分布式;網絡輿情;SPARK ON YARN
預警的本質是對某種結果的預測,并對應某種惡劣情況做出實施預案,以更好的進行防范。隨著社交網絡突飛猛進式的發展,一些社交平臺應運而生,比如微博、微信、論壇等,人們利用這些網絡平臺來表達民意,訴說自己的情感,以及對某個熱點進行評論,進而產生了大量的輿情信息。網絡輿情預警是發現影響網絡輿情產生、發展、消失的重要因素,并對其信息進行動態監測、測量和收集。根據預警系統的內容,采用預警分析技術對網絡輿情進行評估,預測其發展變化情況,相關政府部門會根據預警情況作出正確的引導和措施,防止產生嚴重的社會影響力。
國外學者對于網絡輿情預警的研究相比于我國更早也更為全面,現有的研究主要致力于技術領域的更新和有效支持。相關研究情況主要有:最早的一個輿論互動模型是由Katarzyna Sznajd Weron設計的“Sznajd模型”;隨后帕維爾?索伯科維茨針對輿情跟蹤、輿情監管進行研究,實現自動主題、情感和意見以及實時監測;卡洛琳?凱瑟在輿情預警系統中添加輿情關鍵詞,進而來對輿情進行檢測;戴維和斯科特對應對突發事件提出預案,針對不同的公共安全危機提供對應的對策。
目前,在我國市場上也出現了不少輿情監控以及預警系統,但是在預警準確率方面仍存在很大的優化空間,尤其是在預警指標體系方面,沒有一個完善的指標體系分析方法,不能很好地建立輿情事件之間的關系以及挖掘期間的傳播規律。因此,本文結合社會的不同方面,從不同的角度來建立輿情指標項,并按照輿情發展的全過程以及輿情的擴散度、聚集度等得到輿情參數值。基于此預警指標體系,本文以spark on yarn為基礎構建分布式預警框架,對海量的網絡輿情數據進行深度分析挖掘,進而對網絡輿情進行預警。
目前關于網絡輿情預警的研究越來越引起廣大研究人員的關注,一些研究人員也進行了專門研究,提出了不少具有權威性和共識性的觀點:
在網絡輿情預警模型方面,王衛華、石強強等人提出了基于BP神經網絡的網絡輿情預警模型研究[1][2]。Dianjie等提出了一種改進的Elman神經網絡模型,為網絡輿情預警機制的科學解決提供了新的方法[3]。Li, Zhaocui等研究了應急網絡輿情傳播與預警模型[4]。Wang, Gaofei等結合層次分析法和模糊綜合分析方法,構建了基于AHP模糊綜合分析的移動社交網絡輿情預警模型[5]。Sun, Lingfang等建立了11個網絡輿情危機二級指標的三級預警指標體系。然后,利用遺傳算法對BP神經網絡的初始權值和閾值進行優化,建立了一個網絡輿情危機預警模型[6][7]。Zhang Y等在海量信息傳遞模型的基礎上,運用扎根理論提取指標要素,運用模糊層次分析法確定指標要素,運用模糊推理算法和模糊綜合評價方法對網絡輿情的監測和早期預警進行評價[8]。Du Z等利用灰色預測和模式識別方法建立輿情預測預警模型[9]。Sun L提出了一種基于支持向量機算法的網絡輿情預警模型[10]。Wang Q等基于層次分析法的網絡輿情預警研究[11]。
在網絡輿情預警體系方面,Fu, Yeqin等運用修正德爾菲法和層次分析法,設計了一個由三個層次指標組成的旅游危機事件網絡輿情監測預警指標體系[12]。Tian, Yi Lin等在分析不同時期網絡輿情特征的基礎上,提出了構建網絡輿情預警指標體系的三個關鍵要素[13]。Lin, Peiguang等實現了基于輿情特征分析的網絡輿情預警指標體系研究[14]。Zhu, Chao Yang等提出了一種基于支持向量機的新穎網絡輿論預警指標體系[15]。Zhikai等利用層次分析法(AHP)構建網絡視角下的公眾輿論司法風險預警評價指標體系[16]。Gao H等構建了政府重大項目輿情風險預警指標體系[17]。Liu M Y等通過對語義網絡和高頻詞的分析,運用扎根理論,歸納出4個一級指標和14個二級指標,基于旅游網絡輿情的視角,最終建立旅游網絡輿情發布指標體系[18]。Song J等設計并實現了高校社會網絡輿論的貝葉斯預警系統[19]。Li-Xia P U等構建了新疆網絡輿情系統[20]。
本文主要從覆蓋傳播媒體級別、地域空間分布、帖子數量、爆料者影響力、意見傾向狀況、信息文本長度、事件內容這七個方面建立相應的指標項,并根據不同的指標值全面分析得到預警分數,監測到的輿情信息經分析后若發現超出預警指標閾值的情況,則進行預警評級。其中,網絡輿情指標項如下表1所示:

表1 網絡輿情指標項
其中,對于事件內容,本文分別從政治、司法、公共以及民生領域來描述對應的影響因素。




綜上所述,根據網絡輿情預警指標體系,得到輿情預警得分。
最后,本文將網絡輿情的預警等級被劃分為五個等級:分數為0-20為安全區,20-40為較安全區,40-60為較危險區,60-80為危險區,80-100為非常危險區,分別用綠、藍、黃、橙、紅表示對應的預警區域,具體如圖1所示:

圖1 網絡輿情預警等級圖
綠色區域表示社會發展呈穩定狀態,社會風險極低,群體性事件發生的可能性極小;藍色區域表示社會風險較低,群體性事件發生的可能性較小;黃色區域表示具有一定社會風險,存在群體性事件發生的隱患,有關部門應及時采取措施,對預警指標體系中超出預警閾值的指標進行重點排查,制定群體性事件應急預案;橙色區域表示社會處于危險狀態,群體性事件發生的可能性很大,政府應采取有效行動,尋找警源,捕捉警兆,演練并完善應急預案;紅色區域表示大規模的群體性事件已經或者必然出現,社會處于非常危險的狀態,政府必須采取緊急處置措施,迅速控制態勢,維護社會穩定。
分布式預警框架主要是采用在SPARK ON YARN的分布式集群部署方案,對于流式數據的處理,本文結合基于Spark Streaming的數據分析方法,可實現實時挖掘數據中有價值的信息。對于數據存儲采用HDFS分布式存儲方法,可存儲海量數據。采用分布式計算框架的主要原因是該框架基于主/從結構,會將海量數據的操作劃分為若干個小作業集,并將任務分配給集群中的各個節點,并行處理所有的子任務。基于分布式預警框架,本文結合網絡輿情預警指標體系,對采集來的數據進行深度分析,從而達到預警效果。分布式預警框架圖如下圖2所示:
在分布式并行計算框架下,一些深度分析算法并不能很好地實現并行化處理,因此,本文還需要對算法進行處理與優化。其中,深度分析算法包括傾向性分析技術、話題發現與追蹤技術、預處理技術、實體識別技術、敏感詞智能推薦技術、文本特征提取技術等。文本預處理技術可采用基于MapReduce的文本處理方式,包括去網頁標簽、中文文本分詞技術、分詞結果去無用詞等。對于TF-IDF計算,文本特征提取是可支持分布式并行計算的。對于分布式敏感詞智能推薦的實現方法如下圖3所示,主要是利用MapReduce計算詞頻。

圖2 分布式預警框架圖

圖3 分布式敏感詞智能推薦的實現方法圖
話題檢測與跟蹤是網絡輿情分析的重中之重,它是旨在發展一系列基于事件的信息組織的技術。在網絡輿情事件中,并不是所有的輿情事件都具有一定危害性的,因此,如何從大量的話題中發現敏感話題,是值得我們研究的對象。本文采用基于敏感詞查詢來實現敏感話題的發現,首先根據當前社會形勢建立敏感詞庫,根據分詞后的話題對敏感詞庫中的敏感詞進行檢索,并統計出該話題中包含的敏感詞的總頻數,若敏感詞詞頻數達到一定的閾值,則將該話題識別為敏感話題。算法實現過程:
(1)對于敏感關鍵詞,主要是發現識別對社會安全事件具有相關意義和關聯的領域詞匯,此類詞匯由專家提供。
(2)使用敏感關鍵詞對文本數據進行初篩。
(3)敏感詞詞頻統計。
(4)閾值比較,并確認敏感話題。
通過網絡輿情預警監控系統,實時對網絡輿情數據進行檢測,對不同的輿情熱點進行檢測與追蹤。比如5月27日,安徽六安市部分學校教師因待遇發放問題,集體上街維權。隨著我們系統對該事件的演化分析,由之前的“六安教師討薪”事件不斷演化為“教師是否遭受不公平待遇和警察是否存在粗暴執法”這一問題上,此時我們系統及時預警,隨著時間變化指數快速上升。經過27、28日兩天的發酵后,于5月29日即六安市政府回應之后達到峰值,此后有所回落,對應的預警分數變化圖如圖4所示。

圖4 “六安教師討薪”事件預警分數趨勢圖
總之,基于SPARK ON YARN的網絡輿情預警技術預計網絡預警指標體系構建的網絡輿情預警系統能夠有效地協助政府相關部門進行網絡預警監控,并及時發現情報線索,對即將要發生的危害社會安全秩序的時間及時預警,并采取相關措施,迅速控制態勢,控制惡劣輿情事件的蔓延,從而構建和諧的網絡社會環境。
[1]王衛華.基于BP神經網絡的網絡輿情預警模型研究[J].凈月學刊,2017.
[2]石強強,楊紅云,趙應丁,周瓊,李新煥.基于BP神經網絡的網絡輿情預警監測研究[J].信息技術,2017.
[3]Dianjie, B. I., et al. "Early-warning of Network Public Opinion Model Based on Modified Elman Neural Network." Journal of Hebei Normal University of Science & Technology,2016.
[4]Li, Zhaocui, and S. X. University. "Research on Public Opinion Propagation and Early Warning Model of Emergency Network." Computer & Telecommunication,2016.
[5]Wang, Gaofei, M. Li, and M. School. "Research on the Early Warning Model of Mobile Social Network Public Opinion Based on AHP-fuzzy Comprehensive Analysis." Journal of Modern Information,2017.
[6]Sun, Lingfang, et al. "On Network Public Opinion Crisis Early Warning Based on the BP Neural Network and Genetic Algorithm." Journal of Intelligence,2014.
[7]Sun, Lingfang, et al. "The Concept of Network Public Opinion Crisis Analysis and Index Set." Journal of Modern Information,2014.
[8]Zhang Y, Li H, Peng L, et al. Research on Network Public Opinion Monitoring and Early Warning Evaluation Method Based on Intuitionistic Fuzzy Reasoning[J]. Journal of Intelligence, 2017.
[9]Du Z, Xie X, Amp J, et al. The Establishment of Public Opinion Forecasting and Early-warning Model with the Methods of Grey Forecasting and Pattern Recognition[J]. Library & Information Service, 2013.
[10]Sun L. Study of support vector machine based on network public opinion crisis warning[J]. Automation & Instrumentation, 2016.
[11]Wang Q, Xie S, Wang Y. Research on the Network Public Opinion Pre-warning Based on Analytic Hierarchy Process[M]. 2014.
[12]Fu, Yeqin, et al. "Research on the Monitoring and Early-warning Index Systems of Tourism Crisis Events' Network Public Opinions." Journal of Intelligence,2014.
[13]Tian, Yi Lin, and Y. Zhou. Network Public Opinion Information Monitoring Index System Model Research. Proceedings of 20th International Conference on Industrial Engineering and Engineering Management. Springer Berlin Heidelberg, 2013.
[14]Lin, Peiguang, et al. "Research on Network Public Opinion Warning Index System Based on Feature Analysis of the Public Opinion." Information Technology Journal 12.19(2013): 5326-5330.
[15]Zhu, Chao Yang, et al. "A Novel Early-warning Method for the Network Public Opinion of Power Grid Emergency." Electric Power,2014.
[16] Zhikai, Q. U., and Y. Lan. "Research on the Risk Early Warning of Public Confidence Force of Judicature from the Perspective of Network Public Opinion." China Public Security ,2015.
[17]Gao H, Ding R G. Research on Risk Early Warning Index System of Public Opinions on Major Government Projects[J]. Library Tribune, 2014.
[18]Liu M Y, Chen X X, Jian-Wei W U, et al. Research on Construction of Index System of Tourist Attraction Network Public Opinion——Based on Tourists' Reviews over 100 5A Scenic Spots on Mafengwo[J]. Resource Development & Market, 2017.
[19]Song J, Ke Y. A bayesian early warning system of public opinion in social networks in colleges and universities[J]. International Journal of Simulation -- Systems, Science & Techno, 2016.
[20] Li-Xia P U, Miao Z J, Pei H J, et al. View on Construction and Promotion of Xinjiang Early Warning System for the Netwrok Public Opinion[J]. Border Economy & Culture, 2014.