◆印曉天 王九碩
網絡群體事件預警技術的研究
◆印曉天1王九碩2
(1.公安部第一研究所 北京 100039;2.北京北大方正電子有限公司 北京 100871)
隨著信息化時代的到來,群體性事件發生的頻率日益增多,它產生的社會負面信息的影響也在日益變大,已經成為影響和制約社會穩定和經濟發展的重要因素。因而盡早地檢測出群體性事件,并對有一定危害性的話題進行預警,可以為網絡監管人員提供有效的決策依據。本文根據線上和線下兩個大的分析空間,提出包括信息發布點擊與轉發總量、涉及的地域個數、情緒負面者比例、是否涉及政治,民族,宗教,境外勢力、重大社會事件敏感程度、事件組織者和信息來源在內的七個群體性事件預警體系指標。并根據提出的預警體系,對相應的案例實踐進行預警等級分析。
群體性事件;預警指標;預警體系
結合社會網絡分析技術、隱空間理論,北京理工大學相關研究人員提出了網絡群體性事件探測和預警分析模型。該模型可以挖掘出網絡中隱含的可能導致群體性事件的有害群組,檢測他們隨時間推移發生變化的規律,并采用可視化方法對其進行圖形化展現。此外,一些學者在模型的設計上提出了自己的建議:覃永震等針對群體性突發事件的特征,利用層次分析法,結合輿情生命周期,建立了適合群體性突發事件輿情監測預警評估的指標體系[1]。張鵬等實現了基于BP神經網絡的突發事件網絡謠言危機預警[2]。余光輝等通過案例調研探討了每個指標的設置原因、作用與影響范圍,最后建立了環境群體性事件背景值與環境事故指標相互結合的雙層預警模型[3]。程國楊采用層次分析法與模糊綜合評價法相結合的方式來構建群體性事件預警評價模型[4]。張小偉建立群體性事件的網絡輿情監管模型并構建了群體性事件的網絡輿情預警機制[5]。Hu R等以論壇、微博、博客等具有討論功能的新聞網站為研究對象,構建網絡輿情預警機制,來防范和判斷群體性事件的發生[6]。Yao F S從公眾情緒的主題演化的角度,研究高校學生群體事件的預防主要關注預警機制[7]。
構建指標體系是監測和預警網絡輿情風險的基礎,指標體系是否科學直接影響和制約著群體性突發事件網絡輿情危機判定的結果正確與否。本文根據群體性突發事件及其輿情演變的特點和規律,結合現有的研究成果,構建了初始維度為兩個的指標體系:即線上和線下兩個大的分析空間,而不是脫離線下空間片面地強調線上空間。其中線上空間又分為信息發布、點擊與轉發總量、涉及的地域個數、情緒負面者比例、是否涉及政治、民族、宗教、境外勢力等問題四個方面,線下空間則分為重大社會事件敏感程度、事件組織者和信息來源的權威性三個方面。各指標以及對應的權重如表1所示。

表1 指標體系表
本文指標體系主要分為五個等級,0—2、2—4、4—6、6—8、8—10,發生的概率越高,得分就會越高,其值與群體性事件發生的概率呈正比關系。預警指標值的評判標準見表2。

表2 群體性事件預警指標值的評判標準
(1)信息發布、點擊與轉發量
信息的發布量是與該事件相關的信息總條數,可通過百度新聞搜索引擎或新浪微博的微搜索獲得相關的網頁或博文總數來獲得;信息的點擊量是該事件相關信息被點擊瀏覽的總數量,可以統一從新浪微博中抓取相關數據,甚至可以使用點贊數替代這一數值,只要都在一個數據源和一個維度上差異不大;信息的轉發量是該事件相關信息被轉發的總次數,可以統一從新浪微博中抓取該轉發數據。
(2)地理擴散程度
該相關事件涉及的省個數。
(3)情緒負面者比例
對該事件認知中的負面情緒的比例。
(4)是否涉及政治、民族、宗教、境外勢力、等問題
根據是否涉及政治、民族、宗教、境外勢力、等問題對該事件進行打分。
(5)重大社會事件敏感程度
構建群體性事件敏感詞庫,按照信息中敏感詞庫中出現敏感詞的多少來確定該事件的敏感程度。
(6)事件組織者
將群體性事件組織者分為社會知名活動人士、知識分子、企業家、受害者本人、受害者家屬、一般人士。
(7)信息來源的權威性
按照發布者為上級政府、上級政府對應部門、本級政府、涉事部門、涉事部門個人及一般個體來確定信息來源的權威性。
得到各級指標的權重值后,在分析群體性事件預警等級時,預警等級主要通過評價值的大小來反應。其中,預警等級的計算公式如下:

上式中,表示群體性事件預警的總評價值,代表指標無量綱值,代表指標的權重。通過上述公式可以測量出預警指標體系總評價值,再根據預警評估表3判斷警級,并用相應的預警信號燈予以標識。
表3 預警分數與等級

群體性事件檢測工作中的第一步是找出敏感人群,然后圍繞敏感人群參與的事件進一步檢測出群體性事件。本文首先通過人物分類算法找出屬于同一類型的人群,對分好類的人群,再利用敏感人群的自主發現算法來找出敏感人群。首先介紹人物分類算法。
對于提取出來的敏感人物,利用他們的基本信息作為對其分類的依據,即人物屬性,如基本信息(昵稱、簡介、認證原因、注冊地、標簽、職業信息、行業類別、一句話介紹等)、社交關系、發布內容、語種、社交媒體的人物推薦等。
圖1為人物分類算法流程圖。

圖1 人物分類算法流程圖
3.1.1特征選擇方法

之所以說TF*IDF是基于統計的文本特征提取算法,如果單純只考慮TF時會存在以下兩方面的問題:一方面,對于文本中出現的大量的對于文本沒有很大貢獻的虛詞,由于他們出現的頻率過高,在特征提取的時候很可能會提取到這些詞作為文本的特征,這樣做極大地影響了特征提取的有效性;另一方面,特征項的好壞取決于其是否能區分不同類別之間的文本,一個特征項的TF值很高,如果它在所有文本中出現的頻率都很高,那么這個特征詞并不具有區分力,很難說明這樣一個特征詞他所代表的具體類別。因此,引入了IDF的概念。
算法可具體表示如下,詞頻表示特征項在文本中出現的頻率,這個數字是對詞數的歸一化,以防止它偏向篇幅較長的文本:


3.1.2貝葉斯分類算法
人物的分類可通過對用于識別用戶的屬性進行分類,從而達到對人物類別的識別,在這一過程中我們主要使用樸素貝葉斯分類原理:
1)找到一個已知分類的訓練樣本集,該訓練樣本集可根據用于識別用戶的屬性來獲得;
3)如果不同特征屬性是條件獨立的,則根據貝葉斯定理有如下推導:

通過分類算法對人物進行分類后,利用敏感人群的自主發現算法,來發現敏感人群。這里主要考慮微博數據。
該問題需要從兩個維度進行分析,首先需要提取具有敏感信息的微博文本,對這一類的微博文本進行分析;其次,根據篩選出來的具有敏感信息的微博博文,從中提取該博文的發布者賬號、賬號ID、地域、轉發評論情況等屬性,從而進行下一步的數據分析。首先根據輿情關鍵詞庫,對微博數據進行實時分類,判斷其是否是涉恐涉暴、重大輿情事件、群體性事件等輿情系統所關注的幾個類別;對于篩選出的微博文本,根據每個微博命中的關鍵詞以及關鍵詞多對應的權重,給每條微博一個重要程度的打分,分數越高表示微博涉及的內容越敏感。得到每個微博所對應的敏感分數之后,為其對應的微博ID加上對應的分數,作為該微博發布者的一個累加分數。本系統中考慮以小時為單位對敏感人群重新排序。給出基于內容的微博用戶敏感程度計算公式如下:

根據本文提出的群體性事件預警系統,針對廣西北海民眾聚眾阻撓碼頭建設事件,計算預警分數,確定預警等級:信息的發布、點擊和轉發量為7.36萬得8分;情緒負面者比例為35.8% 得6分;統計涉及敏感詞個數為12得6分;事件的組織者是受害者本人得4分;涉及省域個數為1得0分;不涉及政治、民族、宗教、境外勢力、等問題,得0分;信息來源為上級政府得10分。根據以上數據計算值:
因此根據值可以確定該事件的預警等級為中級,意味著群體性事件發生的可能性比較高,相關部門積極尋找群體性事件的隱患,做好應為危機的準備。
隨著近年來群體性事件的頻發,群體性事件預警機制對于維護社會穩定有著一定的意義。本文的群體性事件預警體系,根據7個預警指標,合理地確定出每個群體性事件的預警等級,進而及時地對有一定危害性的、不安全的事件進行預警,有效地預防和控制不良群體性事件的發生。為網絡監管人員提供了有效的決策依據,消除不良的群體性事件給社會帶來的威脅和危害。
[1]覃永震,妙全興.群體性突發事件網絡輿情監測預警指標體系研究[J].電子世界,2016(13):109-110.
[2]張鵬,李昊青,蘭月新,周穎.基于BP神經網絡的突發事件網絡謠言危機預警[J]. 電子政務,2016(11):40-47.
[3]余光輝,陳天然,周佩純. 我國環境群體性事件預警指標體系及預警模型研究[J].情報雜志,2013,32(07):13-18.
[4]程國楊.群體性事件預警機制研究[D].西南交通大學,2015.
[5]張小偉.群體性事件的網絡輿情預警機制構建研究[D].電子科技大學,2013.
[6]Hu R. Research on early warning mechanism of group event network public opinion[J]. Computer Era, 2017.
[7]Yao F S. Research on the Early Warning of Student Progressive Group Events in Colleges from the Perspective of the Public Sentiment[J]. Journal of Nanchang University, 2014.
[8]吳軍.數學之美[M].人民郵電出版社,2012.