聶方彥

摘要:輿情應對的基本前提是輿情研判,也即將輿情按照輕重緩急程度歸類,然后采取不同的應對措施。將輿情劃分為4個等級,結合模糊C均值(FCM)算法定義了一個對輿情的自動聚類判別模型,并運用樣本輿情對模型進行了驗證分析。在輿情應對中,可將模型得出的結果作為應對的輔助手段,提升輿情應對的精準度和實時性,提高各級輿情部門的應對能力。
關鍵詞:網絡輿情;輿情等級;模糊C均值;自動聚類
DOIDOI:10.11907/rjdk.171144
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2017)006-0130-02
0 引言
網絡輿情是指在現代通信網絡體系中人們對社會現象(問題)展開討論形成的各種觀點、輿論。網絡輿情對社會政治、經濟、民生等產生的影響是巨大的。輿情一旦產生,就需要適當加以引導,不然其負面影響在網絡上的無限放大極有可能對社會各方面產生極大的破壞作用。在互聯網這一典型大數據環境下,每時每刻圍繞眾多網絡輿論議題產生的數據都是海量的,海量的輿情數據加重了輿情研判的難度。
傳統的輿情應對方式很難在第一時間發現潛在的可能會引起重大輿情的事件,無法對潛在的重大輿情進行響應。現有輿情應對機制都是建立在輿情研判基礎之上的,也就是說先對輿情可能會發生什么影響進行評估(分級),然后再采取不同的應對措施。文獻[1]、[2]在對輿情進行分級的基礎上設計了不同的應對措施。按照網絡輿情分級應對原則,越早判別輿情風險等級,就越能采取好的應對措施。然而在現實中,如何對眾多網絡輿情進行及時分級卻是一件較為困難的事,如果采用人工判別模式,極有可能錯過輿情應對的最佳時機。
模糊C-均值(Fuzzy C-means,FCM)算法[3]是數據聚類分析中的著名算法,它能較好地處理事件間存在的模糊特性。本文收集網絡輿情相關數據并進行數據標準化,應用FCM算法對輿情引發事件進行聚類分析,自動歸類輿情事件級別,以提高輿情應對的精準性和及時性。
1 輿情等級劃分
目前我國還沒有輿情等級劃分的國家規范。《中華人民共和國突發事件應對法》第3條規定,按照社會危害程度、影響范圍等因素,自然災害、事故災難、公共衛生事件分為特別重大、重大、較大和一般4級。以此為依據,很多研究也將輿情劃分為類似的等級。例如,曹學艷等[2]基于網絡輿情熱度,提出一種引發輿情突發事件的動態分類分級方法,輿情事件在輿情演化過程中可動態歸類為I級、II級、III級、IV級。張浩[4]依據引發輿情的10個因素,把網絡輿情劃分為輕度、中度、重度、危險、極度危險5個等級。王娟[1]根據輿情性質、影響程度、涉及范圍等因素,將捕捉到的各種輿情信息劃歸為網絡民意、負面輿情、重大輿情3種不同的預警等級,然后分別建立分級響應機制。根據現存輿情等級劃分的研究成果,本文在對輿情進行聚類自動分級時,按照輿情規模、影響等因素把輿情歸類為4個等級,分別對應一般(1級)、較大(2級)、大(3級)、重大(4級)輿情。
2 FCM聚類
FCM算法是一種基于目標函數的模糊聚類算法,主要用于數據的聚類分析,該算法理論成熟,廣泛應用于各種工程領域。FCM通過模糊隸屬度函數處理聚類數據的邊界模糊特性,使數據有可能隸屬于不同類別的屬性得到充分體現。理論和實證研究表明FCM算法是一種優秀的聚類方法。
3 輿情數據采集與處理
在應用FCM算法對輿情事件進行自動聚類分級時,首先需要將網絡上浩如煙海雜亂無章的非結構化數據進行數字化處理。可能會引發網絡輿情的事件發生后,媒體(如報紙、門戶網站、論壇、博客,或微媒體如微博、微信等)會發表各種關于事件的討論和評述,討論的規模和熱度上去后就有可能引發重大輿情。故對事件引發的輿情研判可以通過檢索媒體的傳播規模研究它的發展趨勢。事件發生后,經各種媒體傳播和報道,可以形成關于事件的各種議題,對這些議題進行提煉可得如圖1所示的事件關鍵詞云。因此,對于整個事件引發的輿情規模可通過類似圖1所示的關鍵詞云進行統計挖掘得出。
為獲取關于輿情事件的數據,應用數據挖掘工具統計輿情事件議題在各種媒體出現的數量,再按時間頻度進行歸類,可得到應用于FCM算法的數據。表1給出的數據是輿情事件發生后,輿情相關議題在各種媒體上的統計量,該數據借助新浪微輿情網站[5]輿情統計分析工具得到。由表1可以看出,事件引發的輿情越大,相關議題在各種媒體上出現的統計數據值越大。表1統計的數據并不是輿情事件剛發生時的數據,而且時間跨度也超過10天,因此不能作為輿情精準預測的依據。本研究應用這些輿情數據驗證模型的準確性。真正應用本文模型進行輿情等級判別時,數據的采集可以更實時,且時間跨度也可根據輿情預測的精準度要求把時間區間定義得更窄些,例如依據輿情判別的黃金4小時等。表1是采集的原始數據,運用FCM算法進行聚類時,需要對這些數據進行標準化處理,減少數據的量級對聚類效果的影響。
4 輿情等級劃分模型
基于FCM算法實現輿情事件的等級劃分,其模型如圖2所示。在模型中,首先基于關鍵詞云在各媒體挖掘輿情事件的報道量,然后對數據進行標準化處理,再應用FCM算法進行聚類分析,最后輸出輿情等級類別,用于指導輿情應對。
5 模型驗證與分析
采集歷史上發生的若干個輿情樣本對模型進行實驗驗證分析。在運用模型進行聚類分析之前,通過專家將采集到的輿情樣本按照定義的輿情級別手工分類,其中各級別輿情事件分別采集4個樣本,共16個輿情樣本。實驗輿情樣本既包括重大輿情事件如“魏則西事件”,也包括近年一些頻繁發生的輿情事件如“大學畢業生被就業”。表2列出了運用本文模型聚類結果與專家判別結果的比較。
從表2可以看出,對于樣本輿情,本文模型的判別結果與專家判別結果存在一定差異,如將專家判定為一般(1級)輿情的一個樣本判別為較大(2級)輿情,將一個3級輿情判定為重大輿情。輿情等級的劃分本身就有模糊性,FCM算法是一種基于模糊集理論的聚類算法,運用該算法對輿情等級進行聚類分析可以得到較好結果。實際運用中,可在該模型給出結果基礎上再經專家判別,就可更精準地實現對輿情的定位,也為輿情判別節約了大量時間。
6 結語
輿情應對貴在精準與及時,傳統的輿情判別依靠人工方式既費時又可能掛一漏萬。模糊C均值是一種基于模糊集理論的聚類分析方法,它能處理事件本身存在的模糊特性。本文依據FCM思想構建了一個輿情等級自動判別的聚類模型,并應用歷史輿情數據對模型進行了驗證分析。實驗表明該模型可以作為輿情應對的輔助工具,幫助進行輿情分析,以實現實時精準的輿情處理。
參考文獻:
[1]王娟.網絡輿情的分級響應與處置[J].人民論壇,2012(29):27-30.
[2]曹學艷,宋彥寧,李仕明.基于網絡輿情熱度的突發事件動態分類分級研究[J].電子科技大學學報:社科版,2014(2):24-27.
[3]翟麗麗,張影,王京.基于廣度優先搜索的變異加權模糊C-均值聚類算法[J].統計與決策,2016(15):9-14.
[4]張浩.互聯網輿情等級劃分機制研究[J].通訊世界,2015(8):229-230.
[5]新浪微輿情[EB/OL].[2016-12-28].http://www.wyq.cn/
(責任編輯:杜能鋼)