侯學慧
(新疆警察學院 新疆烏魯木齊 830001)
在大數據環境下網絡信息和輿論信息的監管及正確引導是非常重要的,保護好我們祖國、人民群眾的安全是我們警察的使命和義務。網絡輿情是指由于各種事件的刺激而產生的通過互聯網傳播的人們對于該事件的所有認知、態度、情感和行為傾向的集合[1]。我們生活在一個突發事件頻發的大數據網絡時代下,突發事件是指突然發生,造成或可能造成嚴重的社會危害,需要采取應急處置措施予以應對的公共事件[2]。突發事件的網絡輿情演化是指“沒有對事件源和次發生事件進行人工應急干擾的原擴散路徑”[3]。突發事件爆發后,一定會引起網絡輿情發生,在各種網絡平臺上信息快速傳播和蔓延下,政府部門要發揮常規的傳播模式的效力,還要積極有效的給予矯正型的傳播影響作用,才能更好有效地控制網絡輿情發酵。為此,必須要做到日常網絡輿情的預警、完善輿情監管監督機制、加強輿情的導控。
目前對網絡輿情的預警機制的定量研究,更多是注重網絡輿情的構成因素和因素之間的關系方面,沒有對時間序列模式與網絡輿情的變化規律上研究更深入。在大數據的網絡環境下,只有定量、深層次地分析網絡輿情的動態演化過程,分析其函數特征和演化規律,才能針對將要發生的網絡輿情做出預警應對。針對現有的網絡上熱門案例,通過信息提取工作包GooSeeker等信息提取軟件,對案例建立事件發生的時間與每天新聞發布數量做函數擬合,得到網絡輿情隨時間周期的發生、發展、擴散、消亡的動態演化過程,從而建立網絡輿情導控和預警機制。
研究者們運用不同的模型和方法對網絡輿情演化階段和構成因素進行分析,建立預警機制,主要包括三方面的研究。一是建立預警指標因素體系,注重于影響輿情變化的關鍵指標討論。二是基于情感傾向性分析,這里包括群眾的態度是“贊同”“中立”“反對”,從海量信息中,發現潛在的危機隱患。三是基于數據挖掘的預警,這種方法是從網絡中提取和目標相關的數據,構成數據集。本文就是基于真實數據,從數據挖掘中找到規律,從而做到更加精確的預警。
大數據環境下網絡輿情具有突發性、群體性、不確定性等特征,本文從其特征分析,建立數學模型符合基于多項式函數的數據特征。可以通過已有的國內熱門網絡輿情案例與實際數據挖掘,建立網絡輿情演化模型,分析、量化輿情動態,做好預警模型。分析事件的真實性、敏感度、主題吸引力、發布者影響度、主題聚焦度、輿情觀點傾向度、參與度、容忍度、變化頻度、突變度等。在大數據環境下建立基于多項式函數的網絡輿情預警機制,并用MATLAB軟件對預測數據作仿真實驗。從而建立網絡輿情隨時間發展,每個時間段的預警信號及相關參數、關鍵詞、事件的動態演化預警模型。
持有、接受、表達某種相同、相似的觀點的人在社會人群中所占的比例超過一定的閥值,這時候這種觀點就上升為輿論[1]。我們從定量的、模型化的分析大數據環境下網絡輿情的演化規律:
我們主要針對互聯網上的網絡輿情進行研究、分析。關注的新媒體網絡平臺主要是新聞網站-微博等。也通過相應的輿情觀測平臺和軟件得到相應的數據和圖表。利用數據挖掘和分析突發事件隨時間的演化規律和普通民眾對突發事件的關注度等指標因素,從而做到下一階段的輿情預警機制,并且對下一次發生的相同突發案件有應對的預警模型。
對于大數據背景下,已有的網絡突發案件的客觀數據,利用網絡爬蟲、信息提取工具包Goo-Seeker中的抓取規則和網頁信息抓取工DataScraper等,抓取網站的新聞報道數量和相應的時間分布,以及頻繁出現的關鍵詞等指標因素[4]。通過DataStudio定義搜索信息屬性為url(網頁鏈接地址)、title(新聞標題)、time(新聞發布時間)、num(新聞機構名稱以及新聞關注條數)
對通過信息抓取的獲得的數據進行挖掘、分析,我們知道突發事件的網絡輿情新聞報道數量(普通民眾關注、評論程度)是分布在事件發生時間軸上的一些離散的點,制止整個事件最終消亡。在網絡熱門事件影響力較大、關注度較高的突發事件,往往這些離散點成規律性的變化,假定任何事件的真實發展都可以被看成是時間的連續函數。在網絡的大數據背景下,從已經發生的突發事件案例挖掘的數據入手,量化的去分析網絡輿情的演化和發展。根據散點圖的規律,擬合相應的多項式函數,找到其函數分布規律,從而做好更好、更早、更加正確的預警機制和應對手段。
筆者采用根據大數據背景下具體真實案例的數據進行挖掘和分析,做出相應的散點圖,通過MATLAB軟件進行函數擬合,得到與網絡輿情的動態演化最貼近的連續曲線-多項式函數擬合,建立數學模型,分析其演化特征。在考慮是否符合相應的函數擬合時,采用最小二乘法[5]來分析誤差,找到離散點的最佳的函數逼近,在有限數據的基礎上建立合適的、合理化的數學模型。利用變量之間的相關系數R,分析擬合的多項式函數的預測值與真實值之間的具體的相關性。
分析突發事件的輿論數據是一些在時間軸上離散的數據點。根據其圖像,規律的發現散點圖符合基于最小二乘法的多項式函數擬合。下面給出一些定義:
最小二乘法:通過最小化誤差的平方和找到數據的最佳擬合函數,對挖掘出的真實數據再取定相應的多項式函數Px(x),使得誤差的平方和E2達到最小值,定義:
E2=,其中Yi為數據的真實值、p(xi)為數據預測值,我們稱pn(x)為擬合函數或最小二乘解。
由最小二乘法原理,可以知道擬合函數應該滿足:

我們通過分析案例的散點圖,得到擬合多項式函數圖像,發現突發事件網絡輿情的演化規律,從概率和統計學上分析,服從指數分布(突發型)和多峰值高斯函數分布特征(持續型),函數分布成分段函數型(混合型)。
指數分布(突發性):在概率論和統計學中,指數分布是一種連續概率分布,可以用來表示獨立隨機事件發生的時間間隔。一個指數分布的概率密度函數是:
p(x,a)=a*e-a*x(x>0)X是時間變量;其中a>0是分布的一個參數,常被稱為率參數,即每單位時間發生該事件的次數。其中我們定義a是影響因子,a決定著突發事件網絡輿情的開始影響程度,a的值越大,整個事件的影響力就越大,所以在預警時一定要關注影響因子的值。
多峰值高斯分布模型(持續型):高斯分布又稱為正態分布,根據具體的案例分析,我們不難發現持續型輿情案例,呈現峰多值的高斯分布,其函數如下:
p(x)=;其中n是指峰的個數決定。當n=1時,是一次單峰的持續型輿情案例,當n=2時,是雙峰的持續型案例;ai是第i個峰值的影響因子,ai決定著突發事件網絡輿情該峰值的影響程度,ai的值越大,整個事件的影響力就越大。βi是事件的關注因子,當βi的值說明在該峰值內的關注時間長短,越大時,說明事件關注時間較長。
分段概率分布函數(混合型):根據分析具體的輿情案例,有些較為復雜的突發事件輿情演化,呈現出前段圖像走勢呈指數函數分布,后段呈多峰值高斯分布函數模型,其函數如下:

按照關于社會治理、公共安全服務類、法制信息化、刑事案件等四類典型輿情案例進行分析,具體分析其動態變化情況。
1.“天津毒瘤造假”事件——突發型。2017年1月16日,在天津市靜海區獨流鎮的一些普通民宅里,每天生產著大量假冒名牌調料,雀巢、太太樂、王守義、家樂、海天、李錦記等市場知名品牌幾乎無一幸免。這些假冒劣質調料,通過物流配送或送貨上門的方式,流向北京、上海、安徽、江西、福建、山東、四川、黑龍江、新疆等地區。監測關鍵詞[(天津+獨流)*(造假+假冒+劣質+制假)*(調料+窩點)]
我們在大數據環境下,通過數據爬蟲得到1周之內新聞網站、大型媒體傳播情況。如圖1、圖2:

圖1 天津毒瘤造假輿情監測傳播數據

圖2 多項式擬合——天津毒瘤造假輿情傳播
建立基于最小二乘法的多項式函數擬合,新聞報道量與時間序列的函數關系滿足:

2.“怕冷哥”事件——持續型(單峰值)。2016年1月央視記者大鬧冬運會的安檢口的視頻,全長1分44秒。根據視頻顯示,該名攜帶央視“媒體記者”證的黑衣男子在某安檢口和安檢人員發生沖突,安檢人員讓其脫掉外套配合安檢,男子態度囂張,回復八個“我冷”,并質問“省領導需要安檢嗎?”因男子拒不配合工作,安檢人員要求其從安檢儀上下來,對此,男子回應“我冷,怎么了,小心我投訴你”,這類社會公共服務類輿情事件。監測關鍵詞[(新疆+安檢)*(央視+記者)*冬運會]
通過對微博信息數據爬蟲抓取,得到一周之內微博網友的傳播情況。

圖3 多項式擬合——怕冷哥事件輿情傳播
微博發表轉帖數與時間序列的函數關系滿足:

3.“法制信息化建設”輿情——持續型(雙峰值)。2017年2月23日,由中國社科院法學研究所和社科文獻出版社共同發布的《法治藍皮書·中國法院信息化發展報告》指出,借助法院信息化的應用和發展,中國法院的司法透明度得到全方位提升,信息化為司法公開提供了平臺,拓展了司法公開的廣度與深度。監測關鍵詞[法院信息化發展,法院*信息化,法院*智慧,法治*藍皮書,社科院*法治]。
通過輿情觀測軟件,得到15天新聞媒體的傳播情況。

圖4 法制信息化建設輿情監測傳播數據

圖5 多項式擬合——法制信息化建設輿情傳播
新聞報告量與時間序列的函數關系滿足:

4.“杭州保姆縱火案”事件——持續型(雙峰值)。2017年6月22日,杭州小區保姆縱火案是于北京時間6月22日凌晨5點左右在杭州某小區發生的縱火案。該事件造成4人死亡(1位母親和3個未成年孩子)。23至24日,受害人家屬林生斌的家庭生活細節、作案保姆的嗜賭欠債背景曝光,由此,夾雜著群眾對消防部門和物業部門的救援行動的質疑,以及對保姆、家政行業深入反思的輿情呈井噴之勢。
通過輿情觀測軟件,得到30天新聞媒體的傳播情況。監測關鍵詞[保姆*家政,小區*物業,消防設施*消防]。

圖6 多項式擬合——杭州保姆縱火案輿情傳播
新聞報告量與時間序列的函數關系滿足:

我們把大數據背景下的突發事件網絡輿情事件分成三種類型:突發型、持續型、混合型。突發型:“天津獨流造假”事件屬于突發型輿情事件,函數滿足:p(x,a)=a*e-a*x。
根據研究基于多項式函數擬合的圖像分析,符合指數型分布的特征。該類事件的突發性強、破壞性大、社會影響大。事件發生頻率低,具有很大的轟動性,事發后引起數量大的報道,但隨著網民對該事件的了解和解決,網絡輿情呈現出遞減趨勢,直至消亡。
持續型:“怕冷哥”事件、“法制信息化建設”“杭州保姆縱火案”事件都屬于持續型網絡輿情。均滿足多峰值的高斯分布函數特征;其函數表達式:
p(x)=;具有持續型特征的網絡輿情事件,從事件發生到高漲,一般經歷一段時間的發展過程,從而達到第一次峰值,通過社會、政策、公安等采取一定措施后,在輿情生命周期內達到平緩,但由于信息傳播的波動性或者應對輿情處理措施等,可能會再一次達到峰值,最終消亡。
混合型:既包含“突發型”特征,也包含“持續型”網絡輿情特征,我們用分段函數表示這一類輿情演化:

綜上,本項目研究的主要脈絡是,在大數據條件下選取網絡上的熱點事件進行分析,利用了網絡爬蟲、信息提取工具包等手段,抓取了網站的新聞報道量和相應的時間分布以及在熱門事件中出現的關鍵詞,以網絡輿情演化特征為標準,將輿情事件分為突發型、持續型、混合型,對網絡輿情每一種類型進行了數據挖掘,分析相應的新聞報道量和時間分布的離散點,構造出合理的多項式函數。由此探索網絡輿情演化規律,有助于對網絡輿情事件的監控和預警,為引導網絡輿情提供參考。由于案例樣本量有限,成果的推廣價值尚有待進一步驗證。對數據的抓取,也可能存在一定程度的誤差,這可能影響輿情演化規律探索的精確性。而且影響網絡輿情的因素很多,本文中考慮的因素未及全面,研究還需要繼續深入。