劉冰月++夏一雪++李增++高揚++屈健++王俊迪
摘 要:該文通過定性分析大數據環境下微博輿情熱度分析,構建微博輿情傳播的logistic模型,根據差分回歸法構建微博輿情熱度預測模型,并根據3種差分格式針對“霧霾”微博輿情開展實證研究,以期為微博輿情傳播理論提供模型參考。
關鍵詞:大數據 微博輿情 logistic 預測 仿真
中圖分類號:C912.6 文獻標識碼:A 文章編號:1674-098X(2017)03(c)-0149-03
1 現狀分析
據中國互聯網絡信息中心(CNNIC)第39次《中國互聯網絡發展狀況統計報告》,截至2016年12月,我國網民規模達7.31億,互聯網普及率為53.2%。其中社交應用是我國網民個人互聯網應用的主要類型,微博作為主流的網絡社交媒體,得益于名人明星、網紅及媒體內容生態的建立與不斷強化,以及在短視頻和移動直播上的深入布局,不僅用戶使用率高,并且由于其“井噴”式外向型傳播的信息傳播模式,是目前網絡輿情首發和擴散的主要載體,相應的,微博輿情熱度成為網絡輿情監測和治理的重要指標。
目前,學術界針對微博輿情熱度的研究主要集中于兩個方面。一是微博輿情熱度評價體系研究,主要以用戶數最多、首曝網絡輿情事件最頻繁的新浪微博為研究對象,從網絡輿情主體、客體、傳播、受眾等維度,構建評價體系,進行微博輿情熱度監測和預警,為網絡輿情分析、引導和管理研究提供理論依據[1-2]。二是微博輿情熱度趨勢研究,主要是基于馬爾科夫鏈等通過構建熱度趨勢模型,通過采集輿情指標數據得到熱度的時間序列值、劃分輿情熱度趨勢的狀態空間、構建狀態轉移矩陣、預測熱度的趨勢變化區間等研究步驟,進行預測微博輿情走勢等研究[3,4]。但是,已有研究在定量研究方法上相對單一,采用更具適合度的研究方法來優化修正評價體系和預測模型,是該領域未來研究的重點。
2 大數據背景下微博輿情熱度分析
2.1 微博輿情輿情趨勢
通過新浪微博數據中心的微指數功能統計近6個月(2016年8月3日至2017年2月3日)的熱詞“樸槿惠”涉及的新浪微博數據(按天進行統計),詳細數據見圖1(數據網址:http://data.weibo.com/index/hotword?wid=1091324457063&wname=樸槿惠)。
通過圖1不難發現,微博輿情傳播可以定性地分為潛伏期、擴散期、消退期。輿情潛伏期,微博發文量少,且信息量增長緩慢;輿情擴散期,微博發文量短時間快速增長,且呈現出強烈的震蕩趨勢;輿情消退期,微博發表量迅速降低,輿情熱度趨于平緩。
2.2 微博輿情熱度分析
通過定性觀察圖1容易發現,這一點和生態學中生物生長有相似之處,所以輿情的傳播和生物的生長過程具有相似機理。目前,大部分微博數據都是按小時、天等統計的,它們只能描述微博輿情發生的頻率而不是變化規律,需要對微博輿情統計數據進行累加才能作為微博輿情建模變量使用。所以,累加后的微博數據曲線呈“S”形增長趨勢。基于此,文章選取生長曲線中的logistic模型來研究微博輿情熱度,進而研究預測模型。
3 大數據背景下微博輿情熱度預測模型
3.1 基本模型與假設
假設為微博輿情傳播規律的函數,初值為且≤K,因微博發文量受空間、網民情緒等影響,故有上限。假設時間內,微博發文量增量,則增長率為。隨著的增加,微博發文量趨于“飽和”狀態,則增長率與“剩余空間”成正比。
其中為內稟增長率(定值)。當時,微博輿情傳播模型為:
求解微分方程得:
3.2 微博輿情熱度預測模型
袁志發、孫耀東、殷祚云、朱珉仁、代濤、魏冠軍等人在文獻[5-10]中先后研究了logistic模型確定參數的方法。文章先將logistic微分方程按照3種差分格式變成其對應差分方程,再通過二元線性回歸分析確定參數和。
Logistic模型:
對應的差分方程為:
其中。不難看出,是關于和的二元線性關系。應用Excel或者Matlab進行回歸分析,即可得出回歸系數和,從而得到參數K和。但是差分分為向前差分、向后差分、中心差分3種。所以,基于logistic模型的微博輿情熱度預測模型可以分為3種情況。
(1)向后差分情況。向后差分的格式為,其中。
(2)向前差分情況。向前差分的格式為
,其中。
(3)中心差分情況中心差分的格式為
,其中。
(4)3種情況的對比分析。
通過3種差分的公式不難發現,向前差分和中心差分只能預測期,而向后差分能夠預測期。所以在微博輿情高潮來臨前比較適合使用向后差分預測輿情趨勢,而經過高潮值之后,應該綜合使用3種差分格式。
4 實證分析
4.1 數據來源
通過新浪微博數據中心的微指數功能統計2個星期(2016年12月31日至2017年1月13日)的熱詞“霧霾”涉及的新浪微博數據(按天進行統計),詳細數據見圖2(數據網址:http://data.weibo.com/index/hotword?wid=293178324457063&wname=霧霾)。
4.2 微博輿情靜態預測
分別應用向前差分、向后差分、中心差分替代統計數據,應用logistic模型開展差分回歸預測,得到3種差分對應的預測模型為:
向后差分情況:
向前差分情況:
中心差分情況:
預測精度(可決系數)分別為0.9742、0.9152、0.9695,預測曲線和原始數據曲線對比見圖3。容易看出,向前差分更接近于原始曲線,中心差分預測曲線介于向后差分和向前差分之間。
4.3 微博輿情動態預測
在已知前4天的數據基礎上,以此加入新數據,推斷微博輿情傳播曲線。
(1)向后差分情況(見圖4)。
(2)向前差分情況(見圖5)。
(3)中心差分情況(見圖6)。
通過上述3種差分情況分析,可以看出向后差分和向前差分預測相對滯后,且吻合度較差,而中心差分則能夠以較高吻合度進行動態預測,是微博輿情發展趨勢預測中更具適用性的預測模型,能夠較好地實現微博輿情熱度預測的研究目標。
5 結語
隨著大數據時代的到來,網絡輿情在數據體量、復雜性和產生速度等方面發生巨大變化。網絡輿論引導方法已超出了現常用的框架。習近平總書記在全國宣傳思想工作會議上提出,宣傳思想工作創新,重點要抓好理念創新、手段創新。網絡輿情是網絡輿論引導工作的基礎和晴雨表,以大數據觀念變革傳統網絡輿論引導思維,準確把握網絡輿情的內在特征及其在演化過程中的潛在規律,對于新形勢下做好網絡輿論引導工作,維護網絡社會安全,具有重要的理論意義和實踐價值。
文章基于logistic模型,研究了3種差分格式的微博輿情預測模型,并通過具體的微博輿情案例開展了實證研究,但仍有很多問題需要深入研究。例如,人民網針對輿情預警提出“黃金4小時”的概念,所以開展輿情預測的原始數據需要按小時進行統計和建模,才能提前感知風險,做到主動預測預警預防。
參考文獻
[1] 王長寧,陳維勤,許浩.對微博輿情熱度監測及預警的指標體系的研究[J].計算機與現代化,2013(1):126-129.
[2] 孫飛顯,程世輝,靳曉婷,等.政府負面網絡輿情熱度定量評價方法——以新浪微博為例[J].情報雜志,2015(8):137-141.
[3] 王新猛.基于馬爾可夫鏈的政府負面網絡輿情熱度趨勢分析——以新浪微博為例[J].情報雜志,2015(7):161-164.
[4] 徐旖旎.基于微博的媒體奇觀網絡輿情熱度趨勢分析[J].情報科學,2017(2):92-97.
[5] 袁志發,劉光祖,肖俊璋.0.618法在兩種常用生長曲線擬合中的應用[J].西北農學院學報,1984(3):59-63.
[6] 孫耀東,王太源,陶俊.S型曲線的掃描回歸方法[J].揚州大學學報:自然科學版,1999(8):10-12.
[7] 殷祚云.Logistic曲線擬合方法研究[J].數理統計與管理,2002(1):41-46.
[8] 朱珉仁.Gompertz模型和Logistic模型的擬合[J].數學的實踐與認識,2002(9):705-709.
[9] 代濤,徐學軍,黃顯峰.離散Logistic人口增長預測模型研究[J].三峽大學學報:自然科學版,2010(10):102-105.
[10] 魏冠軍,黨亞民.基于Bayes理論的Logistic增長曲線模型參數估計方法研究[J].工程勘察,2012(5):64-67.