◆韓法旺
?
微博突發現象的信息級聯演化過程探究
◆韓法旺
(南京森林警察學院信息技術學院 江蘇 210023)
隨著手機上網用戶的增多,人們越來越多地利用乘車、吃飯間隙等碎片化時間刷微博,因此微博成為一個重要的社會公共輿論平臺。一些突發的熱點話題會迅速引起人們的熱議、轉發,對社會輿論造成重大影響。本文以信息級聯的演化過程來研究突發現象的生成發展過程,分為檢測觸發、突發、尖峰、消褪等過程,以此預測突發現象的走向。
突發現象;信息級聯;微博影響力
隨著近幾年微博的快速發展和普及,其逐漸成為一個重要的社會化媒體和社會公共輿論的重要平臺,對國家安全和社會發展都會產生深遠的影響。微博意見領袖依靠自己的“獨特魅力”與網絡位置,對輿情的傳播起著“推波助瀾”的作用。因此,對微博影響力研究具有重要的理論價值和實際價值。
突發現象(Bursts)是指“一個長時間段內的短暫劇烈活動的時期”,是人類群體活動中產生的一種常見現象。突發現象在很多領域得到了研究者的關注,如電子通信中的信道擁堵,股票市場中的震蕩,互聯網的數據流等。而隨著近年來社交網絡用戶參與量越來越多,其中的用戶行為中的突發現象也得到了很多研究者的關注,特別是在用戶間信息轉發行為的突然大量出現而造成的突發現象,這些研究工作發現,大量用戶信息轉發所造成的信息級聯的演化中的震蕩效應,體現了社交網絡中用戶行為的突發特征。
隨著社交網絡中的信息量的指數級增加以及其中信息擴散的突發性,社交網絡中信息傳播突發現象造成的影響也越來越大。過去網絡中的突發熱點話題只是吸引更多網友的關注,而如今微博網絡中的突發熱點則可能對社會事件的走向以及社會輿論都產生巨大影響[1]。如果能基于現有數據對信息級聯的突發時間進行提前預測,對很多突發輿情事件應對、災難事件預警、產品推廣以及股市交易等實際工作提供很大的幫助。以往對信息級聯預測研究主要側重于預測信息級聯未來的影響范圍或級聯規模,近年來部分研究者嘗試通過對大規模數據分析來對社交網絡中信息級聯的突發特征進行建模,并通過突發特征來對信息級聯進行聚類。雖然對信息級聯的研究和突發檢測的研究都分別取得了很多進展,然而對信息級聯演化過程的研究仍然不足。
信息級聯突發時間的預測工作存在著一些困難:一方面,由于信息級聯演化中的震蕩的特征,使得現有基于時間序列的預測研究無法直接應用于信息級聯突發時間的預測工作中。如回歸方法,其通過學習歷史數據中的特征間關系被廣泛用于預測工作,然而信息級聯演化的震蕩特征使得歷史數據和預測數據之間的相關性很難由回歸方法來分析,微博數據流與傳統的時間序列數據差異巨大,也使得時間序列預測方法在針對特征豐富的社交數據時無法有效進行[2]。另一方面,社交網絡中的信息級聯具有大小的冪律分布和壽命差異巨大等特征,使得對信息級聯的有效特征提取變得困難。因此,一種能夠解決差異性級聯大小和壽命情況的,基于時間維度的信息級聯演化過程模型的提出就非常有意義了。
突發檢測在很多領域被廣泛研究。Kleinberg最早對數據流中的突發現象的檢測進行了研究,其后也有研究者研究了數據流中突發檢測的實用算法,以及具有擴展性的實時檢測算法。近年來隨著社交網絡中大規模數據流中的突發現象得到了越來越多的關注,很多研究者對社交網絡中的信息級聯的突發特征以及演化模式都進行了多方面的分析研究。Yang等人對Twitter中的數據流的時序特征進行了研究,Matsubara等人研究了信息級聯演化過程中的震蕩現象,并對Twitter數據流進行了突發檢測[3]。已有研究工作集中于突發檢測和突發模式的識別,本研究關注的主要方向為基于信息級聯早期的演化過程,對信息級聯演化中的突發時間進行預測,所以現有的突發特征識別的方法無法直接應用于本研究的任務中。
而對時間序列分析以及趨勢預測研究,旨在基于觀察到的現有時間序列預測未來的序列值。時間序列預測研究主要借助線性模型,如自動回歸方法,以及對其的擴展模型等,然而由于信息級聯演化中的震蕩特征,線性模型對其中突發時間的預測無法直接應用[4]。也有一些非線性的模型被提出用于時間序列預測,然而這些模型并不能用于預測突發性上,同時社交網絡中豐富的用戶關系特征也使得對信息級聯的突發預測不等同于簡單的時間序列分析。
對社交網絡信息級聯預測的研究中,預測的主要目標是能夠對信息級聯的流行程度和未來信息轉發量進行預測。如Cui等人提出的基于信息傳播初始的特征,預測新的級聯在未來能否成為熱點趨勢話題[5];或者如Cheng等人提出了一種預測框架來對信息級聯的增長規模進行預測,對給定的大小為k的信息級聯,預測其在未來能否增長到2k。然而雖然這些研究工作對信息級聯未來的增長趨勢進行了預測,但其研究方法無法應用于對突發時間的預測工作中。
微博網絡中的信息傳播過程通常被描述為信息級聯的演化過程。為了對信息級聯演化中突發時間預測問題進行形式化定義,本節中定義信息級聯演化過程中的各個階段。
信息級聯中突發的時間和閾值很難直接判斷,對微博數據流中的級聯突發還沒有一個統一的定義。通過對信息級聯的統計分析發現,微博數據流中的大多數信息級聯在其生命周期中都不會出現突發現象,僅僅隨著時間流逝快速消亡。對于少量出現突發現象的信息級聯,其在之前都會有一定的潛伏期,然后才是持續的增長,為了縮小需要預測的信息級聯的范圍,這里對潛在的突發信息級聯定義一個檢測觸發閾值。對信息級聯演化過程中的階段進行定義,可以對時間窗口內的信息級聯進行分類篩選,降低檢測計算量。
在圖1中給出了對真實信息級聯演化的一個突發時期的實例,其中陰影部分表示突發時期。有些信息級聯的生命周期內可能存在多個突發時期,本研究中的分析和預測主要針對信息級聯的第一個突發時期。


圖1 信息級聯的突發過程
本研究主要側重對微博網絡大數據的分析研究,基于Spark分布式計算平臺,嘗試解決微博網絡中信息級聯演化的突發過程問題。信息級聯預測以及信息級聯的突發現象得到了很多研究者的關注,然而對突發過程的定義依然缺乏研究。本研究中通過分析信息級聯突發現象的模式,提出了信息級聯的觸發、突發、尖峰、消褪過程模型,為后續的實時微博輿論的預測,突發現象的出現以及引導等輿情監控工作打下堅實的理論基礎。
[1]雷宏振,賈悅婷.基于復雜網絡的在線社交網絡特征與傳播動力學分析[J].統計與決策,2015.
[2]歐治花,湯胤.SNS社交網絡結構實證研究——以豆瓣網為例[J].科技管理研究,2012.
[3]趙文兵,趙宇翔,朱慶華,等.Web2.0環境下社交網絡信息傳播仿真研究[J].情報學報,2013.
[4]王昊翔,曾珊,劉揮揚.虛擬社交網絡中節點重要度分析[J].上海交通大學學報,2013.
[5]蘭月新,鄧新元.突發事件網絡輿情演進規律模型研究[J].情報雜志,2011.
1.江蘇高校品牌專業建設工程資助項目,項目編號:PPZY2015A058;2.南京森林警察學院教學改革研究與教學建設重點研究項目,項目編號:ZD18003。