郭瑞強,郭阿為,韓忠明,周 萌,張 偉
GUO Ruiqiang1,2,GUO Awei1,HAN Zhongming3,ZHOU Meng1,ZHANG Wei1
1.河北師范大學 數學與信息科學學院,石家莊050024
2.河北師范大學 移動物聯網研究院,石家莊050024
3.北京工商大學 計算機與信息工程學院,北京100048
1.College of Mathematic and Information Science,Hebei Normal University,Shijiazhuang 050024,China
2.Mobile Internet of Things Institute,Hebei Normal University,Shijiazhuang 050024,China
3.College of Computer Science and Information Engineering, Beijing Technology and Business University, Beijing 100048,China
20 世紀90 年代以來,隨著互聯網和Web2.0 技術的迅猛發展,網絡漸漸成為人們日常生活中信息交互的重要平臺,并逐漸超越報紙、廣播、電視,成為首大媒體。一個話題(Topic)在網絡上被瘋狂轉載,形成熱點話題、產生巨大效應之前,大多都在一些交互式網站(例如論壇、博客、微博等)上已經成為熱點話題(Hot Topics),因此交互式網站是最早的網絡熱點話題起源地。隨著時間的變化,網絡熱點話題的發展趨勢呈現一定的規律性。有些熱點話題緩慢地增長達到峰值,然后慢慢消退;有些熱點話題迅速達到高峰后,驟然消退;還有些熱點話題則有更復雜的變化規律,如圖1 所示,其中時間單位為小時(h)。圖1中的六類曲線[1]是對網絡熱點話題進行聚類后得到的,圖中歸納出話題可能的傳播模式。
本文以網絡熱點話題為研究對象,以熱點話題從起始到相對長一段時間內的“熱度”作為一個時間序列[1],對該時間序列進行建模,深入刻畫熱點話題形成與發展的內在機制,達到分析熱點話題規律的目的。
Yasuko Matsubara 等人[2]對信息傳播的模式進行了建模,提出了SpikeM 模型,該模型可以較好地反映信息傳播的模式。但是針對熱點話題多次出現高峰的情況,該模型就無法擬合。且該模型假設存在一定的局限性,它是針對某一事件,且每個網絡用戶只能發布一次消息,這與實際環境中用戶就某一話題多次發帖的事實不符。
本文對SpikeM 模型的假設進行了改進,并且在模型中加入了隨機脈沖干擾,構建了脈沖時序行為動力模型(Pulse Time Series Dynamic Model,簡稱PTSDM),并在實際數據集上進行了大量的實驗、分析與比較。實驗結果表明本文構建的模型能夠很好地擬合真實數據,較為準確地刻畫了熱點話題形成與發展的內在機制。

圖1 六類曲線
M.Nekovee 和Y.Moreno 等 人[3]研究了復雜社會網絡(Complex social networks)下謠言傳播的理論,比較了不同社會網絡拓撲結構中謠言的傳播機制。Damon Centola 等人[4]研究了在線社會網絡實驗中行為的傳播,針對社會網絡對行為傳播的影響,得出行為在高聚類網絡中比在相應的隨機網絡中傳播的更遠、更快。
吳芳等[5]通過對digg.com 網站上100 萬用戶的集體關注動力學進行分析,建立了一個以新穎因子為特征的動力學模型,并得出結論:關注會在一定的自然時間尺度內消退。趙麗等[6]通過統計和分析中國最大的博客站點(新浪博客)在幾個月中若干具有突發性的事件引起的熱門話題數據,提出了一個基于節點知名度和活躍度的離散時間話題傳播模型。該模型只是博客網絡中話題傳播規律的初步探索,無法揭示網絡中熱點話題的形成與發展過程。20 世紀60 年代,Daley 和Kendall[7]對謠言傳播現象進行了研究,對謠言傳播提出了數學模型。另外,周苗苗等[8]建立了社會網絡上的謠言傳播模型,研究初始集合對謠言傳播的影響,得出了任何節點被謠言傳播影響總的表達式,需要進一步研究謠言傳播的仿真實驗。Andrea Apolloni等[9]研究了現實社會網絡模型上的信息傳播,仿真檢驗了在模擬的社會技術網絡中個人談話的信息傳播,建立概率模型來判斷兩個人基于他們之間的相似度與熟悉度是否將談論某個特殊的話題。
通常,網絡用戶可以方便地通過交互式網站進行注冊,成為一名虛擬用戶,并在該網站上瀏覽消息和通過評論、轉發及回復來表達自己的思想和對事件的看法。
在某一時刻T發生了一件事,一些網絡用戶立即關于此事發消息,成為傳播源。其他的用戶看到這些消息后,關于此事發消息(評論、轉發),隨著時間推進,已發過消息的用戶或許繼續關于此事與其他用戶討論而發消息(評論、轉發或回復),且有新的用戶關于此事發消息。隨著時間變化,該話題的受關注度逐漸消退。據此關于此話題的用戶的最終發帖量形成一個時間序列,其反映了該話題受關注度是怎樣隨著時間的推移而發生變化的。
首先假設封閉世界,也就是在Web2.0 這些交互式網絡上,話題從某一網絡中產生,并僅在此網絡中傳播,從而可以定義傳播模型。
定義無向圖G={V,E},用于描述某一交互式網絡中某一個話題的實際傳播網絡,其中,V是網絡上用戶的集合,用戶可以發布新話題的消息,也可以評論其他用戶發的消息獲得話題信息,并發布相關消息供其他用戶評論、轉發或回復。
E表示將網絡用戶連接起來的所有邊組成的集合,代表話題可能的傳播路徑。如圖2 所示,表達了話題在網絡用戶間的傳播網絡。圖中空白節點表示對某事件不知情的網絡用戶,陰影節點表示已經知道此事件,并關于此事件發布消息的用戶。在圖2 中,T=0 時刻沒有事件發生,所有的網絡用戶都處于未知狀態,而在T=t時刻,發生了一件事,某些網絡用戶得知此消息后即刻在網絡上發布相關消息,這樣在下一時刻T=t+1 時,與最先發布消息的用戶有連接的用戶也得知此消息并發布相關消息,而使話題繼續這樣傳播下去。

圖2 話題在網絡用戶間的傳播網絡
由于交互式網絡(Web2.0)相對于其他網絡有自己的特點,不同于互聯網等物理網絡,交互式網絡是一種關系網絡。交互式網絡(Web2.0)注重用戶的交互作用,用戶既可以瀏覽網站內容,也可以“制造”網站內容。這里“制造”網站內容是指互聯網上的每一個用戶不再僅僅是互聯網的讀者(reader),同時也成為互聯網的作者(writer)。即用戶不再被動地接收互聯網信息而是主動地創造互聯網信息。網絡上的用戶就可以方便地結識并互相訪問,這就使其區別于電子郵件網絡等一般的關系網絡。因此本文認為交互式網絡中任意兩個用戶之間都可以互相訪問,從而此網絡是一個全連通的無向圖。
本文中模型構建的思想源于傳染病的傳播模型SI模型、SIS 模型和SIR 模型[10]。SI 模型中的節點有兩種狀態:易感染狀態(Susceptible,S)和感染狀態(Infected,I)。每個感染節點以概率β來感染它的鄰居節點(概率β反映了病毒的感染力)。一旦易感者被感染,此節點永遠保持被感染狀態。即易感染個體被感染后,不能被治愈。SI模型的基本形式如公式(1)所示:

而SIS 模型的原理是易感染個體被感染后,可以被治愈但無免疫力(即還可以被再次感染)(如感冒等)。SIR 模型的原理是易感染節點被感染后,可以被治愈且具有終身免疫力(這些節點不會被感染,同時也不會感染其他節點,相當于已經從傳播網絡中被清除了)(如天花等)。
若將傳染病模型的思想用于網絡中話題的傳播,則可將網絡中用戶分為兩種狀態:發布消息的用戶(Spreaders)和未發布消息的用戶(Ignorants)。用戶發布的消息以概率β感染尚未發布消息的用戶,發過一次消息的用戶不會重復發消息(或者全部用戶都重復發消息),但其所發的消息永遠保持一定的感染力,這與現實的交互式網絡中話題的傳播不符合。事實上,在社交網絡中發過消息的網絡用戶可能會多次重復發布消息,也就是發過消息的用戶中有一部分會重復發布消息,而另一部分則發過一次消息后就不再發布消息。
基于上面的分析,本文根據話題的特征及用戶的行為模式,建立熱點話題傳播的模型,來描述隨著時間的推進,交互式網絡中用戶群體對熱點話題發表言論數的變化趨勢。因此,需建立單位時間內所發消息數與時間之間的動態關系。
簡單來說,本文要解決的問題就是已知在某一交互式網絡中,在時刻t0發生了一件事,有r(t0)個人關于此事發布消息,要研究此話題將怎樣隨時間演化。
文中假設:
(1)在時刻t0時,發生一個新聞事件。
(2)r(t0)個人立刻關于此事件發布消息,消息總數為r(t0)。
(3)該網站上其他的用戶看到r(t0)個人發的消息后,也立刻關于此事件發布消息(評論,轉發或回復)。不考慮那些知道該話題但不發帖的用戶或不知道該話題的用戶,因為這些用戶對話題的傳播不起作用。
(4)網站上的所有用戶都可以多次發布消息。
(5)期間沒有其他的相關事件發生。
假設在某一交互式網絡上有用戶數N,尚沒有任何人關于某一話題發布過消息,在時刻t0,關于此話題的一件事發生了,有r(t0)個人立刻關于此話題發布消息。此話題的感染力,用流行病學中病毒感染力的標準符號β來表示。如果β等于零,表示無人關心此話題;β值越高,表示有越多的用戶關注此話題。另外,有參數β·N,此參數與流行病學上的基本傳染數R0相對應,表示在沒有外部力量介入且所有人都可以被感染的情況下,在下一時刻,一個感染源會感染多少個目標的平均數。則tn時刻關于此話題的所有帖子,具有一定的感染力并以此感染力去影響tn時刻有可能發帖的用戶,那么就有tn+1時刻新發的帖子數。用數學符號表示如公式(2),(3):

其中,r(tn+1)表示(tn,tn+1]時間段內用戶所發的消息數,U(tn)表示tn時刻可以被感染的目標數,也就是有可能發帖的用戶(包括第一次得知此話題的用戶和已發過消息但可能會再次發消息的用戶),R(tn)表示tn時刻網站上關于此話題的所有帖子數,R(tn)·β表示tn時刻關于此話題的所有帖子所具有的感染力。
Jure Leskove 等人[11]研究了博客系統中人們的級聯行為,他們指出:博客中帖子的“熱度”是按照冪律降低的,而不是指數規律,冪律的指數是-1.5,非常符合Barabasi[12]針對人類行為提出的長尾理論。另外,A.L.Barabasi[13]研究的人們對郵件的響應也服從指數為-1.5的冪律分布。最近的一些研究表明用戶在使用在線虛擬社區中的行為[14]、計算機指令的使用行為[15]等都具有長尾冪率分布特征。因此,本文假設所研究的交互式網絡上用戶發布的消息的感染力是隨著時間成冪律下降的,即假設帖子發布t時間后的感染力大小為f(t),則有:

那么tn+1時刻新發的帖子數為:

其中,求和表示從話題開始時刻到tn時刻,所有帖子的總的感染力。
另外,話題在傳播過程中,總會受到一些無法去除又無法估計的情況的影響。故在上式中加入噪聲ε,一般情況下,ε近似等于0。

至此得到了話題傳播的基本模型,如公式(6)。其中U(tn)表示tn時刻可被感染的用戶數。由于有些用戶可能會重復發消息,而有些用戶發過一次消息后就不再參與討論(不再關注或只是關注但不發言),因此本文假設發過消息的用戶不再參與話題討論的概率服從冪律分布。則tn+1時刻可被感染的用戶數等于tn時刻可被感染的用戶數減去已經發過消息但tn+1時刻后不再發消息的用戶數。

其中:


由于本文在構建PTSDM 模型時是基于人類行為動力學的理論框架,根據熱點話題的特性而進行的。則我們考慮人類行為在社會活動中的規律性——參與網絡話題討論的用戶活動存在一定的周期性(日周期、周周期、月周期或年周期)。本文只考慮用戶行為的日周期,模型如公式(9)所示:

其中:

C(tn)表示周期,考慮到參與討論的用戶的活動以天為周期,因此乘以一個周期因子。即U(tn)表示可被感染的目標數,而求和部分表示感染源。正常情況下,只有當目標與感染源成功接觸時,才會感染目標,從而產生新的感染力量;如果目標正處于休息或睡眠狀態,沒有關注感染源,則就會感染失敗,故用周期函數來表示。Cc表示周期時長(24 小時);Cs表示相位移,如果活動高峰期在晚上6 點,周期為24,則Cs=12;Ca表示振幅,也就是周期波的幅度,如果Ca=0,表示沒有周期波動。
根據本文對話題特征的分析,話題在發展過程中存在一定的波動性,故在上述所構建的模型上加入隨機脈沖干擾,來表示在話題發展過程中,作者或者一部分用戶不斷地在一個話題中發表具有新內容的回帖,或者發表一些帶有很大刺激性的回帖,來吸引其他用戶的回帖。可用如下函數式來表示該干擾:

其中A表示脈沖的峰值幅度,w1,w2表示脈沖的寬度參數,tr1表示首次脈沖峰值出現的時間,tr2表示兩個脈沖峰值間的時間間隔。
則本文要構建的PTSDM 模型為:

其中:

C(tn),S(tn),f(t),P的定義分別如式(10)(11)(4)(8)所示。
模型中各參數的定義可參照表1。

表1 參數列表
為了驗證本文構建模型的有效性,實驗中共使用了兩個數據集,第一個數據集是來自天涯和百度貼吧的熱點話題(簡記為ChinDt),以單位時間(小時)內的帖子數作為熱度,經聚類而成的6 個不同的類;第二個數據集是來自Stanford 大學,選自Twitter 上的熱門帖子和新聞(簡記為Twhtag),以每小時的評論數作為熱度,經聚類而成的6 個不同的類。
(1)在ChinDt數據集上的實驗
為了說明本文所構建模型的有效性,將SpikeM[2]模型與PTSDM 模型進行了對比分析。
SpikeM 模型假定,在話題傳播過程中,每個網絡用戶最多參與一次話題討論,而這與客觀實際不符。因此本文構建的PTSDM 模型對其進行了改進,假設網絡用戶可以多次參與話題討論,且服從冪律分布。并且在對話題建模時,引入了隨機脈沖信號作為干擾,使模型更具隨機性,更符合客觀實際。
本文采用SpikeM 模型和PTSDM 模型對數據集ChinDt 的6 個中心曲線進行仿真模擬,圖3 和圖4 分別給出了兩個模型的仿真結果,其中時間單位為小時(h)。
在圖3 和圖4 中,黑色的圈線表示實際數據,紅色的加號線表示模型的仿真數據。對于實際數據,橫坐標表示話題傳播時間,縱坐標表示6 類中心曲線歸約后的每小時的新消息數。對于仿真曲線,橫坐標表示離散的點,縱坐標表示在相應時間點上用戶(包括首次發帖的用戶和重復發帖的用戶)新發帖子數與總帖子數的比值。
通過對圖3 的觀察與分析,可以發現SpikeM 模型對ChinDt 數據的擬合不理想,沒有體現出網絡熱點話題形成與發展過程中的上升與下降的過程,難以刻畫話題的發展趨勢。
通過對比圖3 和圖4 的仿真結果可以看出,PTSDM模型抓住了網絡熱點話題的本質特征,很好地擬合了實際數據,特別是實際數據的波動性和重尾現象,真實的反映了時序網絡熱點話題的發展趨勢。
表2 和表3 分別給出了PTSDM 模型在對數據集ChinDt 的六類曲線進行擬合時的參數值和均方根誤差(Root-Mean-Square Error,RMSE,也稱為標準誤差)。均方根誤差的計算如公式(14)所示。

通過對圖4、表2 和表3 的分析可以看出:
①類C3 和C4 都有一個明顯的尖峰,并且迅速達到尖峰后又迅速衰減,但是C3 在話題傳播的尾部又有明顯的提升,說明C3 類話題在以后時刻又受到某些因素的影響,從而引起網絡用戶的再次關注。
②C1、C5 和C6 類都有兩個波峰,且都是迅速達到高峰值后,然后又驟然下降,經過一段時間后又緩慢地提升而達到第二次高峰,提升到平穩階段后又以冪律的形式衰減,而最終消退;在C1、C5 和C6 中,在第二次達到高峰時,C6 的間歇時間最長,長達3 天時間,而C5 的間歇時間最短,在首次高峰衰減后即開始緩慢提升。
③對于C2 類,與其他類都不同,C2 類迅速達到首次峰值后,在衰減的過程中,又有一個小的提升,之后以冪律的形式衰減至最低值,直至用戶對話題的關注消失。

圖3 采用SpikeM 模型擬合ChinDt的6 個中心曲線
④話題在傳播過程中有一定的日周期,與實際中人類的日周期行為相符;在所有話題的傳播過程中都有一定的小的波動,呈鋸齒狀,這些都是由于一些不可估計且無法消除的噪音所造成的,這與網絡熱點話題的實際傳播過程很相符。
⑤模型對六類曲線擬合的均方根誤差都很小,說明本文構建的模型對數據擬合的精確度很高。
從圖4 中還可以看出C4 只有一個波峰,且形成過程快,較少有其他波動,屬于自組織的行為模式,說明其屬于一般熱點話題——由主帖提出問題,然后有大量的用戶進行回復生成熱點,回復主要針對的對象是主帖。而C1、C2、C3、C5 和C6 有兩個波峰,形成過程是一個反復的過程,是一種外力驅動的行為模式,說明其屬于誘導性熱點話題——主帖提出一個話題,而后吸引回復,在回帖中又有一些帖子(可能是主帖用戶,也可能是其他用戶提交的帖子)吸引了其他的用戶對其進行大量回復,形成一個波浪形的發展過程。
(2)在數據集Twhtag 上的實驗
本文根據PTSDM 模型,采用Matlab 編寫程序,以Twhtag 的6 個中心曲線為數據源,對模型中的參數進行調整與估計,進行了仿真實驗,擬合結果如圖5 所示,其中時間單位為小時(h)。

圖4 采用PTSDM 模型擬合ChinDt的6 個中心曲線

表2 參數值列表

表3 標準誤差列表
在圖5 中,黑色的圈線表示實際數據,紅色的加號線表示模型的仿真數據。對于實際數據,橫坐標表示話題傳播時間,縱坐標表示6 類中心曲線歸約后的每小時的新貼數。對于仿真數據,橫坐標表示離散的點,縱坐標表示在該時刻話題被提及的次數的歸約。
通過對圖5 的分析,可以看出PTSDM 模型可以很好地仿真來自交互式網絡Twitter上的熱點話題的數據,能夠刻畫話題發展的趨勢。

圖5 采用PTSDM 模型擬合Twhtag 熱點話題的6 個中心曲線
通過將PTSDM 模型與SpikeM 模型的對比以及在兩個數據集上的實驗,可以得出結論:本文所構建的PTSDM 模型能夠很好地刻畫網絡熱點話題形成與發展的內在機制,達到了分析熱點話題規律的目的。
本文對交互式網站上的熱點話題建模開展了一系列研究與實驗,對已有的建模方法以及模型進行了分析與總結,分析了熱點話題在網絡上的傳播過程,并根據網絡用戶的行為特征,對網絡熱點話題進行了建模與分析。本文在構建模型時,與實際情況更為接近——假設用戶針對某一事件可以多次發布消息,并且在模型中加入隨機脈沖信號作為干擾,從而使模型可以更好的擬合真實話題的傳播模式。
本文提出的PTSDM 模型作為網絡中話題傳播規律的初步探索,進一步的工作有:利用本文構建的PTSDM模型對話題的傳播趨勢進行預測。
[1] 韓忠明,陳妮,樂嘉錦,等.面向熱點話題時間序列的有效聚類算法研究[J].計算機學報,2012,35(11):2337-2347.
[2] Matsubara Y,Sakurai Y,Prakash B A,et al.Rise and fall patterns of information diffusion:model and implications[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Beijing,China,2012:6-14.
[3] Nekovee M,Moreno Y,Bianconi G,et al.Theory of rumour spreading in complex social networks[J].Physica A:Statistical Mechanics and its Applications,2007,374(1):457-470.
[4] Centola D.The spread of behavior in an online social network experiment[J].Science,2010,329(5996):1194-1197.
[5] Wu F,Huberman B A.Novelty and collective attention[J].Proceedings of the National Academy of Sciences,2007,104(45):17599-17601.
[6] 趙麗,袁睿翕,管曉宏,等.博客網絡中具有突發性的話題傳播模型[J].軟件學報,2009,24(5):1384-1392.
[7] Daley D J,Kendall D G.Epidemics and rumours[J].Nature Science,1964,204.
[8] 周苗苗,許成,劉曉波.社會網絡上的謠言傳播模[J].青島大學學報:自然科學版,2010,24(4):28-36.
[9] Apolloni A,Channakeshava K,Durbeck L,et al.A study of information diffusion over a realistic social network model[C]//International Conference on Computational Science and Engineering.IEEE,2009,4:675-682.
[10] Anderson R M,May R M,Anderson B.Infectious diseases of humans:dynamics and control[M].Oxford:Oxford University Press,1992.
[11] Leskovec J,McGlohon M,Faloutsos C,et al.Cascading behavior in large blog graphs[J].arXiv preprint arXiv:0704.2803,2007.
[12] Barabasi A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[13] Oliveira J G,Barabási A L.Human dynamics:Darwin and Einstein correspondence patterns[J].Nature,2005,437(7063).
[14] Grabowski A,Kruszewska N,Kosiński R A.Dynamic phenomena and human activity in an artificial society[J].Physical Review E,2008,78(6):066110.
[15] Baek S K,Kim T Y,Kim B J.Testing a priority-based queue model with Linux command histories[J].Physica A:Statistical Mechanics and its Applications,2008,387(14):3660-3668.