張文杰,穆海冰,張長倫
(1.北京交通大學 通信與信息系統北京市重點實驗室,北京 100044;2.北京建筑工程學院 理學院,北京 100044)
微博作為一種新興的開放互聯網社交服務工具,具有獨特的傳播特征和強大的傳播能量。它以發布便捷、時效性、交互性強等特點吸引了強大的用戶群體。微博信息的轉發是很復雜的演化過程,綜合考慮微博網絡中的信息傳播規則和網絡拓撲結構2個角度,構建基于微博網絡的信息傳播模型,準確模擬信息在實際微博拓撲子網中的信息流向,研究微博網絡中信息的傳播性質和規律,對網絡輿論的預測、引導具有非常重要的理論價值和現實意義。
微博網絡中用戶的個性對微博的轉發具有不可忽視的影響作用,本文將用戶個性作為影響因素納入到傳播模型中,研究不同比例混合群體構成的網絡中信息的傳播性質并對仿真結果進行分析。
信息傳播的過程是在以個體為節點、以連接為邊的復雜網絡中信息的復制、轉移、變化和擴散的過程。實證的研究表明基于用戶個體交互規則的概率影響模型很適合描述實際的傳播過程,其基本假設是:用戶個體可能在人際關系網絡中其它鄰居用戶的影響下加入信息的傳播,并且這種影響關系是概率方式,即每一個加入傳播的個體都以一定的概率影響其鄰居加入傳播。實際建模過程中一般會根據需要在影響模型中考慮具體的影響因素,并設定一定的人際網絡拓撲結構,對傳播的范圍、時間、持續性等特征進行研究。
在傳染病動力學研究中,通過構建個體交互概率影響模型來描述傳染病的擴散過程。現有的研究中,很多是借鑒傳染病模型,結合具體網絡的特性對模型改進,研究用戶節點狀態隨時間的演化關系。劉俊[1]在基于不同網絡拓撲結構的E-mail病毒傳播模型研究的基礎上,針對網絡拓撲的均勻性和缺少理論依據兩方面的不足,提出了無標度網絡環境下E-mail病毒的傳播模型,通過對模型的求解,得到E-mail用戶感染密度隨傳播率、恢復率和網絡平均度變化的計算表達式,并通過實驗證明了傳播率與網絡平均度是影響E-mail病毒蔓延的關鍵性因素。張彥超[2]構造基于在線社交網絡的信息傳播模型,模型考慮節點度和傳播機理的影響,結合復雜網絡和傳染病動力學理論,建立動力學演化方程組,刻畫不同類型節點隨著時間的演化關系,分析其在網絡的行為規律。許曉東[3]根據微博社區網絡呈現短平均路徑、度分布指數為常值、信息傳播有向的特性,結合文獻[1]中病毒傳播的相關算法,將網絡中的節點按照其度值進行分類,建立微博社區謠言傳播模型研究謠言在網絡中的傳播機理,研究表明謠言傳播受有效傳染率和網絡度分布熵影響。楊春霞[4]借鑒SIR模型,針對微博病毒傳播的有向性在有向無標度網絡上建立微博病毒的仿真模型,將傳播過程分為自由傳播階段和警告抑制階段,研究用戶點擊率、轉發率以及對信息的反應速度等因素對病毒傳播的影響。
在基于用戶個體交互規則的概率影響模型中,個體間的作用規則和影響因素的定義至關重要,但現有的研究對于如何定義作用規則和影響因素還沒有達成一定的共識。丁飛[5]對輿論事件中參與個體的交互過程進行建模,采用Multi-Agent方法對提出的模型進行仿真,研究輿論事件之間的競爭和影響關系。孫慶川[6]對傳播規則和傳播網絡的結構進行限定,建立人際網絡傳播模型的五元組,并在計算機上模擬,發現存在信息傳播臨界值, 當信息吸引力大于臨界值時信息才能傳播開,否則幾乎不能傳播。劉豐[7]參照文獻[6]提出的信息傳播模型五元組,在微博環境下,分別根據用戶關系、用戶關系的度量、用戶的轉發行為、用戶及微博項的特征相應的生成網絡底圖、節點間信息親和力、節點的信息接受能力、節點的信息傳播能力,構建信息傳播模型五元組,模擬信息在微博中的傳播過程。鄭蕾[8]通過對參數設置決定選擇轉發信息的節點方式,構建一種新的基于微博網絡的信息傳播模型,并在新浪微博拓撲子網中模擬信息流向,得出明星用戶在信息擴散中的意見領袖作用隨著信息敏感度的增加逐漸弱化的結論。
這些實證研究表明,通過基于用戶個體交互規則的概率影響模型來描述復雜網絡特別是互聯網的傳播過程是可行的。到目前為止,研究者們對這種建模方法達成了一定的共識,但對互聯網中各種復雜的傳播現象,以及一些重要影響因素對傳播過程的影響缺乏足夠的認識。上述部分研究側重于構造傳播背景和環境,將用戶抽象成無主觀意識的節點,忽略了用戶個性等主觀意識對信息傳播造成的影響,本文將用戶個性作為影響因素納入到模型當中,定量分析結果,來仿真研究實際的傳播過程。
參照文獻[6]提出的傳播模型,針對微博時效性強、傳播具有有向性等特點,考慮影響傳播過程具體影響因素,對模型進行一定的改進。本文將微博中的用戶抽象成網絡節點V,用戶之間的粉絲關系抽象成邊E,基于一定人際網絡拓撲結構的微博拓撲子網抽象成信息傳播的空間G=(V,E),采用基于用戶個體交互規則的概率影響模型來模擬微博中信息的傳播過程。
初始時刻T=0,隨機選擇一個用戶節點,作為發布微博信息的源節點,T=t時刻轉發微博信息者的集合為A(t),T=t+1時刻,一個不屬于A(t)的個體會根據t時刻信息的吸引力Φe、受鄰居用戶的影響程度Neiv(t)以及個體的接受信息臨界值Acpv
(t)來決定自己在t+1時刻是否轉發該信息,若滿足轉發條件,則轉發信息,進入A(t+1)集合,反之,不轉發信息。
(1)模型中只考慮用戶之間的粉絲關系存在,忽略這種聯系的強度。
(2)模型中不區分用戶節點的影響力的大小。
(3)模型中假設信息吸引力只取決于傳播的話題,而無個體間差異。
模型是一個五元組(G, Φe, Acpv(t), w, A(t))。其中,G表示信息傳播空間,Φe表示信息的吸引力,Acpv(t)表示個體的接受信息臨界值,w表示信息吸引力在影響因素中所占的權重,A(t)表示轉發微博信息者的集合。
假設用戶轉發信息受兩種因素影響:
(1)信息的吸引力Φe,Φe∈ [0,1]。由于微博的時效性、交互性強等特點,在不受外界因素影響下,信息吸引力會逐漸衰減,假設呈指數衰減,衰減系數設為Decay。
(2)受鄰居用戶的影響程度Neiv(t),具體量化為用戶關注的人群中轉發信息的人群數量在關注人群當中所占的比重,即:

其中,Mv(t)={v’|(v’,v)∈ E,v’∈ A(t-1)},douv表示該用戶關注的人群數量。

網絡群體中存在著不同個性的用戶個體,為了研究用戶個性對信息轉發的影響,將群體中個體類型劃分為:自主型、無主見型和中立型3類,將這3類個性納入到傳播模型中,體現為信息吸引力在影響因素中所占的權重w的不同,分別取值為0.9、0.1和0.5。
新浪微博屬于在線社交網絡。國外關于在線社交網絡拓撲的實證研究表明它具有有向無標度特性,例如4個受歡迎的在線社交網絡Orkut,YouTube, Flickr和LiveJournal已被證實具有有向無標度特性,其用戶的入度與出度都具有冪律特性[9]。國內同樣證實新浪微博與人人網也具有相同的特性[10]。筆者利用網絡爬蟲到新浪微博爬取數據,獲得了一個真實的關注微博網絡邊關系,得到了具有一定拓撲結構的微博拓撲子網,網絡中的節點數N=5 906,平均度dout_average=4.5,最大度dout_max=732,度分布指數為2.36,參數Decay設為0.5。網絡拓撲結構如圖1所示,網絡度分布如圖2所示。度分布函數P(k)是指任意一個節點度為k的概率,其值等于網絡中度為k的節點個數與網絡總節點個數的比值。從圖2中可以看出,P(k)服從冪律分布,即P(k)~ k-γ,γ代表度分布指數。微博拓撲子網的度分布指數符合無標度網絡度分布指數介于2和3這一特性。

圖1 網絡拓撲結構
依據網絡中3種類型的個體數量的不同比例混合,得到4個不同的網絡,分別為3種類型個體數量均勻、自主型個體數量居多、無主見型個體數量居多、中立型個體數量居多。根據統計學中的“二八法則”,任何一組東西中,多數所占比例為80%,少數占20%。基于此,本文將數量居多的個體在網絡中所占比例設置為80%,其余2種個體數量各占10%,具體網絡中3種類型個體所占比例如表1所示。

圖2 網絡度分布

表1 3種類型個體在不同網絡中的比例構成
當信息吸引力Φe取不同值時,信息在4個網絡中傳播結束時的擴散密度ρ(|A(t)|與傳播空間節點集合的模的比值)和擴散平均度AvgDegree(A(t)中節點度的平均值)與信息吸引力Φe的關系分別如圖3、圖4所示。

圖3 4個網絡中信息擴散密度與信息吸引力的關系
從4個網絡信息擴散密度與信息吸引力的關系比較中,可以看到存在信息吸引力臨界值(擴散密度≥0.6的吸引力最小值),當信息吸引力大于臨界值時,信息可以在網絡中大規模擴散,并且由于用戶個性影響因素的存在,臨界值在不同類型個體居多的網絡中會發生變化;信息在自主型個體居多的網絡中擴散程度最高,很難在無主見型個體居多的網絡中得到擴散,在中立型個體居多的網絡和3種類型個體均勻分布的網絡擴散程度相差不大。
從4個網絡信息擴散平均度與信息吸引力的關系比較中,擴散平均度隨著信息吸引力的增加逐漸趨于穩定并接近于整個網絡的平均度。自主型個體居多的網絡較之于其他3個網絡,其擴散平均度隨著信息吸引力的不同變化較為明顯,對信息的吸引力較為敏感。

圖4 4個網絡中信息擴散平均度與信息吸引力的關系
本文采用基于概率方式的傳播影響模型來模擬微博信息的轉發過程,通過在構建的傳播模型中納入用戶個性這個影響因素,研究信息在不同比例混合群體構成的網絡中的傳播,得出結論:將用戶個性作為影響因素納入到傳播模型中來模擬信息的傳播過程是合理的,并且不同個性用戶對信息擴散的影響作用不同,自主型個體對信息擴散具有很強的推動力,中立型個體次之,無主見型個體最差。由于實際當中微博信息的轉發是一個很復雜的演化過程,其會受到各種不確定因素的影響,如何結合實際將更多的影響因素納入到模型中,使模型更加合理和完善,更準確地描述信息的傳播過程,還需要進一步研究。相信隨著更多的實證研究支持,可以為網絡輿論的預測和引導提供更好的支撐。
[1]劉 俊,金 聰,鄧清華.無標度網絡環境下E-mail病毒的傳播模型[J].計算機工程,2009,35(21):131-133,137.
[2]張彥超,劉 云,張海峰,程 輝,熊 菲.基于在線社交網絡的信息傳播模型[J].物理學報,2011,60(5):1-7.
[3]許曉東,肖銀濤,朱士瑞.微博社區的謠言傳播仿真研究[J].計算機工程,2011,37(10):272-274.
[4]楊春霞,胡丹婷,胡 森.微博病毒傳播模型研究[J].計算機工程,2012,38(15):100-103.
[5]丁 飛,劉 云,司夏萌,張彥超.輿論話題的傳播與競爭[J].系統仿真學報,2009,21(23):7660-7664.
[6]孫慶川.人際信息傳播模型及其模擬[D].上海:上海大學,2009.
[7]劉 豐.基于微博的突發事件檢測和信息傳播建模[D].哈爾濱:哈爾濱工業大學,2011.
[8]鄭 蕾,李生紅.基于微博網絡的信息傳播模型[J].通信技術,2012,45(2):39-41.
[9]Mislove A, Marcon M, Gummadi K P, et al. Measure-ment and Analysis of Online Social Networks[C]. Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement.[S. l.]:ACM Press, 2007.
[10]Fu Feng, Liu Lianghuan, Wang Long. Empirical Analysis of Online Social Networks in the Age of Web 2.0[J]. Physical A, 2008,387(2):675-684.