吳聯仁 李瑾頡 齊佳音3)
1) (上海對外經貿大學工商管理學院, 上海 201620)
2) (上海師范大學數理學院, 上海 200234)
3) (北京郵電大學, 可信分布式計算與服務教育部重點實驗室, 北京 100876)
社交媒體上的信息流行度演化與預測給復雜系統的研究者提出了諸多挑戰, 如識別“病毒式”傳播的原因、網絡結構特征以及通過信息的內容和早期的關注預測未來的流行度. 雖然在線信息流行度的建模與預測已經取得了一定的研究進展[1?4], 然而這個方向的研究大多由于可用的大規模數據缺少而受到阻礙. 近年來, 從在線社交網絡獲得的大規模社交數據為探索人類行為特征及其對在線內容流行的影響創造了前所未有的機會.
建模和預測信息流行度的困難在于各種混雜因素的共存[5?9]. 同時, 它給研究人員帶來了許多挑戰, 包括原因的識別[10?13], 時間效應[14]和結構特征[15,16]. 一些學者對這一問題提出了不同的看法. Cetin和Bingol[17]認為個人注意力對信息的流行有重要影響, 并且提出能見度的衰退和分散注意力的結合解釋了為什么社交網絡中的大多數信息級聯不能成為流行. Weng等[18]采用agent?based模型來研究模因(memes)之間的競爭是否會影響其流行度, 結果表明模因的流行度存在異質性, 這種現象是由模因競爭用戶有限的注意力和在線網絡的結構共同導致的. Gleeson等[19]認為, 有限的用戶注意力資源限制了消息的流行, 并且自然地導致一些消息變得非常流行, 其他消息只是中等流行, 或者被忽略. Yan等[20,21]通過微博信息數據從人類動力學方面研究微博信息傳播及擴散.
針對上述問題, 本文對新浪微博的信息數據和網絡結構數據進行了分析, 結果發現信息流行度衰減遵循標度律. 其次, 提出了基于分支過程的概率模型, 來描述微博信息流行度變化的過程. 第三,對所提出的模型進行數值仿真和理論求解, 發現該模型能夠再現真實社交網絡數據的若干特征. 此外, 信息流行度分布的冪指數與微博網絡的度分布冪指數相關, 微博系統中信息流行度受網絡結構的影響.
在線社交網絡用戶之間相互關注形成有向網絡(如Twitter、新浪微博等). 在新浪微博系統中,每個用戶具有“微博首頁”和“個人頁面”兩個列表.用戶關注的好友如果發出信息, 這些信息按時間先后順序都將顯示在“微博首頁”這個列表上. 當用戶打開微博系統查看“微博首頁”列表上的信息時, 就會對感興趣的微博進行轉發或評論. 轉發的微博信息同時會顯示在“個人頁面”這個列表上. 本文定義表示微博信息的流行度, 即從信息被生成后時間內獲得轉發和評論的總數.表示在時間信息獲得流動度的概率.
由于“微博首頁”存儲列表的頂部是最新收到的信息, 之前收到的信息會逐漸淹沒在列表的底部. 根據用戶注意力有限的假設, 每次用戶從“微博首頁”列表頂部開始查看信息, 并且查看的信息是有限的. 這就會導致一些被淹沒在列表底部的信息不被用戶評論或轉發. 不失一般性, 此處假設“微博首頁”和“個人首頁”存儲信息的能力為1, 即都只能保存一條信息, 新的信息到來時將覆蓋掉原來保存在列表上的信息.
圖1描述的是微博系統中信息傳播的過程. 對于每個用戶在當前時刻有兩個動作(或狀態):1)以概率生成一條新的信息發出去; 2)以概率轉發“微博列表”上已有的信息. 如用戶1在時刻以概率生成了一條信息(用圓圈表示), 同時發給其粉絲用戶2和3; 在時刻用戶2以概率轉發這條信息給其粉絲用戶4和5; 在時刻, 用戶3又以概率生成一條新的信息(用方框表示), 并將該信息發給其粉絲用戶6和7. 每當信息被傳播一次, 信息的流行度加1.

圖1 流行度模型示意圖Fig. 1. Schematic of the model.
根據第2節的模型描述, 本節采用分支過程來刻畫信息的流行度動力學過程, 微博系統中每條消息的傳播都遵循一個分支過程.




表1 一個時間步節點(用戶)“微博首頁”的結果Table 1. Single time?step outcomes of user’s list.



則(5)式變為

將上面的推導一般化為每個用戶的列表具有容量c, 即用戶的“微博首頁”和“個人頁面”可同時保存c條微博信息:






本文分析了兩個數據集, 均通過新浪微博開放平臺API收集(www.weibo.com), 新浪微博是目前中國最流行的微博平臺之一. 第1個數據集是微博信息數據, 通過滾雪球采樣的方法收集了某個話題在2009/8/20―2010/9/3之間發布的125139條微博, 以及這些微博被轉發了2260826次和1822450條評論. 每條微博包括發出用戶ID、微博ID、微博發布時間、微博內容、轉發次數和評論次數. 此外還采集了微博的評論時間, 微博的轉發時間雖無法獲得, 但微博的轉發流行度分布和評論流行度分布具有相同的分布特征(如圖2所示), 均服從冪指數約為1.8的冪律分布. 因此, 評論流行度的變化可近似表示微博整體流行度的變化(評論流行度和轉發流行度).
第2個數據是微博用戶數據, 第2個數據集收集了參與話題討論的41667個用戶信息. 對每個用戶, 采集了用戶ID、用戶關注數和關注關系、用戶粉絲數. 從而獲得微博網絡用戶度分布情況, 數據統計分析發現用戶入度(粉絲)和出度(關注)分布均服從冪指數約為1.5的冪律分布(如圖3所示),但出度分布在2000附近具有一個截斷, 這是由于新浪微博系統初期允許關注的上限是2000.

圖2 微博的流行度分布Fig. 2. Distribution of micro?blogs popularity.

圖3 微博用戶度分布Fig. 3. Distribution of out?degree and in?degree.
為了驗證分支過程近似的精確性, 并探討網絡結構與有限注意力的相互作用, 本文將模型的數值仿真結果與實際數據和理論預測結果進行比較. 首先生成具有指定度分布的有向網絡, 網絡的度分布服從冪律分布,. 模型參數設定為節點總數是, 且

數值仿真的微博信息的平均流行度(藍圓線),與實際數據(黑鉆石線)和方程6的理論預測(紅方線)的比較如圖4所示. 其中參數取值為微博生成概率, 平均入度, 微博列表存儲信息能力. 因新浪微博網絡中不同時間窗口、不同主題話題下微博信息流行度存在差異, 本文實證數據計算結果與理論模擬存在偏差. 從圖4可見, 在初始階段, 平均流行度的實際數據與理論預測和仿真偏差較大, 隨著時間不斷增加, 偏差先減小后增大, 最后實際平均流行度值和理論預測值均趨向于定值, 偏差穩定. 另外在數據處理與選擇時, 單個微博信息流行度時間序列數據點大于等于10時, 該微博信息才被納入計算平均流行度的數據. 每個微博信息流行度的時間序列數據點不相等, 也導致了平均流行度的計算結果和理論模擬的偏差.

圖4 微博信息平均流行度Fig. 4. Mean popularity of Micro?blogs.
圖5 比較了微博信息流行度模型仿真結果、實際數據和理論預測的結果. 其中參數取為,. 網絡結構是新浪微博中41667個用戶數據生成的網絡. 在較小時, 模型仿真結果與實際數據及理論預測結果一致, 當時, 實證數據與仿真結果和理論預測之間存在一定偏差, 但大致結果是符合的. 導致偏差的主要原因是, 基于分支過程的流行度模型是建立在假設微博網絡是樹形結構基礎上的, 但實際上, 新浪微博41667用戶生成的網絡中34%的鏈接是互惠鏈接. 基于樹形結構理論的精確結果應用于現實世界的網絡中, 因此導致了一定的偏差.

圖5 微博信息流行度的互補累積概率分布(CCDF)Fig. 5. Complementary cumulative distribution functions(CCDFs)–the fraction of micro?blogs with popularity .
通過對微博信息評論轉發數據和網絡結構數據的統計分析可知, 在微博系統中存在高度的異質性, 如流行度小于100的微博信息占比達到95.8%, 而流動度超過1萬的微博信息數量是非常少的. 粉絲數(入度)小于100的用戶占比達56.4%,而有的用戶粉絲數高達百萬. 通過仿真, 重現了復雜社會系統中的高度異質性, 大量的流行度(或關注)都被少量的信息(或用戶)獲得, 得到了流行度依賴時間的重尾分布特征. 本文所提出的框架構成了社會傳播現象的零模型, 與純粹的實證研究或基于模擬的模型相比, 它清楚地區分了影響信息流行度的兩個不同因素的作用, 即用戶的記憶時間和社交網絡的連接結構.
在線社交媒體極大地影響了人們彼此溝通的方式. 近年來, 在線社交媒體信息流行度的預測和建模引起了眾多學者的關注. 例如, 預測和建模社交媒體上的新聞流行度[22]和量化論文流行度[23].本文引入并分析了一種信息傳播的概率模型, 該模型具有分析易處理性, 可以再現實際數據的若干特征. 但是該模型也存在一定的局限性, 其中要求做出一些假設以獲得分析結果. 在將來的研究中, 我們希望對模型進行一些可能的擴展.