王 怡,梁 循,周小平
(中國人民大學 信息學院,北京100872)
基于統(tǒng)計的新浪微博動態(tài)傳播規(guī)律研究
王 怡,梁 循,周小平
(中國人民大學 信息學院,北京100872)
社交網(wǎng)絡是一個龐大的新型復雜系統(tǒng),用戶和信息常用作研究網(wǎng)絡靜態(tài)結構和動態(tài)傳播過程的典型對象,它們的結構特點和傳播規(guī)律處處體現(xiàn)出社會網(wǎng)絡復雜的特點。該文利用新浪微博約三萬名用戶及其發(fā)信息的數(shù)據(jù),從上述兩方面進行了研究。首先基于統(tǒng)計,本文發(fā)現(xiàn)了新浪微博網(wǎng)絡的緊密程度較弱,并實證了關注網(wǎng)絡的關聯(lián)密度是線性的。其次,通過研究單條微博的傳播過程的用戶影響曲線,我們發(fā)現(xiàn)10%的用戶能影響其他的90%。第三,該文從時間和轉(zhuǎn)發(fā)結構兩方面對微博的傳播模型進行了歸納。相關的結論能夠為后續(xù)模型建立、輿情監(jiān)控等提供支持。
新浪微博;線性關聯(lián)密度;關鍵節(jié)點;傳播模式
國際上最早的微博是Twitter,它的定位是信息網(wǎng)絡(information network),短小、迅速、傳播廣的特點讓它迅速風靡全球,并逐漸從虛擬社交影響到了社會經(jīng)濟活動。而在國內(nèi),2009年8月中國門戶網(wǎng)站新浪推出“新浪微博”內(nèi)測版,成為門戶網(wǎng)站中提供微博服務的第一家,微博正式進入中文上網(wǎng)主流人群視野。經(jīng)過幾年的發(fā)展,新浪微博已經(jīng)成為中文微博的代表,運營模式也日趨成熟。作為一個主流的社交網(wǎng)絡平臺(social network),新浪微博上消息和用戶數(shù)據(jù)均十分龐大,在消息傳播方面更是體現(xiàn)出即時分享和井噴式擴散能力,對于微博影響力、話題發(fā)現(xiàn)以及消息傳播的控制都提出了要求。
開展網(wǎng)絡測量是分析微博網(wǎng)絡特性、研究微博網(wǎng)絡拓撲結構和信息傳播機制的重要方法。網(wǎng)絡測量是指按照某種規(guī)律,用數(shù)據(jù)表示觀測現(xiàn)象,對微博網(wǎng)絡結構或信息傳播規(guī)律特性進行量化描述[1]。國內(nèi)外學者對于Online Social Network(OSN)的研究主要集中于Twitter等國外網(wǎng)站,對消息的傳播過程則包括了實際數(shù)據(jù)的統(tǒng)計特性以及衍生出的影響力計算和話題發(fā)現(xiàn)等課題。新浪微博作為一個中文社交網(wǎng)絡平臺,其所處的環(huán)境與國外差異很大,運營模式和用戶行為上都有很明顯的區(qū)別于外文網(wǎng)站的特性,目前對新浪微博系統(tǒng)中的數(shù)據(jù)仍缺少系統(tǒng)性的分析和整理,對消息的傳播更是缺乏實際的分析和歸納。
對于OSN上消息傳播過程的研究,流行的在線社交網(wǎng)絡如Twitter、Facebook、YouTube、Flicker等平臺上的數(shù)據(jù)都被詳盡分析過,學者們主要分析了消息在傳播過程中表現(xiàn)出來的特性,如級聯(lián)情況、用戶的轉(zhuǎn)發(fā)消息行為、用戶之間的關注關系以及消息內(nèi)容的特征等。例如Magnani等人率先利用國外社交網(wǎng)絡上的實際數(shù)據(jù)進行分析,分析了社會上突發(fā)事件、消息發(fā)布時間等對消息傳播的影響,并對轉(zhuǎn)發(fā)、評論和消息的生命周期進行統(tǒng)計,得出社交網(wǎng)絡上消息的傳播是受多種因素影響,簡單的基于網(wǎng)絡的分析會有較大誤差的結論[2]。Matsubara等人則對Twitter平臺上消息傳播隨時間推移的六種傳播模式進行了歸納,提出了SPIKEM模型進行分階段建模,可以對現(xiàn)有的傳播模式進行擬合,并對后續(xù)的傳播進行預測;但其所需的參數(shù)雖然有限,卻不容易量化,難以通過測量獲得,實際操作困難[3]。Sadikov 等發(fā)現(xiàn)Twitter網(wǎng)絡的出度、入度等符合冪律分布,并驗證了外部影響的存在,同時分析了URL和tag傳播的差異性[4]。Sun等分析了Facebook上信息的傳播模式,發(fā)現(xiàn)大規(guī)模傳播的信息鏈中,有14%到18%的用戶都是初始用戶,即與以往所認為的口碑相傳不同,想要消息傳播更廣,需要有更多的初始用戶[5]。文獻[6]則通過獲取Twitter上的大量數(shù)據(jù),對消息傳播的廣度、被響應的速度和持續(xù)的生命周期進行了分析。
近幾年由于國內(nèi)微博的興盛,也有學者將研究視角轉(zhuǎn)向中文微博平臺,樊鵬翼等人對新浪微博的網(wǎng)絡結構和用戶行為特征進行了研究,包括新浪微博的小世界特性、微博網(wǎng)絡的出入度特點、用戶發(fā)送博文時間和數(shù)量等行為特征[7]。曹玖新等人對新浪微博的信息轉(zhuǎn)發(fā)與傳播特征進行分析,考察與用戶轉(zhuǎn)發(fā)行為相關的若干因素和影響,并歸結為用戶屬性、社交關系和微博內(nèi)容三類綜合特征,再利用機器學習中的分類算法對微博的轉(zhuǎn)發(fā)進行預測[8]。沈乾等人則提出微博傳播波的函數(shù)解析式,符合指數(shù)衰減的趨勢,并利用大V節(jié)點的子波方程相疊加進行擬合;但其只針對一個實例,函數(shù)解析式對其他微博的可遷移性不夠,且函數(shù)的解析過程無法對后續(xù)的傳播進行預測[9]。易成岐等人分析了不同社交網(wǎng)絡的結構對信息傳播的影響,研究和分析信息傳播機制,抽象出七種基于拓撲結構的信息傳播模型,并給出不同模型所占的比例、形成原因和特點[10]。劉瑋等人考察話題生成網(wǎng)絡的動態(tài)時序特性,發(fā)現(xiàn)少數(shù)微博被大量轉(zhuǎn)發(fā)、話題熱度程序明顯的突發(fā)性,以及基于話題生成的轉(zhuǎn)發(fā)網(wǎng)絡不具有明顯的小世界特性等[1]。
以上研究或側(cè)重于尋找影響消息轉(zhuǎn)發(fā)的因素,或僅考慮消息傳播的結構特征,或只探究消息隨時間的傳播數(shù)量變化,卻都沒有對整個網(wǎng)絡的微博傳播進行系統(tǒng)的分析,因此本文通過對實際數(shù)據(jù)的詳細分析,發(fā)現(xiàn)并分析傳播所依賴的網(wǎng)絡結構特征和傳播過程中呈現(xiàn)的規(guī)律,為建模或監(jiān)控等提供依據(jù)。
由于本文研究新浪微博的網(wǎng)絡結構和傳播特點兩個方面,不同的研究點需要不同的數(shù)據(jù),所以共采集兩部分的實驗數(shù)據(jù)。
數(shù)據(jù)集A以用戶聯(lián)系為基準,基于新浪微博開放平臺提供的API,設計了一個廣度優(yōu)先的爬蟲程序來采集實驗所需數(shù)據(jù)。首先從微博用戶中隨機選擇四名用戶作為種子用戶,以他們?yōu)槠瘘c分別抓取他們的關注列表以及最近發(fā)表的200條微博,并將列表中的用戶添加至待爬取隊列。結束一個用戶的處理后,則對隊列中的第一個用戶開始同樣的操作,循環(huán)進行。但由于微博上部分用戶進行了權限設置或是沒有發(fā)布過微博,有部分用戶的微博信息無法獲取。通過這種方式,共得到29 261名用戶所發(fā)布的4 883 345條微博及相關信息。數(shù)據(jù)集B則是為了分析微博完整的傳播路徑和規(guī)律,這一部分我們利用北京大學 PKUVIS 微博可視分析工具[11],以500為單位獲取轉(zhuǎn)發(fā)量在[50,15000)的80條微博的完整傳播路徑及相關的用戶、文本等信息,每個區(qū)間長度內(nèi)至少包含三條微博。
用戶之間的關注關系是消息傳播的主要途徑,對于關注網(wǎng)絡的了解有助于分析消息的傳播過程。實驗對用戶關注數(shù)目與用戶規(guī)模之間的關系分別用二次函數(shù)和線性函數(shù)進行擬合,并通過分析現(xiàn)實網(wǎng)絡的組成結構,對實驗結果進行解釋。
4.1 用戶之間關注數(shù)目與用戶規(guī)模對應關系的二次函數(shù)擬合實驗

我們將數(shù)據(jù)集A中的29 718名用戶根據(jù)id的大小進行排序并標號,利用系統(tǒng)抽樣方法,每次抽取若干用戶對他們的用戶關注關系進行觀察。為了驗證數(shù)據(jù)的有效性,對于同樣規(guī)模的用戶,還進行多次抽樣,結果顯示關聯(lián)數(shù)目雖有一定的波動,但是當抽樣規(guī)模在2 000以上時,關注數(shù)目的變化波動都在5%以下,體現(xiàn)出高度的一致性,可以認為數(shù)據(jù)具有說服力。以用戶規(guī)模為29 718的數(shù)據(jù)為例作出圖形如下,整條曲線擬合成y=0.0005x2-0.1811x-48.55時,擬合優(yōu)度R2=0.9999,說明二次函數(shù)可以較好地描述關注數(shù)目與規(guī)模的關系。當數(shù)據(jù)集較小時,存在于集合內(nèi)的關注數(shù)目也很少,網(wǎng)絡很稀疏,孤立節(jié)點眾多;而當用戶集里面的用戶數(shù)目達到1 000時,關注數(shù)目急劇增加。

圖1 關注關系與用戶集規(guī)模的二次擬合函數(shù)
再研究數(shù)據(jù)集上用戶關注關系的數(shù)量隨用戶集規(guī)模的變化規(guī)律,將不同規(guī)模下的數(shù)據(jù)進行對比,形成如下表格,容易看出平均關注數(shù)目隨著用戶規(guī)模的擴大而增加。而表1中擬合曲線中的系數(shù)基本維持在0.0005左右,即對于一個確定的網(wǎng)絡,其子集體現(xiàn)的特征與整體是一致的。對于方程,一次導數(shù)代表了y隨x增長的速度,二次導數(shù)代表了速度變化的快慢,當a的值趨于無窮小時,在一定范圍內(nèi),可認為增長速度不變,也就是說接近線性。

表1 不同用戶規(guī)模下的二次擬合函數(shù)
4.2 用戶之間關注數(shù)目與用戶規(guī)模對應關系的線性函數(shù)擬合實驗
在二次函數(shù)擬合實驗中,由于二次項的系數(shù)較小,在10-4數(shù)量級上,因此嘗試用一次函數(shù)y=kx+b進行擬合。此時,x代表用戶的規(guī)模,k代表用戶的平均關注數(shù)目,而b則是對函數(shù)的一個修正。

表2 不同用戶規(guī)模下的線性擬合函數(shù)
從表2中可以看出,在用線性函數(shù)進行擬合時,擬合優(yōu)度R2的值雖然不如二次函數(shù)大,但均在0.9以上,擬合度也比較可觀,再次說明了線性增長的趨勢。
4.3 對擬合函數(shù)的分析
網(wǎng)絡的密度在一定程度上表征著這個網(wǎng)絡中關系的數(shù)量與復雜程度。在有向圖的拓撲結構中,有k個節(jié)點,實際存在的邊與完全圖應有的邊的比值則稱為密度,且這個值與曲線模擬中二次項的系數(shù)是高度相關的。引入文獻[7-8]中的數(shù)據(jù)對網(wǎng)絡密度進行分析,表3所示結果表明,在更大的用戶集上,網(wǎng)絡密度收斂于10-5數(shù)量級;說明對于整個網(wǎng)絡來說,緊密程度并不強。

表3 不同用戶規(guī)模下的網(wǎng)絡密度
在數(shù)據(jù)集A中,平均聚類系數(shù)為0.261,網(wǎng)絡直徑為17,平均路徑長度為5.558。從數(shù)據(jù)集A中抽出部分用戶關系,生成圖2微博平臺上的用戶關注關系網(wǎng)絡示意圖對現(xiàn)實網(wǎng)絡進行說明: 由于用戶的聚類系數(shù)是以節(jié)點為對象進行分析的,而對于一般的用戶賬戶來說,大部分是熟人網(wǎng)絡,彼此之間形成連結的可能性較大,所以局部聚類系數(shù)較高。以往的研究表明,用戶的入度呈現(xiàn)冪律分布,而出度則分為兩階段的冪律分布,即大部分節(jié)點的度都比較小,屬于一般用戶,局部聚類系數(shù)較高。但是網(wǎng)絡中還存在一些度很大的“中樞”節(jié)點,連接的節(jié)點關聯(lián)性很小,具有的局部聚類系數(shù)也很小;不過由于本身數(shù)量小,對全局的平均聚類系數(shù)影響并不大。這就解釋了高聚類系數(shù)的形成。對于以用戶集全體為對象進行描述的網(wǎng)絡密度來說,雖然大部分普通用戶之間的聯(lián)系較強,但是僅局限于一個個小團體;對于不同的團體來說,彼此之間的聯(lián)系則很弱,只依賴于少數(shù)“中樞”節(jié)點的連結,甚至是沒有交集。因此,作為一個整體來看,新浪微博用戶之間的聯(lián)系又很弱,導致網(wǎng)絡密度遠小于平均聚類系數(shù)。綜合說明新浪微博是一個典型的小世界網(wǎng)絡。
為描述關注網(wǎng)絡的緊密程度,我們新增了兩個網(wǎng)絡測度并定義如下:
定義1(二階關聯(lián)密度): 若用戶之間的關注數(shù)目與用戶規(guī)模之間的關系符合一元二次函數(shù)的形式,則稱關注網(wǎng)絡具有二階關聯(lián)密度。
定義2(線性關聯(lián)密度): 若用戶之間的關注數(shù)目與用戶規(guī)模之間的關系符合線性函數(shù)的形式,則稱關注網(wǎng)絡具有線性關聯(lián)密度。

圖2 微博平臺上的用戶關注關系網(wǎng)絡示意圖
用小世界特性的相關理論來解釋新浪微博上用戶之間的關注網(wǎng)絡結構?;诩~曼—瓦茨模型(NW model),對于N個用戶,開始時每個用戶平均與k個熟悉的用戶產(chǎn)生關注連結,接著以p的概率與較遠的用戶產(chǎn)生新的連接;因此,關注數(shù)目與用戶規(guī)模之間的關系會比線性函數(shù)要快,可以用二次函數(shù)來擬合。而瓦茨—斯特羅加茨模型(WS model)則可以解釋線性函數(shù),同樣,對于N個用戶,開始時每個用戶平均與k個熟悉的用戶產(chǎn)生關注連結,接著以p的概率斷開現(xiàn)有連結并與較遠的用戶產(chǎn)生新的連接,即發(fā)生以p的概率發(fā)生重連,因此用線性函數(shù)擬合。當p較小而N很大時,則兩個模型之間的差異性很小,且更符合線性函數(shù)的特征。所以,從我們使用的數(shù)據(jù)集來看,新浪微博網(wǎng)絡的緊密程度并不強,只有線性關聯(lián)密度。
同時,我們從文獻[12-16]中獲取有關Twitter的數(shù)據(jù),發(fā)現(xiàn)Twitter上的用戶網(wǎng)絡緊密程度也并不強,其網(wǎng)絡密度收斂于10-7數(shù)量級;且經(jīng)過函數(shù)擬合發(fā)現(xiàn),Twitter上的網(wǎng)絡也僅具有線性關聯(lián)密度。而對于Facebook和Flickr等國外網(wǎng)絡平臺,由于數(shù)據(jù)問題,無法進行對比。
對微博傳播特性的把握,能使消息的傳播更好地受到控制,趨利避害。本文從微博的傳播行為、轉(zhuǎn)發(fā)的關鍵節(jié)點、基于時間和結構的模式分類以及重復轉(zhuǎn)發(fā)四個方面對新浪微博中消息的傳播規(guī)律進行分析和總結。
5.1 原創(chuàng)、轉(zhuǎn)發(fā)、評論和點贊等傳播行為的分析對比
新浪微博是一個社交網(wǎng)絡,用戶既可以共享信息,也可以進行游戲等其他活動,本文主要關注微博上的消息傳播部分。在這一過程中,用戶可以產(chǎn)生的行為包括原創(chuàng)、轉(zhuǎn)發(fā)、閱讀、回復、評論、點贊、收藏等,其中,閱讀僅代表用戶獲取了此信息,并不會成為信息的產(chǎn)生者,其影響力難以進行衡量;而收藏的數(shù)據(jù)被系統(tǒng)所保護,僅用戶本人可見,故數(shù)據(jù)中并不包含此類型。原創(chuàng)形成了新消息,是最具價值的,而轉(zhuǎn)發(fā)、評論和點贊等行為則是在原創(chuàng)微博的基礎上產(chǎn)生,接下來主要對這三種行為進行分析。
在數(shù)據(jù)集A中,原創(chuàng)微博有2 069 459條,轉(zhuǎn)發(fā)微博有2 813 886條,轉(zhuǎn)發(fā)微博的比例達到57.6%,原創(chuàng)微博的數(shù)量小于因轉(zhuǎn)發(fā)而產(chǎn)生的微博。
在圖3的概率分布圖(a),(c),(e)中,橫軸代表微博被轉(zhuǎn)發(fā)的次數(shù),縱軸代表轉(zhuǎn)發(fā)x次的概率,由圖像可知,微博的轉(zhuǎn)發(fā)、評論和點贊次數(shù)均服從冪律分布。而對應的累積分布圖(b),(d),(f)中,縱軸代表轉(zhuǎn)發(fā)數(shù)X 圖3 微博主要行為的概率分布圖與累積分布圖 再對轉(zhuǎn)發(fā)、評論和點贊三種類型的行為進行相關性分析,表4的數(shù)據(jù)顯示: 轉(zhuǎn)發(fā)和評論的相關性高達0.7372,呈現(xiàn)顯著相關關系;而轉(zhuǎn)發(fā)與點贊、評論與點贊的相關性系數(shù)則很小,無相關性。 表4 用戶行為的相關性系數(shù) 從行為本身來看,轉(zhuǎn)發(fā)產(chǎn)生了新的微博,使得用戶由消息接收者變成消息傳播者,影響最大;而評論則表達了用戶的觀點,并能夠被其他用戶所獲知,有一定的影響力;點贊則僅限于用戶與博主的簡短互動,影響微小。 綜合考慮三種行為的發(fā)生頻率、相關性和行為本身,以用戶的轉(zhuǎn)發(fā)行為作為評價基準,既能簡化問題,也能有效地代表傳播過程,因此我們在接下來的分析中將只考慮轉(zhuǎn)發(fā)而不考慮其他的用戶行為。 5.2 微博傳播中的10-90規(guī)律 對數(shù)據(jù)集B中的微博數(shù)據(jù)進行分析,我們發(fā)現(xiàn)對于單條微博的傳播,占比極小的少數(shù)節(jié)點能夠引起大部分用戶的傳播,將這些節(jié)點稱為關鍵節(jié)點,則關鍵節(jié)點的出度明顯高于普通節(jié)點;而直接從關鍵節(jié)點處轉(zhuǎn)發(fā)此微博的用戶稱為關鍵節(jié)點影響用戶,從非關鍵節(jié)點處轉(zhuǎn)發(fā)微博的用戶稱為非關鍵節(jié)點影響用戶;定義關鍵用戶影響比例=關鍵節(jié)點影響用戶數(shù)目/傳播次數(shù),非關鍵用戶影響比例=1-關鍵用戶比例-關鍵用戶影響比例,則非關鍵用戶影響比例越趨近于0,關鍵用戶的影響范圍越大。 圖4表明,當關鍵用戶比例一致時,若微博傳播數(shù)量大于1 000,非關鍵節(jié)點影響用戶的比例接近于直線,基本無差異;而傳播數(shù)量小于1 000時,雖然非關鍵節(jié)點影響用戶比例相對較高,但與眾數(shù)的差值也小于0.01;因此曲線是相關光滑的,關鍵用戶的影響力與微博的傳播個數(shù)無明顯關聯(lián)。 圖4 關鍵節(jié)點、轉(zhuǎn)發(fā)數(shù)目與非關鍵節(jié)點影響用戶比例對應圖 對于相同的關鍵用戶比例,將不同轉(zhuǎn)發(fā)數(shù)目下非關鍵節(jié)點影響用戶的比例求均值,繪制成圖5所示的關鍵節(jié)點與非關鍵節(jié)點影響用戶比例對應圖。隨著關鍵用戶比例的增加,非關鍵節(jié)點影響用戶的比例則逐漸減少,說明關鍵用戶越多,其影響的比重越大。當關鍵用戶比例達到10%時,非關鍵用戶影響比例略高于0.01;當關鍵用戶比例為11%時,非關鍵用戶影響比例已小于0.01。以0.01的誤差作為判斷是否可以接受的臨界值,則可認為10%的用戶影響90%的傳播。 圖5 關鍵節(jié)點與非關鍵節(jié)點影響用戶比例對應圖 圖6顯示了關鍵用戶比例占10%時的具體數(shù)據(jù),橫坐標軸上的每一點代表一條微博,主縱坐標軸代表其轉(zhuǎn)發(fā)量,次縱坐標軸代表重要節(jié)點所影響的用戶數(shù)占總傳播數(shù)的比率。從圖中可以看出,對于轉(zhuǎn)發(fā)量在1 000以上的微博,10%的用戶能影響剩余90%的用戶。而對于轉(zhuǎn)發(fā)量在1 000以下的大部分微博,雖影響率曲線波動比較明顯,但平均值依然服從此分布規(guī)律。 5.3 微博的傳播模式 微博的傳播過程具有隨機性和多樣性,對傳播模型的研究一般只局限于傳播樹的結構,或只關注傳播數(shù)量隨時間的變化規(guī)律,本文中,我們結合微博傳播的生命周期和拓撲結構兩個方面,對傳播模式進行歸納和區(qū)分,主要發(fā)現(xiàn)四種類型: 閑雜型、大眾型、專業(yè)型及爆發(fā)型。 A. 閑雜型 存在周期較短,傳播過程最多有一個波峰出現(xiàn),對應的拓撲結構呈現(xiàn)星型結構,只有一個中心節(jié)點,消息主要由此節(jié)點散播;而消息傳播的速度也是先快速增長到峰值,然后迅速回落并不再反彈;這是典型的單節(jié)點轉(zhuǎn)發(fā)的過程,廣度和深度上的傳播都很有限。 閑雜型的微博大部分傳播量很小,但也有一小部分的傳播量較大。轉(zhuǎn)發(fā)數(shù)量很小的微博往往由普通用戶發(fā)起,僅限于從初始用戶的直接轉(zhuǎn)發(fā),關注度很低;而傳播量大的微博往往由一些擁有大批粉絲數(shù)的官方認證用戶發(fā)起,但由于微博本身的內(nèi)容具備的吸引力不夠,一級轉(zhuǎn)發(fā)后無法再次形成大的轉(zhuǎn)發(fā)圈,而用戶的轉(zhuǎn)發(fā)熱度也迅速降低,失去傳播的動力,傳播的影響力有限。 圖6 10%關鍵用戶影響效果 圖7 閑雜型微博傳播模式 B. 大眾型 存在周期短,有好幾個波峰出現(xiàn),其對應的傳播拓撲結構也顯示了這是一個多級轉(zhuǎn)發(fā)結構。這一類傳播代表了傳播過程中有新的具備影響力的節(jié)點加入,但是時效很短,屬于快速轉(zhuǎn)發(fā)、快速消亡的一種。 大眾型通常是一些不具有針對性的話題,包括情感類、勵志型小故事,或者美食美景的分享及一些不常見的奇聞,能夠滿足用戶的獵奇和欣賞心理,能夠迅速而廣泛地傳播。此類微博經(jīng)常出現(xiàn),數(shù)目眾多,但單條微博本身具有的后續(xù)影響力不足。 C. 專業(yè)型 傳播剛開始時會出現(xiàn)一個大波峰,緊接著會有一些小的波峰群出現(xiàn),后續(xù)生命周期雖然長,但是傳播量很小。此類微博主要的傳播集中在微博剛開始的一段時間,與模式A相類似,但由多中心節(jié)點共同促成轉(zhuǎn)發(fā),活躍時間也更加長久一些。 專業(yè)型微博一般會在特定的社區(qū)內(nèi)傳播,社區(qū)內(nèi)用戶的相似度和熟稔程度使得用戶參與的熱情也很高;同時此類微博的內(nèi)容更側(cè)重于某一個領域,具備長期價值,這也是形成長尾現(xiàn)象的原因。 圖8 大眾型微博傳播模式 圖9 專業(yè)型微博傳播模式 D. 爆發(fā)型 傳播過程中存在多個波峰,且生存時間長,對應的拓撲結構呈現(xiàn)多級、多中心特點;除卻中心節(jié)點外,很多有影響力的節(jié)點也能形成一些較大的團,在深度和廣度上的傳播量都很大;而它能夠在很長時間內(nèi)維持生命力,說明此微博具有很大的信息量,內(nèi)容的震撼力很強,能長期受到用戶的關注,并形成轉(zhuǎn)發(fā)高潮。 爆發(fā)型微博的出現(xiàn)具有偶然性,往往是針對于社會上的突發(fā)事件,事件本身的沖擊性很大,同時此微博所切入的角度和話題也有較大爭議性,能帶動用戶的極強的情感傾向和長期的關注,并會衍生出相關話題的其他微博的傳播,對不同層次、立場的人都造成沖擊,影響力極強。 5.4 微博的重復轉(zhuǎn)發(fā) 圖11表明了重復轉(zhuǎn)發(fā)率與微博傳播數(shù)目并不相關,且重復轉(zhuǎn)發(fā)率大部分小于5%,平均轉(zhuǎn)發(fā)率為3%,即重復轉(zhuǎn)發(fā)的人數(shù)很少,這說明在信息快速更新的微博平臺上,大家對同一條微博的持續(xù)關注度很低;若出現(xiàn)重復轉(zhuǎn)發(fā)率極高的情況,則很可能是微博上的廣告營銷微博,會影響新浪微博平臺的生態(tài)環(huán)境。 圖10 爆發(fā)型微博傳播模式 圖11 微博重復轉(zhuǎn)發(fā)與轉(zhuǎn)發(fā)數(shù)目對應圖 本文分析了新浪微博上消息的傳播,對微博的整體傳播情況到單條微博的傳播特性都進行了分析,并對微博的波動性進行了建模分析,得出以下結論: (1) 新浪微博的用戶關注網(wǎng)絡密度收斂于10-5,小世界特性十分明顯;從我們使用的數(shù)據(jù)集來看,新浪微博網(wǎng)絡的緊密程度并不強,只有線性關聯(lián)密度。 (2) 新浪微博中轉(zhuǎn)發(fā)微博略高于原創(chuàng)微博,在微博的傳播過程中,轉(zhuǎn)發(fā)、評論和點贊三個主要行為均呈現(xiàn)冪律分布的特點,但轉(zhuǎn)發(fā)的數(shù)量更大;對于轉(zhuǎn)發(fā)和評論這兩種用戶成為信息發(fā)布者的行為,兩者具有較強的相關性。 (3) 新浪微博系統(tǒng)上單條消息的傳播過程中,10%的關鍵用戶影響剩余的90%的用戶,因此找出影響力巨大的節(jié)點十分重要。 (4) 從微博的生命周期和轉(zhuǎn)發(fā)結構兩個維度來考察微博的傳播模式,歸納為“閑雜型”、“大眾型”、“專業(yè)型”和“爆發(fā)型”四種,并對每種模式產(chǎn)生的原由和影響進行分析。 (5) 對于微博傳播過程中重復轉(zhuǎn)發(fā)的現(xiàn)象進行統(tǒng)計,得出大部分微博的重復轉(zhuǎn)發(fā)率都小于5%,此結論可以為控制微博上的垃圾營銷提供依據(jù)。 在以后的研究中,我們會利用更全面的數(shù)據(jù)對微博系統(tǒng)中消息的傳播模式和特征等進行分析,以優(yōu)化相關研究結果,增強可信度;同時可以利用以上結論對相關研究進行建模處理,比如傳播過程中用戶的影響力;也可以將單條微博的傳播特性拓展到某個話題的傳播中,及時發(fā)現(xiàn)熱點話題,控制敏感消息等。 [1] 劉瑋,王麗宏,李銳光. 面向話題的微博網(wǎng)絡測量研究[J]. 通信學報,2013,11: 171-178. [2]MagnaniM,MontesiD,RossiL.Informationpropagationanalysisinasocialnetworksite[C]//ASONAM.2010: 296-300. [3]MatsubaraY,SakuraiY,PrakashBA.Riseandfallpatternsofinformationdiffusion:modelandimplications[C]//Proceedingsof18thACMSIGKDDIntConfKnowledgeDiscovery&DataMining, 2012: 6-14. [4]SadikovE,MartinezMMM.InformationpropagationonTwitter[R].CS322ProjectReport, 2009. [5]SunE,RosennI,MarlowC,etal.Gesundheit!ModelingContagionthroughFacebookNewsFeed[C]//ICWSM,2009. [6]ShaozhiYE,WUS.MeasuringMessagePropagationandSocialInfluenceonTwitter.com[C]//Proceedingsofthe2ndInternationalConferenceonSocialInformatics,October.2010: 27-29. [7] 樊鵬翼,王暉,姜志宏,李沛. 微博網(wǎng)絡測量研究[J]. 計算機研究與發(fā)展,2012,04: 691-699. [8] 曹玖新,吳江林,石偉,劉波,鄭嘯,羅軍舟. 新浪微博網(wǎng)信息傳播分析與預測[J]. 計算機學報,2014,04: 779-790. [9] 沈乾,馬寧,黃遠,劉怡君. 微博傳播波的函數(shù)解析實證研究[J]. 數(shù)學的實踐與認識,2014,21: 143-151. [10] 易成岐,鮑媛媛,薛一波,姜京池. 新浪微博的大規(guī)模信息傳播規(guī)律研究[J]. 計算機科學與探索,2013,06: 551-561. [11]RenD,ZhangX,WangZ,etal.WeiboEvents:acrowdsourcingweibovisualanalyticsystem[C]//PacificVisualizationSymposium(PacificVis), 2014IEEE.IEEE, 2014: 330-334. [12]SadikovE,MartinezMMM.InformationpropagationonTwitter[J].CS322ProjectReport, 2009. [13]YeS,WuSF.MeasuringmessagepropagationandsocialinfluenceonTwitter.com[M].SpringerBerlinHeidelberg, 2010. [14]KwakH,LeeC,ParkH,etal.WhatisTwitter,asocialnetworkoranewsmedia?[C]//Proceedingsofthe19thinternationalconferenceonWorldwideweb.ACM, 2010: 591-600. [15]GuilleA,HacidH.Apredictivemodelforthetemporaldynamicsofinformationdiffusioninonlinesocialnetworks[C]//Proceedingsofthe21stinternationalconferencecompaniononWorldWideWeb.ACM, 2012: 1145-1152. [16]MyersSA,ZhuC,LeskovecJ.Informationdiffusionandexternalinfluenceinnetworks[C]//Proceedingsofthe18thACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM, 2012: 33-41. A Statistical Analysis of the Propagation Mode in Sina Micorblog WANG Yi, LIANG Xun, ZHOU Xiaoping School of Information, Renming University, Beijing 100872 Online Social Networking (OSN) is a complex system, where both users and messages are fundamental objects when investigating the network topology and the disseminations of information. To study the structure features and the rules of information propagation, this paper analyzes about 30,000 users including their friendships and the most recent 200 posts. The main statistical results include: 1) SINA network is not dense and the correlation density is almost linear; 2) during the dissemination of a single post, “10-90 rule” occurs, that is to say 10% of the users can affect the other 90%; and 3) four patterns can be concluded considering both life-cycle and forwarding structure. These results may provide the basis for subsequent modeling, as well as benefition the public opinion monitoring and cyber marketing. SINA micro-blog; linear correlation; key users; propagation mode 王怡(1993—),碩士研究生,主要研究領域為社會計算,網(wǎng)絡輿論傳播。E?mail:wangyiruc@126.com梁循(1965—),通信作者,博士生導師,教授,主要研究領域為社會計算,機器學習。E?mail:xliang@ruc.eud.cn周小平(1985—),博士研究生,主要研究領域為社會網(wǎng)絡分析,網(wǎng)絡隱私保護。E?mail:zhouxiaoping@bucea.edu.cn 1003-0077(2016)05-0036-11 2015-05-20 定稿日期: 2016-03-14 中國人民大學科學研究基金(中央高校基本科研業(yè)務費專項資金資助)(10XNI029);國家自然科學基金(70871001、71271211);北京市自然科學基金(4132067)











6 結束語
