999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

H7N9疫情背景下的微博信息傳播特性研究

2016-07-19 02:07:27劉寶立董榮勝蔡國(guó)永
關(guān)鍵詞:深度結(jié)構(gòu)信息

劉寶立 董榮勝 蔡國(guó)永

(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004)

?

H7N9疫情背景下的微博信息傳播特性研究

劉寶立董榮勝蔡國(guó)永

(桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室廣西 桂林 541004)

摘要自主研制微博爬蟲系統(tǒng)WeiboCrawler。針對(duì)2013年3月爆發(fā)的甲型H7N9流感疫情,使用該系統(tǒng)抓取了新浪微博中與該主題相關(guān)的數(shù)據(jù)集,包括用戶信息、原創(chuàng)和轉(zhuǎn)發(fā)博文信息。以原創(chuàng)博文為根節(jié)點(diǎn),基于轉(zhuǎn)發(fā)關(guān)系采用遞歸方法構(gòu)造博文轉(zhuǎn)發(fā)樹,為了嚴(yán)格、清晰地描述微博信息傳播過(guò)程,對(duì)博文轉(zhuǎn)發(fā)樹進(jìn)行形式化定義,進(jìn)而研究微博信息傳播過(guò)程及轉(zhuǎn)發(fā)樹的大小、深度、寬度等結(jié)構(gòu)特性。結(jié)果表明:博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性分布符合長(zhǎng)尾分布,博文轉(zhuǎn)發(fā)樹具有深度小、密度大的結(jié)構(gòu)特性;博文流行程度取決于博文轉(zhuǎn)發(fā)樹的寬度,而與博文轉(zhuǎn)發(fā)樹的深度無(wú)關(guān);在博文轉(zhuǎn)發(fā)的不同階段,信息傳播表現(xiàn)出相似的傳播特性。考慮微博平臺(tái)信息傳播的特點(diǎn)以及博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性,結(jié)合Galton-Watson分支過(guò)程,給出一種新的信息流傳播模型,使用該模型對(duì)博文轉(zhuǎn)發(fā)樹的大小、深度、寬度三項(xiàng)結(jié)構(gòu)特性進(jìn)行仿真,發(fā)現(xiàn)該模型能較準(zhǔn)確地體現(xiàn)信息傳播的結(jié)構(gòu)特性。

關(guān)鍵詞轉(zhuǎn)發(fā)信息傳播結(jié)構(gòu)特性社交網(wǎng)絡(luò)傳播模型

0引言

社交媒體作為傳播觀點(diǎn)和意見的重要平臺(tái)在近年來(lái)得到了巨大的發(fā)展,其中最具代表性的是微博客服務(wù)。微博客服務(wù)為信息傳播提供了一種獨(dú)特的方式,用戶在使用微博客推送消息時(shí),消息受到字?jǐn)?shù)限制。在新浪微博和twitter中,用戶推送的消息內(nèi)容不能超過(guò)140個(gè)字符,微博客用戶之間的關(guān)系無(wú)需一定是雙向關(guān)注關(guān)系,也就是說(shuō),如果用戶A關(guān)注了用戶B,無(wú)需用戶B也關(guān)注用戶A,用戶A的個(gè)人主頁(yè)中就會(huì)顯示用戶B發(fā)布的博文。新浪微博作為在中國(guó)大陸最受歡迎的社交媒體之一,自從2009年發(fā)布以來(lái),積累了巨大的用戶群,截止到2013年12月,新浪微博的月活躍用戶(MAU)數(shù)量和日活躍用戶(DAU)數(shù)量分別達(dá)到了1.291億和6160萬(wàn)[1]。如此巨大的用戶數(shù)量以及新浪微博本身便于信息傳播的特點(diǎn),使得新浪微博中信息的傳播和共享達(dá)到了前所未有的高度。

微博客服務(wù)具有用戶數(shù)量巨大、通信迅速和跨平臺(tái)等特性,這些特性使其迅速成為社會(huì)熱點(diǎn)事件期間信息傳播的重要媒介。對(duì)微博客服務(wù)中的信息傳播進(jìn)行的研究有很多[2-5],但是有一個(gè)方面沒有得到應(yīng)有的關(guān)注,即微博客平臺(tái)中信息傳播的結(jié)構(gòu)特性研究,也就是微博客服務(wù)中信息傳播的實(shí)際機(jī)制是怎樣的。

社交媒體中的信息傳播具有一定的結(jié)構(gòu)特性,結(jié)構(gòu)特性指的是信息傳播的深度、廣度等特性,文獻(xiàn)[6]研究了網(wǎng)絡(luò)連鎖信中信息傳播的結(jié)構(gòu)特性。那么在微博客服務(wù)中,特別是在特定的應(yīng)急事件背景下,信息傳播的結(jié)構(gòu)特性是怎樣的呢?若能構(gòu)建一種相應(yīng)的信息傳播模型來(lái)對(duì)這些結(jié)構(gòu)特性進(jìn)行仿真,顯然是具有價(jià)值的。研究信息傳播的結(jié)構(gòu)特性為信息傳播模型的設(shè)計(jì)提供了參考,也能夠?yàn)檩浨楸O(jiān)控、應(yīng)急事件響應(yīng)提供有價(jià)值的信息。本文以2013年3月底中國(guó)大陸爆發(fā)的甲型H7N9流感疫情為主題背景。研究的微博數(shù)據(jù)集來(lái)源于新浪微博,包括與H7N9流感相關(guān)的原創(chuàng)微博數(shù)據(jù)、轉(zhuǎn)發(fā)微博數(shù)據(jù)以及所有的原創(chuàng)用戶和轉(zhuǎn)發(fā)用戶信息。為了研究微博信息傳播的結(jié)構(gòu)特性,基于微博轉(zhuǎn)發(fā)功能遞歸構(gòu)造了博文轉(zhuǎn)發(fā)樹,并對(duì)其進(jìn)行了形式化定義。在此基礎(chǔ)上對(duì)微博信息傳播的過(guò)程和結(jié)構(gòu)特性進(jìn)行了實(shí)證研究,研究發(fā)現(xiàn)博文轉(zhuǎn)發(fā)樹結(jié)構(gòu)特性表現(xiàn)為傳播寬度大、濃度密集;博文最終的流行程度取決于博文轉(zhuǎn)發(fā)樹的寬度,而與轉(zhuǎn)發(fā)樹的深度無(wú)關(guān)。以基本結(jié)構(gòu)特性分析為基礎(chǔ),對(duì)博文轉(zhuǎn)發(fā)樹中不同層次的博文轉(zhuǎn)發(fā)進(jìn)行了研究,發(fā)現(xiàn)信息傳播在不同的階段表現(xiàn)出了相似的傳播特性。以結(jié)構(gòu)特性研究為基礎(chǔ),結(jié)合Galton-Watson分支過(guò)程構(gòu)建了一種新的信息傳播模型,使用該模型對(duì)博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性進(jìn)行了仿真,得到了與實(shí)際情況較吻合的效果。

1相關(guān)工作

社交媒體中的信息傳播已經(jīng)成為了一個(gè)熱門的研究領(lǐng)域。Lerman等[7]對(duì)Twitter和Digg社交網(wǎng)絡(luò)上的信息傳播進(jìn)行了實(shí)證分析發(fā)現(xiàn)了網(wǎng)絡(luò)結(jié)構(gòu)會(huì)影響信息流的傳播動(dòng)力學(xué)特性,具體來(lái)說(shuō)由于Digg相比于Twitter具有更濃密的網(wǎng)絡(luò)結(jié)構(gòu),因此Digg中信息傳播的速度更快,而Twitter中信息傳播的更遠(yuǎn);Suh等[8]對(duì)影響twitter博文轉(zhuǎn)發(fā)率的因素進(jìn)行了研究,發(fā)現(xiàn)在博文的內(nèi)容特征方面,URLs和Hashtag與博文受到轉(zhuǎn)發(fā)具有很強(qiáng)的關(guān)系。

微博客服務(wù)在近年來(lái)政治活動(dòng)期間的信息傳播中扮演了重要的角色,其中最著名的例子是奧巴馬總統(tǒng)在2008年的選舉中成功的利用了社交媒體。有關(guān)這方面的研究工作也有很多,Stieglitz等[9]研究了Twitter中與政治相關(guān)的微博中的情感信息是否會(huì)影響其轉(zhuǎn)發(fā)速率;Starbird等[10]研究了2011年埃及政治起義期間微博信息傳播活動(dòng)。

應(yīng)急事件期間的通信是非常重要的,近年來(lái),微博客服務(wù)作為信息傳播的重要媒介,為各種應(yīng)急事件期間的有效通信發(fā)揮了重要的作用。Li等[11]以2011年日本福島地震和海嘯后的核輻射危機(jī)為背景,研究了具有警告和安撫意味的相關(guān)微博轉(zhuǎn)發(fā)模式,發(fā)現(xiàn)當(dāng)政府部門發(fā)布比普通民眾更多的具有安撫作用的微博后,那么政府部門發(fā)布的信息會(huì)慢慢失去影響力;有關(guān)地震災(zāi)害期間網(wǎng)民如何使用社交媒體進(jìn)行應(yīng)急響應(yīng)的研究包括[12,13];另外Mendoza等[14]探索了2011年智力發(fā)生地震后twitter用戶的行為,特別研究了真實(shí)消息和錯(cuò)誤謠言的傳播情況。

社交媒體信息傳播還包括另一個(gè)研究領(lǐng)域,也就是對(duì)建立信息傳播分析模型的研究。Galuba等[15]研究了Twitter中含有URL信息的傳播,并提出了使用LT(線性閾值模型)模型來(lái)對(duì)用戶會(huì)轉(zhuǎn)發(fā)哪些URL信息進(jìn)行預(yù)測(cè);Yang等[16]基于LT模型構(gòu)建了LIM(線性影響力模型)來(lái)預(yù)測(cè)信息傳播過(guò)程中節(jié)點(diǎn)之間的交互;Cha等[17]引進(jìn)級(jí)聯(lián)模型研究Fickr社交網(wǎng)絡(luò)中信息的傳播。

2數(shù)據(jù)獲取與說(shuō)明

本文的數(shù)據(jù)集是與2013年3月底中國(guó)大陸爆發(fā)的甲型H7N9流感相關(guān)的新浪微博數(shù)據(jù)。數(shù)據(jù)的獲取采用自主研制的微博爬蟲系統(tǒng)WeiboCrawler并結(jié)合新浪微博開放API完成,新浪微博提供開放的API,用戶可以在經(jīng)過(guò)新浪微博開放平臺(tái)認(rèn)證的情況下獲得相應(yīng)數(shù)據(jù)獲取權(quán)限,這一點(diǎn)與Twitter提供的API類似。

微博爬蟲系統(tǒng)獲取數(shù)據(jù)的一個(gè)重要前提是微博的模擬登陸過(guò)程。新浪微博模擬登錄過(guò)程是WeiboCrawler與新浪微博服務(wù)器之間建立數(shù)據(jù)請(qǐng)求連接的前提。微博登錄過(guò)程中密碼加密采用的是RSA公鑰加密算法。具體加密過(guò)程如下:

username_=urllib.quote(username)

username=base64.encodestring(username)[:-1]

rsaPublickey=int(pubkey, 16)

key=rsa.PublicKey(rsaPublickey, 65537)

message=str(servertime) +′ ′ +str(nonce) + ′ ′ +str(password)

passwd=rsa.encrypt(message,key)

passwd=binascii.b2a_hex(passwd)

對(duì)用戶名和密碼進(jìn)行加密,在建立請(qǐng)求連接時(shí)作為授權(quán)信息發(fā)送給服務(wù)器,獲取請(qǐng)求返回的內(nèi)容,從而實(shí)現(xiàn)了模擬登錄。

圖1展示了WeiboCrawler系統(tǒng)的數(shù)據(jù)獲取流程。數(shù)據(jù)獲取流程分為三步:(1) 首先使用WeiboCrawler系統(tǒng)向新浪微博高級(jí)搜索頁(yè)面發(fā)送搜索請(qǐng)求,然后通過(guò)關(guān)鍵詞匹配找出與H7N9相關(guān)的所有原創(chuàng)博文頁(yè)面,接下來(lái)從頁(yè)面中提取出所有的原創(chuàng)博文ID;(2) 以上一步中得到的原創(chuàng)博文ID為線索,調(diào)用新浪微博API中的statuses/show()接口,通過(guò)該接口可以得到每一條原創(chuàng)博文信息及其對(duì)應(yīng)的博主信息;接下來(lái)調(diào)用API中的statuses/repost_timeline()接口,以原創(chuàng)博文作為根節(jié)點(diǎn),逐層遍歷當(dāng)前博文的轉(zhuǎn)發(fā)博文及其用戶信息,同時(shí)提取博文間的轉(zhuǎn)發(fā)關(guān)系;(3) 最后調(diào)用friendships/show()接口獲取存在轉(zhuǎn)發(fā)關(guān)系的用戶之間的關(guān)系類型,并根據(jù)博文轉(zhuǎn)發(fā)關(guān)系構(gòu)建原創(chuàng)博文的轉(zhuǎn)發(fā)樹。

圖1 數(shù)據(jù)獲取流程圖

數(shù)據(jù)集合的描述性信息如表1所示。最終得到的數(shù)據(jù)集合包括52 679條原創(chuàng)博文、1 728 850條轉(zhuǎn)發(fā)博文,博文信息屬性包括博文ID、博文用戶ID、博文創(chuàng)建時(shí)間、文本信息、博文獲得的轉(zhuǎn)發(fā)次數(shù)以及評(píng)論次數(shù)等屬性;另外還包括1 314 778個(gè)用戶信息,用戶信息屬性包括ID、地理位置、帳號(hào)注冊(cè)時(shí)間、粉絲數(shù)量、好友數(shù)量以及發(fā)表的博文數(shù)量等屬性。

表1 數(shù)據(jù)集合描述

3博文轉(zhuǎn)發(fā)樹形式化定義

本部分對(duì)博文轉(zhuǎn)發(fā)樹進(jìn)行形式化定義。每一棵博文轉(zhuǎn)發(fā)樹都由某一條原創(chuàng)博文及其對(duì)應(yīng)的轉(zhuǎn)發(fā)博文組成。首先給出博文的結(jié)構(gòu)定義,然后給出博文轉(zhuǎn)發(fā)樹的形式化定義。博文集合用TS表示,其中包括原創(chuàng)博文OT和轉(zhuǎn)發(fā)博文RT。博文轉(zhuǎn)發(fā)樹集合用TRTS表示(共有22 364棵博文轉(zhuǎn)發(fā)樹)。

3.1博文結(jié)構(gòu)

博文分為原創(chuàng)博文和轉(zhuǎn)發(fā)博文,下面分別對(duì)原創(chuàng)博文OT和轉(zhuǎn)發(fā)博文RT的結(jié)構(gòu)進(jìn)行形式化定義:

定義1

OT=〈id,user,time,text,repostCount,commentCount〉

其中:

id表示原創(chuàng)博文的編號(hào),每一條原創(chuàng)博文都有一條唯一的編號(hào);

user表示博文OT的博主;

time為日期類型數(shù)值,表示OT創(chuàng)建的時(shí)間;

text為文本類型數(shù)據(jù),表示OT的內(nèi)容;

repostCount,表示博文OT被轉(zhuǎn)發(fā)的次數(shù);

commentCount,表示博文OT獲得的評(píng)論次數(shù);

定義2

RT=〈st_id,id,user,time,text,repostCount,commentCount〉

其中:

st_id(sourcetweetid)表示與該轉(zhuǎn)發(fā)博文具有直接轉(zhuǎn)發(fā)關(guān)系的源博文(可能為轉(zhuǎn)發(fā)博文,也可能為原創(chuàng)博文)的編號(hào);

id表示該轉(zhuǎn)發(fā)博文的編號(hào),每一條轉(zhuǎn)發(fā)博文都有一條唯一的編號(hào);

user表示博文RT的博主;

time為日期類型數(shù)值,表示RT創(chuàng)建的時(shí)間;

text為文本類型數(shù)據(jù),表示RT的內(nèi)容;

repostCount表示博文RT被轉(zhuǎn)發(fā)的次數(shù);

commentCount表示博文RT獲得的評(píng)論次數(shù);

3.2博文轉(zhuǎn)發(fā)樹TRT

為了研究信息傳播結(jié)構(gòu)特性,遞歸構(gòu)造每一條原創(chuàng)博文的博文轉(zhuǎn)發(fā)樹,該博文轉(zhuǎn)發(fā)樹是有向的并且屬于根樹,如圖2所示。樹的根節(jié)點(diǎn)(OT)表示原創(chuàng)博文,樹中的其他節(jié)點(diǎn)(RTi)表示該原創(chuàng)博文的所有轉(zhuǎn)發(fā)博文。

圖2 博文轉(zhuǎn)發(fā)樹

圖2是博文轉(zhuǎn)發(fā)樹的一個(gè)實(shí)例,其中:

OT∈{OT|(OT∈TS)∧(OT.repostCount>0)}

其中,RTi表示該原創(chuàng)博文的所有轉(zhuǎn)發(fā)博文,博文轉(zhuǎn)發(fā)樹有四個(gè)重要的結(jié)構(gòu)特性,即樹的大小(size)、樹的深度(depth)、樹的寬度(width)、樹的度(degree)。

下面給出博文轉(zhuǎn)發(fā)樹TRT∈(TRTS)的形式化定義:

定義3

TRT=〈N,E,Ndegree,size,depth,level,Li_d,width,degree〉

其中:

N表示轉(zhuǎn)發(fā)樹中的節(jié)點(diǎn),對(duì)應(yīng)博文;

E表示有向邊,對(duì)應(yīng)轉(zhuǎn)發(fā)關(guān)系;

Ndegree表示節(jié)點(diǎn)度,指的是節(jié)點(diǎn)具有的孩子數(shù)量,也就是某一條博文的直接轉(zhuǎn)發(fā)數(shù)量;

size表示轉(zhuǎn)發(fā)樹的大小,對(duì)應(yīng)轉(zhuǎn)發(fā)樹中的博文總數(shù),size=OT.repostCount+1;

depth表示轉(zhuǎn)發(fā)樹的深度,指的是從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的最長(zhǎng)路徑長(zhǎng)度;

level為博文轉(zhuǎn)發(fā)樹的層次,其中0≤level≤depth;

Li_d指轉(zhuǎn)發(fā)樹的層次度,也就是轉(zhuǎn)發(fā)樹第i層節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度;

width表示轉(zhuǎn)發(fā)樹的寬度,寬度等于具有最多節(jié)點(diǎn)數(shù)量的那一層的節(jié)點(diǎn)數(shù)量和;

degree表示轉(zhuǎn)發(fā)樹的度,指的是轉(zhuǎn)發(fā)樹中節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度;

由上述博文轉(zhuǎn)發(fā)樹的定義可知,圖2中的轉(zhuǎn)發(fā)樹的大小為9,樹的深度為3,樹的寬度為5,樹的度為3(節(jié)點(diǎn)RT1的節(jié)點(diǎn)度),RT1處于博文轉(zhuǎn)發(fā)樹的第1層,該博文轉(zhuǎn)發(fā)樹的第一層的層次度為3。

4信息傳播結(jié)構(gòu)特性實(shí)證研究

本部分對(duì)信息傳播的結(jié)構(gòu)特性進(jìn)行實(shí)證研究,博文轉(zhuǎn)發(fā)樹提供了有關(guān)信息傳播的重要描述性信息,博文轉(zhuǎn)發(fā)樹的大小反映博文的受歡迎程度相關(guān);博文轉(zhuǎn)發(fā)樹的深度與博文的穿透力相關(guān);博文轉(zhuǎn)發(fā)樹的寬度與博文的擴(kuò)散能力相關(guān);博文轉(zhuǎn)發(fā)樹度的分布反映轉(zhuǎn)發(fā)樹中的關(guān)鍵節(jié)點(diǎn),因?yàn)橐豢貌┪霓D(zhuǎn)發(fā)樹的度指的是轉(zhuǎn)發(fā)樹中節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度。

H7N9數(shù)據(jù)集合中共包含22 364棵博文轉(zhuǎn)發(fā)樹(不考慮未被轉(zhuǎn)發(fā)的原創(chuàng)博文,也就是轉(zhuǎn)發(fā)次數(shù)為0的原創(chuàng)博文沒有考慮),每一棵轉(zhuǎn)發(fā)樹都可以被看作是一棵有向樹,信息從一個(gè)節(jié)點(diǎn)傳播到另一個(gè)節(jié)點(diǎn)。這里主要關(guān)注兩個(gè)問題:(1) 信息傳播過(guò)程的結(jié)構(gòu)特性有哪些?(2) 信息的傳播過(guò)程是否具有階段依賴性,即信息的傳播在轉(zhuǎn)發(fā)樹的不同層次中是否會(huì)表現(xiàn)出不同的特征?我們發(fā)現(xiàn),與文獻(xiàn)[6]中的寬度小、深度大的傳播樹型結(jié)構(gòu)特征相比,H7N9博文轉(zhuǎn)發(fā)樹呈現(xiàn)出密度大、深度小的特征;另外信息的傳播過(guò)程不具有階段依賴性。

4.1博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性

根據(jù)3.2節(jié)中對(duì)博文轉(zhuǎn)發(fā)樹的形式化定義,對(duì)博文轉(zhuǎn)發(fā)樹的大小、寬度、深度、度四項(xiàng)結(jié)構(gòu)特征屬性進(jìn)行了統(tǒng)計(jì)分析。

圖3-圖6分別顯示了博文轉(zhuǎn)發(fā)樹的大小、寬度、深度和度四項(xiàng)結(jié)構(gòu)特征屬性的分布情況。

圖3 博文轉(zhuǎn)發(fā)樹大小分布  圖4 博文轉(zhuǎn)發(fā)樹寬度分布

圖5 博文轉(zhuǎn)發(fā)樹深度分布  圖6 博文轉(zhuǎn)發(fā)樹度分布

四項(xiàng)結(jié)構(gòu)特征屬性的統(tǒng)計(jì)公式依次為(說(shuō)明:|A|表示集合A中元素的數(shù)量):

(1)

(2)

(3)

(4)

其中,|TRTS|表示轉(zhuǎn)發(fā)樹集合的大小,對(duì)于任一點(diǎn)坐標(biāo)(k,PTRT.size=k),其統(tǒng)計(jì)意義是(以式(1)為例):轉(zhuǎn)發(fā)樹大小為k的轉(zhuǎn)發(fā)樹在所有轉(zhuǎn)發(fā)樹中所占的比例。

對(duì)數(shù)據(jù)進(jìn)行了線性擬合,線性擬合采用的冪律分布函數(shù)為:p(X=x)=c·x-γ,其中c,γ∈R+,x∈N+,置信度設(shè)為95%。

首先從四項(xiàng)特征屬性的分布情況可以看出其均具有長(zhǎng)尾分布特征,這說(shuō)明絕大多數(shù)的轉(zhuǎn)發(fā)樹的大小、寬度、深度、度都非常小,屬性值很大的轉(zhuǎn)發(fā)樹只占非常小的一部分。從圖3、圖4可以看出博文轉(zhuǎn)發(fā)樹的大小和寬度均服從冪律分布,冪律分布指數(shù)分別為1.447、1.507。冪律分布本身并沒有什么特別之處,但是這兩者的冪律指數(shù)很相似,這表明博文轉(zhuǎn)發(fā)樹的大小會(huì)隨著樹的寬度的變大而增大。可以將樹的寬度看做擴(kuò)散系數(shù),將樹的大小用來(lái)衡量博文的受歡迎程度,那么可知擴(kuò)散系數(shù)會(huì)影響博文最終的受歡迎程度,圖7很好地表明了博文轉(zhuǎn)發(fā)樹的這一特點(diǎn)。從圖8可以看出博文轉(zhuǎn)發(fā)樹的深度與博文轉(zhuǎn)發(fā)樹的大小無(wú)關(guān)。博文轉(zhuǎn)發(fā)樹具有的另一個(gè)特點(diǎn)是深度很小,在22 364棵博文轉(zhuǎn)發(fā)樹中,有77%的博文轉(zhuǎn)發(fā)樹的深度都不超過(guò)2。結(jié)合這四項(xiàng)結(jié)構(gòu)特征屬性分布可知,對(duì)于博文轉(zhuǎn)發(fā)樹集合中大小、寬度、度都很大的那一部分轉(zhuǎn)發(fā)樹來(lái)說(shuō),它們的深度很淺,這體現(xiàn)了博文轉(zhuǎn)發(fā)樹具有密度大的特點(diǎn)。大量的節(jié)點(diǎn)都聚集在樹的有限的幾個(gè)層次中,另外博文轉(zhuǎn)發(fā)樹深度小、密度大的特點(diǎn)也體現(xiàn)了微博平臺(tái)中信息傳播的有效性,即信息擴(kuò)散到大量的節(jié)點(diǎn)后迅速消散衰減。

圖7 博文轉(zhuǎn)發(fā)樹的大小與寬度的關(guān)系圖8 博文轉(zhuǎn)發(fā)樹的大小與深度的關(guān)系

4.2信息傳播的階段無(wú)關(guān)特性

在4.1節(jié)中對(duì)基本結(jié)構(gòu)特性研究的基礎(chǔ)上,本節(jié)研究信息傳播是否與傳播階段相關(guān),也就是在不同的階段,信息傳播過(guò)程是否會(huì)表現(xiàn)出不同的特性。圖9展示了博文轉(zhuǎn)發(fā)樹不同層次的層次度(即Li_d,某一層中節(jié)點(diǎn)度最大的節(jié)點(diǎn)的度)分布。由于大多數(shù)的博文轉(zhuǎn)發(fā)樹的深度都很小,因此只給出了博文轉(zhuǎn)發(fā)樹第0層(根節(jié)點(diǎn)所在的層次)到第3層的度分布情況。

圖9 博文轉(zhuǎn)發(fā)樹的不同層次度分布

對(duì)于任一點(diǎn)坐標(biāo)(k,P(k|level=i)),統(tǒng)計(jì)公式如下:

(5)

其中i∈{0,1,2,3},概率P(k|level=i)表示具有第i層且該層層次度為k的轉(zhuǎn)發(fā)樹在所有的轉(zhuǎn)發(fā)樹中所占的比例。第0層到第3層的冪律分布指數(shù)依次為1.531、1.403、1.487和1.484。從圖9中首先可以看出具有大量孩子的節(jié)點(diǎn)很少會(huì)出現(xiàn)在樹的深層次中;另外由不同層次的冪律分布指數(shù)可知,隨著樹的層次的加深,冪律指數(shù)的分布并沒有太大的變化,這與文獻(xiàn)[18]中所提到隨著樹的深度的增加冪律指數(shù)分布會(huì)變得更加“陡峭”的現(xiàn)象不同,體現(xiàn)了該數(shù)據(jù)集中的微博信息傳播在不同的階段的傳播機(jī)制不會(huì)有太大的變化。我們認(rèn)為導(dǎo)致這種現(xiàn)象的原因一方面是不同的社交平臺(tái)的機(jī)制不同,另一方面是由于H7N9疫情具有突發(fā)性的特點(diǎn),這一特征可以為微博平臺(tái)中信息傳播預(yù)測(cè)模型的設(shè)計(jì)提供有價(jià)值的參考。

5信息傳播仿真模型

微博空間信息傳播過(guò)程構(gòu)成了博文轉(zhuǎn)發(fā)樹集合,博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性表現(xiàn)為深度小、密度大。結(jié)合信息傳播的網(wǎng)絡(luò)結(jié)構(gòu)特性和微博平臺(tái)信息傳播的特征,本部分構(gòu)建一個(gè)基于Galton-Watson[19]分支過(guò)程的新的信息傳播模型對(duì)博文轉(zhuǎn)發(fā)樹的結(jié)構(gòu)特性進(jìn)行仿真。

5.1模型構(gòu)建

Galton-Watson分支過(guò)程是概率論中生成隨機(jī)樹的一個(gè)經(jīng)典模型,是隨機(jī)圖理論中的重要部分,它曾被成功地用來(lái)進(jìn)行家族姓氏演變消亡過(guò)程的模擬[20]。家族姓氏演變消亡的過(guò)程與微博平臺(tái)信息傳播的過(guò)程具有很大的相似之處,一個(gè)家族中的男性控制著家族姓氏的演變消亡,而在微博平臺(tái)中信息的傳播依賴于轉(zhuǎn)發(fā)博文的用戶。因此選擇采用Galton-Watson過(guò)程來(lái)對(duì)微博信息傳播進(jìn)行仿真。但微博平臺(tái)中的信息傳播與家族姓氏的演變存在一個(gè)關(guān)鍵的不同,在微博平臺(tái)中信息的傳播具有快速擴(kuò)散、迅速消亡的特點(diǎn),而家族姓氏演變消亡的過(guò)程則要慢得多。考慮到微博平臺(tái)信息傳播這一關(guān)鍵特性,在仿真模型中考慮在特定情況下結(jié)束信息擴(kuò)散過(guò)程。

綜合以上考慮,構(gòu)建如下信息傳播模型:

(1) 設(shè)P(m)是關(guān)于一系列獨(dú)立同分布的固定概率;

(2) 每一棵博文轉(zhuǎn)發(fā)樹TRT的形成起始于根節(jié)點(diǎn),并以離散的步驟進(jìn)行。在形成博文轉(zhuǎn)發(fā)樹的第i層時(shí),第i層的每一個(gè)葉子節(jié)點(diǎn)按照概率P(m)獨(dú)立生成一定數(shù)量的孩子節(jié)點(diǎn),即葉子節(jié)點(diǎn)具有m個(gè)孩子的概率為P(m);

(3) 當(dāng)m=0時(shí),N是一個(gè)葉子節(jié)點(diǎn),當(dāng)m>0時(shí),將節(jié)點(diǎn)N加入到博文轉(zhuǎn)發(fā)樹的第i+1層;

(4) 引入一個(gè)信息傳播結(jié)束概率k,表示到達(dá)博文轉(zhuǎn)發(fā)樹第n層時(shí)信息結(jié)束傳播的概率,即博文轉(zhuǎn)發(fā)樹能夠到達(dá)第n層的概率pn如下:

pn=k(1-k)n-1

(6)

由以上定義的模型可知,該模型包含兩個(gè)參數(shù):分布概率P和信息傳播結(jié)束概率k。對(duì)于分布概率P(m),使用最大似然估計(jì)法進(jìn)行計(jì)算,設(shè)T(x)為該模型下生成博文轉(zhuǎn)發(fā)樹x的概率,f(m,x)為博文轉(zhuǎn)發(fā)樹x中具有m個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn)數(shù)量,P(m)為博文轉(zhuǎn)發(fā)樹x中具有m個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn)概率,則可得如下等式:

T(x)=∏mP(m)f(m,x)

(7)

由式(7)有如下對(duì)數(shù)似然函數(shù):

(8)

根據(jù)最大似然估計(jì)法對(duì)P(m)求導(dǎo)得:

(9)

從式(9)可知P(m)等于博文轉(zhuǎn)發(fā)樹中具有m個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn)比例。對(duì)于概率k,計(jì)算方法如下:將公式pn=k(1-k)n-1與博文轉(zhuǎn)發(fā)樹的深度分布進(jìn)行擬合,擬合結(jié)果如圖10所示,得到k的值為0.46。

圖10 博文轉(zhuǎn)發(fā)深度擬合

5.2模型驗(yàn)證

根據(jù)5.1節(jié)中對(duì)信息傳播模型的定義,本部分對(duì)模型進(jìn)行驗(yàn)證。量化后的參數(shù)P(m)如表2所示,由于不同的孩子節(jié)點(diǎn)數(shù)量值較多,此處只給出占比例較大的部分。參數(shù)k的值為0.46。

表2 參數(shù)P(m)

將量化后的參數(shù)代入傳播模型進(jìn)行仿真,得到生成的博文轉(zhuǎn)發(fā)樹結(jié)構(gòu)特性數(shù)據(jù)集合,共22 364棵博文轉(zhuǎn)發(fā)樹,仿真結(jié)果如圖11-圖13所示。

圖11 博文轉(zhuǎn)發(fā)樹大小分布仿真結(jié)果圖12 博文轉(zhuǎn)發(fā)樹寬度分布仿真結(jié)果

圖13 博文轉(zhuǎn)發(fā)樹深度分布仿真結(jié)果

仿真實(shí)驗(yàn)采用的是Matlab工具,從圖11-圖13可以看出博文轉(zhuǎn)發(fā)樹的大小、寬度和深度分布均服從冪律分布,在這里采用與4.1節(jié)部分同樣的方法對(duì)數(shù)據(jù)進(jìn)行了線性擬合。線性擬合采用的冪律分布函數(shù)為:p(X=x)=c·x-γ,其中c,γ∈R+,x∈N+,置信度設(shè)為95%。仿真得到的博文轉(zhuǎn)發(fā)樹大小、寬度和深度冪律指數(shù)依次為1.412、1.464和3.640,這與真實(shí)博文轉(zhuǎn)發(fā)樹中的冪律指數(shù)(實(shí)際博文轉(zhuǎn)發(fā)樹大小、寬度、深度冪律指數(shù)依次為1.447、1.507和3.976)分布較為吻合,這說(shuō)明該傳播模型能較準(zhǔn)確的模擬真實(shí)的信息傳播情況。

6結(jié)語(yǔ)

本文以2013年3月底中國(guó)大陸爆發(fā)的甲型H7N9流感疫情為主題背景,微博數(shù)據(jù)集合來(lái)源于新浪微博,利用博文之間的轉(zhuǎn)發(fā)關(guān)系,構(gòu)造了每一條原創(chuàng)博文的博文轉(zhuǎn)發(fā)樹,分析了H7N9疫情期間新浪微博中信息傳播的結(jié)構(gòu)特性。對(duì)博文轉(zhuǎn)發(fā)樹的四項(xiàng)結(jié)構(gòu)特征屬性進(jìn)行研究發(fā)現(xiàn)博文轉(zhuǎn)發(fā)樹具有密度大、深度小的結(jié)構(gòu)特性,博文最終的流行程度受博文轉(zhuǎn)發(fā)樹寬度的影響,微博信息傳播在不同的傳播階段表現(xiàn)出了相似的傳播特性。根據(jù)真實(shí)數(shù)據(jù)集合表現(xiàn)出的結(jié)構(gòu)特性,結(jié)合Galton-Watson分支過(guò)程構(gòu)建了一種新的微博信息傳播模型,使用該模型進(jìn)行仿真得到的結(jié)果較準(zhǔn)確地反映了信息傳播的結(jié)構(gòu)特性。這些發(fā)現(xiàn)能夠?yàn)槲⒉┢脚_(tái)中信息傳播預(yù)測(cè)、輿情監(jiān)控引導(dǎo)和應(yīng)急事件響應(yīng)提供有價(jià)值的信息。

參考文獻(xiàn)

[1] 新浪微博關(guān)鍵數(shù)據(jù):月活躍用戶[EB/OL].http://tech.qq.com/a/20140315/004999.htm.

[2]ZhengbiaoGuo,ZhitangLi,HaoTu.SinaMicroblog:AnInformation-drivenOnlineSocialNetwork[C]//InternationalConferenceonCyberworlds,2011:160-167.

[3]DongWang,HosungPark,GaogangXie,etal.AGenealogyofInformationSpreadingonMicroblogs:aGalton-Watson-basedExplicativeModel[C]//ProceedingsofIEEEINFOCOM,2013:2391-2399.

[4]EytanBakshy,ItamarRosenn,CameronMarlow,etal.TheRoleofSocialNetworksinInformationDiffusion[C]//Proceedingsofthe21stInternationalConferenceonWorldWideWeb,2012:519-528.

[5]PengyiFan,PeiLi,ZhihongJiang,etal.MeasurementandAnalysisofTopologyandInformationPropagationonSina-Microblog[C]//IEEEInternationalConferenceonIntelligenceandSecurityInformatics,2011:396-401.

[6]DavidLiben-Nowell,JonKleinberg.TracinginformationflowonaglobalscaleusingInternetchain-letterdata[J].ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,2008,105(12):4633-4638.

[7]KristinaLerman,RumiGhosh.InformationContagion:AnEmpiricalStudyoftheSpreadofNewsonDiggandTwitterSocialNetworks[C]//ProceedingsoftheFourthInternationalAAAIConferenceonWeblogsandSocialMedia,2010:90-97.

[8]BongwonSuh,LichanHong,PeterPirolli,etal.WanttobeRetweeted?LargeScaleAnalyticsonFactorsImpactingRetweetinTwitterNetwork[C]//IEEESecondInternationalConferenceonSocialComputing,2010:177-184.

[9]StefanStieglitz,LinhDangxuan.PoliticalCommunicationandInfluencethroughMicroblogging-AnEmpiricalAnalysisofSentimentinTwitterMessagesandRetweetBehavior[C]//Proceedingsofthe45ndHawaiiInternationalConferenceonSystemSciences,2012:3500-3509.

[10]KateStarbird,LeysiaPalen.(How)WilltheRevolutionbeRetweeted?InformationDiffusionandthe2011EgyptianUprising[C]//ProceedingsoftheACM2012conferenceonComputerSupportedCooperativeWork,2012:7-16.

[11]JessicaLi,ArunVishwanath,HRaghavRao.RetweetingthefukushimanuclearRadiationDisaster[J].CommunicationsoftheACM,2014,57(1):78-85.

[12]YanQu,PhilipFeiWu,XiaoqingWang.OnlineCommunityResponsetoMajorDisaster:AStudyofTianyaForuminthe2008SichuanEarthquake[C]//Proceedingsofthe42ndHawaiiInternationalConferenceonSystemSciences,2009:1-11.

[13]YanQu,ChenHuang,PengyiZhang,etal.MicrobloggingafteraMajorDisasterinChina:ACaseStudyofthe2010YushuEarthquake[C]//ProceedingsoftheACM2011conferenceonComputersupportedcooperativework,2011:25-34.

[14]MarceloMendoza,BarbaraPoblete,CarlosCastillo.TwitterUnderCrisis:CanwetrustwhatweRT?[C]//ProceedingsoftheFirstWorkshoponSocialMediaAnalytics,2010:71-79.

[15]WojciechGaluba,KarlAberer,DipanjanChakraborty,ZoranDespotovic,WolfgangKellerer.OuttweetingtheTwitterers-PredictingInformationCascadesinMicroblogs[C]//Proceedingsof3rdWorkshoponOnlineSocialNetworks,2010:1-9.

[16]JaewonYang,JureLeskovec.ModelingInformationDiffusioninImplicitNetworks[C]//IEEEInternationalConferenceonDataMining,2010:599-608.

[17]MeeyoungCha,AlanMislove,KrishnaPGummadi.Ameasurement-drivenanalysisofinformationpropagationintheflickrsocialnetwork[C]//Proceedingsofthe18thinternationalconferenceonWorldwideweb,2009:721-730.

[18]RaviKumar,MohammadMahdian,MaryMcGlohon.DynamicsofConversations[C]//Proceedingsofthe16thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining,2010:553-556.

[19]GaltonF,WatsonHW.Ontheprobabilityoftheextinctionoffamilies[J].InMendelianHeredity,AnnalofMathematicalStatistics,1944,4:385.

[20]WilliamJReed,BarryDHughes.Onthedistributionoffamilynames[J].PhysicaAStatisticalMechanicsanditsApplications,2003,319(7):579-590.

STUDY ON CHARACTERISTICS OF MICROBLOGGING INFORMATIONDISSEMINATIONUNDERH7N9FLUBACKGROUND

Liu BaoliDong RongshengCai Guoyong

(Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)

AbstractWe researched and developed the microblogging crawler system—WeiboCrawler independently. Aiming at the type A H7N9 flu epidemic broken out in March 2013, by using this system we captured the dataset correlated with this topic from Sina microblogging, including user information, original and forwarded microblogs information. Taking the original microblog as the root node, we constructed the microblogs forwarding tree (MFT) with recursion method based on forwarding relationship. To describe the process of information dissemination clearly and strictly, we gave the formal definition on the microblogs forwarding tree, and then studied the microblogging information dissemination process and the structural characteristics of MFT in size, depth and width, etc. Result showed that the distribution of MFT structural characteristics is in line with long-tailed distribution, the MFT has the characteristics of small depth and large density, the popularity of microblogs depends on the width of the MFT but has nothing to do with the depth of MFT. At different stages of microblogs forwarding, the information disseminations show similar characteristics. Considering the characteristics of information dissemination on microblogging platform and the structural characteristic of MFT, and combining the Galton-Watson branching process, we presented a new information flow dissemination model and simulated the three structural characteristics of MFT in size, depth and width with the model, we found that this model can quite accurately reflect the structural characteristics of information dissemination.

KeywordsForwardingInformation disseminationStructural characteristicsSocial networksDissemination model

收稿日期:2014-12-04。廣西自然科學(xué)基金項(xiàng)目(2011GXNSFA01 8156);廣西高等學(xué)校高水平創(chuàng)新團(tuán)隊(duì)及卓越學(xué)者計(jì)劃;桂林電子科技大學(xué)創(chuàng)新團(tuán)隊(duì)項(xiàng)目。劉寶立,碩士生,主研領(lǐng)域:社會(huì)計(jì)算,數(shù)據(jù)挖掘,形式化技術(shù)。董榮勝,教授。蔡國(guó)永,教授。

中圖分類號(hào)TP391

文獻(xiàn)標(biāo)識(shí)碼A

DOI:10.3969/j.issn.1000-386x.2016.06.075

猜你喜歡
深度結(jié)構(gòu)信息
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
深度理解一元一次方程
論結(jié)構(gòu)
深度觀察
深度觀察
深度觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
論《日出》的結(jié)構(gòu)
創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長(zhǎng)
展會(huì)信息
主站蜘蛛池模板: 国产一区二区三区免费观看 | 欧美激情成人网| 国产免费一级精品视频| 亚洲国内精品自在自线官| a级毛片免费看| 国产精品午夜电影| 亚洲成人动漫在线| 在线播放真实国产乱子伦| 国产成人精品在线1区| 国产成人精品午夜视频'| 成人在线观看一区| 国产午夜无码片在线观看网站| 国产欧美日韩精品第二区| 亚洲最猛黑人xxxx黑人猛交| 无码精油按摩潮喷在线播放 | 中文字幕 91| 国产精品妖精视频| 久久久久亚洲精品成人网| 91久久青青草原精品国产| 国产一区二区三区免费观看| 婷婷久久综合九色综合88| 久久久久久久久久国产精品| 国产情侣一区二区三区| 亚国产欧美在线人成| 91在线一9|永久视频在线| 精品久久综合1区2区3区激情| 91亚洲精选| 亚洲欧美日韩高清综合678| 成人在线综合| 极品私人尤物在线精品首页| 91网红精品在线观看| 国产成熟女人性满足视频| 国产白浆在线观看| 日本欧美一二三区色视频| 国产一二三区在线| 国产在线拍偷自揄拍精品| 欧美yw精品日本国产精品| 日本影院一区| 日韩成人高清无码| 欧美激情视频二区| 国产亚洲视频免费播放| 四虎永久在线精品影院| 91视频99| 国产精品冒白浆免费视频| 99久视频| 国产成人精品综合| 日本精品中文字幕在线不卡 | 精品久久久久成人码免费动漫| 欧美日韩中文字幕二区三区| 免费一级毛片| 成人韩免费网站| 无码啪啪精品天堂浪潮av| 亚洲另类国产欧美一区二区| 亚洲va在线∨a天堂va欧美va| 亚洲欧洲日韩综合色天使| 免费亚洲成人| 亚洲精品国产综合99久久夜夜嗨| 免费在线色| 亚洲免费毛片| 狠狠躁天天躁夜夜躁婷婷| 成年人午夜免费视频| 视频国产精品丝袜第一页| 亚洲另类色| 国产丝袜第一页| 午夜国产精品视频黄| 香蕉视频在线精品| 国产微拍精品| 色综合久久无码网| 东京热一区二区三区无码视频| 99在线视频精品| 美女无遮挡拍拍拍免费视频| 亚洲欧洲一区二区三区| 中文字幕精品一区二区三区视频 | 国产熟女一级毛片| 久久五月视频| 中文字幕日韩欧美| 香蕉eeww99国产在线观看| 欧美午夜性视频| 欧美国产视频| 国产99欧美精品久久精品久久| 97国产在线播放| 精品欧美视频|