999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新浪微博轉(zhuǎn)發(fā)數(shù)的冪律分布現(xiàn)象

2015-04-29 00:44:03張寧饒婕張書(shū)卿陳虹羅楊
計(jì)算機(jī)時(shí)代 2015年3期

張寧 饒婕 張書(shū)卿 陳虹 羅楊

摘 要: 網(wǎng)絡(luò)是一個(gè)包含了大量個(gè)體及個(gè)體之間相互作用的系統(tǒng),近年來(lái)在對(duì)復(fù)雜網(wǎng)絡(luò)的研究過(guò)程中,科學(xué)家們發(fā)現(xiàn)了眾多的冪律分布現(xiàn)象。不僅網(wǎng)頁(yè)的點(diǎn)擊次數(shù)存在冪律分布現(xiàn)象,微博也同樣存在著冪律分布現(xiàn)象。利用新浪微博的API技術(shù)抓取了新浪微博數(shù)據(jù),對(duì)其進(jìn)行了詳細(xì)的數(shù)據(jù)清理和統(tǒng)計(jì),對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析發(fā)現(xiàn),新浪微博的轉(zhuǎn)發(fā)數(shù)也同樣存在著冪律分布現(xiàn)象。只有為數(shù)不多的微博,才能被大量的閱讀和轉(zhuǎn)發(fā),進(jìn)而成為熱點(diǎn)微博,而絕大多數(shù)微博的閱讀次數(shù)和轉(zhuǎn)發(fā)次數(shù)都是非常少的。

關(guān)鍵詞: 新浪微博; 轉(zhuǎn)發(fā)數(shù); 冪律分布; Zipf定律

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)03-33-03

Abstract: Network contains a large number of interaction between the individual and the individual system.In recent years, the scientists find a large number of power-law distribution phenomenon in the research of complex networks. The power-law distribution phenomenon exists not only in the page clicks, but also in the number of micro- blog access. In this paper, we use API technology of Sina micro-blog to capture the recent micro-blog data, make the data cleaning and statistic , by analysing the final statistical results,we find that the phenomenon of power-law distribution also exists in the number of forwards in Sina micro-blog. Only a few micro-blog, can be a hot micro-blog which has a large number of reading and forwarding,in contrast the vast majority of others have very few number of reading and forwarding.

Key words: Sina micro-blog; number of forwards; phenomenon of power-law distribution; Zipf's Law

0 引言

全球復(fù)雜網(wǎng)絡(luò)權(quán)威、無(wú)尺度網(wǎng)絡(luò)的創(chuàng)立者、匈牙利計(jì)算機(jī)學(xué)會(huì)馮·諾依曼金質(zhì)獎(jiǎng)?wù)芦@得者Barabasi揭開(kāi)人類(lèi)行為背后隱藏的 “爆發(fā)”模式,指出人類(lèi)活動(dòng)模式不是隨機(jī)的,而是具有“爆發(fā)性”的。爆發(fā)的本質(zhì)規(guī)律就是冪律分布。冪律分布現(xiàn)象的共性是絕大多數(shù)事件的規(guī)模很小,而只有少數(shù)事件的規(guī)模相當(dāng)大。著名的Zipf定律是冪律的主要形式之一,哈佛大學(xué)的語(yǔ)言學(xué)專(zhuān)家Zipf發(fā)現(xiàn),如果把單詞出現(xiàn)的頻率按由大到小的順序排列,則每個(gè)單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在簡(jiǎn)單的反比關(guān)系。這一定律表明:只有極少數(shù)的單詞被經(jīng)常使用,而絕大多數(shù)單詞很少被使用。冪律分布的通式可記為y=cx-r,重要特征是個(gè)體的尺度相差懸殊,缺乏一個(gè)具有代表性的規(guī)模,或者說(shuō),存在“爆發(fā)”(或稱(chēng)“涌現(xiàn)”)現(xiàn)象。

本文抓取了新浪微博的微博數(shù)據(jù),并獲得轉(zhuǎn)發(fā)數(shù),對(duì)微博的轉(zhuǎn)發(fā)現(xiàn)象進(jìn)行統(tǒng)計(jì)并試著分析產(chǎn)生該現(xiàn)象的原因。

1 抓取數(shù)據(jù)來(lái)源說(shuō)明

數(shù)據(jù)來(lái)源于新浪微博8月份實(shí)時(shí)微博。考慮到每天新浪微博的數(shù)據(jù)量巨大,每天新產(chǎn)生微博約1億條左右。隨機(jī)抽樣需要樣本空間巨大。所以我們采取隨機(jī)抓取關(guān)注列表里的820人的微博

1.1 數(shù)據(jù)抓取技術(shù)

數(shù)據(jù)的抓取是基于新浪API的信息獲取。新浪微博 API 是應(yīng)用編程接口(Application Programming Interface)的縮寫(xiě)。開(kāi)放API就是“在互聯(lián)網(wǎng)時(shí)代,把互聯(lián)網(wǎng)產(chǎn)品的服務(wù)封裝成一系列計(jì)算機(jī)易識(shí)別的數(shù)據(jù)接口開(kāi)放出去,供第三方開(kāi)發(fā)者使用”。微博開(kāi)放平臺(tái)包含了新浪微博平臺(tái)海量的微博信息、用戶(hù)間的關(guān)注關(guān)系以及隨時(shí)隨地信息的擴(kuò)散式的傳播機(jī)制。通過(guò)API,用戶(hù)可以實(shí)時(shí)地獲取監(jiān)控微博賬號(hào)的各種相關(guān)數(shù)據(jù),包括微博的轉(zhuǎn)發(fā)數(shù),評(píng)論數(shù)等。用戶(hù)使用新浪微博API的前提是需要通過(guò)身份認(rèn)證。OAuth用戶(hù)身份認(rèn)證:開(kāi)放授權(quán)(OAuth)是一個(gè)開(kāi)放標(biāo)準(zhǔn),允許用戶(hù)讓第三方應(yīng)用訪問(wèn)該用戶(hù)在某一網(wǎng)站上存儲(chǔ)的私密資源(如照片、視頻、聯(lián)系人列表),而無(wú)需將用戶(hù)名和密碼提供給第三方應(yīng)用。因此,OAuth 為新浪微博API提供了一個(gè)安全、高效的認(rèn)證機(jī)制,其具體過(guò)程如下。

⑴ 用戶(hù)向新浪微博開(kāi)放平臺(tái)提出開(kāi)發(fā)者服務(wù)申請(qǐng),提交實(shí)名身份認(rèn)證。

⑵ 向新浪微博開(kāi)放平臺(tái)OAuth服務(wù)商提交創(chuàng)建應(yīng)用請(qǐng)求,獲得應(yīng)用資料,并將其中的應(yīng)用編號(hào)App Key和應(yīng)用口令A(yù)pp Secret寫(xiě)入認(rèn)證程序配置文件。

⑶ 利用新浪微博 SDK 提供的認(rèn)證程序,向新浪微博服務(wù)器提交API使用申請(qǐng),填寫(xiě)申請(qǐng)者微博賬號(hào)、口令,獲取第三方軟件應(yīng)用許可。

⑷ 申請(qǐng)成功后,服務(wù)器在瀏覽器返回URL地址中提供一個(gè)由32位十六進(jìn)制數(shù)組成的認(rèn)證碼Access_code,用戶(hù)將此認(rèn)證碼提交給認(rèn)證服務(wù)器,服務(wù)器同意用戶(hù)請(qǐng)求,

向其頒發(fā)通過(guò)新浪微博授權(quán)的API調(diào)用令牌Access_Token與對(duì)應(yīng)的密鑰。

⑸ 用戶(hù)利用此令牌作為參量調(diào)用相應(yīng)的API接口。通過(guò)上述OAuth認(rèn)證登錄新浪微博開(kāi)放平臺(tái)成功后,用戶(hù)便可調(diào)用開(kāi)放平臺(tái)的各種接口,令牌使用期限為24小時(shí),超過(guò)期限后需重新進(jìn)行認(rèn)證才能繼續(xù)調(diào)用API接口。

1.2 轉(zhuǎn)發(fā)數(shù)獲取

2 數(shù)據(jù)統(tǒng)計(jì)分布情況

所統(tǒng)計(jì)的微博數(shù)量去除重復(fù)后,共計(jì)4253條。以2000為區(qū)間單位,統(tǒng)計(jì)轉(zhuǎn)發(fā)數(shù)落在每個(gè)區(qū)間內(nèi)的微博條數(shù)。統(tǒng)計(jì)表明,以轉(zhuǎn)發(fā)數(shù)在0-2000區(qū)間內(nèi)的微博最多,共計(jì)3963條。最少的轉(zhuǎn)發(fā)數(shù)區(qū)間的微博條數(shù)為0條,極差為3963。按微博轉(zhuǎn)發(fā)數(shù)分段統(tǒng)計(jì)情況如表2和圖2所示。可以判斷,轉(zhuǎn)發(fā)數(shù)的分布范圍很大,一定程度上符合Zipf定律,存在“爆發(fā)”現(xiàn)象。

從表2和圖2可見(jiàn),微博轉(zhuǎn)發(fā)數(shù)分布較大程度上符合Zipf定律。熱門(mén)的微博非常少,越冷門(mén)的微博數(shù)量越多。其中,轉(zhuǎn)發(fā)數(shù)在區(qū)間0-2000的微博數(shù)明顯高于其他區(qū)間,可視為“爆發(fā)點(diǎn)”。在該區(qū)間內(nèi),主要分布的大多是粉絲人數(shù)較少的用戶(hù)發(fā)布的微博,沒(méi)有龐大的粉絲基礎(chǔ),所以轉(zhuǎn)發(fā)數(shù)普遍很低。還有一部分微博雖然是有粉絲數(shù)較多的用戶(hù)發(fā)布的,但是該微博不能吸引用戶(hù)的興趣,不能成為熱點(diǎn)事件,轉(zhuǎn)發(fā)數(shù)也就普遍偏低。其中轉(zhuǎn)發(fā)數(shù)最高的微博為張杰在發(fā)布新單曲“我在這”時(shí),自己在路上邊走邊拍攝的一段視頻,該微博轉(zhuǎn)發(fā)數(shù)介于82000-84000區(qū)間。

3 原因分析

新浪微博中的冪律分布現(xiàn)象屬于復(fù)雜網(wǎng)絡(luò)中普遍存在的冪律分布現(xiàn)象的一種。在網(wǎng)絡(luò)動(dòng)態(tài)演化的過(guò)程中,成長(zhǎng)性和優(yōu)先連接性是無(wú)標(biāo)度網(wǎng)絡(luò)度分布呈現(xiàn)冪律的兩個(gè)最根本原因。所謂成長(zhǎng)性是指網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的增加,在本文中主要指新浪微博數(shù)量的增加,新微博的增加更多的是依靠大多數(shù)沒(méi)有巨大粉絲數(shù)量基礎(chǔ)的普通用戶(hù)發(fā)布的,也包括有巨大粉絲數(shù)量基礎(chǔ)的用戶(hù)所發(fā)布的那些不能引起用戶(hù)興趣和轉(zhuǎn)發(fā)欲望的微博。優(yōu)先連接性是指,轉(zhuǎn)發(fā)數(shù)高的熱門(mén)微博總是由粉絲數(shù)量基礎(chǔ)巨大的用戶(hù)發(fā)布或者轉(zhuǎn)發(fā),比如,一條新的有轉(zhuǎn)發(fā)價(jià)值的微博由普通用戶(hù)直接發(fā)布后,因?yàn)樵撚脩?hù)的粉絲數(shù)量很少,也不能被大量的用戶(hù)閱讀和轉(zhuǎn)發(fā),往往是這條微博在自己的少量用戶(hù)的粉絲圈里轉(zhuǎn)發(fā)后就被新熱點(diǎn)微博淹沒(méi)掉了。如果該條微博被粉絲數(shù)量基礎(chǔ)巨大的用戶(hù)轉(zhuǎn)發(fā)后,能閱讀和轉(zhuǎn)發(fā)該微博的用戶(hù)呈現(xiàn)出跳躍式增加的方式增多,就會(huì)被大量粉絲用戶(hù)轉(zhuǎn)發(fā),而轉(zhuǎn)發(fā)次數(shù)就呈現(xiàn)飆升的現(xiàn)象。并且隨著時(shí)間的演進(jìn),微博的轉(zhuǎn)發(fā)數(shù)逐漸呈現(xiàn)出一種轉(zhuǎn)發(fā)數(shù)多的會(huì)被轉(zhuǎn)的更多,轉(zhuǎn)發(fā)數(shù)少的微博直接被淹沒(méi)掉的現(xiàn)象。

參考文獻(xiàn):

[1] 姚科.開(kāi)放API:新浪微博必經(jīng)之路[J].互聯(lián)網(wǎng)天地,2010.8:73-74

[2] 胡海波,王林.冪律分布研究簡(jiǎn)史[J].物理,2005.12:889-890

[3] 黃延煒,劉嘉勇.新浪微博數(shù)據(jù)獲取技術(shù)研究[J].信息安全與通信保

密,2013.6:71-72

[4] 張嗣瀛.復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)自相似結(jié)構(gòu)的涌現(xiàn)規(guī)律[J].復(fù)雜系統(tǒng)與

復(fù)雜性科學(xué),2006.4:41-51

[5] 胡泳.冪律分布[J].商務(wù)周刊,2009.22:94

[6] 方愛(ài)麗,高齊圣,張嗣瀛.引文網(wǎng)絡(luò)的冪律分布檢驗(yàn)研究[J].統(tǒng)計(jì)與決

策,2007.14:22-24

主站蜘蛛池模板: 欧美一级99在线观看国产| 亚洲丝袜中文字幕| 亚洲欧美另类中文字幕| 亚洲一区波多野结衣二区三区| 婷婷色丁香综合激情| 久久国产精品77777| 99热线精品大全在线观看| 九一九色国产| 91视频国产高清| 欧美激情伊人| 久久国产高潮流白浆免费观看| 午夜性刺激在线观看免费| 思思热精品在线8| 高清视频一区| 日韩欧美91| 中文字幕在线观看日本| 欧美a级完整在线观看| 欧美精品高清| 19国产精品麻豆免费观看| 成年人国产视频| 麻豆精品久久久久久久99蜜桃| 999国内精品视频免费| 亚洲 日韩 激情 无码 中出| 成人午夜天| 午夜啪啪福利| 新SSS无码手机在线观看| 亚洲aaa视频| 久久久久九九精品影院 | 干中文字幕| 91精品啪在线观看国产60岁| 久热精品免费| 国产制服丝袜91在线| 99热这里只有成人精品国产| 伊人久久福利中文字幕| 亚洲高清国产拍精品26u| 国产精品男人的天堂| 亚洲swag精品自拍一区| 99视频精品全国免费品| 人与鲁专区| 亚洲日韩高清无码| 亚洲精品视频网| 十八禁美女裸体网站| 久久久久国产精品熟女影院| 国产超碰一区二区三区| 久久这里只有精品免费| 麻豆国产精品| 国产一级毛片高清完整视频版| 2022国产91精品久久久久久| 国产精品毛片一区视频播| 亚洲AV成人一区二区三区AV| 久久成人国产精品免费软件| 欧美一级在线看| 毛片久久网站小视频| 国产又黄又硬又粗| 国产精品部在线观看| 精品久久久久久中文字幕女| 成人看片欧美一区二区| 无码国内精品人妻少妇蜜桃视频| 这里只有精品在线| 亚洲精品中文字幕无乱码| 亚洲久悠悠色悠在线播放| 波多野结衣一区二区三区四区视频| 日韩毛片免费视频| 无码 在线 在线| 激情五月婷婷综合网| 亚洲精品在线观看91| 亚洲国产综合精品中文第一| 五月婷婷丁香综合| 国产爽歪歪免费视频在线观看 | 国产丝袜精品| 色悠久久久久久久综合网伊人| 香蕉eeww99国产精选播放| 激情视频综合网| 久久国产乱子伦视频无卡顿| 一级一级特黄女人精品毛片| 午夜毛片免费看| 亚洲无码高清免费视频亚洲 | 国产成人精品在线1区| 国产91高跟丝袜| 午夜色综合| 嫩草在线视频| 高潮爽到爆的喷水女主播视频|