999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新浪微博轉(zhuǎn)發(fā)數(shù)的冪律分布現(xiàn)象

2015-04-29 00:44:03張寧饒婕張書(shū)卿陳虹羅楊
計(jì)算機(jī)時(shí)代 2015年3期

張寧 饒婕 張書(shū)卿 陳虹 羅楊

摘 要: 網(wǎng)絡(luò)是一個(gè)包含了大量個(gè)體及個(gè)體之間相互作用的系統(tǒng),近年來(lái)在對(duì)復(fù)雜網(wǎng)絡(luò)的研究過(guò)程中,科學(xué)家們發(fā)現(xiàn)了眾多的冪律分布現(xiàn)象。不僅網(wǎng)頁(yè)的點(diǎn)擊次數(shù)存在冪律分布現(xiàn)象,微博也同樣存在著冪律分布現(xiàn)象。利用新浪微博的API技術(shù)抓取了新浪微博數(shù)據(jù),對(duì)其進(jìn)行了詳細(xì)的數(shù)據(jù)清理和統(tǒng)計(jì),對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析發(fā)現(xiàn),新浪微博的轉(zhuǎn)發(fā)數(shù)也同樣存在著冪律分布現(xiàn)象。只有為數(shù)不多的微博,才能被大量的閱讀和轉(zhuǎn)發(fā),進(jìn)而成為熱點(diǎn)微博,而絕大多數(shù)微博的閱讀次數(shù)和轉(zhuǎn)發(fā)次數(shù)都是非常少的。

關(guān)鍵詞: 新浪微博; 轉(zhuǎn)發(fā)數(shù); 冪律分布; Zipf定律

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)03-33-03

Abstract: Network contains a large number of interaction between the individual and the individual system.In recent years, the scientists find a large number of power-law distribution phenomenon in the research of complex networks. The power-law distribution phenomenon exists not only in the page clicks, but also in the number of micro- blog access. In this paper, we use API technology of Sina micro-blog to capture the recent micro-blog data, make the data cleaning and statistic , by analysing the final statistical results,we find that the phenomenon of power-law distribution also exists in the number of forwards in Sina micro-blog. Only a few micro-blog, can be a hot micro-blog which has a large number of reading and forwarding,in contrast the vast majority of others have very few number of reading and forwarding.

Key words: Sina micro-blog; number of forwards; phenomenon of power-law distribution; Zipf's Law

0 引言

全球復(fù)雜網(wǎng)絡(luò)權(quán)威、無(wú)尺度網(wǎng)絡(luò)的創(chuàng)立者、匈牙利計(jì)算機(jī)學(xué)會(huì)馮·諾依曼金質(zhì)獎(jiǎng)?wù)芦@得者Barabasi揭開(kāi)人類(lèi)行為背后隱藏的 “爆發(fā)”模式,指出人類(lèi)活動(dòng)模式不是隨機(jī)的,而是具有“爆發(fā)性”的。爆發(fā)的本質(zhì)規(guī)律就是冪律分布。冪律分布現(xiàn)象的共性是絕大多數(shù)事件的規(guī)模很小,而只有少數(shù)事件的規(guī)模相當(dāng)大。著名的Zipf定律是冪律的主要形式之一,哈佛大學(xué)的語(yǔ)言學(xué)專(zhuān)家Zipf發(fā)現(xiàn),如果把單詞出現(xiàn)的頻率按由大到小的順序排列,則每個(gè)單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在簡(jiǎn)單的反比關(guān)系。這一定律表明:只有極少數(shù)的單詞被經(jīng)常使用,而絕大多數(shù)單詞很少被使用。冪律分布的通式可記為y=cx-r,重要特征是個(gè)體的尺度相差懸殊,缺乏一個(gè)具有代表性的規(guī)模,或者說(shuō),存在“爆發(fā)”(或稱(chēng)“涌現(xiàn)”)現(xiàn)象。

本文抓取了新浪微博的微博數(shù)據(jù),并獲得轉(zhuǎn)發(fā)數(shù),對(duì)微博的轉(zhuǎn)發(fā)現(xiàn)象進(jìn)行統(tǒng)計(jì)并試著分析產(chǎn)生該現(xiàn)象的原因。

1 抓取數(shù)據(jù)來(lái)源說(shuō)明

數(shù)據(jù)來(lái)源于新浪微博8月份實(shí)時(shí)微博。考慮到每天新浪微博的數(shù)據(jù)量巨大,每天新產(chǎn)生微博約1億條左右。隨機(jī)抽樣需要樣本空間巨大。所以我們采取隨機(jī)抓取關(guān)注列表里的820人的微博

1.1 數(shù)據(jù)抓取技術(shù)

數(shù)據(jù)的抓取是基于新浪API的信息獲取。新浪微博 API 是應(yīng)用編程接口(Application Programming Interface)的縮寫(xiě)。開(kāi)放API就是“在互聯(lián)網(wǎng)時(shí)代,把互聯(lián)網(wǎng)產(chǎn)品的服務(wù)封裝成一系列計(jì)算機(jī)易識(shí)別的數(shù)據(jù)接口開(kāi)放出去,供第三方開(kāi)發(fā)者使用”。微博開(kāi)放平臺(tái)包含了新浪微博平臺(tái)海量的微博信息、用戶(hù)間的關(guān)注關(guān)系以及隨時(shí)隨地信息的擴(kuò)散式的傳播機(jī)制。通過(guò)API,用戶(hù)可以實(shí)時(shí)地獲取監(jiān)控微博賬號(hào)的各種相關(guān)數(shù)據(jù),包括微博的轉(zhuǎn)發(fā)數(shù),評(píng)論數(shù)等。用戶(hù)使用新浪微博API的前提是需要通過(guò)身份認(rèn)證。OAuth用戶(hù)身份認(rèn)證:開(kāi)放授權(quán)(OAuth)是一個(gè)開(kāi)放標(biāo)準(zhǔn),允許用戶(hù)讓第三方應(yīng)用訪問(wèn)該用戶(hù)在某一網(wǎng)站上存儲(chǔ)的私密資源(如照片、視頻、聯(lián)系人列表),而無(wú)需將用戶(hù)名和密碼提供給第三方應(yīng)用。因此,OAuth 為新浪微博API提供了一個(gè)安全、高效的認(rèn)證機(jī)制,其具體過(guò)程如下。

⑴ 用戶(hù)向新浪微博開(kāi)放平臺(tái)提出開(kāi)發(fā)者服務(wù)申請(qǐng),提交實(shí)名身份認(rèn)證。

⑵ 向新浪微博開(kāi)放平臺(tái)OAuth服務(wù)商提交創(chuàng)建應(yīng)用請(qǐng)求,獲得應(yīng)用資料,并將其中的應(yīng)用編號(hào)App Key和應(yīng)用口令A(yù)pp Secret寫(xiě)入認(rèn)證程序配置文件。

⑶ 利用新浪微博 SDK 提供的認(rèn)證程序,向新浪微博服務(wù)器提交API使用申請(qǐng),填寫(xiě)申請(qǐng)者微博賬號(hào)、口令,獲取第三方軟件應(yīng)用許可。

⑷ 申請(qǐng)成功后,服務(wù)器在瀏覽器返回URL地址中提供一個(gè)由32位十六進(jìn)制數(shù)組成的認(rèn)證碼Access_code,用戶(hù)將此認(rèn)證碼提交給認(rèn)證服務(wù)器,服務(wù)器同意用戶(hù)請(qǐng)求,

向其頒發(fā)通過(guò)新浪微博授權(quán)的API調(diào)用令牌Access_Token與對(duì)應(yīng)的密鑰。

⑸ 用戶(hù)利用此令牌作為參量調(diào)用相應(yīng)的API接口。通過(guò)上述OAuth認(rèn)證登錄新浪微博開(kāi)放平臺(tái)成功后,用戶(hù)便可調(diào)用開(kāi)放平臺(tái)的各種接口,令牌使用期限為24小時(shí),超過(guò)期限后需重新進(jìn)行認(rèn)證才能繼續(xù)調(diào)用API接口。

1.2 轉(zhuǎn)發(fā)數(shù)獲取

2 數(shù)據(jù)統(tǒng)計(jì)分布情況

所統(tǒng)計(jì)的微博數(shù)量去除重復(fù)后,共計(jì)4253條。以2000為區(qū)間單位,統(tǒng)計(jì)轉(zhuǎn)發(fā)數(shù)落在每個(gè)區(qū)間內(nèi)的微博條數(shù)。統(tǒng)計(jì)表明,以轉(zhuǎn)發(fā)數(shù)在0-2000區(qū)間內(nèi)的微博最多,共計(jì)3963條。最少的轉(zhuǎn)發(fā)數(shù)區(qū)間的微博條數(shù)為0條,極差為3963。按微博轉(zhuǎn)發(fā)數(shù)分段統(tǒng)計(jì)情況如表2和圖2所示。可以判斷,轉(zhuǎn)發(fā)數(shù)的分布范圍很大,一定程度上符合Zipf定律,存在“爆發(fā)”現(xiàn)象。

從表2和圖2可見(jiàn),微博轉(zhuǎn)發(fā)數(shù)分布較大程度上符合Zipf定律。熱門(mén)的微博非常少,越冷門(mén)的微博數(shù)量越多。其中,轉(zhuǎn)發(fā)數(shù)在區(qū)間0-2000的微博數(shù)明顯高于其他區(qū)間,可視為“爆發(fā)點(diǎn)”。在該區(qū)間內(nèi),主要分布的大多是粉絲人數(shù)較少的用戶(hù)發(fā)布的微博,沒(méi)有龐大的粉絲基礎(chǔ),所以轉(zhuǎn)發(fā)數(shù)普遍很低。還有一部分微博雖然是有粉絲數(shù)較多的用戶(hù)發(fā)布的,但是該微博不能吸引用戶(hù)的興趣,不能成為熱點(diǎn)事件,轉(zhuǎn)發(fā)數(shù)也就普遍偏低。其中轉(zhuǎn)發(fā)數(shù)最高的微博為張杰在發(fā)布新單曲“我在這”時(shí),自己在路上邊走邊拍攝的一段視頻,該微博轉(zhuǎn)發(fā)數(shù)介于82000-84000區(qū)間。

3 原因分析

新浪微博中的冪律分布現(xiàn)象屬于復(fù)雜網(wǎng)絡(luò)中普遍存在的冪律分布現(xiàn)象的一種。在網(wǎng)絡(luò)動(dòng)態(tài)演化的過(guò)程中,成長(zhǎng)性和優(yōu)先連接性是無(wú)標(biāo)度網(wǎng)絡(luò)度分布呈現(xiàn)冪律的兩個(gè)最根本原因。所謂成長(zhǎng)性是指網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的增加,在本文中主要指新浪微博數(shù)量的增加,新微博的增加更多的是依靠大多數(shù)沒(méi)有巨大粉絲數(shù)量基礎(chǔ)的普通用戶(hù)發(fā)布的,也包括有巨大粉絲數(shù)量基礎(chǔ)的用戶(hù)所發(fā)布的那些不能引起用戶(hù)興趣和轉(zhuǎn)發(fā)欲望的微博。優(yōu)先連接性是指,轉(zhuǎn)發(fā)數(shù)高的熱門(mén)微博總是由粉絲數(shù)量基礎(chǔ)巨大的用戶(hù)發(fā)布或者轉(zhuǎn)發(fā),比如,一條新的有轉(zhuǎn)發(fā)價(jià)值的微博由普通用戶(hù)直接發(fā)布后,因?yàn)樵撚脩?hù)的粉絲數(shù)量很少,也不能被大量的用戶(hù)閱讀和轉(zhuǎn)發(fā),往往是這條微博在自己的少量用戶(hù)的粉絲圈里轉(zhuǎn)發(fā)后就被新熱點(diǎn)微博淹沒(méi)掉了。如果該條微博被粉絲數(shù)量基礎(chǔ)巨大的用戶(hù)轉(zhuǎn)發(fā)后,能閱讀和轉(zhuǎn)發(fā)該微博的用戶(hù)呈現(xiàn)出跳躍式增加的方式增多,就會(huì)被大量粉絲用戶(hù)轉(zhuǎn)發(fā),而轉(zhuǎn)發(fā)次數(shù)就呈現(xiàn)飆升的現(xiàn)象。并且隨著時(shí)間的演進(jìn),微博的轉(zhuǎn)發(fā)數(shù)逐漸呈現(xiàn)出一種轉(zhuǎn)發(fā)數(shù)多的會(huì)被轉(zhuǎn)的更多,轉(zhuǎn)發(fā)數(shù)少的微博直接被淹沒(méi)掉的現(xiàn)象。

參考文獻(xiàn):

[1] 姚科.開(kāi)放API:新浪微博必經(jīng)之路[J].互聯(lián)網(wǎng)天地,2010.8:73-74

[2] 胡海波,王林.冪律分布研究簡(jiǎn)史[J].物理,2005.12:889-890

[3] 黃延煒,劉嘉勇.新浪微博數(shù)據(jù)獲取技術(shù)研究[J].信息安全與通信保

密,2013.6:71-72

[4] 張嗣瀛.復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)自相似結(jié)構(gòu)的涌現(xiàn)規(guī)律[J].復(fù)雜系統(tǒng)與

復(fù)雜性科學(xué),2006.4:41-51

[5] 胡泳.冪律分布[J].商務(wù)周刊,2009.22:94

[6] 方愛(ài)麗,高齊圣,張嗣瀛.引文網(wǎng)絡(luò)的冪律分布檢驗(yàn)研究[J].統(tǒng)計(jì)與決

策,2007.14:22-24

主站蜘蛛池模板: 国产精品网拍在线| 日韩在线成年视频人网站观看| 国产午夜无码专区喷水| 亚洲an第二区国产精品| 精品99在线观看| 国产午夜一级毛片| 波多野结衣AV无码久久一区| 丁香六月激情综合| 无码啪啪精品天堂浪潮av| 亚洲欧美一级一级a| 国产高颜值露脸在线观看| 欧美午夜在线观看| 午夜限制老子影院888| 台湾AV国片精品女同性| 最新日本中文字幕| 国产地址二永久伊甸园| 亚洲中文字幕23页在线| 爱做久久久久久| 精品国产免费观看| 日韩经典精品无码一区二区| 手机精品福利在线观看| 国产一区二区福利| 欧美成一级| 五月天综合婷婷| 无码一区中文字幕| 国产精品成人不卡在线观看| 国产精品漂亮美女在线观看| 国产精品乱偷免费视频| 亚洲午夜国产精品无卡| 波多野结衣中文字幕久久| 精品日韩亚洲欧美高清a | www.国产福利| 欧美亚洲综合免费精品高清在线观看| 99热线精品大全在线观看| 欧美伊人色综合久久天天| 国产极品美女在线播放| 亚洲色偷偷偷鲁综合| jizz亚洲高清在线观看| 国产视频一二三区| 国产免费久久精品99re不卡| 秋霞午夜国产精品成人片| 国产乱人伦AV在线A| 亚洲综合香蕉| 欧美精品aⅴ在线视频| 亚洲欧美日本国产综合在线| 中美日韩在线网免费毛片视频| 国产精品视频a| 色噜噜在线观看| 国产在线观看人成激情视频| 漂亮人妻被中出中文字幕久久| 国产女人在线| 成人91在线| 国产SUV精品一区二区| 日韩在线视频网| 67194亚洲无码| 91午夜福利在线观看| 67194亚洲无码| 美女裸体18禁网站| 欧美精品综合视频一区二区| 精品亚洲麻豆1区2区3区 | 国产精品视频系列专区| 婷婷99视频精品全部在线观看 | 亚洲网综合| 五月天福利视频| 国产精品999在线| 国产福利小视频在线播放观看| 97视频在线精品国自产拍| 亚洲日本在线免费观看| 日韩欧美视频第一区在线观看| 国产大片喷水在线在线视频| 久久国产V一级毛多内射| 亚洲综合中文字幕国产精品欧美 | 亚洲欧洲天堂色AV| 亚洲国产成熟视频在线多多| 免费不卡视频| 精品黑人一区二区三区| 色香蕉影院| 四虎免费视频网站| 国内精品久久久久鸭| 天天做天天爱夜夜爽毛片毛片| 日韩精品成人网页视频在线| a级毛片免费网站|