陳興蜀,尹雅麗,李 衛(wèi),王文賢,王海舟
面向“人人網(wǎng)”的用戶信息采集及拓?fù)浣Y(jié)構(gòu)測(cè)量研究
陳興蜀,尹雅麗,李 衛(wèi),王文賢,王海舟
(四川大學(xué)計(jì)算機(jī)學(xué)院 成都 610065)
以“人人網(wǎng)”為例,研究社交網(wǎng)站數(shù)據(jù)采集技術(shù),并對(duì)其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行詳細(xì)研究。結(jié)果表明:1)“人人網(wǎng)”的節(jié)點(diǎn)度分布不同于一般社交網(wǎng)絡(luò)符合的冪律分布,更傾向于具有指數(shù)分布特征,且其度分布具有一定的重尾特性,在小范圍內(nèi)出現(xiàn)了類似小變量飽和現(xiàn)象,并且出現(xiàn)“雙峰”現(xiàn)象;2)“人人網(wǎng)”符合小世界特性;3)“人人網(wǎng)”具有同配性,節(jié)點(diǎn)度高的節(jié)點(diǎn)傾向于與高度節(jié)點(diǎn)連接;4) 用戶狀態(tài)數(shù)、照片數(shù)和訪客數(shù)沒有明顯的正相關(guān)特性。研究成果對(duì)于進(jìn)一步了解社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征具有重要意義,為后續(xù)實(shí)現(xiàn)資源監(jiān)管、跨社交網(wǎng)站的數(shù)據(jù)挖掘奠定了基礎(chǔ)。
主動(dòng)測(cè)量; 聚集系數(shù); 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu); 小世界網(wǎng)絡(luò)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以新浪微博、騰訊QQ空間、“人人網(wǎng)”等為代表的社交網(wǎng)絡(luò)發(fā)展壯大,吸引著越來(lái)越多的用戶。但是由于這一類“自媒體”普泛化、傳播快等特點(diǎn),使得一些不法分子有機(jī)可乘,利用社交網(wǎng)絡(luò)發(fā)布不良信息,對(duì)網(wǎng)民造成不良的引導(dǎo)作用。其中以“人人網(wǎng)”為代表的社交網(wǎng)站具有以下特點(diǎn):1) 用戶群雖然在近年來(lái)擴(kuò)展到每一個(gè)人,但是主要用戶仍為大學(xué)生,由于這類群體的特殊性,容易被不法分子利用;2) 具有傳播快、用戶多等特點(diǎn);3) 現(xiàn)有的社交網(wǎng)站只有針對(duì)瀏覽對(duì)象(包括隱私設(shè)置訪問(wèn)、瀏覽權(quán)限)的安全設(shè)置,沒有針對(duì)內(nèi)容安全的審查機(jī)制。因此對(duì)發(fā)布信息的采集以及其合法性檢測(cè)對(duì)于輿情監(jiān)控和信息安全等都具有十分重要的意義。本文以“人人網(wǎng)”為例,分析其網(wǎng)站結(jié)構(gòu)特點(diǎn),研究社交網(wǎng)站的數(shù)據(jù)采集技術(shù),以網(wǎng)絡(luò)爬蟲為基礎(chǔ),通過(guò)設(shè)計(jì)主題網(wǎng)絡(luò)爬蟲,實(shí)現(xiàn)對(duì)特定網(wǎng)頁(yè)的定向抓取,用正則表達(dá)式匹配出所需信息,存入數(shù)據(jù)庫(kù),用于后續(xù)分析,進(jìn)而實(shí)現(xiàn)對(duì)網(wǎng)站的監(jiān)管。本文實(shí)現(xiàn)了“人人網(wǎng)”數(shù)據(jù)采集系統(tǒng),并分析了“人人網(wǎng)”的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
目前,國(guó)內(nèi)外針對(duì)社交網(wǎng)站的研究主要集中在社交網(wǎng)絡(luò)的拓?fù)浞治鯷1]、用戶行為特征分析[2-3]、社交網(wǎng)絡(luò)中的信息傳播、安全隱私問(wèn)題、網(wǎng)絡(luò)拓?fù)溲莼P蚚4]、用戶影響力度量以及社交網(wǎng)絡(luò)盈利模式研究等方面。文獻(xiàn)[5]從測(cè)量角度對(duì)在線社會(huì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、用戶行為和網(wǎng)絡(luò)演化等方面進(jìn)行了綜述,總結(jié)了常見的測(cè)量方法和典型的網(wǎng)絡(luò)拓?fù)鋮?shù),著重介紹了用戶行為特征、用戶行為對(duì)網(wǎng)絡(luò)拓?fù)涞挠绊懸约熬W(wǎng)絡(luò)的演化。文獻(xiàn)[2]基于“人人網(wǎng)”用戶主頁(yè)的行為記錄數(shù)據(jù),對(duì)個(gè)體行為和群體互動(dòng)行為的時(shí)間統(tǒng)計(jì)特性進(jìn)行實(shí)證研究;并針對(duì)“人人網(wǎng)”群體互動(dòng)行為設(shè)計(jì)了社交驅(qū)動(dòng)系數(shù)影響下的興趣驅(qū)動(dòng)模型。文獻(xiàn)[3]分析社交網(wǎng)絡(luò)中的用戶行為,總結(jié)出了SNS中的用戶行為圖譜,研究了社交網(wǎng)絡(luò)中的用戶影響力模型。文獻(xiàn)[6]把OSN的聚類系數(shù)與用不同算法生成的網(wǎng)絡(luò)聚類系數(shù)進(jìn)行對(duì)比,發(fā)現(xiàn)OSN的聚類系數(shù)要遠(yuǎn)大于理論模型的聚類系數(shù)。文獻(xiàn)[7]通過(guò)對(duì)Facebook的用戶交互,提出社會(huì)關(guān)系加強(qiáng)模型來(lái)量化人際關(guān)系指標(biāo)。
相比以上的研究工作,本文采用申請(qǐng)應(yīng)用的方式獲得了“人人網(wǎng)”提供的API,通過(guò)調(diào)用API接口快速、高效地獲取用戶的完整的好友關(guān)系,該方法能有效解決通用網(wǎng)絡(luò)爬蟲抓取信息時(shí)存在的數(shù)據(jù)采集不完整等問(wèn)題。基于采集的數(shù)據(jù),對(duì)“人人網(wǎng)”網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行詳細(xì)研究,包括了“人人網(wǎng)”網(wǎng)絡(luò)拓?fù)涞木奂禂?shù)、同配系數(shù)、平均最短路徑長(zhǎng)度、平均度和度分布和小世界特性。本文的研究成果對(duì)進(jìn)一步分析社交網(wǎng)絡(luò)的用戶行為、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)具有重要意義,為跨社交網(wǎng)站的數(shù)據(jù)挖掘研究奠定了良好基礎(chǔ)。
通過(guò)對(duì)“人人網(wǎng)”網(wǎng)站結(jié)構(gòu)分析,發(fā)現(xiàn)該網(wǎng)站用戶個(gè)人資料(包括基本信息、學(xué)校信息、聯(lián)系方式),用戶好友關(guān)系及用戶狀態(tài)等數(shù)據(jù)具有重要價(jià)值。而獲取這些信息首先需要用戶ID,然后根據(jù)ID采集每個(gè)用戶的信息。其次,針對(duì)話題,一般以話題標(biāo)題的小寫字母表示,并作為該話題的唯一標(biāo)識(shí),因此采集前需要采集話題的名字,然后根據(jù)該名字(話題ID)采集該話題的具體內(nèi)容和評(píng)論。該系統(tǒng)由用戶ID和用戶好友關(guān)系采集模塊、用戶個(gè)人資料和狀態(tài)采集模塊、話題ID采集模塊、話題評(píng)論內(nèi)容采集模塊和數(shù)據(jù)存儲(chǔ)模塊5部分組成。
2.1 用戶主頁(yè)信息統(tǒng)計(jì)分析
本文統(tǒng)計(jì)了兩個(gè)數(shù)據(jù)集的好友數(shù)和訪客數(shù)的關(guān)系,數(shù)據(jù)集1(data1):目前采集到的所有數(shù)據(jù)中好友數(shù)在1~1 000的107 567個(gè)用戶;數(shù)據(jù)集2(data2):不限制好友數(shù)的112 454個(gè)用戶。統(tǒng)計(jì)其好友數(shù)和訪客數(shù)的關(guān)系,數(shù)據(jù)集2的統(tǒng)計(jì)結(jié)果如圖1所示。

圖1 用戶好友數(shù)和訪客數(shù)關(guān)系
從圖1可以看出用戶好友數(shù)在0~2 500時(shí),訪客數(shù)主要集中在10 000以下,當(dāng)用戶好友數(shù)大于2 500時(shí),訪客數(shù)分布無(wú)特定規(guī)律。數(shù)據(jù)集1的統(tǒng)計(jì)結(jié)果和圖1類似,該數(shù)據(jù)集主要用于與文獻(xiàn)[2]的測(cè)量結(jié)果進(jìn)行對(duì)比。分析圖1可知,用戶好友數(shù)和訪客數(shù)沒有明顯的正相關(guān)特性,而文獻(xiàn)[2]通過(guò)統(tǒng)計(jì)272個(gè)好友數(shù)在1~1 000的用戶的好友數(shù)和訪客數(shù)的關(guān)系,發(fā)現(xiàn)其存在一定的正相關(guān)特性。本文得出的結(jié)論與文獻(xiàn)[2]不同,可能的原因是文獻(xiàn)[2]的數(shù)據(jù)集太小,導(dǎo)致得到了完全不同的相關(guān)特征。另外,對(duì)用戶狀態(tài)數(shù)、照片數(shù)和訪客數(shù)也進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)統(tǒng)計(jì)結(jié)果都集中在一個(gè)范圍內(nèi),沒有如文獻(xiàn)[2]所顯示的明顯的正相關(guān)特性。
2.2 用戶行為特征分析
對(duì)爬取的114 034個(gè)用戶ID進(jìn)行統(tǒng)計(jì),其中由于用戶設(shè)置了權(quán)限,或者賬號(hào)已被注銷等因素?zé)o法獲取主頁(yè)數(shù)據(jù)有的ID有1 088個(gè),占總用戶的0.954%。采集用戶個(gè)人資料時(shí),對(duì)5 612個(gè)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)填寫了個(gè)人資料的用戶只有237個(gè),只占總數(shù)的4.223%,說(shuō)明大多數(shù)用戶不愿意公開自己的隱私信息,而這部分信息恰好是利用價(jià)值最高的,對(duì)于這部分?jǐn)?shù)據(jù),“人人網(wǎng)”可以采取一定的激勵(lì)機(jī)制,促使用戶完善信息,用戶個(gè)人資料的完整性是后續(xù)數(shù)據(jù)挖掘中的關(guān)鍵。
3.1 節(jié)點(diǎn)度和度分布
節(jié)點(diǎn)度是指與該節(jié)點(diǎn)相關(guān)聯(lián)的邊的條數(shù)[4]。在現(xiàn)實(shí)網(wǎng)絡(luò)中,兩種節(jié)點(diǎn)度分布比較常見:一種是指數(shù)分布,另一種是冪律分布[1]。“人人網(wǎng)”中節(jié)點(diǎn)度是指某一用戶的好友個(gè)數(shù)。為描述“人人網(wǎng)”的度分布,本文使用指數(shù)函數(shù)和冪律函數(shù)對(duì)幾組數(shù)據(jù)集進(jìn)行擬合。擬合函數(shù)為:

式中,式(1)為冪函數(shù),式(2)為指數(shù)函數(shù)。對(duì)4組數(shù)據(jù)(分別含有31 746個(gè)節(jié)點(diǎn)、57 733個(gè)節(jié)點(diǎn)、79 594個(gè)節(jié)點(diǎn)和85 010個(gè)節(jié)點(diǎn))進(jìn)行擬合,選取其中兩組擬合結(jié)果如圖2、圖3所示。

圖2 57 733個(gè)節(jié)點(diǎn)的度分布圖

圖3 85 010個(gè)節(jié)點(diǎn)的度分布圖
對(duì)4組數(shù)據(jù)進(jìn)行冪函數(shù)和指數(shù)函數(shù)擬合得到的參數(shù)分別如表1、表2所示。

表1 冪函數(shù)擬合效果和參數(shù)表

表2 指數(shù)函數(shù)擬合效果和參數(shù)表
由表1、表2可以看出:對(duì)數(shù)據(jù)進(jìn)行冪函數(shù)擬合得到的擬合優(yōu)度分別為:0.854 97、0.904 2、0.885 77、0.890 63;對(duì)數(shù)據(jù)進(jìn)行指數(shù)函數(shù)擬合得到的擬合優(yōu)度分別為:0.928 65、0.953 12、0.956 75、0.959 84。從兩個(gè)表的數(shù)據(jù)可以看出,隨著節(jié)點(diǎn)數(shù)的增多,擬合優(yōu)度值R2有增長(zhǎng)的趨勢(shì)。但是數(shù)據(jù)經(jīng)過(guò)冪函數(shù)擬合得到的擬合優(yōu)度在0.9附近,最高的也只有0.904 2;而經(jīng)過(guò)指數(shù)函數(shù)擬合得到的擬合優(yōu)度R2都大于0.9,且隨著節(jié)點(diǎn)數(shù)的增多,越接近1。說(shuō)明“人人網(wǎng)”的節(jié)點(diǎn)度分布符合冪律分布的程度比較低,它更傾向于符合指數(shù)分布,且呈指數(shù)衰減趨勢(shì)。
從圖中可以看出,在雙對(duì)數(shù)坐標(biāo)系下,“人人網(wǎng)”節(jié)點(diǎn)度分布具有冪律分布的重尾特征,但是冪律分布的程度比較低。且圖中出現(xiàn)了類似小變量飽和現(xiàn)象,即網(wǎng)絡(luò)中較小強(qiáng)度節(jié)點(diǎn)的強(qiáng)度分布是接近飽和的。并且在小范圍內(nèi)形成了類似文獻(xiàn)[4,8]所發(fā)現(xiàn)的“雙峰”現(xiàn)象。文獻(xiàn)[8]提出,這種新的多峰分布對(duì)網(wǎng)絡(luò)可靠性有一定的影響,更統(tǒng)一的連接分布可能會(huì)保存網(wǎng)絡(luò)處理隨機(jī)節(jié)點(diǎn)故障的能力,減少對(duì)高度連接節(jié)點(diǎn)的依賴性。
3.2 聚集系數(shù)
集聚系數(shù)(clustering coefficient)用于描述一個(gè)節(jié)點(diǎn)鄰居之間的相互連接的緊密程度,即網(wǎng)絡(luò)的集團(tuán)化程度,是網(wǎng)絡(luò)拓?fù)涞牧硪粋€(gè)重要參數(shù)[4]。節(jié)點(diǎn)i的簇系數(shù)ic描述的是網(wǎng)絡(luò)中與該節(jié)點(diǎn)直接相連的節(jié)點(diǎn)之間的連接關(guān)系,即與該節(jié)點(diǎn)直接相鄰的節(jié)點(diǎn)間實(shí)際存在的邊數(shù)目占最大可能存在的邊數(shù)的比例,iC的表達(dá)式為,式中ik表示節(jié)點(diǎn)i的度,ei表示節(jié)點(diǎn)i的鄰接點(diǎn)之間實(shí)際存在的邊數(shù),網(wǎng)絡(luò)的聚集系數(shù)C為所有節(jié)點(diǎn)聚集系數(shù)的算術(shù)平均值,計(jì)算公式為[1]:

式中,N為網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)。對(duì)“人人網(wǎng)”的聚集系數(shù)進(jìn)行計(jì)算,得到表3所示的結(jié)果,節(jié)點(diǎn)數(shù)131、281、526、1 078、2 383的聚集系數(shù)分別為:0.689、0.649、0.513、0.313、0.259。可以看出,隨著數(shù)據(jù)集的增大,聚集系數(shù)有降低的趨勢(shì),但是整體水平仍然比較高。文獻(xiàn)[9]指出,網(wǎng)絡(luò)同時(shí)具有較小的平均路徑長(zhǎng)度和較大的集聚系數(shù),這類網(wǎng)絡(luò)稱為小世界網(wǎng)絡(luò)。因此,聚集系數(shù)也是體現(xiàn)小世界特性的一個(gè)參數(shù)。

表3 “人人網(wǎng)”用戶平均最短路徑長(zhǎng)和聚集系數(shù)比較
3.3 小世界特性
小世界特性是指一個(gè)網(wǎng)絡(luò)如果它具有較短的平均路徑長(zhǎng)度(有文獻(xiàn)指出同時(shí)具有較大聚集系數(shù)[9]),那么這個(gè)網(wǎng)絡(luò)稱為小世界網(wǎng)絡(luò)[10]。平均最短路徑長(zhǎng)度是指網(wǎng)絡(luò)中所有節(jié)點(diǎn)對(duì)之間最短路徑的平均值,通常以節(jié)點(diǎn)間的跳數(shù)作為度量來(lái)計(jì)算,平均最短路徑長(zhǎng)度的計(jì)算公式為[4]:

式中,N為網(wǎng)絡(luò)中節(jié)點(diǎn)個(gè)數(shù);ijd為節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的最短路徑長(zhǎng)度。
對(duì)“人人網(wǎng)”的幾組數(shù)據(jù)的平均最短路徑長(zhǎng)度進(jìn)行計(jì)算,得到表3所示結(jié)果。

表4 小世界特性對(duì)照表
表3分別代表由131、281、526、1 078、2 383個(gè)節(jié)點(diǎn)的平均最短路徑長(zhǎng)度和聚集系數(shù),其中平均最短路徑長(zhǎng)度分別為:2.032、2.046、3.622、7.041、4.946,最大為7,最小為2。由上述結(jié)果可看出,隨著節(jié)點(diǎn)數(shù)的增多,平均最短路徑長(zhǎng)有升高的趨勢(shì),但是最高也在6~7左右,說(shuō)明“人人網(wǎng)”在一定范圍內(nèi)符合六度分隔理論,且數(shù)據(jù)集越大,越接近真實(shí)水平。表4表示在相同節(jié)點(diǎn)數(shù)和平均頂點(diǎn)度的情況下隨機(jī)網(wǎng)絡(luò)(ER: random network)和“人人網(wǎng)”的聚集系數(shù)、平均最短路徑長(zhǎng)和邊數(shù)對(duì)照情況。由表4中數(shù)據(jù)可以看出,同樣情況下,“人人網(wǎng)”和隨機(jī)網(wǎng)絡(luò)(ER)的平均最短路徑長(zhǎng)差別不大,但是“人人網(wǎng)”的聚集系數(shù)要遠(yuǎn)遠(yuǎn)大于隨機(jī)網(wǎng)絡(luò)的聚集系數(shù)。由此說(shuō)明,“人人網(wǎng)”具有較小平均最短路徑長(zhǎng)和較大聚集系數(shù),“人人網(wǎng)”符合小世界特性。
另外,從邊數(shù)增長(zhǎng)的速度來(lái)看,隨著節(jié)點(diǎn)數(shù)的增多,邊數(shù)增長(zhǎng)越來(lái)越緩慢,說(shuō)明“人人網(wǎng)”中用戶呈一定的社團(tuán)化。社團(tuán)化是指一組節(jié)點(diǎn),這組節(jié)點(diǎn)構(gòu)成一個(gè)連通子圖,它們之間的連接要密于它們與外界節(jié)點(diǎn)的連接[5]。即用戶更傾向于與一個(gè)范圍內(nèi)的人聯(lián)系,而范圍之間聯(lián)系就不那么密切。
3.4 同配性
無(wú)標(biāo)度性質(zhì)和同配性說(shuō)明社交網(wǎng)絡(luò)中有一些緊密連接的度較大的核心,它們把整個(gè)網(wǎng)絡(luò)連接起來(lái),度較小的節(jié)點(diǎn)分布在網(wǎng)絡(luò)的邊緣[5]。分析網(wǎng)絡(luò)的同配性,對(duì)于揭示網(wǎng)絡(luò)自身組織結(jié)構(gòu)與形成機(jī)制有著重要意義,也可以進(jìn)一步量化社交網(wǎng)絡(luò)的度相關(guān)性。同配性的計(jì)算公式為:

式中,ji和ki分別為第i條邊的兩個(gè)端點(diǎn)的度,i=1,2,…,M,M為網(wǎng)絡(luò)邊數(shù);?1≤r≤1。該系數(shù)描述網(wǎng)絡(luò)中的節(jié)點(diǎn)和與其度相同的節(jié)點(diǎn)連接的傾向性;若r>0,網(wǎng)絡(luò)是同配的(assortative),表示節(jié)點(diǎn)傾向于和與其度相同的節(jié)點(diǎn)連接;若r<0,網(wǎng)絡(luò)是異配的(disassortative),表示節(jié)點(diǎn)傾向于和與其度相異的節(jié)點(diǎn)連接。
文獻(xiàn)[11]測(cè)得“人人網(wǎng)”同配系數(shù)為0.15。本文通過(guò)4組數(shù)據(jù)集計(jì)算“人人網(wǎng)”的同配系數(shù),結(jié)果如表5所示。

表5 同配系數(shù)
由表5結(jié)果可以看出,“人人網(wǎng)”同配系數(shù)0r>,最大為0.833 3,最小為0.541 9,說(shuō)明“人人網(wǎng)”是同配的。也從另一個(gè)方面反映了“人人網(wǎng)”的無(wú)尺度特性。隨著數(shù)據(jù)集越大,同配系數(shù)有減小的趨勢(shì),但是越來(lái)越接近真實(shí)水平。
本文分析了“從網(wǎng)”網(wǎng)站特點(diǎn),探索了用戶模擬登陸過(guò)程,為了解決好友關(guān)系獲取的完整性,通過(guò)調(diào)用“人人網(wǎng)”API的方式獲得完整好友關(guān)系;設(shè)計(jì)并實(shí)現(xiàn)了數(shù)據(jù)采集系統(tǒng),采集用戶主頁(yè)數(shù)據(jù)、好友關(guān)系、用戶狀態(tài)、個(gè)人資料、話題ID和話題評(píng)論。詳細(xì)研究了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),包括“人人網(wǎng)”網(wǎng)絡(luò)拓?fù)涞木奂禂?shù)、同配系數(shù)、平均最短路徑長(zhǎng)度、平均度和度分布以及小世界特性。得出以下結(jié)論:
1) “人人網(wǎng)”節(jié)點(diǎn)度分布不同于一般社交網(wǎng)絡(luò)服從冪律分布,而是更符合指數(shù)分布特點(diǎn);且出現(xiàn)了類似小變量飽和現(xiàn)象,并且在小范圍內(nèi)形成了“雙峰”現(xiàn)象;
2) “人人網(wǎng)”具有較小的平均最短路徑長(zhǎng)和較大的聚集系數(shù),符合小世界特性;
3) 計(jì)算得出“人人網(wǎng)”同配系數(shù)大于0,說(shuō)明“人人網(wǎng)”具有同配性,節(jié)點(diǎn)度高的節(jié)點(diǎn)傾向于與高度節(jié)點(diǎn)連接;
4) 通過(guò)分析“人人網(wǎng)”用戶主頁(yè)信息,發(fā)現(xiàn)其用戶狀態(tài)數(shù)、照片數(shù)和訪客數(shù)主要集中在一個(gè)范圍內(nèi),沒有明顯的正相關(guān)特性。
本文的研究成果對(duì)進(jìn)一步分析社交網(wǎng)絡(luò)的用戶行為、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)具有重要意義,為跨社交網(wǎng)站的數(shù)據(jù)挖掘研究奠定了良好基礎(chǔ)。后續(xù)的工作主要包括:首先,針對(duì)采集的大量數(shù)據(jù),進(jìn)行文本分析,挖掘關(guān)于用戶信息的一些更深層的東西,如可以根據(jù)“人人網(wǎng)”用戶信息的真實(shí)性和用戶群的特殊性研究用戶的專業(yè)和用戶行為的特點(diǎn),實(shí)現(xiàn)跨社交網(wǎng)站的數(shù)據(jù)挖掘;其次,可對(duì)該采集系統(tǒng)進(jìn)行擴(kuò)展,通過(guò)設(shè)置配置參數(shù)來(lái)實(shí)現(xiàn)針對(duì)不同社交網(wǎng)站的信息定向抓取,提高其通用性。
[1] 陳興蜀, 郝正鴻, 王海舟, 等. P2P網(wǎng)絡(luò)電視拓?fù)錅y(cè)量方法研究與特性分析[J]. 四川大學(xué)學(xué)報(bào): 工程科學(xué)版, 2012, 44(3): 86-94. CHEN Xing-shu, HAO Zheng-hong, WANG Hai-zhou, et al. Measuring and characterizing topologies of P2P IPTV[J]. Journal of SiChuan University (Engineering Science Edition), 2012, 44(3): 86-94.
[2] 尤婷. 社交網(wǎng)站用戶行為特征及其內(nèi)在機(jī)制研究——以“人人網(wǎng)”為例[D]. 北京: 北京郵電大學(xué), 2012. YOU Ting. The research on social-networking users’behavior characteristics and interior mechanism: Take renren.com for example[D]. Beijing: University of Posts and Telecommunications, 2012.
[3] 鄧夏偉. 基于社交網(wǎng)絡(luò)的用戶行為研究——用戶行為分析與用戶影響力建模[D]. 北京: 北京交通大學(xué), 2012. DENG Xia-wei. User behavior analysis based on social network service-user behavior analysis and user influence modeling[D]. Beijing: Beijing Jiao tong University, 2012.
[4] 姜志宏. 大規(guī)模P2PTV系統(tǒng)測(cè)量與建模研究[D]. 長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué), 2011. JIANG Zhi-hong. Research on modeling and measurement of large scale P2P TV systems[D]. Changsha: National University of Defense Technology, 2011.
[5] 徐恪, 張賽, 陳昊, 等. 在線社會(huì)網(wǎng)絡(luò)的測(cè)量與分析[J].計(jì)算機(jī)學(xué)報(bào), 2014, 37(1): 165-188. XU Ke, ZHANG Sai, CHEN Hao, et al. Measurement and analysis of online social networks[J]. Chinese Journal of Computers, 2014, 37(1): 165-188.
[6] MISLOVE A, MARCON M, GUMMADI K P, et al. Measurement and analysis of online social networks[C]// Proceedings of the 7th ACM SIGCOMM conference on Internet measurement. [s.l.]: ACM, 2007: 29-42.
[7] WILSON C, BOE B, SALA A, et al. User interactions in social networks and their implications[C]//Proceedings of the 4th ACM European Conference on Computer Systems. [s.l.]: ACM, 2009: 205-218.
[8] MATEI R, IAMNITCHI A, FOSTER I. Mapping the Gnutella network[J]. Internet Computing, 2002, 6(1): 50-57.
[9] 汪小帆, 李翔, 陳關(guān)榮. 復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M]. 北京: 清華大學(xué)出版社有限公司, 2006. WANG Xiao-fan, LI Xiang, CHEN Guan-rong. Complex networks theory and its application[M]. Beijing: Tsinghua university press co, LTD, 2006.
[10] NEWMAN, MARK E J. The structure and function of complex networks[J]. SIAM Review, 2003, 45(2): 167-256.
[11] JIANG J, WILSON C, WANG X, et al. Understanding latent interactions in online social networks[J]. ACM Transactions on the Web (TWEB), 2013, 7(4): 18.
編 輯 蔣 曉
Measurement Study of Topologies Characteristics for “Renren” Social Networking System
CHEN Xing-shu, YIN Ya-li, LI Wei, WANG Wen-xian, and WANG Hai-zhou
(College of Computer, Sichuan University Chengdu 610065)
In this paper, taking as “Renren” for example, the social networking site’s data collection technology is studied. The collected data is used to study “Renren”s topological structure. The results show that, 1) different from general social networks’ power-law distribution, the node degree distribution of “Renren” tends to follow an exponential distribution; “Renren”s degree distribution has some heavy-tailed feature, and there is a saturation phenomenon of small variables on a small scale; it also presents the “double peak” phenomenon; 2) “Renren”has a smaller average shortest path length and a larger clustering coefficient, which means the small world characteristics; 3) “Renren” shows the assortativity, which means the node with high degrees is inclined to connection to the nodes with high degree; 4) No obvious positive correlation is found in status number, photos number and the visitors number of “Renren” users. The results are of great significance for the further understanding of the “Renren” and other social networks’ topology structure, and they will lay a foundation for resources supervision and cross-social network site’s data mining.
active measurement; clustering coefficient; network topology; small-world networks
TP393.08
A
10.3969/j.issn.1001-0548.2015.06.023
2014 ? 10 ? 12;
2015 ? 03 ? 15
國(guó)家科技支撐計(jì)劃(2012BAH18B05);國(guó)家自然科學(xué)基金(61272447)
陳興蜀(1969 ? ),女,教授,博士生導(dǎo)師,主要從事信息安全、云計(jì)算安全等方面的研究.