999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網絡數據采集方法研究及社團結構分析

2016-03-24 02:43:52尹雅麗
現代計算機 2016年8期
關鍵詞:用戶研究

尹雅麗

(四川大學計算機學院,成都 610065)

社交網絡數據采集方法研究及社團結構分析

尹雅麗

(四川大學計算機學院,成都 610065)

在線社交網站擁有大量用戶,且越來越受歡迎。研究社交網絡的用戶行為和群體結構特征對理解人類的社會行為、群體特征和加強對社交網絡的拓撲結構理解具有重要意義。以人人網為例,詳細研究社交網站的數據采集技術,并對人人網社團結構進行分析。研究發現:人人網具有明顯的社團結構特征。研究成果對于進一步了解人人網等社交網絡的拓撲結構特征具有重要意義,數據采集的結果為大數據分析奠定該基礎。

社交網絡;人人網;數據采集;社團

0 引言

隨著Web2.0時代的到來,互聯網技術蓬勃發展,各種社交網絡也在近幾年呈爆發式發展。人人網作為當前比較流行的社交應用之一,由中國互聯網絡信息中心(以下簡稱信息中心)2016年2月發布的調查結果來看[1],人人網的使用率為15.6%,次于QQ空間(使用率為65.1%)和微博(33.5%)。雖然在近幾年人人網的用戶活躍度有所降低,但是它龐大的用戶群體仍然是值得深入研究的對象。人人網的用戶主體是大學生。據“信息中心”的調查結果,中國網民職業結構中顯示,網民中學生群體的占比最高,為25.2%[1],而學生群體是最容易受鼓動和利用的群里,容易被不法分子利用。因此對人人網發布信息的采集以及其合法性檢測對于輿情監控和信息安全等都具有十分重要的意義。本文以人人網為例,分析其網站結構特點,研究社交網站數據的采集技術,以網絡爬蟲為基礎,實現了人人網數據采集系統,并以采集到的真實數據為基礎,分析了人人網的社團結構特點。

目前,國內外針對社交網站的研究主要集中在社交網絡的拓撲分析[2-3]、用戶行為特征分析[4-5]、社交網絡中的信息傳播[6]、安全隱私問題[7]、網絡拓撲演化模型[8]等方面。尤婷[4]基于人人網用戶主頁的行為記錄數據,對個體行為和群體互動行為的時間統計特性進行實證研究;在對于人人網用戶行為的時間統計特性進行深度分析基礎上,針對人人網群體互動行為設計了社交驅動系數影響下的興趣驅動模型;利用MATLAB工具對該模型進行了有效的驗證,并根據實證分析驗證結論,給出社交網站產品改進及盈利模式探索的建議。鄧夏偉[5]分析社交網絡中的用戶行為,總結出了SNS中的用戶行為圖譜,探討了SNS中用戶行為數據的采集,并根據采集到的樣本對用戶行為進行數據分析,研究了社交網絡中的用戶影響力模型。

1 社團

社團(也稱為“社區”、“簇”、“模塊”)是一組內部聯系緊密,外部聯系稀疏的節點集合[9]。圖1是一個小規模的包含三個社團的網絡結構示意圖:

圖1 小規模社團示意圖

數學描述:設圖G=G(V,E),所謂社區發現是指在圖中確定nc(>=1)個社區:

使得各社區的頂點集合構成V的一個覆蓋[10]。

社團這個概念最初由Girvan和Newman提出[11],逐漸被廣泛引用,經過十多年的發展,越來越成熟,現以成為復雜網絡研究領域的熱點和重要研究方向。比較經典的社區發現案例包括空手道俱樂部(Karate Club),科學家合作網絡(Collaboration Network)和斑馬群體(Zebras)的社交行為研究等,其中著名的空手道俱樂部社區已經成為通常檢驗社區發現算法效果的標準(benchmark)之一。

2 Fast Unfolding算法

Fast Unfolding算法最初是由Vincent D.Blondel等人于2008年提出[12],它是一種基于Modularity Opti-mization的啟發式算法,算法流程如下:

(1)初始化,將每個節點劃分在不同的社區中;

(2)逐一選擇各個節點,根據公式(1)計算將它分到它的鄰居社區中得到Modularity增益;如果最大增益大于0,則將它劃分到對應的鄰居社區;否則,保持歸屬于原社區;

(3)重復(2),直到節點的社區不再發生變化;

(4)構建新圖;新圖中的點代表上一階段產生的不同社區,邊的權重為兩個社區中所有節點對的邊權重之和;重復(2),直到獲得最大的Modularity值。

該算法的優點:

●算法步驟直觀、實現簡單,且結果是無監督的。

●該算法非常快:計算機模擬大規模網絡,使用經典的稀疏矩陣,其復雜度為:O(n)。原因是使用公式(2-1),在幾輪步驟后,社區數量大幅減小,大部分的運行時間集中在第一個迭代過程中。

3 人人網數據采集系統

數據采集是本文研究的重點,同時也是數據分析的基礎。本文通過對人人網網站結構分析,設計爬蟲,實現對人人網用戶ID的采集,然后根據ID采集每個用戶的信息。本文采集人人網數據的系統架構如圖2所示:

圖2 人人網數據采集系統框架

該系統由四部分組成,分別是人人網用戶ID和用戶好友關系采集模塊、人人網用戶個人資料、狀態采集模塊、和數據存儲模塊。

(1)人人網用戶ID和用戶好友關系采集模塊

該模塊主要用于采集用戶ID用戶個人信息和好友ID,本文通過調用人人網API,以廣度優先的方式采集人人網用戶ID和人人網的好友關系。首先,在網絡爬蟲采集數據之前,需要實現人人網的模擬登錄過程。其次,通過Web網絡爬蟲的方式能夠采集到一些數據,但是大部分用戶設置了訪問權限,或者有些用戶已經注銷了人人賬號,使得信息獲取不完整。本文采用調用人人網提供API獲取數據。

圖3展示獲取的部分好友關系構成的拓撲結構圖:

圖3 人人網部分好友關系結構圖

(2)人人網用戶個人資料和狀態采集模塊

該模塊根據上一步采集到的用戶ID組合特定的URL鏈接,通過HTTP協議請求指定用戶的個人資料頁面和狀態頁面,并通過正則表達式提取出用戶的個人資料和狀態。用戶狀態信息也是使用類似的方法獲取。

(3)數據存儲模塊

該模塊負責將上述四個模塊采集到的數據存儲到數據庫表中,用于各個模塊調用和后續數據分析。

4 社團結構發現

本文使用上文中介紹的Fast Unfolding算法對人人網數據進行社團發現,選擇3組數據,結果如下:

表2 人人網社區劃分結果

由表2可以看出,隨著數據集的增大,人人網用戶關系網絡的社區劃分結果的模塊度值越來越高,這說明當數據越來越接近真實水平時,模塊度的值也越來越接近真實水平。同時,人人網社區劃分結果具有較高的模塊度值,也和數據采集策略有關,本文數據采集時是從用戶ID出發,獲取其所有好友,在獲取好友的好友,以此類推。因此,結果表明,人人網用戶關系網絡具有較強的社區結構特征。

5 結語

本文以人人網為例,研究社交網絡的數據采集技術,設計了人人網數據采集系統;并根據真實數據,對人人網進行社團發現。實驗結果表明,人人網是具有高度社團結構的社交網絡,根據數據集大小的不同,模塊度的值有所變化,但是整體模塊度的值都在0.9以上。

[1]中國互聯網絡信息中心(CNNIC).第37次中國互聯網絡發展狀況統計報告[R].北京:中國互聯網信息中心,2016.

[2]陳興蜀,郝正鴻,王海舟,胡鑫.P2P網絡電視拓撲測量方法研究與特性分析[J].四川大學學報:工程科學版,2012,44(3):86-94.

[3]王勇,云曉春,李奕飛.對等網絡拓撲測量與特征分析[J].軟件學報,2008,19(4):981-992.

[4]尤婷.社交網站用戶行為特征及其內在機制研究——以“人人網”為例[D].碩士,北京郵電大學,2012.

[5]鄧夏偉.基于社交網絡的用戶行為研究——用戶行為分析與用戶影響力建模[D].碩士,2012,北京交通大學.

[6]劉衍珩,李飛鵬,孫鑫,等.基于信息傳播的社交網絡拓撲模型[J].通信學報,2013,34(4):1-9.

[7]孫劍,朱曉妍,劉沫盟,等.社交網絡中的安全隱私問題研究[J].網絡安全技術與應用,2011(10):76-79.

[8]姜志宏.大規模P2PTV系統測量與建模研究[D].博士,國防科學技術大學,2011.

[9]Newman M E J,Girvan M.Finding and Evaluating Community Structure in Networks[J].Physical review E,2004,69(2):026113.

[10]Community Detection算法[EB/OL].http://blog.csdn.net/itplus/article/details/9286905.2016.2.25

[11]Girvan M,Newman M E J.Community Structure in Social and Biological Networks[J].Proceedings of the National Academy of Sciences,2002,99(12):7821-7826.

[12]Blondel V D,Guillaume J L,Lambiotte R,et al.Fast Unfolding of Communities in Large Networks[J].Journal of Statistical Mechanics: Theory and Experiment,2008(10):P10008.

Social Network Data Collection Method Research and the Community Structure Analysis

YIN Ya-li

(College of Computer Science,Sichuan University,Chengdu 610065)

Online social networking sites have a large number of users,and more and more popular.Research of social network user behavior and group structure features in understanding human social behavior,group characteristics,and strengthen the social network topological structure of understanding is of great significance.Takes Renren as an example,studies the data acquisition technology,social networking sites and analyzes the Renren community structure in details.The study found that:Renren have clear community structure.This research results for the further understanding of the Renren and other social networks topology structure is of great significance,the results of the data acquisition has paved the way for the big data analysis.

SNS;Renren;Data Collection;Community Structure

1007-1423(2016)08-0031-04

10.3969/j.issn.1007-1423.2016.08.006

尹雅麗(1989-),女,四川眉山人,研究生,研究方向為網絡安全、云計算

2016-03-01

2016-03-05

國家科技支撐計劃資助項目(No.2012BAH18B05)

猜你喜歡
用戶研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
主站蜘蛛池模板: 91最新精品视频发布页| 欧美成人aⅴ| 国产人成乱码视频免费观看| 在线国产资源| 亚洲国产日韩一区| 九九热精品在线视频| 97国产一区二区精品久久呦| 国产熟睡乱子伦视频网站| 免费无码AV片在线观看国产| a级毛片一区二区免费视频| 午夜福利在线观看成人| 成人国产精品2021| 亚洲成人77777| 毛片免费视频| 国产激情无码一区二区免费| 夜夜拍夜夜爽| 日韩精品成人网页视频在线| 成人午夜网址| 91亚瑟视频| a亚洲视频| 福利在线一区| 一级毛片不卡片免费观看| 亚洲精品在线影院| 99无码熟妇丰满人妻啪啪| 欧美一级片在线| 欧美三级自拍| 国产精品.com| 国产噜噜噜视频在线观看| 久久综合AV免费观看| 免费av一区二区三区在线| 国内熟女少妇一线天| 9cao视频精品| 国产精品夜夜嗨视频免费视频| 操国产美女| 国模沟沟一区二区三区| 色视频国产| 成人无码区免费视频网站蜜臀| 国产精品妖精视频| 成人亚洲天堂| 国产视频一区二区在线观看| 国产v精品成人免费视频71pao| 国外欧美一区另类中文字幕| 国产高清在线观看| 亚洲人成人伊人成综合网无码| 国产91精品调教在线播放| www.91在线播放| 亚洲人成在线免费观看| 99热国产这里只有精品无卡顿"| 99精品视频在线观看免费播放| 国产一区二区三区日韩精品| 欧美在线导航| 国产成人精品午夜视频'| 久久综合九色综合97婷婷| 日韩天堂在线观看| 国产三级成人| 国产成人精品午夜视频'| av一区二区三区在线观看| 免费欧美一级| 国产精品成人免费视频99| 国产在线精品人成导航| 久久精品国产电影| 日韩成人午夜| 午夜视频在线观看免费网站| 亚洲人在线| 国产v欧美v日韩v综合精品| 人妻无码AⅤ中文字| 在线观看无码av五月花| 91av成人日本不卡三区| 亚洲精品第一页不卡| 国产熟女一级毛片| 97青青青国产在线播放| 久久性视频| 日韩av在线直播| 亚洲视频欧美不卡| 国产白浆视频| 视频二区国产精品职场同事| 久久99精品久久久久纯品| 99re这里只有国产中文精品国产精品| 婷婷激情亚洲| 伊人久久久大香线蕉综合直播| 国产H片无码不卡在线视频| 亚洲中文久久精品无玛|