楊 凱,張 寧
(上海理工大學管理學院,上海200093)
隨著互聯網2.0技術的發展和計算機網絡的普及,在線社會網絡已成為人們生活工作中不可或缺的工具。各種在線社交網站如雨后春筍般涌現,一般交友網(如聚友網和臉譜網)、在線圖片分享網(如Flickr)、朋友社交網(如校內網和雅虎360)、商務人士關系網(如若鄰網)和職業人士社交網(如天際網)等等[1]。國內外對在線社會網絡的研究更是如火如荼。如Ravi Kuma等[2]研究了Flickr和雅虎360兩個在線社會網絡,按照節點的連通性分布將網絡分成了3個部分,提出了動態屬性的概念和一個簡單的網絡增長模型,分別給出了兩個網絡的動態屬性和網絡中3個部分的結構演化。Alan Mislove等[3]對4個在線網絡進行了拓撲特性研究,4個在線網絡都滿足無標度特性、小世界特性,用戶網絡節點的入度和出度相匹配。汪小帆等[4]對大型在線職業人士社交網——若鄰網進行了研究,研究表明該網絡具有小世界特性、高群聚系數,網絡結構具有層次化和社團性。同時研究了該在線網絡的結構演化,網絡牽制控制等。
微博是近幾年繼博客之后新興的社交平臺,基于復雜網絡理論,國內外對微博用戶關系網絡的結構已經做出了一些成果。國外HaewoonKwak等[5]對Twitter進行了實證研究,研究顯示用戶網絡的粉絲分布非冪律,網絡的有效直徑很短,并且互惠指數很小。用粉絲數和PageRank算法對具有影響力的用戶進行了分析,兩個方法的結果很相似。AkshayJava等[6]給出了Twitter用戶的增長率,研究了Twitter社會網絡的拓撲結構和地理位置分布,用戶利用微博主要是談論日常活動或者搜尋分享信息。尹書華[7]以新浪、騰訊、搜狐三大微博注冊用戶為研究對象,根據用戶之間的關注關系構建了復雜網絡,分別給出了該網絡的度分布、平均群聚系數以及平均路徑長度等統計特征,得出微博用戶關系網絡具有無標度特性以及小世界效應。樊鵬翼等[8]對新浪微博也作了實證研究,結果顯示新浪微博用戶關系網絡有小世界、無標度和同類混合模式等特點,并且用戶關系網絡的出度和入度具有弱相關性,相關性僅為0.033。郭正彪等[9]研究了新浪微博用戶怎樣連接形成微博關系網絡,將微博用戶分成兩類(普通用戶和認證用戶),這兩類不同的用戶明顯有不同的網絡屬性。研究表明微博用戶關系網絡是個信息驅動網絡而不是關系驅動網絡。對于用戶興趣,張寧等[10-11]研究了用戶瀏覽網絡日志的興趣,找出群體興趣網絡的特殊性質及其自身的演化規律。而微博用戶的興趣時刻影響著微博用戶關系網絡的結構。
在線社會網絡最大的特點在于它的動態性,網絡無時無刻不在變化,這給研究帶來了一定的困難。在研究在線社會網絡的一些屬性時不能局限于一個時間點,而要看它整個過程,然后綜合研究網絡的特性。在這個過程中數據的獲取是最大的困難所在。本文主要研究了個人微博用戶關系網絡隨時間的變化,網絡結構屬性的變化體現用戶行為的變化。在這一過程中對于信息獲取又有怎樣的影響?對于某一時間點個人微博用戶關系網絡是否也滿足無標度特性和小世界特性?在個人微博用戶關系網絡中,都有哪些類型的用戶,用戶在網絡中扮演怎樣的角色?
本文利用復雜網絡的理論知識,將微博用戶關系用網絡的形式描述出來,根據網絡結構屬性的變化來刻畫用戶的行為和在網絡中的影響力。利用聚類分析的方法,將微博用戶進行了分類,根據他們在網絡中的結構屬性,可以得出他們在網絡中的目的和類型以及興趣愛好,從而有利于微博運營商對用戶有針對性的推薦。
對于微博關系網絡的研究如今也處于白熱化階段,微博網絡從各種不同角度進行研究,本文主要是針對個人的微博用戶網絡,對于普通用戶來說(除認證用戶)都有一定的普遍性。能更加深入了解用戶的行為與興趣愛好,以及對信息傳播的影響,使微博平臺更好地服務于用戶。
微博用戶關系網絡是一個有向無權網絡,描述復雜網絡的屬性有很多,比如網絡的度分布、密度、群聚系數及介數等等,這些基本理論不再詳述。社交網絡分析是基于相互作用單位或節點之間的關系或鏈接的重要性進行的[12]。為便于理解,將本文用到的術語和理論作以下介紹。
關注率[13]:為節點的入度與出度的比值,即一用戶的粉絲數與該用戶關注的對象數的比值,刻畫的是個人在網絡中的影響力。
聚類分析法[14]:聚類分析又稱群分析,是研究分類問題的一種多元統計方法,即將待處理的對象分配到相應的聚類中,使得同一聚類中的對象差別較小,而不同聚類之間的對象差別較大。K-means聚類算法[15]是挖掘技術中一個成熟的且認可度很高的算法,是利用距離函數將不同對象進行聚類的方法。選用歐式距離函數,個案x和y的歐式距離是兩個個案的m個變量之差的平方和的平方根,距離函數公式為

本文在研究新浪微博中,抽取了一個普通活躍用戶(即新浪微博非認證用戶,并且微博數和粉絲數不為零)——(記為用戶A),以這個用戶為節點出發,搜集與該用戶有直接關聯的用戶(他的關注與粉絲),以用戶作為節點,他們之間的“關注”與“被關注”關系作為邊所構成的有向網絡,凡是與用戶A沒有直接關聯的用戶都不在網絡范圍內。因此,用戶A的興趣愛好對于網絡有很大影響。記錄了該用戶從2011年3月注冊開始到2012年9月期間3個時間點的數據。2011年4月27日為時間點1,該時間點為用戶剛注冊不久,顯示了微博用戶開始階段的興趣特征;2011年12月23日為時間點2,該時間點為用戶關系網絡出度急劇增加入度變化很小,顯示了用戶過渡時期的行為特征;2012年8月8日為時間點3,該時間點為用戶關系網絡入度變化較大,顯示了用戶長期的變化特征,處于用戶穩定階段。用戶A網絡的總節點數和邊數如表1所示。這3個時間點體現了微博用戶網絡的變化特征。對應于這3個時間點的數據得到3個網絡,將這3個網絡加以研究分析。用戶加入到微博網絡中一般經歷這3個過程,將網絡的拓撲特性進行了對比分析。還搜集到了網絡3的所有用戶的資料,包括每個用戶的粉絲數、關注數和微博數。

表1 微博用戶的網絡數據Tab.1 The data of networks on micro-blog users
對于微博用戶關系網絡的結構,首先分析網絡屬性。選取時間點3的網絡,該時間點的數據處于用戶注冊時間后期,網絡出度入度較穩定。從網絡的度分布,平均群聚系數和平均最短路徑分析了網絡的統計屬性。
3.1.1 微博用戶關系網絡的無標度特性
微博用戶關系網絡為有向網絡,其度分布分為入度分布和出度分布,本文利用度分布函數對網絡的度進行刻畫。根據搜集到的數據,得到微博用戶關系網絡的度分布,如圖1所示。

圖1 微博用戶關系網絡度分布Fig.1 The degree distribution of micro-blog user relations network
從圖1得出在雙對數坐標下,微博個人用戶關系網絡的出度和入度分都近似服從冪律分布,P(k)~k-r,用最小二乘法進行了擬合,分布的指數為0.977 88和0.888 54,說明個人微博用戶關系網絡具有無標度特性。
3.1.2 微博用戶關系網絡的小世界特性
網絡的小世界特性體現在兩個方面,一是平均最短路徑,二是網絡的平均群聚系數。計算得出微博用戶關系網絡的平均最短路徑和平均群聚系數分別為3.798 76,0.328 3。與同等規模的隨機網絡作對比,計算出隨機網絡的平均最短路徑和平均群聚系數分別為4.672 57和0.080 98。微博用戶關系網絡與同等規模的隨機網絡相比較,有較小的平均最短路徑長度和較大的群聚系數,表明該微博用戶關系網絡具有明顯的小世界特性。由于該微博網絡是個人用戶的微博網絡,用戶的興趣主導了整個網絡,從網絡的節點數可知用戶關注數并不多,彼此之間的距離小,平均路徑不會太大,從而表現出小世界現象。另一方面也表明微博用戶關系網絡連接緊密,有利于信息在網絡中的傳播。
用戶網絡根據自己興趣愛好的變化和生活交際范圍的擴大等因素不斷地變化著,而用戶興趣不會隨時改變,因此到一定階段微博用戶關系網絡變化就不會那么大。隨著微博用戶網絡的變化,節點(邊)的增加或減少,網絡的拓撲特性也隨著變化,從這些屬性的變化上分析用戶網絡,得出用戶A的行為和網絡中信息傳播的變化。
首先統計出了用戶A的出度和入度變化,如表2所示,從表中可以看出用戶A的入度和出度都不斷地增加,即用戶的粉絲和關注數都在增加,總節點數也不斷增加,表明用戶網絡范圍不斷擴大,用戶獲取信息不斷增加,信息傳播范圍相應變大,用戶A的興趣變得更加廣泛。相比來看,時間點2比時間點1出度增加較大,時間點3相比時間點2入度增加較大。用戶A的關注率不斷增加,表明用戶在網絡中的影響力逐漸增強,用戶A的信息傳播能力不斷增強。
對于微博用戶關系網絡,隨著時間的變化網絡結構也發生變化。網絡密度描述的是網絡的稠密程度;節點i的介數表示網絡中所有節點對的最短路徑中經過節點i的路徑數目占所有最短路徑數目的比例,反映了節點i的影響力;群聚系數反映了你的朋友圈的緊密程度[16]。計算出了3個不同時間點的網絡的統計指標,如表3所示。

表2 用戶A的網絡屬性Tab.2 The network's properties of user A

表3 不同時間點的微博用戶關系網絡屬性Tab.3 The properties of micro-blog user relations network at different time points
從表1、表3中可以看出網絡總節點數不斷增加,網絡中節點的平均入度和出度不斷減小,說明網絡越來越稀疏。關注的用戶逐漸增多,并沒有引起其他用戶更多的關注,表明用戶A的興趣越來越廣,信息來源越來越廣,更有利于用戶A獲取自己想要的信息。
平均最短路徑一直減小,說明網絡節點間的平均距離不斷變小。雖然網絡范圍不斷擴大即節點不斷增加,然而網絡中邊的連接數增加,用戶間能達到的距離減小,從而網絡的平均路徑減小。網絡中用戶間交流和溝通更加容易,這一變化過程微博用戶關系網絡一直都表現出小世界特性,即平均最短路徑比隨機網絡的小。
3個時間點的網絡直徑都較大說明網絡輻射范圍較大,用戶A關注的對象較廣,用戶有廣泛的信息獲取資源。3個時間點的網絡直徑基本穩定,表明微博用戶關系網絡較為穩定。
網絡介數的不斷增大表明網絡中用戶節點的整體影響力不斷增加,信息的傳播能力變大,更容易獲取及傳播信息。用戶A的關注不斷增加,關注越多,信息來源越廣泛,有共同興趣愛好的微博用戶關注同一人可能性就越高,從而用戶的介數就不斷變大。介數的不斷增加使得網絡中信息更容易傳播,有利于用戶獲取即時信息。
網絡密度逐漸變小,網絡節點的增加,雖然網絡中邊也增加,但兩者不是同比例變化的,對于整個網絡來說還是變得稀疏。雖然網絡變得稀疏,并不影響用戶與其他用戶交流和獲取信息的能力。
網絡的平均群聚系數變化很小,表明網絡節點在增加的同時,整個網絡中用戶間彼此關注也增加。而平均群聚系數有所減小,說明用戶關注變廣,覆蓋的不同類別的用戶,不同類別之間的用戶一般是不會相互關注,導致了網絡的平均群聚系數減小。即用戶間形成了不同的社團結構,在社團內關注更加密切,而社團之間連接就稀疏了,不利于社團間信息的傳播。
網絡的結構屬性的變化上體現了用戶行為的變化,從整個網絡發展來看,用戶獲取信息的能力變強,網絡中傳播信息的通道變多,這些又是根據用戶的興趣發展變化而變化的。而用戶網絡結構的變化對用戶信息傳播的影響可以對信息模型的研究提供理論依據。
微博用戶關系網絡分析剖析了網絡的結構特征,為進一步分析微博用戶的特性,發掘用戶間的共同特性,本文用聚類算法對微博用戶關系網絡進行了聚類分析。用K-means聚類算法來挖掘微博用戶類別和網絡節點的共性。將網絡3去除一些不活躍節點的影響,得到347個用戶節點。將每個用戶的關注數和所發的微博數作為網絡中節點的信息獲取量和活躍性的影響因素。選取用戶的在該微博用戶網絡中的介數、出度、入度以及每個用戶的關注數和微博數作為變量,將數據導入SPSS軟件,用K-means算法進行聚類,最終聚為3類。聚類結果如表4、表5所示。

表4 最終聚類中心Tab.4 The final cluster centers

表5 每個聚類中的案例數Tab.5 The number of cases in each cluster
從表4和5可以得出類型1占了微博用戶的81.84%,這類用戶的關注數、微博數及在網絡中的出度入度都最小。可見在該微博用戶的網絡中,大多數用戶的關注數約為508,微博數均值為3 345。這類用戶關注他人較少,一般都是朋友或者認識的人,微博數也較少,說明平常僅僅是和關注的人或者粉絲進行交流,關注他們的動態,獲取自己感興趣的信息。介數適中,即能得到其他用戶的響應和關注,屬于普通社交類型。該微博網絡包含了大量的明星節點,他們粉絲雖然很多,但大部分發微博數很少,基本都是在與圈內人士進行交流與溝通,發布自己最新動態,所以大部分的明星節點也屬于普通社交型。
從表4和表5看出類型2占了微博用戶的13.83%,這類用戶的微博數及出度入度都適中,關注數最大。可能因為愛好、信息傳播內容、職業性質等因素,這類用戶關注了自己感興趣或者有相同興趣的用戶,因此比起“普通社交型”關注他人稍多一點。微博數較多能夠與其他微博用戶進行交流,能夠讓用戶得到他們想得到的信息,然而出度和入度并不是很大,說明只有部分人關注了這類用戶,屬于“個人興趣型”。同時介數最小,說明在網絡中這類用戶的節點重要性不大。
從表4和表5得出類型3占了微博用戶的4.33%,這類用戶的微博數與出度入度、介數最大,關注數適中。這類用戶在網絡中出度入度都最大,說明他在積極關注其他人微博更新動態和信息,瀏覽和了解網絡當前最新、最熱門的資訊,然后進行發布,讓更多用戶瀏覽信息,屬于信息散播型。同時從表中看到這類用戶的博文數最大,說明用戶比較活躍,能積極傳播當前發生的信息。介數最大也說明了這類用戶在該微博網絡中信息傳播影響力很大。
綜上所述,81.84%的用戶能夠與微博用戶進行社會和朋友的交流,同時獲取自己感興趣的消息。13.83%屬于“個人興趣型”,這類用戶關注數比較大,十分積極地參與微博,話題也能引起聽眾興趣,信息創造的價值較大。4.33%的用戶屬于“信息散播者”,出度入度最大,更多的是關注他人,尋找自己感興趣的話題和信息,也引起他人的關注給其他用戶帶來有用的信息。這些用戶在網絡中活躍度比較高,擁有大量的粉絲,稱為網絡節點的“權力中心”或“意見領袖”,當他們發布一條信息后,該信息就會在網絡中迅速散播,將是主要的信息傳播者。
在聚類統計結果中還包括聚類成員,每個個案的聚類信息。由于數據量較大,論文中沒有列出。但這些分析結果對于微博服務商是有一定價值的。
本文主要研究了個人微博用戶關系網絡的拓撲特性,研究表明個人微博用戶關系網絡也具有無標度特性和小世界特性。分析了網絡的不同時間點的屬性,隨著時間的變化網絡結構發展變化,通過網絡結構變化體現用戶行為變化。根據網絡節點的不同屬性使用K-means聚類算法將微博用戶分成了3種類型。了解了網絡中的節點用戶主要的目的與用途。能更加清晰地認識用戶的興趣和行為,可以考慮為用戶推薦應用程序與其他用戶。
隨著在線社會網絡的發展和用戶的增加,微博網絡還面臨著很多的挑戰,微博網絡還可以從以下一些方面做進一步研究和改進。本文多數指標是無向網絡指標,這是最簡單的情況,而實際網絡要比這復雜得多,所以對于有向加權網絡有待進一步研究;本文只研究了一個用戶的網絡,對于普通用戶結論具有普遍性,可對于一些認證用戶不一定適用,還有待進一步研究;對于微博用戶網絡的動態演化、微博用戶的影響力和信息傳播的效率深入分析研究,有利于信息傳播的控制,微博用戶的行為特性對微博網絡結構和信息傳播的影響及微群對信息傳播的影響,有待深入研究。
[1] 胡海波,王科,徐玲,等.基于復雜網絡理論的在線社會網絡分析[J].復雜系統與復雜性科學,2008,5(2):1-12.Hu Haibo,Wang Ke,Xu Ling,et al.Analysis of online social networks based on complex network theory[J].Complex Systems and Complexity Science,2008,5(2):1-12.
[2] Kumar R,Novak J,Tomkins A.Structure and evolution of online social networks[M]//Link Mining:Models,Algorithms,and Applications.New York:Springer,2010:337-357.
[3] Mislove A,Marcon M,Krishna P G,et al.Measurement and analysis of online social networks[C]//Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement,Ser.IMC’07.New York:ACM,2007:29-42.
[4] 汪小帆.在線社會網絡分析與網絡牽制控制[J].復雜系統與復雜性科學,2010,9(2/3):29-31.Wang Xiaofan.Online social network analysis and network pinning control[J].Complex Systems and Complexity Science,2010,9(2/3):29-31.
[5] Kwak H,Lee C,Park H,et al.What is twitter,a social network or a news media?[C]//Proceedings of the 19th International Conference on World Wide Web.New York:ACM,2010:591-600.
[6]Java A,Song X,Finin T,et al.Why we twitter:understanding microblogging usage and communities[C]//Proceedings of the 9th WebKDD and 1st SNA-KDD 2007Workshop on Web Mining and Social Network Analysis.New York:ACM,2007:56-65.
[7] 尹書華.基于復雜網絡的微博用戶關系網絡特性研究[J].西南師范大學學報,2011(12):57-60.Yin Shuhua.A research of user relations properties based on complex network of microblog[J].Journal of Southwest China Normal University,2011(12):57-60.
[8] Fan P Y,Li P,Jiang Z H,et al.Measurement and analysis of topology and information propagation on Sina micro-blog[C]//Proceeding of IEEE International Conference on:Intelligence and Security Informatics.New York:IEEE Press,2011:396-401.
[9] Guo Z,Li Z,Tu H.Sina microblog:an information-driven online social network[C]//Cyberworlds(CW),2011International Conference on Cyberworlds(CW).New York:IEEE Press,2011:160-167.
[10]張寧.群體興趣網的統計特性研究[J].上海理工大學學報,2008,30(3):243-246.Zhang Ning.Statistical characteristics study on the group interest networks[J].Journal of University of Shanghai for Science and Technology,2008,30(3):243-246.
[11]曹易,張寧.挖掘用戶瀏覽網頁的興趣研究[J].計算機系統應用,2012,21(7):65-68.Cao Yi,Zhang Ning.Study of the uses'interests based on the internet browsing history[J].Computer Systems & Applications,2012,21(7):65-68.
[12]Coulon F.The use of social network analysis in innovation research:a literature review [D].Lund:Lund University,2005.
[13]Teutle A R M.Twitter:network properties analysis[C]//Electronics,Communications and Computer(CONIELECOMP),2010 20th International Conference on Date of Conference.New York:IEEE Press,2010:180-186.
[14]王曉光,袁毅,滕思琦.微博社區交流網絡結構的實證分析[J].情報雜志.2011(2):199-202.Wang Xiaoguang,Yuan Yi,Teng Siqi.Empirical analysis on communicating structure of micro-blog community[J].Journal of the China Society for Scientific and Technical Information,2011(2):199-202.
[15]楊小朋,何躍.騰訊微博用戶的特征分析[J].情報雜志.2012(3):84-87.Yang Xiaopeng,He Yue.Analysis on the user's data of tencent micro-blog[J].Journal of the China Society for Scientific and Technical Information,2012(3):84-87.
[16]汪小帆,李翔,陳關榮.網絡科學導論[M].北京:高等教育出版社,2012.