劉云霞
(安徽理工學校電子信息工程教學部,安徽安慶246001)
隨著網絡的普及,人們通過朋友、興趣愛好、行為等建立起的社會行為者與其關系的集合,稱之為社會網絡。其中,合著網絡(Co-author network)是科研工作者通過合作交流、共享知識、共同發表學術論文而形成的關系網絡,反映了論文作者之間的聯系。對合著網的研究能更好地對合著關系進行分析,加強科研工作者之間的交流合作,成為目前相關研究的熱點。本文利用聚類分析[1]的思想,將埃爾德什的合著者們分成3類,選擇出合作次數較大的分類,根據統計的合著者網絡節點信息構建出合著者網絡影響力模型。
社會網絡分析(SNA)是對社會關系結構及其屬性加以分析的一套規范和方法,主要研究社會實體不同社會單位所構成關系的結構及其屬性[2]。作為一種社會學研究方法,社會網絡分析探索網絡結構和特性,應用性很強。矩陣法、代數法和圖論法等是社會網絡分析常用的方法。矩陣法是把具體某個社會網絡中的所有節點分別排成行和列,如果某兩個節點間存在關系,就在其對應的行和列的交叉位置加上權重。圖論法是將整個社會網絡的角色以及這些角色之間的關系用圖的形式表示,節點和連線是圖論法中最基本的元素,其中節點表示角色,連線表示角色之間的關系。雖然矩陣法沒有圖論法直觀,但是它更適合于大型以及超大型的網絡。本文在建立511人的合著網絡時采用的是矩陣法,而聚類后的小型合著網絡則用的是圖論法。分析軟件則選用Gephi和Netdraw。
根據埃爾德什的合著者們合作的次數、年份以及與這些合著者合作的作者情況,先構建一個不包括埃爾德什本人的合著者網絡,即篩選出埃數為1的合著者構成合著者網絡的所有節點。為了簡化模型,首先利用聚類思想選擇出合作次數較多的一類合著者,并建立起他們的合著者網絡,然后采用Floyd算法[3]分析網絡的影響力,最后用社會網絡分析軟件Gephi分析合著者網絡性質。
為了建立一個有511個節點的合著者網絡,首先要收集數據,建立511個合著者的合作矩陣,將埃爾德什所有的合著者設為511個互相獨立且互不相同的節點,使用Matble軟件輸出511×511的關系矩陣。將文件信息提取成如(1)式所示的矩陣形式:

其中,G代表合著者的鄰接矩陣,鄰接矩陣是用一個一維數組存放圖中所有頂點數據,用一個二維數組存放頂點間關系的數據,此二維數組即為鄰接矩陣,可分為有向圖鄰接矩陣和無向圖鄰接矩陣,在這里稱之為合作矩陣。vn代表節點,表示按字母A~Z排序后第n個合著者,(vm,vn)表示vm和vn之間有無聯系,1代表有聯系,0代表無聯系。接著利用所提取出的矩陣,結合NetDraw軟件[4]畫出511個人的網絡圖。
合著網絡密度反映了所有合著者之間的合作關系,通過計算上述網絡的整體網絡密度為0.014 0,表明該網絡是一個稀疏網絡,合作關系不是很密切。由于做出的圖規模過大,結點過于密集,不易于查看,所以為了控制網絡圖的規模,采取如下方法篩選部分數據。考慮到可能存在某些合著者的合作次數為0,或是很少,所以這里采取基于劃分的聚類方法精簡網絡。
通過聚類分析方法將埃爾德什的511名合著者中合作次數分成3類,如表1所示。

表1 合著者合作類別與合作次數
由表1可知,類別3的合著者之間平均合作次數較少,因此,把類別3中的節點從網絡圖中刪去,重新得到類別1和類別2,共計129個合著者的合作矩陣。接下來利用重新得到的合作矩陣構造合著者網絡圖。
合著者網絡圖中節點代表合著者,連邊代表合著者之間有聯系,合著者網絡圖是一個無權無向圖,NetDraw正是一種可以利用節點的鄰接矩陣作為輸入、畫出節點的無權無向圖的繪圖工具。以(1)式中的合作矩陣作為輸入矩陣,畫出129個合著者的合著者網絡圖如圖1所示。

圖1 129個合著者的合著者網絡圖
從圖1可看出,盡管人數縮減到129人,但是該合著者網絡圖還是難以分析。因此要控制網絡圖的規模,將合作次數最多的類別1中的36個合著者抽取出來,先構造出36個合著者的合作矩陣,再利用新的合作矩陣畫出36個合著者的合著網絡圖如圖2所示。

圖2 36個合著者的合著網絡圖
雖然之前通過聚類縮小了網絡的規模,簡單可行,但是不能定量地分析網絡的影響力。接下來利用Floyd最短路徑算法[3]測量合著者網絡的影響力。具體做法:用Floyd算法算出最小路徑矩陣,將每個人對與其本人除外的所有路徑求和為S,若S越小,則表示該人與此網絡關系越親密,其在網絡中影響力也越大;若S越大,則表示此人與網絡的關系越疏遠,甚至與本網絡無關。通過Matlab編程計算出合著者網絡中節點的路徑矩陣,計算出前10個合著者和相應的最短路徑距離如表2所示。

表2 前10位合著者之間的最短路徑距離
通過聚類縮小的網絡為整個合著者網絡的核心,在合著者網絡中具有絕對的影響力。本文所提取的核心矩陣為強連通圖,利用Gephi計算出合著者網絡密度、網絡聚類系數和網絡的平均路徑長度。通過計算得出合著者網絡密度為0.346,說明其網絡間的各點間聯系較緊密。按照圖形理論,聚類系數(CC)是一個圖形中節點聚集程度的系數,在無向網絡中,聚類系數定義:

其中,n表示在節點v的所有k個鄰居間的邊數,計算得出其值為0.759,具有較高的節點聚集程度,說明合著者網絡之間相關性比較強。接下來計算網絡的平均路徑長度:

其中N為網絡節點的數目,得出網絡的平均路徑長度為1.417,說明網絡中所有節點之間的平均最短距離比較短。綜上所述,說明提取的網絡在合著者網絡中具有重要影響地位。這10位合著者與網絡其他合著者的距離之和最小,表明與網絡的其他成員的親密程度高,其在網絡中占據核心地位,影響力也大。
通過Floyd最短路徑算法測量出聚類后網絡的影響度,但由于Floyd算法實現的是無向無權圖,故此模型忽略了合作次數這一重要指標,并且沒有考慮時間的跨度和合著者合著之后去世的情況。因此,在Floyd算法求解結果的基礎上對傳統的PageRank算法進行改進,考慮到某位合著者在合著之后去世,在PR值中引入一個概率因子d,以表示合著者繼續合著的可能性,以提高算法的收斂性,計算每個節點的PR值,并利用復雜網絡分析軟件Gephi分析篩選后的合作者網絡性能和節點的影響度。
將前面計算出的合作次數較多和最短路徑最短的10位合作者提取出來,通過Gephi繪制其無向網絡圖,如圖3所示。

圖3 合著網絡圖
由圖3可以看出,Gephi將上述人物分成兩大類網絡,其中由CHEN GUANTAO,CHEN HANG,CHEN ROBERT W,FUREDI ZOLTAN 構建的小網絡與主體網絡不存在直接聯系,因此,將小網絡去除,直接分析主體網絡的節點影響力,這在一定程度上減少了大規模網絡計算。
利用PageRank算法[5],通過計算網絡節點的PR值來測量網絡節點的影響度。當一個節點與其他許多節點都相連時,其重要性越高,PR值也就越高;同時當該節點影響力度很大時,它與其他節點相聯系時,其聯系的權重也就越大,這正好驗證了社會網絡中的馬太效應。設pi為某一節點為pi的鏈接數目為pj鏈接到該節點的鏈接數,d為阻尼系數,表示該節點(人)連接即合作完之后依然能與其他人繼續合作的概率為1-d,而該節點(人)不幸去世的概率為d,則該節點不再參與合作。PR值計算如下:

每個節點的PR值分布如圖4所示。

圖4 PageRank分布圖
對比上述數據,得出這些合作者網絡中最具影響力的前5個人,從大到小依次為ALON NOGA M、FUREDI ZOLTAN、BOLLOBAS BELA、CHEN CHUAN CHONG、RODL VOJTECH。通過考察網絡中節點之間聯系的強度,分析合著者網絡,使用Floyd最短路徑算法選出合著者,通過時間跨度因子修正后的PageRank算法,最終計算出合著者網絡中影響力最大的為ALON NOGA M,其次為FUREDI ZOLTAN等。
本文建立了合著網絡模型和基于節點以及關系矩陣求解節點影響力的合著網絡影響力模型;運用PageRank算法求解出合著網絡中最具影響力的前5個人。這些模型的基本思想都是基于模型中個體對整個網絡的影響度的分析。本文的不足之處在于,首先,在利用PageRank算法計算節點影響力時,忽略了精簡網絡時對節點影響力計算的影響;其次,沒有將文中計算節點影響力的方法和其他方法進行對比,可能不同的方法計算出來的節點影響力會有區別。所以在以后的研究和學習過程中,將進行深度學習,完善模型,使其實用性更強。
[1]楊浩.基于SPSS的聚類分析在行業統計數據中的應用[D].長春:吉林大學,2013.
[2]丁善敏.社會網絡分析法在合著網絡中的應用-以天津師范大學化學學院為例[D].天津:天津師范大學,2012.
[3]嚴曉鳳,陸濟湘,唐雙平.基于Floyd算法的校園最短路徑問題分析與實現[J].武漢理工大學學報(信息與管理工程版),2012,34(6):695-698,703.
[4]王運鋒,夏德宏,顏堯妹.社會網絡分析與可視化工具Net-Draw的應用案例分析[J].現代教育技術,2008,18(4):85-89.
[5]黃德才,戚華春.PageRank算法研究[J].計算機工程,2006,32(4):145-146,162.