謝麗斌 董 穎 吳德志
(哈爾濱師范大學圖書館 哈爾濱 150025)
?
·實證研究·
基于Pajek的科研領域合作關系網絡特征分析*
謝麗斌董穎吳德志
(哈爾濱師范大學圖書館哈爾濱150025)
〔摘要〕科研領域合作關系網絡的研究在我國主要以科研人員之間的合著網絡類型為主,文章以作者合作關系網絡為例,探索關系網絡特征和分布規律,包括節點度、中心度、合作關系強度。通過某“985”高校的科研人員的合著網絡的案例分析,最后發現科研領域合作關系網絡符合冪律分布。
〔關鍵詞〕合著網絡關系網絡Pajek
〔引用本文格式〕謝麗斌, 董穎, 吳德志.基于Pajek的科研領域合作關系網絡特征分析[J].圖書館,2016(7):62-65
隨著大數據環境下計算機技術、互聯網技術以及通訊技術的發展,科學研究領域的學術交流呈現全球化發展趨勢,尤其是跨機構、跨地區以及跨國的科研合作行為已成為目前科學研究活動的主流趨勢,科研合作行為在科學研究過程中越來越重要,一流科研成果的產生往往需要各學科、各機構、各個國家科研人員的協同協作完成。研究者也越來越多的關注科研人員、科研機構甚至國家和學科之間的合作關系網絡以及演化趨勢的研究,并且通過給出一定的模型和評價指標來分析這些合作關系。隨著社會網絡分析理論和方法的提出,利用定量分析工作對各種社會關系進行研究及可視化成為各類型關系研究的焦點。科學研究領域的合作關系類型和概念及可視化研究也隨之出現,最早有關科研領域合作關系網絡研究的是Kretschmer,H,其在1997年提出合著網絡概念(Coauthorship Network),對研究人員發表文獻成果的合作關系進行分析和研究。
Newman在2001年系統地給出了科研領域合作網絡的定義:科研合作網絡是指網絡中的人通過與其他人相識,形成了一些子集,通過加入線(或邊)來表示這種相識的關系,網絡中的一組點(或頂點)可以表示人或人的集合[1]。通過對科研網絡的研究,關于科研合作網絡的定義也在不斷被拓寬。狹義的科研合作網絡就是研究作者之間合著關系的網絡。而從廣義上說,科研合作網絡可以定義為研究者之間、機構之間、國家之間、學科之間通過科研合作形成的關系網絡。
科研合作網絡,即合著網絡,是一種典型衡量科學家之間交往的社會關系網絡,是由研究個人、研究團體或研究機構以及他們之間存在的各種關系所組成[2]。分析科研合作網絡的關系,需要了解網絡本身的特性,通過這些特性可以更好的分析實際情況中的優勢和不足,為改進整個科研合作網絡提出建議,促進學科領域科研合作的發展。根據已有文獻的調研,科研合作網絡主要有小世界,無標度和分布遵循冪律三個特性。
2.1主要特性
2.1.1小世界特性
許多社會關系網絡都具有“小世界特性”,包括個人社會交往、互聯網在線交流與互動、在線課堂與互動等關系網絡。一個網絡中如果網絡平均節點度固定,平均路徑長度的值隨著網絡規模大小以對數的速度或慢于對數的速度增長,那么稱此網絡具有“小世界特性”。孟微在《我國情報學科研合著網絡研究及其特征參數分析》一文中對情報學學科領域研究者之間的合著網絡進行了研究并得出我國情報學科研合著網絡具有小世界特性[3]。
2.1.2無標度特性
無標度指的是關系網絡中節點的度分布符合冪律分布,由于這類網絡節點的連接沒有明顯的特征長度,所以稱為無標度網絡。2002年,Barabási等構建了數學和神經科學領域的作者合作網絡,對作者數量和累計發文量進行分析,還通過對節點度、平均最短距離、離散度、聚類系數等指標分析,指出作者合作網絡是一種無標度網絡,網絡的演化呈單偏好機制。[4]。
2.1.3遵循冪律
冪律分布表現為一條斜率為冪指數的負數的直線,這一線性關系是判斷給定的實例中隨機變量是否滿足冪律的依據。有研究表明,現實和在線虛擬的關系網絡的節點度分布都遵循冪律分布P(k)~k-r,且r的值往往介于2到3之間,冪函數在雙對數坐標系下是一條下降的直線,具有無標度特性[5]。本論文通過實證研究發現以某個科研工作者出發構建的合作關系網絡符合冪律。
2.2科研合作網絡中的主要參數
2.2.1節點度和中心性
關系網絡的度是指與某一節點相關聯的鏈接數量,包括入度和出度。入度指的是直接指向該節點的點數總和;出度指該節點所直接指向的其他點的總數。節點度通常被用于衡量節點的中心性。科研合作關系網絡中一個節點的度可以定義為與某一科研人員對應的節點相連的節點的數目,一個節點的度越大意味著與該節點相對應的科研主體合作所發表的研究成果的數量越多,擁有更多的合作者,該科研主體在關系網絡中的地位越重要[6]。網絡中節點的中心性反映了該節點對應的個體在實際網絡中所處的地位以及權力影響[7]。中心度,包括介數中心度和接近度中心度等。節點的介數描述了網絡中經過某節點的最短路徑的數量,同節點的度值一樣,也是節點的中心性的標準測度之一。流經節點的信息量越大,該節點介數的數值就越大。因此,介數可以用來度量某一節點對信息的負載和傳遞的能力,介數值高的點對于網絡中信息的傳輸起著至關重要的作用[8]。接近度這一指標主要用來描述網絡中的節點通過網絡到達其他節點的難易程度,也是節點中心性的標準測度之一,反映了節點通過網絡對其他節點的一種間接影響力。度、介數和接近度都是測度節點中心性的指標,共同決定某個節點在網絡中的重要性,這種重要性體現在這一節點對網絡中的信息的負載和傳遞作用如何,是否具有快速傳遞、接收信息的能力[9]。
2.2.2網絡密度
網絡密度(Density)是指在此網絡中實際存在的鏈接數與可能存在的鏈接的比例。網絡密度描述了網絡中各節點之間聯系的緊密程度[10],在實際的網絡中,一個人用于維持某些關系的能力和時間是有限的,當付出的代價越來越大而回報逐漸減少時,他會停止發展新的關系,對于大型網絡來說更是如此[11]。關系緊密的團體合作行為越多,信息疏通越容易,團體的績效越好。
2.2.3最短路徑和聚類系數
合著網絡中任意兩個節點之間距離的最大值稱為合著網絡的直徑,可以衡量個人在傳遞信息過程中需要多長時間才能傳到。信息傳遞距離越長,失真程度越多,信息傳輸效率越低[12]。
合著網絡中連接節點i和節點j的最短路徑是指使得節點i到節點j所經過的邊數最少,如果考慮到加權合著網絡,則指使得這條路徑所經過的個邊的權值之和最小。最短路徑表明兩個作者之間新的信息、知識傳播的最快速度。最短路徑越長,意味著知識在兩個作者之間傳遞速度越慢,知識獲取速率越低[13]。聚類系數描述的是網絡中與同一節點相連的兩個節點也相連的可能性[14]。
科研合作網絡的處理與分析流程包括數據處理與字段提取、建立分析矩陣、以及可視化三個步驟。
3.1字段提取
數據處理的首要工作是提取需要分析的字段。在科研合作網絡分析中,多選擇作者、機構和年份作為分析字段。CNKI和Web of Science等主要數據源提供了基本的數據導出功能,但根據合作網絡分析工具支持功能的功能不同,有時需要在進行合作網絡分析之前進行預先的數據處理,提取所需要的字段。
3.2建立分析矩陣
建立分析矩陣需要將提取出的有用字段,以矩陣的形式進行表示,不考慮加權可以建立二值分析矩陣,考慮加權則需建立多值矩陣,在科研合作網絡中,用一定的方法對點權和邊權加以界定,可以更準確的判斷節點的重要性,分析整個網絡中存在的關系。建立分析矩陣可以利用相關軟件分析數據之間的關系,找出有用的節點和節點之間的聯系,便于輸入到可視化工具中實現整個網絡關系的呈現。
3.3網絡可視化與分析
隨著可視化技術的發展,將網絡可視化已經成為分析科研合作網絡的重要手段。通過對合作網絡中節點以及節點間的關系進行可視化建模,將科研合作網絡數據以圖形化方式展示出來,不僅可以科學高效地協助用戶清晰地認識合作網絡的內部結構,同時也有助于挖掘隱藏在網絡內部的有價值信息。目前已開發出多款社會網絡可視化軟件,如Ucinet,Pajek,Citespace等都能用于科研合作網絡的可視分析。
4.1案例數據檢索與統計
以某“985”大學Q教授為研究對象,通過檢索、數據處理、可視化和數據分析等進行關系網絡特征的分析。通過Web of Science平臺檢索Q教授的資料,具體檢索方式如表1所示,Q教授文獻成果基本統計見表2。

表1 檢索策略

表2 Q教授基本信息
4.2生成矩陣
下載Q教授所發表文獻的數據信息,通過提取數據中的作者字段,統計每篇的作者數量和署名次序,得到作者的點值矩陣,共計212個作者,即212個節點。論文利用Pajek工具進行關系網絡的可視化和網絡特征的分析。
Pajek最早由Vladimir.Batagelj和Andrej.Mrvar應用Delphi語言于1996年共同開發的一款用于分析大型復雜網絡的軟件[15],與Ucinet等關系網絡分析工具相比,Pajek能快速地處理更多的節點和鏈接數量,更支持海量數據的分析。Pajek在網絡圖模型的基礎上支持六種數據類型分析,包括Networks、Partitions、Vectors、Permutations、Cluster和Hierarchy,為分析復雜網絡的節點、聚類、分層等提供了一個便捷的平臺。本文在關系網絡分析中主要用到Pajek的Networks、Vectors和Partitions三種分析功能,其中Vectors用于生成節點加權矩陣,Partitions用于生成子網絡,Networks用于生成加權網絡。在Pajek中,點值矩陣和邊值矩陣是要分別輸入到不同的模塊,矩陣的形式也有區別。點值矩陣需要輸入到Pajek中的Partition模塊。將點值矩陣輸入后,輸入節點數目相同的邊值矩陣,可形成一個簡單的社會網絡可視化結果。點值矩陣主要是用來定義網絡中節點的大小,點值越大,節點越大,便于直觀的找到網絡中的重要節點。
4.3基于WOS數據庫的合作網絡
將點值矩陣和邊值矩陣,輸入到Pajek軟件中實現網絡的可視化。打開Pajek,在Network窗口中輸入格式為.net的邊值數據文件,在Vectors窗口輸入格式為.vec的點值數據文件。在主菜單執行Options—Read—Write命令,得到閾值的設定窗口,設置閾值為0時,則在這個網絡圖當中,邊值為0的連線不顯示。作為被廣泛使用的社交網絡分析軟件,Pajek本身具有比較好的繪圖功能,在Networks模塊中輸入網絡邊值矩陣,在Vectors模塊輸入網絡的點值矩陣,通過執行“Draw—Draw—Vectors”命令,結合點值矩陣繪制網絡圖像。輸入數據文件后,在軟件的File窗口顯示軟件識別的連線為1018條,節點數目為212個。本文只選擇顯示節點間關系比較強的邊,即對邊值的最大值進行界定來刪除掉網絡中邊值較低的邊,本文選擇只顯示邊值大于3的邊,實際意義為兩個作者之間合作次數大于三次才在圖像中顯示出來。實現這一操作的命令是:Net—Transform—Remove—Lines with Value—lower than—4,經過執行這一條命令,可以使網絡中邊值小于4的邊不顯示,得到圖1。

圖1 Q教授的合作關系網絡
圖1中,紅色的圓圈代表節點,即作者,圓圈越大,節點的度值越高,說明與該節點作者發表論文的作者數量越多,該節點影響力越高。節點之間的連線代表兩個作者共同發表論文的數量,連線越粗,其共同發表論文的數量越多。節點大小可以直接得到在網絡中的重要節點和關系,且可以看出重要的關系也基本都來源于點值較高的節點之間的關系。根據節點度的結果,分析網絡的度分布,將以上數據輸入到Excel中進行分析。將點的度值進行冪函數擬合,在散點圖中增加趨勢線,可以得到圖2。

圖2 網絡點度的分布
執行Info—Network—Gerneral命令,可以在File的輸入窗口得出平均點度Average Degree為6.1,這一數值表示該網絡中的節點平均與網絡中至少6個節點之間有合作關系。執行Net—Paths between 2 vertices—distribution of distances—From All vertices命令,可以在File的輸入窗口得出該網絡的平均路徑長度為1.85,表示在該網絡中,兩個節點之間建立關系平均需要經過1.85步;網絡的聚類系數可以通過執行Net—Vector—Clustering Coefficients—CC1操作得到,通過File窗口可以看出該網絡的聚類系數較大,Watts-Strongatz聚類系數和傳遞性網絡聚類系數分別為0.84和0.16,表示該網絡比較成熟,網絡中節點間資源的相互流通較好。
從90年代的合著網絡概念被提出,到2000年科研合作網絡概念出現,科研領域合作關系的研究已從單一的作者視角過渡到多類型的科研主體,包括人、機構和國家,甚至知識主題,而且分析科研合作網絡的學科應用領域越來越多。從近幾年的論文的發表數量上來看,科研合作網絡的相關文獻一直在迅速增長,已經成為近幾年的研究熱點,各個學科領域都運用一些社會網絡的分析方法和科學知識圖譜的相關軟件來展開研究。本論文從科研工作者出發構建其合著網絡,通過Pajek進行實證研究和網絡可視化發現該科研合作網絡符合冪律分布規律,并還進一步對網絡節點的度值建立分析矩陣并可視化顯示,能夠對合作網絡中的重要節點進行展示。同時利用加權矩陣對合作關系通過合作次數建立加權矩陣,并對重要關系進行提取。下一步希望通過多個案例對科研領域的合作關系網絡的特征進行多次驗證。尤其不同學科的科研合作網絡特征由于作者合著習慣的差異會有所不同,網絡規模及網絡特征需區別對待。
(來稿時間:2016年2月)
參考文獻:
1. NEWMAN M E J.The structure of scientific collaboration network[J].PNAS, 2001, 1(98):404-409
2.吳彤.復雜網絡研究及其意義[J].哲學研究,2004(8):58-63
3.汪小帆,李翔,陳關榮.復雜網絡理論及其應用[M].北京:清華大學出版社, 2006:9-11
4.吳金閃,狄增如.從統計物理學看復雜網絡研究[J].物理學進展,2004(1):18-46
5.孟微,龐景安.我國情報學科研合著網絡特性與集團結構分析[J].理論與探索,2009, 32(9):14-18
6.張繼洋,李寧.科學合著網絡研究進展分析[J].綜述與綜評,2012, 35(4):124-128
7.孟微,龐景安.我國情報學科研合著網絡研究及其特征參數分析[J].情報理論與實踐,2009(8)
8. GOM EZ D,GONZALEZ-ARANGEENA E, MANUEL C,et al.Centrality and power in social network:a game theoretic approach[J].Mathematical Social Sciences, 2003(46):27-54
9. HOLME P.Congestion and centrality in traffic flow on complex networks[J].Advances in Complex Systems,2003(6)
10. CRUCITTI P,LATORA V,PORTA S.Centrality measures in urban networks[J]. Phys.Rev.E,2006, 73(3)
11. NEWMAN M E J.The structure and function of complex networks[J].SIAM Review, 2003(45):167-256
12. 呂海洋,馮玉強.合著網絡中的角色分析[J].情報理論與實踐,2010(1):96-99
13. KARAMON J,MATSUO Y,YAMAMOTO H,et al.Generating Social Network Features for Link-based Classification[S]. LNAI4702, 2007:127-139
[14] NEWMAN M E J,WATTSD J.Renormalization group analysis of the small-world network model[J].Phys.Lett.A, 1999,263(4/6):341-346
15. 孟瑞麗.基于復雜網絡的江蘇船舶產業集群研究[D].鎮江:江蘇科技大學碩士論文,2012
〔分類號〕G350
〔作者簡介〕謝麗斌(1963-),女,學士,哈爾濱師范大學圖書館館員,發表論文10余篇,研究方向:信息資源管理;董穎(1960-),女,碩士,哈爾濱師范大學圖書館研究館員,發表論文40余篇,研究方向:數字圖書館;吳德志(1964-)男,學士,哈爾濱師范大學圖書館館員,發表論文10余篇,研究方向:情報信息服務研究。
*本文系國家社會科學基金項目“數字圖書館動態組合學科服務模式研究”(課題編號:14BTQ017)、教育部人文社會科學研究規劃基金項目“團體導向的數字圖書館評價研究機制”(課題編號:12YJA870003)、黑龍江省高校圖工委研究課題 “基于Living library高校圖書館學科化知識服務創新研究”(課題編號:2013-B-057)研究成果之一。
Analysis of Scientifc Collaboration Network Based on Pajek
Xie LibinDong YingWu Dezhi
( Library of Harbin Normal University )
〔Abstract〕Coathorship is a mainly type of scientifc network, which is discussed in this study, including network characteristics and distribution pattern, such as degree, centrality and link strength. Finally, the example testify that the network applies to power law.
〔Keywords〕CoauthorshipRelationship networkPajek