[摘要]本文首先構建了圖情領域的作者合著網絡,并將該網絡與國外其他學科的合著網絡進行比較分析,發現目前圖情領域的合著交流并不充分,提出需要進一步加強交流與合作。隨后,構建了圖情領域核心作者的合著網絡和web合著網絡,并對兩個網絡進行了簡單的比較分析,指出可以通過使用web合著網絡近似模擬學術合著網絡進行社會網絡分析,解決web合著中的文獻重復消岐和作者重名消岐問題。
[關鍵詞]社會網絡分析;圖書館學;情報學;合著關系;web數據集
[中圖分類號]G250;G350 [文獻標志碼]A [文章編號]1005—6041(2010)01—0001—05
1 引言
隨著學科的不斷發展,學科的專業化程度越來越高,很多科學研究需要科研者進行合作才能夠完成,在學術上,這種情況表現為科研合作和科學合著越來越頻繁。科研合作和科學合著的科研者之間往往較為熟悉,科研者之間通過互相合作發文,建立了一個合著發文網絡,該網絡能夠比較真實地反映科研者人際網絡,又稱為社會網絡。過去,一般使用傳統的文獻計量學方法(即統計學方法)分析合著關系,這種分析的弊端是沒有從整體上來考察作者之間的合著關系,忽略了某些作者之間潛在的關聯。社會網絡分析方法產生于社會學領域,現在已經發展成為了一種應用廣泛的研究方法。使用社會網絡分析方法考察圖情領域作者之間的合著關系,可以了解圖情領域目前的合著狀況,改善圖情領域的合著現狀。作者合著網絡的學術數據集一般難以獲取,而web數據集相對而言更容易獲取。比較學術數據庫和web數據集所形成的社會網絡的異同,如果兩者的差異不大,則可以使用web數據集模擬學術數據庫進行社會網絡研究;如果兩者的差異很大,則需分析比較兩個網絡,找出差異存在的可能原因。
2 相關研究現狀
國外關于合著網絡的實證研究比較多,大多數集中在自然科學領域,作者也一般來自物理學、數學或者計算科學領域,來自圖情領域的作者相對較少。Xiaoming Liu等構建了數字圖書館領域二值無向合著網絡,并進行了中心性分析,構建了加權有向合著網絡,并提出了authorRank計算單個作者在合著網絡中的地位;Fuyuki Yoshikane等比較了計算機科學理論研究領域和應用研究領域合著網絡,并修改了hits算法來識別合著網絡中領導者和追隨者;A.L.Barabasi研究了合著網絡隨時間的演變規律,驗證了合著網絡度分布符合冪率分布、聚類系數隨時間遞減、最大連通子圖占整個網絡的比重隨時間遞增、平均度隨時間遞減、新加入節點優先選擇度比較高的節點建立連接;M.E.J.New-man研究了物理學、生物學和計算機科學領域合著網絡的基本屬性,并對各個網絡進行了比較分析;Yasmin H.Said等介紹了社會網絡分析的基本方法如中心性分析、聚類分析等,重點研究了合著網絡聚類分析后形成的小團體特征,這些小團體可以歸納為單人型、顧問型、企業型以及團隊型,并推測這些小團體特性可能帶來的影響。在國內,使用社會網絡方法實證分析合著關系的研究相對較少,南京大學信息管理系的朱慶華總結了社會網絡分析方法在情報學領域的應用現狀,并對《情報學報》的合著社會網絡做了實證研究,使用Ucinet工具對《情報學報》合著網絡進行了中心性分析、凝聚子群分析以及核心一邊緣結構分析,評價了學者在合著網絡中的地位,發現了合著網絡中聯系緊密的團體,指出了合著網絡中核心作者的數量和所屬機構;劉蓓等使用NetDraw工具分析了研究者合作發文的網絡、共詞網絡、引文網絡、小團隊不同時期合作網絡,認為我國的情報學合作研究不夠充分,大多數處于分散研究狀況;魯東大學的王福生等驗證了《情報學報》合著網絡符合無標度網絡特性和小世界網絡特性;中國科技信息研究中心的孟微等使用Pajek工具對《情報理論與實踐》的合著網絡進行了可視化研究,得出了一些小團體。



3 研究方法
3.1 研究對象
本文實證研究的目的是為了獲取整個圖情領域社會網絡的基本屬性,同時比較圖書館學和情報學領域(以下簡稱圖情領域)由學術數據集和web數據集所生成的社會網絡的差異。研究的領域為圖書館學和情報學。本文定義圖情領域為以下羅列的圖書館學和情報學17類國家級核心期刊,見表1。本文從中國期刊網采集了以下期刊1998--2007年共lO年所有論文的題名、作者及發表時間。圖1展示了十年間合著率的變化,可以很清楚地看到,整個圖情領域的合著率呈上升趨勢。
以圖情領域的期刊發文記錄構建合著網絡,其中節點為發文的作者;合著文章中所有合著者之間兩兩關聯記一次合著關系,合著關系不分方向。如文章I由A、B、C三位作者合著,文章II由A、D合著,則提取節點A、B、C、D,提取關系A-B、B-C、A-C、A-D。由該例生成的社會網絡如圖2。通過這種方式,提取到圖情領域總計49 938篇文獻里面25 712個作者之間的29 643條合著關系(多次合著關系簡記為一次),構建了圖情領域的合著網絡。
本文還將比較圖情領域核心作者合著網絡和核心作者web合著網絡的差異。根據普賴斯定律關于核心作者的定義,選取發文量在O,749’N一=8.57以上的作者作為核心作者研究,其中N...為發文最多的作者的發文量,在我們的試驗中,N...:131。這樣,獲取了圖情領域核心作者的合著網絡,該網絡包括1215個節點。本文將重點研究該網絡。同時,由這些核心作者構建web學術網絡。本文定義的web學術網絡節點為實驗中的1215名核心作者;關系為兩位核心作者在Google Scholar中文學術搜索中的共著次數。試驗采集了這些核心作者在Goc,出Scholar中的共著信息,并由此構建了web合著網絡。
3.2 研究角度
目前使用社會網絡分析方法分析合著網絡,主要集中在以下幾個方面:(1)中心性分析。中心性分析包括點度中心性分析、中間中心性分析和接近中心性分析。點度中心性描述了節點與其他節點的關聯次數,在合著網絡中即表示作者參與合著的次數;中間中心性描述了通過該節點的路徑數量總和,表示了該節點對資源的控制能力;接近中心性為節點和其他節點的距離之和,該值越小表明該節點能以最短的距離到達其他節點,在網絡中處于比較核心的地位。(2)凝聚子群分析。凝聚子群分析主要包括K-叢分析和凝聚子群密度。K-叢是指一個規模為N的子群,該子群中每個點至少與(N-K)個點關聯,用子網絡的關聯特點來反映整體網絡的特點;凝聚子群密度是子網絡密度和整體網絡密度的比值,用以反映整個網絡中的小團體現象是否明顯。(3)核心一邊緣結構分析。根據網絡中節點之間聯系的緊密程度來把網絡中的節點劃分為兩個區域,核心節點區域和邊緣節點區域,這樣可以得出網絡中的核心節點。(4)小團體特征分析。篩選出網絡中比較重要的節點重新構建網絡分析,得到一些小團體,這些小團體按其連通特性可以劃分為單點型、雙核型、流線型、核心型、橋梁型和網架型。(5)網絡平均度以及度分布特征。在合著網絡中,網絡的平均度就是每個作者平均與幾個作者的合著發文數;度分布特征主要考察合著網絡的度是否符合冪率分布。(6)網絡平均路徑長度及其分布特征。一般考察連通圖和非連通圖最大連通子圖的平均路徑長度,該值反映了網絡中任意兩點的平均距離,在合著網絡中就是任意兩個作者平均經過幾個作者關聯,可以用來驗證合著網絡是否符合小世界特性。(7)聚類系數。網絡中某個節點的聚類系數定義為它所有相鄰節點之間連邊的數目占可能的最大連邊數目的比例,整個網絡的聚類系數為所有節點的聚類系數的平均值,該值越大說明網絡越符合小世界特征。(8)最大連通子圖分析。網絡直徑、平均路徑長度、聚類系數分析的前提條件是網絡必須是連通的,當網絡為非連通時則可以研究網絡的最大連通子圖的相關特性。
3.3 研究工具
關于社會網絡分析的工具很多,其中常用的有Ucinet、Pajek、NetDraw。Ucinet是由Borgatti、Ev-erett和Freeman合作開發,在社會網絡分析方面的功能較為全面,包括了常用的社會網絡分析方法,缺點是只能處理小型的社會網絡。Pajek““由盧布爾雅那大學的VladimirBatagelj和DrejMrvar開發,主要用于社會網絡分析,特點是網絡可視化和處理上百萬節點的大型網絡。NetDrawt也是一款社會網絡分析的可視化工具,不過它同樣不支持大型網絡的社會網絡分析。
本文的研究將主要結合Pajek和Ucinet工具進行社會網絡分析。
4 研究結果分析
4.1 圖情領域合著網絡分析
在試驗采集到的數據集的基礎上構建了圖情領域合著網絡,表2比較了圖情領域合著網絡靜態屬性統計與國外其他數據集的差異。
在圖情領域,平均每位作者發表2.71篇論文;平均每篇論文由1.57位作者合著。同國外的數據相比較,圖情領域平均每個作者發文數和平均每篇文獻合著作者數都相對偏低(特別是后者),這反映了目前我國圖情領域整體的合著率較低,著者獨立發文和導師帶一個學生發文的情況比較多。而由團隊合著發文的情況較少。
圖3記錄了圖情領域文獻的作者合著數分布。圖情領域的平均度為3.26,就是說平均每位作者擁有3.26位合著者。該指標同國外的數據集相比偏低,也同樣反映了圖情領域的合著強度偏低。
整個圖情領域的合著網絡并非一個連通圖,實驗中取合著網絡的最大連通子圖分析。圖情領域合著網絡最大連通子圖的平均路徑長度為8.7,說明任意兩個合著者平均通過8.7個作者發生關聯,聚集系數為0.452。該連通子圖擁有較小的平均路徑長度和較高的聚集系數,基本符合Watss等人于1998年在Nature上提出的“小世界”現象。
圖情領域最大連通子圖節點數量僅占節點總數的55%,說明圖情領域的整體研究狀況比較分散,還有大部分的作者游離在最大連通子圖之外,與最大連通子圖圈里的作者沒有任何交流,該指標同樣反映了圖情領域的合著狀況并不理想,圖情領域的著者之間應該進一步加強交流與合作。
4.2 圖情領域合著網絡與web合著網絡的比較
整個圖情領域合著網絡擁有25 712位作者,其中發文最多的作者發表了131篇論文。由于整個合著網絡極其龐大,如果將整個網絡與web學術網絡進行比較,可行性不高。前面已經介紹,筆者根據普賴斯定律,選取了圖情領域的1215位核心作者重新構建合著網絡(下文稱enLis網絡)進行研究。同時抓取了l 215位核心作者在Coogle Scholar中的共著信息,構建了web學術網絡(下文稱webLis網絡)。下面將對這兩個網絡進行比較研究。
4.2.1 網絡基本參數比較。網絡密度反映了網絡中節點的緊密和稀疏程度。通過Ucinet計算cnLis網絡和webLis網絡的密度分別為0.0061和0.0718。這說明,圖情領域的核心作者在Google Scholar中的合著關系要緊密的多。原因是cnLis網絡僅僅采集了圖情領域核心期刊中的共著信息,而GoogleScholar卻收集了范圍更廣的期刊以及教材中的共著信息,同時Coogle Scholar中包含了大量的重復信息,對返回信息的去重處理并不理想。
最大連通子圖占整個網絡的比例在兩個網絡中分別是0.620和0.937。webLis網絡的值更高,說明在webLis中更多的作者關聯在一個大的子圖中。該值的偏大和上面網絡密度在兩個網絡中的差異性表現原因一致。
4.2.2 網絡中心性比較。點度中心性反映了作者的合著次數。cnLis網絡和webLis網絡的平均度分別為7.411和87.213,兩個網絡的最大度分別是107和1443,兩者之間相差甚遠。這也是因為GoogleScholar收錄了更廣泛的合著信息以及包括了很多的重復信息。表3列出了兩個網絡點度中心度排名前十的作者,同時與發文量排名前十的作者進行比較。通過比較發現,發文量排名比較靠前的,如張曉林、馬海群等,在度排名中卻比較靠后,這說明這些作者獨立發文比較多。而在webLis的度排名中,王麗、張建、李明、王玉、王偉等作者排名非常靠前,除去這些高幾率重名作者后,兩個網絡的點度中心度排名基本一致。
中間中心性反映了作者對資源的控制能力。表3列出了兩個網絡中間中心性分布排名前十的作者。兩個網絡的中間中心性排名分布差異極大,觀察發現,web學術網絡中間中心性排名靠前的基本上也是一些高幾率重名作者。如果需要使用web庫近似代替學術數據庫進行社會網絡分析研究,必須要解決重名問題。觀察cnLis網絡,可以發現劉剛、邱均平、張玉峰、張曉林等作者對學術資源具有較強的控制能力。
4.2.3 核心節點比較。分別對兩個網絡進行核心節點分析,找到cnLis的核心節點9個:劉家真、王世偉、蔣永福、邱均平、張曉林、王知津、孫莉、劉剛、劉莉;webLis的核心節點19個:劉家真、梁燦興、李家清、彭靖里、周九常、包和平、馬恒通、秦珂、黃曉斌、張玉峰、蔣永福、邱均平、靖繼鵬、馬海群、王知津、張曉林、劉磊、劉剛、王軍。cnLis的核心作者基本上在webLis中都可以找到,不過webLis找到了更多的核心作者。在兩個網絡中都出現的核心作者有:劉家真、蔣永福、邱均平、張曉林、王知津和劉剛,這表明了這些作者在圖情領域的核心地位。
5 結論
本文構建了整個圖情領域的作者合著網絡,對該網絡的一些基本參數如平均每個作者發文數、平均每篇文獻合著作者數、平均度、最大連通子圖的直徑、網絡平均路徑長度等參數進行了分析,并把這些參數與國外其他領域的合著網絡進行了比較,發現目前國內圖情領域的合著強度不大,獨立發文的作者比較多,還有大部分的作者游離在最大連通子圖之外。
同時,本文對圖情領域核心作者的學術合著網絡和web合著網絡的網絡密度、中心性、和核心節點進行了比較,研究的目的是為了考察是否可以使用web合著網絡近似模擬學術合著網絡進行社會網絡分析。比較發現,web合著網絡的密度、中心度與學術合著網絡相比都偏高,有些地方出入還相當大。原因是構建web合著網絡的時候,沒有考慮到對重復文獻的消岐和作者的重名消岐,這也是筆者今后在構建web合著網絡時需要進一步考慮改進的地方。