,
自然界許多科學問題和現象都可以抽象成網絡形式進行分析研究。節點代表不同個體,節點之間的連邊代表個體之間的關系。已有許多科學領域運用復雜網絡分析的方法對本領域未知的現象進行探索分析。在情報學領域,研究者將期刊、文獻、著者、研究機構,甚至是關鍵詞抽象為節點,將它們之間的關系,如引用關系、耦合關系或共現關系抽象成連邊,從不同粒度構建網絡進行分析研究,以求發現文獻相關網絡中潛在的、未被發現的規律,或根據對這些網絡的節點屬性的分析,發現重要的期刊、文獻、著者等,或用已構建的網絡對未來的情形進行預測等。情報學領域分析較多的網絡主要為引用網絡、合著網絡和共詞網絡。
本文將從這三方面分別介紹當前情報學領域利用網絡屬性分析方法對文獻相關網絡進行分析、應用的研究進展,并認為可以對論文相似性網絡的屬性進行分析,從網絡的視角對新的論文評價指標進行探索。
引用網絡是情報學領域最早開始研究的一類文獻相關網絡。早在1955年,Garfield[1]就提出可以通過引用關系連接起來的科學產品表示科學事件,由此研究科學活動的規律。1965年,D.S.Price[2]借助科學引文索引1961年的實驗版,繪制出了帶有引文間聯系的網絡。此后,有越來越多的研究者在不同粒度層面,根據不同引用關系,如直接引用、同被引、引文耦合建立引用網絡,對其進行了大量屬性研究,并取得了一定成果。
與文獻有關的網絡研究中,最早的是荷蘭科學家Leydesdorff開展的期刊層面的引用網絡研究。他利用Journal Citation Reports(JCR)中期刊引用數據構建期刊相互引用網絡,通過網絡結構特征和節點屬性結合期刊的被引次數和引用次數,開展期刊評價指標構建研究。最終,Leydesdorff[3]利用圖論中兩連通成分關節點算法,成功地對科學期刊進行了聚類和可視化,顯示出了每種期刊集合中的邊緣和核心結構。
隨著社會網絡分析方法的廣泛應用,Leydesdorff[4]又對期刊引用網絡的點度中心度、接近中心度和中間中心度等指標進行分析,發現中間中心度可作為衡量期刊的跨學科指標。隨后,為了研究跨學科領域期刊在引用網絡所處位置的特點,Leydesdorff[5]利用SCI和SSCI中2004年的數據構建期刊層面的引用網絡,再次驗證了節點的中間中心度可以用來衡量期刊的跨學科特性。
在期刊層面構建引用網絡并對其進行分析的中國學者主要有岳洪江和劉思峰[6],他們用管理學的29種經典期刊構建同被引網絡,分析該網絡的密度、中心性、K核、中心——邊緣結構,發現管理學期刊可以歸為四類,每一類都是通過某種期刊與其他類的期刊相聯系。由此可見,對期刊構建引用網絡,可以用來對期刊進行聚類分析,并可根據節點屬性構建期刊評價指標。
期刊層面的引用網絡雖在一定程度上對期刊聚類和評價有指導意義,但并不能反映某一學科領域具體文獻的引用地位。所以有很多研究者選擇用文獻構建引用網絡,從細粒度層面對某一學科領域知識網絡進行分析研究。
在文獻層面構建引用網絡,較為基礎的研究主要集中在對網絡的結構特點和節點屬性的分析。例如林德明和陳超美等人[7]以《科學計量學》中的文獻為數據源,建立共被引網絡,分析了該網絡的度分布、中間中心度分布等,發現其具有小世界和無標度的復雜網絡特性,中間中心度分布符合Zipf-Pareto分布;呂鵬輝和張士靖[8]等人利用近110多年來圖書館與情報學領域85種國際權威期刊的文獻構建引文網絡,根據節點中心性指標,分析了網絡中的關鍵文獻,并且發現該引文網絡的入度有無標度特性等。這些研究關注的是網絡的靜態拓撲結構特點,而引用網絡的最大特點在于其結構會隨時間不斷變化。研究知識網絡的結構特點及演化規律是厘清知識發展脈絡、探測和追蹤創新領域及發展趨勢的基礎。所以馬費成和劉向[9-12]根據引文網絡(無環有向網絡),利用BA網絡模型的形成機制,構建了科學知識演化模型,對科學知識網絡的演化和動力學機制進行了研究。之后,馬費成和陳瀟俊等[13]又構建了生物醫學領域的引文網絡,著重分析了網絡的主題聚類、關鍵路徑并識別了網絡中的權威和核心文獻,為科學知識的演化與發展提供了一個較好的理解。
隨著對引文網絡的結構特點、節點屬性和演化規律認識的加深,越來越多的學者開始嘗試利用已構建的引文網絡,根據網絡的結構特征和節點屬性,對文獻進行評價、探測新型知識類團,甚至對未來的引用行為進行預測,較為突出的主要有日本學者Naoki Shibata 等人。2007年,Naoki Shibata[14]等人根據引文網絡節點的聚集中心性、接近中心度和中間中心度指標,調查一篇學術論文將來被引用的影響因素。相關性分析顯示,被引次數和節點的中間中心度指標是影響論文未來被引次數的主要因素。2008年,Naoki Shibata等人[15]分別對氮化鎵領域和復雜網絡領域的文獻構建引用網絡,使用網絡拓撲結構測量指標類內節點度數和節點參與系數,成功探測到一個研究領域是否有新的知識類團出現,并根據新知識產生后,引文網絡拓撲結構改變的不同,將研究領域分為漸進式創新領域和分支式創新領域。2012年,Naoki Shibata等人[16]根據引文網絡的拓撲結構特征,如節點的中間中心度、節點的共同鄰居、基于鏈接的jaccard系數等,以及文獻本身的語義特征和屬性特征(如被引頻次、自引)等,對引文網絡的節點之間的鏈接進行了預測。
合著網絡研究通過作者之間或不同機構之間的合著關系構建合著網絡,以求發現合著活動中潛在的規律。對合著網絡的研究,也是經歷了一個由淺入深,由起初對網絡的結構特征和屬性的基本認識到利用合著網絡構建評價科研人員的指標,甚至對未來合著行為進行預測的過程。
2002年,Barabási等[17]利用數學和神經科學領域8年的文獻數據,分別構建了其對應的作者合著網絡,對網絡的小世界和無標度特性進行了分析研究,發現作者合著網絡的演化符合無標度網絡的大度節點“偏好依附”的特點。2004年,Newman[18]分別對生物學、物理學和數學領域構建作者合著網絡,并分析網絡的平均距離、聚集系數等屬性以及網絡的演化規律,發現不同領域的作者合著網絡的結構不同,生物學領域的合著現象較其他兩個學科多。榮先乾等[19]構建圖書情報領域作者合著網絡,分析了該網絡的一系列屬性,如節點的平均度值、最大連通子圖的直徑、網絡的平均距離,并把這些參數值與國外圖書情報領域合著網絡進行比較,發現國內圖情領域合著強度不大,獨立發文的作者比較多。呂鵬輝等[20]對國內外圖書情報領域的3種合作網絡:作者合著網絡、機構合作網絡和國家合著網絡的網絡屬性進行了比較,發現作者合著網絡是非連通的稀疏網絡,作者之間形成了多個研究社團;而機構和國家合作網絡的平均距離較短,密度和聚集系數較高。這些研究都是對合著網絡結構特征的分析和比較研究,顯示了合著網絡具有復雜網絡的特征。
不同學科領域、從不同粒度構建的合著網絡、甚至不同國家的合著網絡結構不同,提示對合著網絡結構特征的研究可以揭示合著行為的特點,這為政策制定者對國家、地區、高校、機構以及科學家之間的科研合作行為的宏觀把控有一定的指導意義。
合著網絡的第一類應用研究是根據合著網絡網絡的節點屬性和結構特征,聯合復雜網絡中重要節點的評價方法,對合著網絡中核心科研人員的分析研究。這些研究首先是對節點中心性指標和作者科研績效的相關度進行初步探索。如欒春娟等[21]對2006年世界數字信息傳輸技術領域27 572項基本專利的33 480位發明者合作狀況進行計量分析,繪制高產發明者的合作網絡,通過對網絡節點的屬性分析,發現高產發明者科研績效與其在合作網中的度值呈明顯正相關性;Erjia Yan等[22]利用2002-2007年中國圖書情報學的18種核心期刊的文獻,構建了作者合著網絡,發現該網絡具有復雜網絡無標度和小世界特性,并對網絡節點的中心性指標和作者被引頻次相關性進行統計分析,發現節點的中心型指標和作者的被引頻次高度相關。
第二類應用研究是借鑒了復雜網絡中重要節點評價方法,配合網絡分析法,構建了科研人員評價的新指標。如肖連杰等[23]在構建科研合作網絡時,同時考慮節點和邊的信息,為節點和邊賦予一定的權值,將點權和邊權相加,用于評價科研合作網絡中節點的重要性,且該方法可以識別科研機構的核心人才,對人才流失管理有一定指導意義;Liu XM等[24]用ACM/IEEE的數據,構建了無向無權作者合著網絡和有向加權作者合著網絡,分析了網絡節點的中心性指標,并根據PageRank指標定義了一個新指標AuthorRank,與PageRange指標相比,AuthourRank考慮節點之間連邊的權值,且AuthorRank比節點中心性指標在尋找網絡中重要著者方面更有優勢;Li XL等[25]則根據有向加權合著網絡,構建了一種可以識別出研究團體中后起之秀的指標PubRank。PubRank也是借鑒了PageRank指標的構建思想,但與AuthorRank相比,該指標不但考慮了邊的權值,還根據科研人員的科研能力為節點賦予了權值,且大量實驗證明,該指標可以有效識別出合著網絡中之后表現優異的研究人員。
第三類應用研究側重于利用網絡的凝聚子群分析法探測科研合著網絡中的不同科研團體。如候海燕等[26]根據Scientometrics 1987-2004年的文獻數據,建立了作者合著網絡,分析了網絡的密度、節點中心性指標,并結合聚類分析法與詞頻分析法,用于發現作者合著的小團體、中心團體以及大學科下的子領域;李亮等[27]對《情報學報》的作者構建了合著網絡,分析了網絡的節點中心性、凝聚子群以及核心——邊緣結構,借此評價作者在合著關系中的地位,并發現了合著網絡中關系緊密的團體。以上研究都顯示,研究者并未將研究局限在對網絡基本結構屬性的分析上,而是將網絡分析的方法應用于節點即作者評價指標的構建,從構建網絡的角度解決一些利用其他方法不能得到最優解的問題。
此外,還有一類較為高級的應用研究,即利用合著網絡和機器學習的方法,對未來的合著行為進行了預測。如Pavlov等[28]根據合著網絡利用監督式機器學習方法對還未出現的合作關系進行了預測,他們的預測模型有較高的精確性,可以輔助構建和維持良好的合作關系;于琦等人[29]使用監督式機器學習的方法,利用生物醫學領域的合著網絡中的拓撲結構特征建立鏈接預測模型,該模型可以預測尚未實現的潛在的合作關系。這類研究為國家的科研管理決策提供了一定的參考依據。
相比以上兩種網絡,詞共現網絡(共詞網絡)是一種分析粒度更小的網絡。可以說共詞網絡是共詞矩陣通過網絡構建方法抽象出的一種網絡,它是整個共詞分析方法體系中的一種類型,偏向于從宏觀角度描述由關鍵詞表征的科學知識發展過程[30]。研究者利用文獻關鍵詞在文獻中的共現關系構建網絡,主要研究方向分為以下兩類。
一類是對共詞網絡本身的結構特點和演化規律的研究。如王曉光[31-32]為了從微觀層面科學知識網絡的形成和演化機理,使用中國管理學領域5種核心期刊的關鍵詞數據構建了共詞網絡,并對該網絡的密度、聚集系數、平均距離等網絡屬性進行了計算,發現該網絡具有無標度和小世界特性,且共詞網絡的演化符合BA模型,新增節點傾向于與度值大的節點相連。
另一類則是對共詞網絡的應用研究,這類研究通過對共詞網絡結構特征的研究,以求發現某一學科領域的知識結構特點、研究前沿等。如魏瑞端[33]利用《情報學報》和《中國圖書館學報》中的文獻數據,構建共詞網絡,根據節點中心度指標,判斷學術期刊的發文熱點,并根據共詞網絡圖比較同一期刊不同時期或不同期刊同一時期研究內容的主題結構及其變化情況;劉則淵等[34]利用科學學領域中6種主要期刊所收錄的1995-2004年間的所有文獻的關鍵詞數據,構建共詞網絡并分析該網絡的k-core,展示了關鍵詞的強連接層次,發現了科學學的研究主題和若干研究熱點、并對未來研究方向進行了預測;趙一鳴等[35]根據1990-2012年圖書館與情報學領域高頻關鍵詞構建共詞網絡,通過對該共詞網絡結構屬性的分析,得出了當前圖書館與情報學的研究熱點和演進趨勢。
從構建網絡的方法來看,可以根據不同研究目的構建不同網絡。在進行網絡分析時,研究者一般會根據研究目的并結合研究對象的實際特征構建相應的網絡。例如,如果研究對象抽象出的節點之間有信息交流,且信息流動的方法對研究有重要意義,則可以考慮構建有向網絡;如果節點之間的關系有強弱之分,且這種強弱關系是研究所關注的重點,則可構建加權網絡對其進行分析。對于引用網絡的研究,在分析網絡的結構特點和演化過程時,可以不考慮邊的權值,而只考慮連線的方向,構建有向無權網絡進行分析研究。而當需要根據引用網絡對期刊、文獻的特征進行分析時,則可以將期刊或文獻的引用次數和被引次數等實際指標作為節點或者邊的權值進行研究。對于合著網絡,雖然合作關系是相互的,沒有方向的區別,但在合著網絡中重要節點評價的研究中,為了適應復雜網絡中重要節點的評價指標,也可以將無向網絡當做有向網絡進行分析。
此外,也有許多研究者考慮科研人員的科研績效及其在合作關系中的貢獻大小等,將這些實際指標作為合著網絡中節點和邊的權值,構建加權網絡對合作活動進行分析,對科研人員進行評價。由于共詞網絡是從詞共現矩陣抽象得來的,許多研究是通過構建無向加權或無向無權網絡對其進行分析。對網絡的拓撲結構進行研究時,也有研究者將共詞網絡改造成有向網絡,用于進一步揭示科學知識發展變遷的規律。由此可見,應根據不同分析目的,構建相應的網絡對文獻相關網絡進行分析研究。
從網絡中節點的屬性來看,可以使用不同的粒度,如期刊、作者、文章和關鍵詞構建網絡。以上文獻相關網絡或者是從合著機構、合著者或期刊等較大的粒度構建網絡,對網絡的基本屬性進行分析以發現文獻相關網絡的演化規律或核心節點等,或者是從文章關鍵詞這樣較小的粒度構建網絡,用以分析某一學科領域的知識結構特點或用于探索研究前沿等。
已有研究中,從文獻角度構建的網絡主要為引文網絡,節點之間的連線代表的是文獻之間的引用關系(直接引用、同被引、引文耦合)。引用關系是根據論文作者的主觀意志而使文獻之間能相互聯系,雖然可以反映節點間的信息交流,并在一定程度上用于分析知識結構的演化規律或研究熱點等,但并不能從客觀角度反映論文內容之間的實際關系。因此,如果在文獻層面,能夠根據文獻本身的內容特征,構建一種可以反映文獻之間客觀關系的網絡,并對其進行網絡結構特點和屬性的分析,對開展各種研究可能會有更重要的意義。
從研究逐步深入的過程看,通過對以上文獻相關網絡的研究進展總結,可以發現對文獻相關網絡的研究幾乎都是從基礎的認知探索逐漸過度到實際應用方面的研究。這些研究主要分為兩個層面,第一個層面是利用社會網絡和復雜網絡分析方法對所構建網絡的結構特點、節點屬性以及演化規律的探索分析,這類研究的開展使研究者對文獻相關網絡的靜態特征和動態演化規律有了初步認識;第二個層面是在第一個層面的基礎上,對文獻相關網絡的應用研究。文獻相關網絡的應用研究又可細分為三類:第一類是根據構建的網絡,對學科結構、學科前沿進行探索分析,如對共詞網絡的應用研究;第二類是根據網絡的結構特點和節點屬性特征,結合復雜網絡中重要節點的評價方法,構建新的科學評價指標,如節點的中間中心度可用來評價期刊的跨學科特性,而利用PageRank算法構建思想,可構建出多種從不同角度評價科研合作網絡中重要節點的指標;第三類研究則將網絡分析方法和機器學習方法相結合,對未來的科研行為(引用行為、合著行為)進行預測,且都取得了較好的應用結果。
由此可見,通過構建網絡,利用網絡分析的方法,在對文獻相關網絡的結構特征和演化規律進行分析的基礎上,結合其他評價方法,可以構建出新的科研評價指標或對未來科研行為進行預測。
在未來的研究中,可以根據已成熟的論文相似性算法,為某一學科領域或某幾個學科領域構建論文相似性網絡,分析網絡的各種屬性,探索學科領域的知識網絡結構特點,并根據表征重要節點和普通節點的網絡節點屬性從不同角度發現關鍵論文,力求創建一個基于網絡的新型論文評價指標[36]。