□彭陶 王建冬 孫慧明
北京大學信息管理系,北京,100871
首都圖書館,北京,100021
新中國成立60年來,特別是改革開放30年來,中國圖書館學情報學研究取得了值得肯定的成就,總結性的成果不斷涌現[1-4]。但大部分所采用的研究方法偏重于定性,定量分析手段略顯單薄。與此同時,一批學者基于文獻計量方法,探討了改革開放30年來圖書館學情報學的發展狀況和研究熱點,如邱均平等人的研究[5-8]。為深入揭示近30年來我國圖書館學情報學研究的發展變化,本文采用關鍵詞共詞分析的方法,通過數據抽樣、社群識別、聚類分析和學科隸屬度計算等工具,構建30年來我國圖書館學情報學領域的關鍵詞共現網絡,并對該領域的知識地圖進行共時和歷時分析,以求科學、直觀地展示我國圖書館學情報學的研究熱點和研究結構、發展脈絡和發展趨勢,為我國圖書館學情報學領域的論文選題、科研立項和學科規劃提供決策和參考信息。
圖書館學和情報學一直都是共同發展的姊妹學科,兩個學科的研究內容交叉重疊的現象十分普遍,很多研究機構和研究人員的研究范圍均橫跨兩個學科。因此,按照機構或者研究者均很難劃分出一個比較明顯的圖書館學和情報學研究群體。但從圖書館學情報學學術期刊的實際運作來看,一般來說,直接以“圖書館”或“情報”字樣命名的核心期刊,其發文內容的側重明顯不同。為此,本文分別選取了上述兩類期刊各4種,檢索其從1980年到2010年之間收錄的所有文獻(涵蓋各刊物改名前的發文數據,如《中國圖書館學報》繼承《圖書館學通訊》(1957-1990)),作為本文研究的樣本來源。表1顯示了本文選取的8種圖書館學和情報學核心期刊及其收錄的文章數量:

表1 選取的8種核心期刊的發文量情況
由于此前并未見到有文獻專門探討不同命名方式期刊的學科取向問題,本文首先通過統計分析的方式,驗證本文的樣本選取方案對于研究支撐的效度問題。筆者統計了兩類期刊收錄文章的作者單位為各類圖書館(即作者單位中包含有“圖書館”字樣)的比重,發現圖書館學類期刊中作者單位為圖書館的文章比重達到68.5%,而情報學類期刊中此比重只有26.1%,這從一個側面反映出兩類期刊的作者群體具有很大差異。
表2和表3顯示了圖書館學情報學兩類期刊收錄的高產作者和高產機構名單:

表2 圖書館學情報學期刊收錄文章的高產作者

表3 圖書館學情報學期刊收錄文章的高產機構①為方便統計起見,對高校中非圖書館類的機構作了合并。如武漢大學信息管理學院、武漢大學信息資源研究中心等均并入“武漢大學”條目,而保留“武漢大學圖書館”條目。
從表2和表3可以看出,如前文所說,很多作者的研究范圍橫跨兩個學科,發文量在兩類期刊中都名列前茅,如侯漢清等。同時,一些老牌圖書情報院系,如武漢大學信息管理學院等在國內圖書館學和情報學界均具有很高影響力。因此,無論是高產作者還是高產機構,在兩類期刊中都存在一定程度的重疊現象。但總體來看,高產作者在圖書館學和情報學期刊的分布與這些作者的學科背景大致吻合。而從高產機構的分布來看,圖書館學期刊的10家高產機構中圖書館占了5家;而情報學期刊中則一家圖書館也沒有。此外,情報學期刊還吸引了諸如西安交通大學、上海交通大學、西安電子科技大學等并未開設圖書館學情報學專業的高校的研究者的大量參與,說明情報學期刊還吸納了部分非傳統圖書館學情報學領域的研究者論文。這也反映出兩類期刊的作者群存在著顯著差異。
基于上述分析,我們認為,本文的樣本選取能夠較好地反映兩個學科研究的差異性,因此能夠較好支撐本文的研究結論。
基于關鍵詞在同一篇文獻中的共現關系,可以構建出描述圖書館學情報學研究領域概念之間關系的復雜網絡。本文以所收集文獻的概念(關鍵詞)為頂點,以概念在同一篇文獻中被使用(共現)為邊,以共現的次數為邊的權值,構建了一個包含24243個結點,98407條邊的無向加權網絡。以下對該網絡的基本拓撲屬性進行分析:
復雜網絡無尺度特性的檢驗主要使用度分布指標。網絡中一個頂點i的度ki是指與此頂點相連接的邊的數量。直觀上看,一個頂點的度越大就意味著這個節點在某種意義上越重要。網絡中所有頂點度的平均值稱為網絡的平均度。通過計算發現,本文所構建的圖書館學情報學概念網絡的平均度為8.12。網絡中節點的度分布情況可用分布函數P(k)來描述,P(k)表示一個隨機選定的節點的度恰好為k的概率。通過筆者之前對類似網絡的大量實證研究發現[9-12],很多概念網絡都存在冪律(powerlaw)形式的度分布,即P(k)~k-r,此類網絡也稱為無標度網絡(Scale Free Networks)。圖1給出了本文所構建的概念網絡頂點度的分布情況,該圖顯示:圖書館學情報學研究概念網絡的度分布呈現無標度網絡的特征,即大多數概念僅與少量概念相聯系,而少數幾個度值較大的概念與眾多的概念相聯系。

圖1 雙對數坐標系下圖書館學情報學研究概念網絡的度分布
復雜網絡小世界特性的檢驗主要使用聚類系數和平均路徑長度指標。在網絡中,兩個頂點i、j之間的最短路徑的定義為所有連通(i,j)的通路中,所經過的其他頂點最少的一條或幾條路徑。兩個頂點i、j之間的距離dij的定義為i、j之間最短路徑上邊的個數。網絡的直徑(diameter)的定義為網絡中任意兩個頂點之間距離的最大值。網絡的平均路徑長度的定義為網絡中任意兩個頂點之間距離的平均值。計算結果顯示:圖書館學情報學研究概念網絡的平均路徑長度為3.2。
在網絡中,對于某個節點i,其聚類系數Ci被定義為它所有相鄰節點之間相連邊的數目占可能的最大連邊數目的比例。具體地,設節點i有ki條邊與之相連(即節點i有ki個鄰居),顯然這ki個節點最多有C2ki條邊,假設這ki個節點之間實際有Ei條邊相連,則Ci=Ei/C2ki;整個網絡的聚類系數C就是所有節點聚類系數的平均值。計算結果顯示:本文構建的圖書館學情報學研究概念網絡聚類系數為0.8226。與相同規模隨機網絡進行比較,結果如表4所示:

表4 本文構建的網絡與隨機網絡的拓撲屬性比較
從上述分析結果可見,圖書館學情報學概念網絡具有較小的平均路徑長度和較高的聚類系數,符合小世界網絡特性。
在本文所構建的關鍵詞共現網絡的基礎上,借助統計分析、聚類分析和可視化工具對圖書館學情報學研究概念網絡進行分析,可以較為直觀地描述該領域研究的發展狀況。首先簡要介紹本文可視化分析的基本方法:
上述圖書館學情報學研究概念網絡涵蓋數萬個節點和邊,無法直接觀察知識發展態勢,而必須首先進行抽樣,從整體網絡中析出具有代表性的概念社群結構。本文采取以下抽樣步驟:
首先,邊權值越小,即關鍵詞之間共現次數越少,說明兩個關鍵詞之間共同出現的偶然性越大。因此,應當去除網絡中權值較小的邊。通過實驗,本文去除了上述網絡中權值小于5的所有邊。
其次,關鍵詞度數越高,說明關鍵詞與網絡中越多的節點存在概念聯系。在復雜網絡中,由于無標度現象的存在,度數最高的極少數點往往與大量節點存在聯系(本文構建的網絡中度數最高的關鍵詞“圖書館”與2999個結點相連)。這樣的網絡無法很好分析其中隱藏的社群結構。因此,本文通過實驗去除了上述網絡中度數最高的60個點。
經過上述兩步操作,進一步去除孤立點,并摘取規模最大的一個連通子圖進行分析。最終得到一個包含194個結點、346條邊的核心概念網絡。
在復雜網絡分析中,使用劃分(Partition)的方法,能夠分析網絡中不同類型的節點的分布態勢。為此,本文首先設法為每一個關鍵詞指定其學科類別。基本思想是:關鍵詞隸屬于某一學科的程度,與該關鍵詞在該學科文獻中出現的次數成正比,與該學科的發文規模成反比。由此:
對于任意一個關鍵詞Ki,設其在圖書館學期刊中出現的次數為CT,在情報學期刊中出現的次數為CQ,兩類期刊收錄的文章總數為PT和PQ,則關鍵詞Ki隸屬于圖書館學和情報學的程度(將其稱之為學科隸屬度)SiT和SiQ分別為:

其中,PT+PQ為調節參數,防止SiT和SiQ出現數值過小的情況而使計算機無法處理。
如果SiT>SiQ,則將關鍵詞Ki歸入圖書館學概念;如果SiT<SiQ,則將其歸入情報學概念;如果SiT=SiQ,則按照關鍵詞最后出現的類別歸入對應的類別之中。如此,可以將所有節點劃分為圖書館學和情報學兩類,便于進一步分析。
本文使用邊介數聚類算法[13](G-N 算法)對關鍵詞共現網絡進行聚類分析。邊介數指的是所有通過這條邊的任意兩節點間最短路徑的和,很明顯,連接集團間的邊的介數會相對比較大。因此,邊介數聚類算法的基本思想是:每一輪通過刪除可能連接任意兩個集團的邊(介數最大的邊),逐步使得隱藏的集團顯現出來。其主要步驟如下[14]:
1)計算網絡中所有邊的介數值;
2)找到并刪除介數最大的邊;
3)重新計算剩余邊的介數值;
4)重復第2步直至結果滿意為止。
本文使用Java程序實現G-N算法,并去除了介數最高的10條邊。使用Pajek繪制圖書館學情報學研究概念網絡的聚類結果圖,見圖2。圖中,實心結點為屬于圖書館學的關鍵詞,空心節點為屬于情報學的關鍵詞。

圖2 圖書館學情報學研究概念網絡的聚類結果
參照G-N算法聚類的結果,可以將近30年我國圖書館學情報學研究的知識地圖劃分為信息組織、信息檢索、文獻計量學、信息資源建設、開放存取、文獻學、資源共建共享、用戶研究與服務、網絡技術、圖書館事業10個板塊。其中,每個板塊的圖書館學和情報學概念的數量分布情況如表5所示:

表5 各個研究領域所包含的圖書館學和情報學概念的數量分布
表5中,情報學概念占明顯多數的板塊包括信息組織、信息檢索、文獻計量學、用戶研究與服務、網絡技術;圖書館學概念占明顯多數的板塊包括信息資源建設、文獻學、資源共建共享、圖書館事業;兩類概念數量相當的為開放存取領域。以上分析結果基本與人們對兩門學科的認識相符。
需指出的是,信息資源建設板塊內部實際可以劃分為三部分研究。靠近核心的部分為圖書管理研究;靠近外圍的部分為期刊管理研究;兩者之間的部分則為傳統圖書館管理中的文獻信息組織研究。但由于上述三個板塊結合非常緊密,且若分別獨立成為新的板塊,概念的層級與其他板塊相比較低,為簡化分析起見,將其合并為信息資源建設板塊。
信息組織研究實際上可以分為兩部分,即信息組織和知識組織。傳統的信息組織研究關注信息的主題標引和分類標引等問題,這也是傳統圖書館學的核心領域;而隨著信息技術的不斷發展,信息組織研究開始逐漸側重于語義網、本體、知識表達、知識分類、知識標引等知識組織研究的方向,并形成不同于原有研究的全新領域。而無論傳統的信息組織研究還是后來發展起來的知識組織研究,都屬于情報學期刊主要關注的問題之一,這一現象與目前學術界大多將信息組織歸于圖書館學的認識有一定差距。
此外,開放存取和機構庫建設等問題作為近年來的一個重要研究熱點,得到了圖書館學和情報學研究的共同關注,成為兩門學科交叉重疊現象最為明顯的研究領域。
為從縱向對比的角度分析圖書館學情報學領域的發展狀況,筆者分別選取1990年、2000年和2010年3個時間節點構建截止該時間點的概念網絡(保持各節點的幾何位置不變),從而可以較為直觀地展現出國內圖書館學情報學領域近30年的概念演化路徑。其中,1990年和2000年的概念分布圖參見圖3和圖4,2010年的概念圖參見圖2。
表6顯示了1978-1990、1991-2000和2001-2010年3個時間段上述10個研究領域的概念增長情況:

圖3 1990年的圖書館學情報學研究領域分布圖

圖4 2000年的圖書館學情報學研究領域分布圖

表6 不同時間段各研究領域的增長情況
通過表6,可以對過去30年圖書館學情報學領域的知識演化作如下解讀:
(1)1990年以前圖書館學情報學發展態勢。
1990年以前,國內圖書館學情報學研究主要集中在信息檢索、信息資源建設、文獻計量學等傳統領域。此外,就這一階段圖書館學與情報學概念分布的對比來看,圖書館學研究的體系性更強,并主要集中在信息資源建設這一核心領域,形成了較完整的研究體系。而這一時期的情報學相對成體系的研究領域主要集中于信息檢索,反映出情報學誕生和成長于信息檢索研究這一事實。而這一時期文獻計量學的研究盡管概念點較多,但點與點之間互相孤立,說明這一領域在1990年之前尚未完全發育成熟。
(2)1991年到2000年圖書館學情報學發展態勢。
這10年中,國內圖書館學情報學研究體系大為完善。至2000年時,圖書館學情報學研究已具備當前研究格局的大致形態(見圖2和圖3)。尤其是情報學,迎來了學科領域的大擴張時期。從各領域的概念增長情況來看,這一時期增長最快的領域包括信息組織、文獻計量學、信息檢索、開放存取、資源共建共享等。在信息檢索、文獻(信息)計量學兩大基本研究領域,情報學均形成了較為完整的研究體系。尤其是文獻計量學領域,在這10年里實現了非常迅猛的發展。此外,情報學還在知識組織、開放存取、用戶研究等領域形成了初具規模的研究體系。其中,開放存取領域在這一時期的發展較為迅猛,并主要集中在情報學方向,關注網絡和電子出版物的知識產權保護等問題。相比之下,圖書館學研究在這10年里開拓的新的學科增長點并不多,主要是對原先的信息資源建設模塊的進一步鞏固與完善。另外,隨著“九五”期間以CALIS為代表的一批國家級信息資源共建共享工程的實施,關于資源共建共享方面的研究在這10年中取得較大進步。
(3)2001年到2010年圖書館學情報學發展態勢。
這一時期,國內圖書館學情報學研究體系的總體增長速度有所放緩,大部分研究領域均處于在原來基礎上的進一步完善階段。但圖書館學研究的增長態勢明顯快于情報學研究。從概念擴張的速度看,這10年中增長最快的領域包括圖書館事業、文獻學和開放存取等(見表6)。其中,前兩者均屬于圖書館學研究的傳統范疇。尤其是(公共)圖書館事業研究,隨著近年來對lib 2.0、公共圖書館立法、信息公平等問題關注的不斷升溫,這一研究領域成為近10年圖書館學研究最大的學科增長點。此外,隨著機構庫、開放存取等理念引入國內并迅速普及,開放存取領域的增長也呈現出以圖書館學研究為主的態勢。相比之下,情報學研究在這10年中開拓性的領域并不多,在大部分領域中均處于平穩發展的態勢。具體來看,情報學各領域僅在原有基礎上涌現出一些新的熱點,如信息檢索領域的檢索評價研究、網絡技術領域的流媒體和信息過濾技術研究以及文獻計量學領域的學科評價和內容挖掘研究等。
本文基于關鍵詞共現網絡,分析了國內圖書館學情報學領域近30年的學科發展態勢。通過數據抽樣、社群識別、聚類分析和學科隸屬度計算等工具,較好地展示了圖書館學情報學知識領域的發展脈絡。需要指出的是,本文所開發的學科知識地圖研究方法,盡管可以較好地總結和回顧一門或多門學科過去若干年的發展態勢,但對于未來學科發展的前沿領域和發展趨勢的預測還有待加強。這也是本文后續研究中值得改進之處。
1 劉孝文.試論我國圖書館學研究熱點及走向——基于國家社科基金課題指南和研究生培養方向的分析.情報資料工作,2007(1):30-33
2 馬恒通,趙衛利.新中國圖書館學體系研究六十年.圖書情報工作,2010(12):23-29
3 黃長著.用發展的視角觀察發展中的圖書館學情報學.情報資料工作,2010(1):5-10
4 趙益民,高爽.改革開放30年圖書館學基礎理論研究——回顧與思考.中國圖書館學報,2008(5):72-77
5 邱均平,楊思洛,劉敏.改革開放30年來我國情報學研究的回顧與展望(一)——情報學研究論文的年度分布與期刊分布分析.圖書情報研究,2009,(2):5-11
6 邱均平,楊思洛,王明芝.改革開放30年來我國情報學研究的回顧與展望(二)——情報學研究論文的作者分析.圖書情報研究,2009,(2):12-17
7 邱均平,周春雷,楊思洛.改革開放30年來我國情報學研究的回顧與展望(三)——情報學的發展階段及趨勢分析.圖書情報研究,2009,(3):5-13
8 邱均平,楊思洛,周春雷.改革開放30年來我國情報學研究論文的作者分析.情報學報,2009,(4):626-633
9 王建冬.基于文獻計量的國內信息資源管理研究領域分析.大學圖書館學報,2010(02):97-105
10 王建冬.基于復雜網絡方法的國內信息服務研究概念網絡分析.現代圖書情報技術,2009(10):56-61
11 王建冬,孫慧明.基于網站鏈接分析的“211”高校排名實證研究.現代圖書情報技術,2008(10):64-69
12 張鵬,王建冬,王繼民.我國數字圖書館研究論文(2005-2009)的統計分析:社群分析.數字圖書館論壇,2010(3-4):120-127
13 Girvan M,Newman M E J.Community structure in social and biological network.Proc Natl Acad Sci,2002(99):7821-7826
14 莫春玲.復雜網絡中聚類方法及社團結構的研究.武漢理工大學碩士論文,2007:28