楊利超
(河南省圖書館)
圖書館學主要是采用科學方法探討與圖書館相關的內容,涵蓋圖書館的發展與運營所需的各種知識,例如目錄、出版、印刷、圖書、圖書館、圖書館的組織與管理、數據采集和整理、閱覽、外借、館際合作與資源共享、圖書館與社會,以及圖書館學與其他學科之間的關聯。[1,2]
學術研究文獻是知識具體的產出之一,可代表某項研究主題的智慧結晶,若匯總一門學科領域研究者的研究主題文獻,則可判斷該學術領域的發展狀況,并依據一門學科所產出的文獻,來追溯該學科知識發展的歷程。然而文獻數量會隨時間累積而呈現增長趨勢,早期科學計量領域的學者往往花費不少時間,進行大量文獻的分類工作,用以建立學科的演進過程,但判斷多流于主觀,而運用客觀量化的分類方法,尤其當涉及跨學科(Multi-disciplinary)的研究領域時,則難以描述整體研究發展歷程。隨著計算機與網絡技術的日新月異,學術文獻已從紙本轉變為電子化數據,充足便利的電子文獻資源可大幅降低知識擴張的空間障礙,使知識得以廣泛傳播,被后人借鑒,電子化數據庫已成為學者進行研究的一項有力工具。即便過去與現代在信息可得性方面存在極大差異,但在科學計量課題中仍保有共同的初始目標——揭示科學知識的發展歷程。當今對于科學知識演進歷程的研究已延伸至學術研究合作與引文網絡現況、研究趨勢和研究主題的擴散等課題,并輔以交互式的可視化圖形,以展現研究領域的相互關聯性及文獻分布情形。[3-5]
目前我國在圖書館學領域尚無一套知識分類的準則與系統架構,有鑒于此,本研究擬對我國圖書館研究領域的文獻進行分類研究。運用文獻計量學方法,將圖書館學的相關文獻繪制成知識圖譜,呈現國內圖書館學領域研究的分類與分布情形,以有效統計文獻、整理知識學術群聚,進而探索其知識發展歷程,揭示近十年來我國圖書館學領域的主要研究熱點和領域、這些研究領域的相互關聯性及文獻分布整體情形,并對未來的我國圖書館學的整體研究趨勢進行預測。
欲剖析學科研究的趨勢與定位,文獻整合工作是極為重要的一環。本研究嘗試通過科學計量學的相關理論對圖書館學研究領域文獻進行系統化的整理,繪制其文獻引文分布情形的可視化知識圖譜。相關研究的重點包含科學計量方法、引文分析方法以及對特定科學領域進行實證案例分析等主題。鑒于本研究以圖書館閱讀推廣研究領域為研究范疇,故本節對圖書館學研究領域的文獻計量分析進行回顧和整理。
歐美等國家早在20世紀30年代,已經利用期刊文獻的引文分析法來探討圖書館學產生的文獻特性。在后來的研究中,W.M.Barnard使用引用文獻分析法,對多種圖書館學期刊加以分析,用以了解這些文獻的特性。研究結果顯示,在進行文獻引用時,期刊的引用頻率高于圖書,在被引用的期刊中超過半數以上集中于10種核心期刊。[6]C.A.Bolles在其研究論文中發現,[7]在引用文獻類型方面,圖書被引用比例占50%以上,期刊占42.57%;在引用語種方面,英文文獻被引用比例高達97.14%。B.C.Peritz分析了圖書館學核心期刊所刊登的論文,探討圖書館學研究發展狀況。[8]C.O.Frost針對39種圖書館學的核心期刊論文進行引用文獻分析,用以了解所使用的研究方法、研究主題、參考文獻篇數以及各年份的變化走向,研究發現平均每篇論文引用7.4篇參考文獻,其參考文獻的主題則是以圖書館學與信息科學為主,占78%,由此可看出圖書館學領域的自我引用比例相當高。[9]另外,716篇期刊論文所采用的研究方法中,以調查法、信息系統設計及歷史研究法三種為最常使用的研究方法。
國內對于圖書館學的文獻研究始于20世紀80年代。近三十年來在各研究機構以及學者專家的努力之下,對于圖書館學的文獻研究已經初具規模。丘峰等人以圖書館學與情報學共20種期刊作為研究對象,分別進行引文概況、學科、文獻類型、語種、年代、自引和互引內容、圖書館與情報學科的差異等項進行統計與分析。[10]熊潤芝對58種與圖書館學相關的中文期刊進行引文分析研究,對引文量、引文類型、語種、著者、被引頻次等做了統計、分析與評價,從統計數據中看出,圖書館學的文獻引用率逐年上升。[11]侯錦權[12]等人針對我國1991-2000年圖書館學期刊的發表論文及引文做統計分析研究,主要包括20種圖書館學情報學期刊,共計52期,1,330篇文章。研究發現,圖書館學和情報學期刊的引用比例上升最快,圖書館學從最初的12.8%上升到33.1%,情報學從最初的30.7%上升到66.7%。而在引文文獻類型方面,圖書引文比例下降至33.9%,期刊的引文比例則上升到60.5%。這表明我國圖書館學研究領域越來越重視引文的作用。
綜合以上的文獻回顧可以發現,目前國內外對于圖書館學領域方面進行了大量的研究,但針對圖書館學領域可視化的研究較少。[13]為此,本文將知識可視化引文網絡分析工具CiteSpace引入圖書館閱讀推廣研究領域,文獻回顧發現當今科學計量領域引文分析研究已成基礎,其中共被引分析可有效展示學科關鍵文獻分布情形以及前瞻研究學術群聚的現況。故本研究嘗試以CiteSpace進行實證分析,聚焦至我國圖書館學的研究熱點領域及未來研發趨勢,提供良好的互動工具和實時可視化網絡呈現方式,從而深入挖掘學術群聚現況,建立客觀評鑒指標架構。
本研究針對科學計量與知識領域可視化的問題,以科學計量學理論與引文分析理論為基礎,通過可視化知識圖譜來呈現圖書館閱讀推廣領域相關研究文獻之間的關聯性與演進歷程,繪制可視化圖形。具體研究過程涉及諸多算法,且需輔以相關統計軟件完成圖譜,如詞頻算法、文獻向量相似度計算、徑路搜尋算法、社會網絡分析中心度與中介度之衡量計算等,運用軟件執行運算后繪制出知識圖譜。
可視化的目的在于通過圖像的視覺效果來顯示大量資料下的隱含信息,將資料以可視化的方式呈現,能直觀了解資料的特性。欲對學術領域繪制知識圖譜,需通過信息檢索搜集大量的文獻數據資料,經過篩選剔除、相似度計算后,才能呈現在知識圖譜上。當今許多信息可視化領域之研究,就是利用信息檢索者數據模式(User Meta Model)來繪制可視化的數據圖形。
信息檢索者數據模式首先要刪減需計算的文獻數量,通過信息檢索結果、摘要關鍵詞數據或是篩選剔除無關文獻數據,而后迅速進行計算并產生結果。此模式包含檢索結果及其文獻屬性數據,如作者、標題、關鍵詞、期刊名等,皆可作為知識圖譜的分析節點單位。信息檢索結果數據也常轉換成矩陣數據,透過引文次數、關鍵詞共現次數等方法,展示知識圖譜。信息檢索者數據模式與知識圖譜或可視化圖形的產生具有高度關聯性。根據Borner等學者提出之知識領域可視化程序可知,知識領域可視化的繪圖通常包含六個一般性的連續步驟程序:① 資料選取;② 定義分析單位;③ 選擇測量方式;④ 計算單位間相似性程度;⑤ 分類單位間彼此合作交流的分布情形;⑥ 利用可視化工具輔助分析并詮釋。流程中步驟④與步驟⑤常整合為單一個操作,也可稱作數據布局(Data Layout),用以描繪資料分布情形。[14]

圖1 文獻于向量空間上之表現示意圖
信息檢索過程中使用的關鍵詞有兩類,一種英文簡稱DE(Description),也稱作作者關鍵詞(Author Keywords),即作者本人自己列出的研究關鍵詞;另外一種是ID(Identifier),也稱作增補關鍵字(Keywordsplus),此類主題詞是通過ISI在參考文獻中進行標題選擇而來。此種方法產生的關鍵詞具有客觀性,是建立在計算機算法基礎之上的。本文將對主題關鍵詞進行實證分析。[15]
每一篇文獻都由許多詞匯所組成,因此可以找出具有代表性的詞匯組成文件向量,文件向量常用來指代向量空間上的文章。詞匯表示其在空間中的維度。而每一個詞匯則表示空間中的一個維度,維度的值用來表明文件在此維度的重要性,所以當兩文獻相似時,在空間上的向量也比較接近。每個詞匯對于不同的文獻有不同的重要性,此時即可以利用[詞匯權重]來做為重要性衡量的指標。圖1為三維的向量空間模型,空間上有三個空間向量(D1,D2,D3),即三篇文獻,每一篇文獻由三個不同的索引詞匯(T1,T2,T3)所組成,因權重值的不同,在空間上的位置也不同。
用矩陣方式來表示一文件即為Di=(Wm1,Wm2,Wm3,…,Wmn),則有m篇文件、n個索引詞匯的[詞匯-文件矩陣]為下列矩陣所示,其中,Wmn表示第n詞匯于第m篇文件中的權重。

在詞匯權重的計算上,有三個重要的因素會影響其結果。① 詞出現的頻率:某一詞出現在一文件中的次數越多,表示該詞與該文件越相關。② 詞的特殊性:某一詞在文件集合中所出現的文件數。當某一詞在文件集合中出現次數越高時,相對于某一篇文件的重要性越低。③ 文件長度:當文件越長時,相對來說某一詞出現的次數也較多。因此,文件的長短會影響詞在各文獻權重大小,所以必須適當考慮文章長度標準化。
單一文獻中如果某一詞出現頻率高,則表示對該文章越具代表性,其權重值越高。然而在文章集合中,皆出現某一字詞時,卻不具太大的代表性,因此,組合TF與IDF的權重計算方式,如果一詞匯在某文章出現頻率越高,但其他文章集合出現次數少時,其擁有較高的權重,公式如下

Wij為詞Tj在文章Di中的權重,tfij為詞Tj于Di中出現的次數,dfi為詞Tj在文章集合N中,具有Tj的文件數,N為一文章集合。
為了避免一個詞匯出現于所有所收集文件中時,導致該詞匯權重為0的狀況發生,筆者采用標準化公式導入CiteSpace軟件中的學術群聚卷標計算功能,其公式如下所示

計算完詞匯權重后,即可形成文獻的向量空間模型,用來進行文獻之間以及文獻與類別之間的相似度比較。由于可將每一篇文章視為一個空間當中的向量,因此文章之間的關系可以利用空間向量中的cosine函數來計算出文章之間的相似程度。利用這樣的計算方法來分類文件群聚,以新的文獻與類別之間的相似度為標準,判斷文獻是否與該類別相似度夠高而被分入該群聚當中。最后可呈現知識圖譜上的學術群聚狀況。文獻相似度之余弦定理計算公式如下所示

Wik,Wjk分別表示文件di和dj中第k個關鍵詞的權重。
文件數據和共被引分析采用CiteSpace軟件進行處理,該軟件是專門用于探測學科學數群聚現況與知識前瞻研究趨勢的應用軟件。CiteSpace由Drexel大學ChaomeiChen學者在2003年開發,其主要目標就是利用可視化技術,辨別學科領域中新興突起研究議題和學術群聚,應用功能包括共被引分析及基于共被引文章和引用這些文章關鍵詞的復雜引文網絡的群聚分類,從題目、摘要中擷取主題關鍵詞作為的信息卷標。[16]
CiteSpace可以提供2項基礎功能:① 利用引文網絡,識別學科領域發展中的重要路徑;② 識別學科領域發展中的關鍵節點。CiteSpace定義的知識圖譜的關鍵點是指連接各個不同群聚網絡的節點(見圖2):Landmark node代表高被引的節點,Hub node代表連結廣度高、共被引次數高的節點,Pivot node代表鏈接兩個群聚網絡的共同關鍵節點。

圖2 CiteSpace繪制共被引知識圖譜之節點類型
基于以上的優勢,本研究采用CiteSpace軟件作為知識圖譜分析軟件,將人工篩選的相關文獻數據轉換成Excel矩陣格式,繪制知識圖譜進行數據分析,如中心性分析、中介性分析和學術群聚分析等。
本節基于科學計量學的引文分析理論,結合知識圖譜的建構流程,以圖書館學研究領域為基礎,通過數據搜集、數據分析、數據處理、知識領域可視化等途徑,進行實證研究。
本文以中國知網數據庫為數據源,搜索方式采用主題搜索,對“圖書館”、“公共圖書館”以及“文獻分析”等關鍵詞進行組合檢索,選取時間從2007年1月1日開始到2016年12月31日為止,總共檢索到1,683篇文獻,經過文獻比對,剔除會議以及年代老舊的文章后,最終有1,213篇入選分析樣本。
4.2.1 論文發表趨勢分析
通過發表趨勢的分析,可以了解目前該領域的研究現狀以及未來發展的趨勢,從而更好地分析該領域論文的總體研究進展情況。從圖3中可以發現,圖書館學領域的研究文獻在2007-2010年處于萌芽期,文獻發表數量基本不變,處于短暫的積累期;2010年之后,圖書館學領域的研究論文數量呈現快速上升的態勢,這與前幾年的積累有重要關系,同時與近年來圖書館信息化建設規模和速度加快有關。但隨著近年來圖書化信息化建設速度的飽和及放緩,2016年的文獻發表數量相較2015年有所降低。

圖3 國內圖書館學研究領域的論文發表趨勢分析
4.2.2 論文發表機構分析
在對圖書館學領域的研究論文發表趨勢進行分析后,進一步對這些論文中的發表機構進行分析,本文選取前10名的論文發表機構進行分析。圖書館學領域的研究較為活躍的論文機構為中國國家圖書館、武漢大學、北京大學、南京大學、山東大學等,其中中國國家圖書館在該領域的論文發表數量為51篇,武漢大學在該領域的論文發表數量為45篇,北京大學緊隨其后,共有42篇文獻發表在該領域,可見這些機構在圖書館學領域的雄厚研究實力以及高校在這個領域的絕對研究實力(見圖4)。
4.2.3 文獻來源結構分析
進一步對圖書館學研究領域的論文來源進行結構分析。目前,圖書館學研究領域論文的雜志主要來源為《圖書情報工作》(109篇)、《中國圖書館學報》(56篇)、《國家圖書館學刊》(40篇)、《圖書館雜志》(34篇),基本都是以圖書情報學領域為主。從學科角度來看,位居前列的領域為圖書情報和數字圖書館,共計1,154篇,其他學科分布的數量很少,為數不多的分布在出版(47篇)、計算機軟件(32篇)以及高等教育(31篇)等領域,顯示了圖書館學領域文獻發表的集中度較高。
4.2.4 主題關鍵詞共現網絡分析
在對圖書館學領域的論文發表趨勢、發表機構以及來源雜志及學科進行分析后,為了進一步挖掘圖書館學領域研究的內在關聯性,本文選擇知識圖譜CiteSpace軟件中的關鍵詞頻分析以及共現網絡分析,深入挖掘圖書館學領域研究文獻的內在關聯性。圖書館學研究領域的論文關鍵詞主要集中在圖書館學(314篇)、情報學(120篇)、圖書館(101篇)、文獻學(40篇)、文獻計量(39篇)等方面(見圖5)。進一步對關鍵詞進行共現網絡分析可以發現,“情報學”與周圍關鍵詞的連接最多,并且各連接分支線條較粗,顯示較多的文獻關聯;同時,“圖書館”和“文獻計量”這兩個關鍵詞也是網絡的關鍵點,與周圍關鍵詞連接較多,顯示這些領域的研究最多,為熱門研究領域,并且隨著時代的進步,以“數字圖書館”和“知識管理”等關鍵詞的圖書館學的研究也逐漸興起。另外,從關鍵詞共現網絡分析圖中可以發現,“知識圖譜”和“引文分析”這些領域也存在互相關聯和融合,代表這些領域也將是未來的研究熱點。

圖4 國內圖書館學領域的研究文獻發表機構分析
本研究采用引文分析的方法,通過引文數據庫檢索文獻數據,采用CiteSpace繪制出的共被引知識圖譜有效地呈現圖書館學研究領域的動態發展及演進歷程。
(1)圖書館學領域的論文在2007-2010年處于萌芽期,文獻發表數量基本不變;經過短暫的積累期后,圖書館閱讀推廣的研究論文數量呈現急速上升的態勢,這也與近年來圖書館信息化建設規模和速度加快有關;但隨著近年來圖書化信息化建設速度的飽和及放緩,2016年的文獻的發表數量有所降低。
(2)圖書館學的研究機構主要以高校為主,顯示了高校在這個領域的絕對研究實力。通過進一步對圖書館學研究領域的論文來源進行結構分析發現,圖書館學領域文獻發表的集中度較高。
(3)對圖書館學研究領域的關鍵詞進行共現網絡分析可以發現,情報學與周圍關鍵詞的連接最多,并且各連接分支線條較粗,顯示較多的文獻關聯。同時,圖書館和文獻計量這兩個關鍵詞與周圍關鍵詞連接較多,顯示這些領域的研究較多,為熱門研究領域。

圖5 圖書館學研究領域論文的主要關鍵詞分析
學科演進歷史與知識管理是一項長期性的工作,目的在于尋找學科發展的邏輯與群聚現象。筆者為高校圖書館和公共圖書館未來的閱讀推廣研究的趨勢作如下分析及建議。
(1)本文針對圖書館學領域進行深入地文獻分析及挖掘,但研究范圍僅限于我國,并未對全球的發展趨勢做進一步分析。未來在該方面的研究應該在全球范圍內對圖書館學領域的研究現狀進行分析,這樣才能更加全面準確地把握該研究領域的文獻整體研究趨勢。
(2)本文在圖書館學研究領域的文獻分析中,并未對文獻數據與知識產出影響力進行評估。建議未來學者通過同行評鑒及專家評鑒等方式,對該領域的學術影響力進行研究,從而增加文獻研究的客觀性及實用性。
[1]毛贛鳴.圖書館知識資本構成及其價值轉移機制研究 [J].圖書情報工作,2016,39(7):77-81.
[2]李文蘭,楊祖國.中國情報學期刊論文關鍵詞詞頻分析 [J].情報科學,2015,38(1):68-70.
[3]馬世杰.《圖書館工作與研究(1991-2006)》論文關鍵詞統計分析[J].圖書館工作與研究,2008,46(1):101-105.
[4]張新興.2000-2006年我國基于本體的信息檢索研究論文定量分析 [J].情報科學,2013,48(7):1016-1021.
[5]葉鷹.圖書情報學前沿研究領域選評[J].中國圖書館學報,2016,39(4):63-70.
[6] W M Barnard.Exploring internal stickiness:Impediments to the transfer of best practice within the firm[J].StrategicManagementJournal,2016,48 (17):27-43.
[7] CABolles.Understandingtheinfluenceoforganizational change strategies on information technology and knowledge management strategies[J].Decision SupporSystems,2011,31 (1):55-69.
[8] B C Peritz.Motivations for academic web site interlinking:Evidence for the web as a novel source of information on informal scholarly communication [J].Journal ofInformationScience,2013,29 (1):49-56.
[9] C O Frost.Why do web sites from different academic subjects interlink [J].Journal of Information Science,2013,29(6):453-471.
[10]丘峰.1996-2005年SCI-E數據庫中數字圖書館研究文獻定量分析[J].情報科學,2015,38(12):16-23.
[11]熊潤芝.圖書館學文獻分析[J].中國圖書館學報,2011,37(3):40-50.
[12]侯錦權.基于共詞分析的國外圖書館學情報學領域研究現狀探析[J].情報雜志,2011,30(11):37-41.
[13] Zhao Dangzhi,Strotmann A.Counting first,last,or all authors in citation analysis:A comprehensive comparisoninthe highly collaborative stem cell research field [J].Journal of the American Society For Infor mation Science and Technology, 2011,62(4):654-676.
[14]蘇新寧.圖書館情報與文獻學研究熱點與趨勢分析——基于CSSCI的分析[J].情報學報,2016,53(6):373-383.
[15]邱均平,等.2002年國內外情報學發展動向分析[J].情報學報,2013,46(5):12-18.
[16]邱均平,李星星.近十年來我國圖書館知識管理研究論文的統計和分析[J].圖書館,2012,39(2):71-74.