


摘要:為系統分析我國數字檔案館研究成果,促進數字檔案館的研究和建設,運用文獻計量和可視化分析方法,對CNKI收錄的1999~2014年數字檔案館研究的期刊文獻,從數量、作者、機構、主題等方面進行統計,并結合知識圖譜進行可視化分析,總結國內數字檔案館研究的文獻分布、高產作者和機構,揭示數字檔案館研究的熱點和發展趨勢。
關鍵詞:數字檔案館知識圖譜可視化分析統計分析CNKI CiteSpace
Abstract:In order to analyse systematically the research findings of digital archives in our country,pro? mote the research and construction of digital ar? chives, this paper uses econometric analysis method and visualization analysis software to count the litera? ture quantity, authors, institutions, and themes of pe? riodical literatures on digital archives included in Chi? na National Knowledge Infrastructure(CNKI)pub? lished during 1999~2014, analyses the related knowl? edge maps drew by CiteSpace, summarizes the litera? ture distribution, high yield authors and institutions, reveals the hotspots and development trends of do? mestic studies on digital archives.
Keywords:Digital archives;Mapping knowledge domain;Visual analysis;Statistical analysis;CNKI;CiteSpace
一、引言
數字檔案館(Digital Archives)是伴隨著電子技術、計算機技術、網絡技術、通訊技術、數據庫技術、多媒體技術等的發展而產生的新型檔案館,也稱作電子檔案館、虛擬檔案館、無墻檔案館等。[1]雖然,國內對數字檔案館的研究時間僅有十多年,但是近年來出現的富有行業特色的數字檔案館,如數字城建檔案館、企業數字檔案館等已經引起檔案界的關注,并正在成為我國檔案領域研究的重點和熱點之一。具體而言,從國家宏觀層面來看,相關政策和管理的穩步推進,促進和推動了我國數字檔案館的研究與實踐。例如,自2002年以來,國家檔案局陸續發布了《全國檔案信息化建設實施綱要》《檔案事業發展“十二五”規劃》《數字檔案館建設指南》和《數字檔案室建設指南》等標準規范。從微觀層面來看,經過專家學者和檔案工作者的不懈努力,也取得了豐碩的成果。在國內不斷建成各類數字檔案館的基礎上,促進我國數字檔案館建設的研究正在進一步深入。例如,2013年10月,時任國家檔案局局長楊冬權在全國數字檔案館(室)建設推進會上發表了重要講話,明確提出“用15年左右的時間,建成以數字資源為基礎、安全管理為保障、遠程利用為目標的數字檔案館(室)體系”[2]的我國數字檔案館(室)建設目標。2014年2月,國家檔案局成立了數字檔案館(室)建設領導小組,楊冬權主持召開領導小組第一次會議,討論通過了領導小組工作規則和《2014年數字檔案館(室)建設重點工作》。[3]
為全面客觀和系統地反映我國數字檔案館的研究歷程,總結研究特點,分析研究熱點,探尋研究趨勢,為未來數字檔案館的研究、建設和實現我國數字檔案館建設的目標提供借鑒,筆者收集了中國知網(CNKI)收錄的有關期刊文獻并加以整理,借助相關軟件對整理后的文獻進行統計和可視化分析。可視化分析,作為一種新興的信息處理分析方法,在檔案類文獻方面的研究僅有幾年時間,對數字檔案館進行可視化分析的文獻更少。例如,筆者在LISA數據庫中未檢索到相關文獻,在CNKI中僅檢索出相關文獻2篇。
二、樣本文獻來源、統計與分析工具
(一)樣本文獻來源
本文進行統計分析時抽取的樣本主要為由CNKI檢索而來的文獻,選取時間為1999~2014年,檢索日期為2015年1月26日,共得到檢索結果1472篇。為確保檢索結果的全面性,筆者對檢索主題進行反復調試后,確定了以“篇名”為主題的檢索入口,以“TI=‘虛擬/PREV 2檔案館OR TI=‘虛擬/PREV 2檔案室OR TI=‘數字/PREV 2檔案館OR TI=‘數字/PREV 2檔案室OR TI=‘數字化/PREV 2檔案館OR TI=‘數字化/PREV 2檔案室OR TI=‘云檔案館OR TI=‘電子/PREV 2檔案館OR TI=‘電子/PREV 2檔案室OR TI=‘無墻/PREV 2檔案館OR TI=‘無墻/PREV 2檔案室”為表達式的檢索路徑,對期刊、特色期刊、學術期刊三個數據庫進行全面檢索。同時,為確保樣本的準確性,筆者逐一核對了題錄與原文,剔除消息、廣告、領導講話、標準法規、文摘、書評等非學術研究類文獻和一稿多投的重復文獻,經整理,得到相關文獻1339篇。
(二)統計分析工具與數據處理
進行統計分析時,主要借助兩個軟件工具,一是國內使用較廣泛的CiteSpace(版本號3.7. R7),[4]該軟件由美國學者陳超美開發,用于繪制知識圖譜,計算節點的突變率、中心性等;二是作者自編的關系型數據庫軟件,用于機構、關鍵詞等數據項的規范或補充,區分不同機構的同名作者,篩選分析樣本,快速生成相關統計報表,并可生成用于CiteSpace處理的數據格式文件。[5]在進行數據處理時,利用自編軟件完成。一是對簡稱、更名、合并及不同寫法的機構名稱進行統一;二是對部分關鍵詞進行合并,刪除CNKI自動標引的機標關鍵詞;三是區分同名作者;四是剔除誤檢及不宜用作分析的非研究性文獻,一稿多投文獻僅保留1篇。經以上處理后,由自編軟件生成可用于CiteSpace的WOS格式數據文件。
三、數字檔案館研究的可視化分析
本文研究中相關數據由CiteSpace軟件和自編軟件統計得出,二者有關文獻年代分布、作者與機構發文數量、關鍵詞頻次等重點方面的統計結果相同。另外,文中表格由工具軟件分別生成或合并而成,作者合著網絡圖譜、機構合著網絡圖譜和研究主題與熱點知識圖譜由CiteSpace軟件繪制并經調整生成。
運用CiteSpace繪制圖譜的時間范圍為1999~2014年,以每2年為界進行時間分區,圖譜上方由不同顏色色段連成的年度色帶(自左至右由冷色至暖色),每種顏色分別代表2個年度,暖色對應的年份較近。時區閾值根據圖譜效果調試設置;Pruning(剪切連線算法)選擇Pathfinder(路徑搜索算法)或Minimum Spanning Tree(最小生成樹)及Pruning sliced networks(路徑網絡簡化),這些設置及主要處理結果均在圖譜的左上方呈現。圖譜中的圓,分別代表作者、機構和關鍵詞節點,節點內的色環及節點間的連線顏色代表的年度,與年度色帶顏色表示的年度相對應。圖譜中部分節點內還有紅色色環,這些紅色色環是突顯率,反映較短時間內數量增長的快慢。
(一)文獻量和作者分析:2000年以來,數字檔案館在我國得到了較快發展,雖然部分年份上研究數量有所回落,但是基本呈穩中有升的趨勢,如圖1所示。同時,以潘連根、程妍妍、袁紅軍、唐艷芳、傅榮校等為代表的檔案學者是數字檔案館研究的領軍人物
具體而言,獨著論文占絕大多數,合著文獻數量較少。經統計,1339篇文獻中共包括1458個作者(含非第一作者)。其中,獨著961篇,占比71.77%;兩人合著287篇,占比21.43%。將數據導入CiteSpace,以節點類型選擇作者(Author),運行調試后,得到文獻作者的合著網絡圖譜,如圖2所示。節點越大,表明作者的發文量越多,如潘連根、程妍妍、袁紅軍、唐艷芳等。同時,節點中有紅色色環,表明他們在較短時間內發文較多。節點中的色環越厚,表明對應年份作者的發文越多,如潘連根、程妍妍、金更達等。節點間的連線,表明相連的作者間有合著。圖中還有個別作者姓名后有大寫字母,這是為了區分同名作者而添加的。值得注意的是,統計結果與圖譜顯示的發文數量較多的作者(按第一作者發文量排序,“+”號的數字為第二作者發文數)大體相當。但圖中個別較大的節點并未出現在表中(如謝海洋、金波、姚樂野等),這是由于CiteSpace生成的圖譜節點僅依據總發文量生成,而沒有區分作者排序,如表1所示。

(二)發文機構分析:解放軍南京政治學院上海校區、武漢大學、中國人民大學、紹興文理學院等是數字檔案館研究的重要機構
經統計,1339篇文獻中共有機構724個(含不詳和非第一作者機構)。其中,第一作者機構665個,且發文超過10篇的16個機構(發文量達322篇),僅1篇的482個。將數據導入CiteSpace,以節點類型選擇機構(Institution),運行調試后,得到數字檔案館研究文獻的機構合著網絡圖譜,如圖3所示。節點越大,表明機構的發文量越多,如解放軍南京政治學院上海校區、武漢大學、中國人民大學、紹興文理學院等。此外,紹興文理學院、上海大學、鄭州師范學院等帶有紅色色環,表明這些機構在數字檔案館研究的某個階段有較高的發文量。同時,筆者還對第一發文機構發文量的前十名進行了統計,依次為南京政治學院上海校區、武漢大學、中國人民大學、紹興文理學院、浙江大學、上海大學、湘潭大學、鄭州師范大學和南昌大學、蘇州大學。
(三)主題分析:數字化、信息化、知識管理是數字檔案館研究的熱點主題;云計算、建設、檔案館、數字化和數字城建檔案館是數字檔案館研究的前沿方向
關鍵詞是從文獻的標題、摘要和正文中選取的,能夠反映文獻的主題,[6]研究中往往用關鍵詞進行主題分析,從中探究研究熱點和趨勢。經統計,1339篇文獻中關鍵詞2385個,其中不同關鍵詞871個,有關鍵詞的文獻706篇。將數據導入CiteSpace,以節點類型選擇關鍵詞(Keyword),運行調試后,得到研究主題與熱點知識圖譜,如圖3所示,為清晰顯示節點及節點間的關系,圖中隱藏了出現頻次最高的關鍵詞“數字檔案館”。節點越大,表明關鍵詞出現的頻次越高,節點間的連線及粗細體現出節點間共現關系的強弱。將自編軟件統計的關鍵詞頻與CiteSpace導出的報表整合成表2。圖中出現了數字化、信息化、知識管理等12個帶有紫色外環的高中心性節點(中心性>0.1),表明這些節點在主題知識圖譜中占據重要位置,是數字檔案館研究的熱點主題。此外,圖中的云計算、建設、檔案館、數字化和數字城建檔案館帶有紅色內環,代表了國內數字檔案館研究的前沿方向。
運用可視化工具進行統計分析比傳統的統計分析生動形象,但在同名作者及作者排序的區分、機構名稱的一致、關鍵詞的規范等方面仍存在問題,因而不能簡單地以從相關數據庫中獲取的數據作為統計分析d依據,而要對此進行綜合分析才能使結論更加客觀真實。


注釋及參考文獻:
[1]潘連根.數字檔案館與相關概念的關系——數字檔案館研究之一[J].浙江檔案,2004(3):18-20.
[2]楊冬權.在全國數字檔案館室)建設推進會上的講話[J].中國檔案,2013(11):16-21.
[3]韓冬.加強領導統籌規劃狠抓落實——國家檔案局數字檔案館室)建設領導小組近日成立[N].中國
[4]Chen Chaomei. CiteSpace:Visualizing Patterns and Trends in Sci? entificLiterature[CP/OL].[2014-06-15].http://cluster.cis. drexel.edu/~cchen/citespace/download/.
[5]李曉明. CAJD電子文件研究高被引文獻的知識圖譜分析[J].檔案管理,2015(1):13-16.
[6]倪麗娟,于淑麗.檔案學研究熱點分析——基于2004-2008年《檔案學研究》、《檔案學通訊》論文關鍵詞的詞頻分析[J].檔案學通訊,2010(1):19-22.
作者單位:北京電子科技學院圖書館(檔案館)