摘 要:為總結我國電子文件研究的有關情況,運用文獻計量和可視化分析方法,借助相關計算機軟件,結合利用可視化工具繪制的知識圖譜,從文獻來源、作者、機構、主題、文獻被引等多個角度對CAJD收錄的1996年~2013年國內電子文件研究的高被引文獻進行相關統計和可視化分析。
關鍵詞:電子文件;文獻計量;可視化分析;知識圖譜;CAJD;CiteSpace;1996~2013
1??引言
電子文件(Electronic?Records)是指在數字設備及環境中生成,以數碼形式存儲在磁帶、磁盤、光盤等載體,依靠計算機等數字設備閱讀、處理,并可在通信網絡上傳送的文件。[1]具有參考和利用價值并作為檔案保存的電子文件(歸檔電子文件)[1]便是檔案。電子文件也稱作“數字式文件”,最初人們大多使用“機讀文件”(Machine-Readable?Records/Documents)這個概念[2],電子公文、電子文檔、電子檔案、數字文件、數字檔案、機讀檔案、虛擬文件、虛擬檔案等是與之相似或相關的術語。
上世紀60年代,信息技術發達的歐美國家開始了電子文件的研究與管理實踐。我國的研究和管理實踐起步較晚,從上世紀80年代中后期開始,由介紹國外電子檔案的研究與管理情況、翻譯國外學者的研究成果,到開展探索性的研究。上世紀90年代后期,國內學者的研究成果開始增多,理論研究逐漸系統深入。與此同時,國家檔案局于1996年成立了電子歸檔研究領導小組,并陸續發布了《電子文件歸檔與管理規范》(GB/T?18894-2002)、《電子公文歸檔管理暫行辦法》(2003)等一系列標準、規章和文件,有力地推動了國內電子文件的研究和實踐。
在中國期刊網絡出版總庫(CAJD)收錄的1996年以來的13萬余篇檔案學、檔案事業類文獻中,有關電子文件研究的文獻近1.16萬篇(2014年5月16日檢索),占比超過8.8%,可見電子文件研究是近二十年來檔案領域研究的熱點和重點。
對這一研究領域近20年的演進、熱點方向、發展趨勢進行相關分析有助于電子文件研究的深入。此前也有一些相關研究,如陳丹丹對1991年~2000年這10年間我國研究電子文件論文的統計和分析,探求電子文件研究的現狀和未來發展趨勢[3];曹芳通過對近十年(1993年~2002年)來發表在我國檔案事業類中文核心期刊上的電子文件研究論文的數量、內容以及主題分布進行統計與分析,了解我國電子文件的研究現狀,并對電子文件的未來發展進行預測[4];張寧對2010年我國電子文件管理理論研究的發展情況進行了全面系統的調查和研究,歸納總結出2010年我國電子文件管理理論研究領域的重要成果和進展。[5]
在借鑒已有研究成果和研究方法的基礎上,本文采用自編的計算機軟件進行了相關統計,并利用可視化工具CiteSpace繪制知識圖譜進行分析。
2??文獻來源、研究工具與數據處理
2.1??樣本文獻來源。研究的樣本文獻來自中國知網(CNKI)的中國期刊網絡出版總庫(CAJD),檢索時兼顧了電子文件的其他相似或相關術語,以檢索表達式“(KY=(電子文件+數字式文件+機讀文件+電子公文+電子文檔+電子檔案+數字文件+數字檔案+機讀檔案+虛擬文件+虛擬檔案+電子型檔案+數字化檔案)?OR?TI=(電子文件+數字式文件+機讀文件+電子公文+電子文檔+電子檔案+數字文件+數字檔案+機讀檔案+虛擬文件+虛擬檔案+電子型檔案+數字化檔案))?NOT?(KY=(數字檔案館+電子檔案館+虛擬檔案館)?OR?TI=(數字檔案館+電子檔案館+虛擬檔案館))”進行專業檢索。由于1995年前文獻數量較少,時間范圍選定為1996年~2013年,學科領域限制為“檔案學、檔案事業”,檢索時間是2014年5月16日,檢索結果為11606篇。在檢索結果基礎上,分別按年度選取被引次數大于等于4(1996年~2010年)、大于等于3(2011年)、大于等于2(2012年)和大于等于1(2013年)的文獻作為初選樣本,共計1679篇,剔除誤檢的不相關文獻(領導講話、標準等)、重復文獻(含一稿多投)后,得到用于分析的文獻共計1138篇。
2.2??研究工具。本文研究工具主要有兩個,一是由美籍華人陳超美開發的信息可視化軟件CiteSpace?Ⅲ[6](版本號3.7.R7),可用于生成知識圖譜,導出相關數據和統計報表,計算突變率、中心性等;二是作者自編的關系型數據庫軟件,可用于部分數據項的規范或補充,添加必要的統計項,提取同名作者進行區分,選擇用于統計分析的樣本,快速生成相關統計數據或報表,生成用于CiteSpace處理的數據格式文件。
2.3??數據處理。文獻分析是否準確可靠,最重要的就是數據質量。作者將下載的題錄信息導入自編軟件,對照原文逐一核對了作者、篇名、機構、關鍵詞、刊名等字段,對明顯不合理的關鍵詞進行了必要的拆分或合并,補充了部分內容不完整的字段,規范、統一了大多數機構名稱和部分關鍵詞,刪除了CAJD中計算機自動標引(機標)的關鍵詞,同時剔除了不相關文獻。
經過以上處理,由自編軟件生成了可用于CiteSpace的WOS格式數據文件。
3??研究文獻的計量與可視化分析
本文的相關計量數據主要由自編軟件統計得出,表格也依據統計數據編制,其中樣本文獻的年代分布、作者與機構發文、關鍵詞詞頻等經與CiteSpace軟件的有關處理數據或報表比對,統計結果基本一致。作者合著網絡圖譜、研究熱點主題圖譜等由CiteSpace軟件生成。
3.1??發文年度及來源分布
。CAJD收錄的1996年以來有關電子文件研究的高被引文獻年度分布如圖1所示。從圖1中可以看出,2000年~2012年,每年的高被引文獻都在60篇以上,反映出2000年以來,國內電子文件研究成果豐碩,且較高水平論文較多。
圖1??CAJD高被引電子文件研究文獻的年度分布
利用自編軟件對樣本文獻來源進行統計,樣本文獻來源于211種期刊,其中147種期刊僅1篇被選入統計分析樣本中。分析樣本中載文數前20位的期刊如表1所示,這20種期刊收錄的高被引文獻達853篇,占統計分析文獻的近75%,巧合的是,排在前十位的是包括《檔案》在內的檔案類的核心期刊。
表1?高被引樣本文獻來源期刊載文統計(單位:篇)

3.2??樣本文獻作者和機構統計與分析
啟動CiteSpace軟件,建立一個項目及項目目錄和數據目錄,將WOS格式文件裝入數據目錄,選擇網絡節點為“Author”,完成相關設置(主要設置見圖譜左上角,下同),由軟件生成作者網絡圖譜(圖2),為便于圖譜的識讀和分析,對軟件生成的圖譜的節點位置進行了調整。圖中的圓為作者節點,圓越大,表明作者發文越多(包括非第一作者);節點色環的顏色代表發文年份(對應圖上部色條顏色代表的年份),色環的厚度代表相應年代發文的多少;節點間的連線表明作者間有論文合作,連線的粗細代表合作的頻度,連線顏色對應的是首次合作的年份。
圖2???CAJD高被引電子文件研究文獻作者網絡圖譜
由圖2可以看出,國內已形成了幾大電子文件研究的團隊,圖中圈出了部分科研產出能力較強的團隊,如以馮惠玲、劉越男等為核心的中國人民大學,以張正強為核心的解放軍南京政治學院上海分院,以何嘉蓀為核心的浙江大學等。團隊中節點數量較多,大節點較多,且色環顏色多樣,表明團隊作者及高發文作者較多,1996年以來的多數年份都有成果。節點間連線僅17條,表明合著文獻較少。
利用自編軟件進行統計,1138篇樣本文獻涉及作者共計1112人,1523人次,其中獨著850篇,兩人合著221篇,三人合著48篇,四人及以上合著19篇,表明作者間的合作不多;全部作者來自525個機構。表2和表3分別列示了高發文作者和高發文機構及發文量(發文數中“+”后為第二作者發文數)。
表2?高發文作者及發文量(單位:篇)

表3?高發文第一機構及發文數量(單位:篇)

對照表2、表3和圖2,表中數據結果與圖譜呈現基本一致,同時也驗證了科研產出能力較強的團隊是中國人民大學、解放軍南京政治學院上海分院等。
3.3??樣本文獻主題統計與分析。在期刊文獻中,關鍵詞最能反映文獻的主題,因此,利用關鍵詞進行主題分析。樣本文獻中有機標關鍵詞文獻556篇,無關鍵詞文獻10,為減少可能出現的偏差,主題統計與分析未使用機標關鍵詞。在CiteSpace中選擇網絡節點為“Keyword”,運行并經手動調整后,得到主題網絡圖譜(圖3)。圖中的圓為關鍵詞節點,圓越大,表明該關鍵詞出現的頻次越高;節點色環的顏色代表該詞出現的年份,色環的厚度代表相應年度出現頻次的多少;節點間的連線表明關鍵詞共現于同一篇論文中,連線的粗細代表共現的頻度,連線顏色對應的是首次共現的年份。圖中部分節點外環呈紫色,表明這些主題的中心性較高。[7]
????圖3???CAJD高被引電子文件研究文獻主題網絡圖譜
值得一提的是,圖譜清晰地呈現出了電子文件(數字檔案)研究的特點,圖中各節點與電子文件、數字檔案、檔案管理和管理等具有高中心性的關鍵詞連線最多,說明如何管理電子文件是研究的動因;與管理相關的自然是電子政務、對策(安全保存、信息安全)、管理系統以及信息化等。
經自編軟件統計,作者標注有關鍵詞的572篇樣本文獻共有關鍵詞1976個個,篇均3.45個,共涉及關鍵詞690個,其中僅出現1次~3次的關鍵詞分別為484、86和35個,比重很大,對統計結果有一定影響。將統計結果與CiteSpace生成的數據報表整合為表4,表4列出了頻次前20位的高頻關鍵詞及其中心性。
表4??高頻關鍵詞的中心性及詞頻數

表4中,電子文件、數字檔案、檔案管理、管理、電子政務、對策這幾個關鍵詞的中心性值均大于0.1,關鍵詞安全保存和信息化的中心性值接近0.1,這些關鍵詞代表了電子文件研究的熱點。
3.4??樣本文獻被引統計與分析。文獻被引頻次一般反映出文獻在某類研究中的價值。由于CAJD下載的題錄不帶引文,無法利用CiteSpace生成相應的知識圖譜加以分析,進而總結經典文獻和知識基礎。為彌補這一不足,作者利用CAJD的被引數據和自編軟件生成了高被引作者文獻被引統計表(表5)、高被引文獻被引統計表(表6)和年度文獻篇均被引統計表(表7)。
表5?高被引作者文獻被引統計表(單位:次)

透過表5和表6可以發現,馮惠玲、何嘉蓀、劉越男、劉家真、安小米、庫克、于麗娟等是國內電子文件研究最具影響力的作者,被引排在前15位的作者的文獻被引頻次達2382次,占統計樣本總被引數的近1/4;中國人民大學和浙江大學、武漢大學、蘇州大學等是最能代表國內電子文件研究水準的機構。而高被引的庫克的《電子文件與紙質文件觀念:后保管及后現代主義社會里信息與檔案管理中面臨的一場革命》、馮惠玲的博士論文《擁有新記憶——電子文件管理研究》系列摘要及《電子文件與紙質文件管理的共存與互動》和《論電子文件的風險管理》、邱曉威的《電子文件與電子檔案的管理問題與對策》、安小米的《文件連續體模式對電子文件最優化管理的啟示》等無疑是電子文件研究的經典基礎性文獻,被引前20位的論文被引1039次,占統計樣本總被引數的10.88%。
表6??高被引文獻被引統計表(單位:次)

表7?被引文獻年度篇均被引統計表(單位:次)

結合表7的年度篇均被引數,還可得出這樣的結論:1997年~1998年、2002年~2003年是國內電子文件研究的高水平階段。
4??結語
通過以上統計分析,研究結果可以歸納為:電子文件研究熱度持續,每年都產出有一定影響力的高水平成果;中國人民大學、解放軍南京政治學院上海分院、武漢大學、浙江大學、蘇州大學等是國內電子文件研究科研產出能力較強且水平較高的機構;馮惠玲、何嘉蓀、劉越男、劉家真、安小米、于麗娟、張照余等高產且高被引的作者是國內電子文件研究領域最具影響力的作者;庫克是對國內電子文件研究產生深刻影響的國外學者;以解決管理問題為目標和驅動的電子文件研究始終是研究的熱點。
本文采用的研究工具CiteSpace是近年國內進行文獻分析使用較多并公認較好的一款軟件,目前在檔案文獻的分析研究中運用還不多。盡管該軟件可用于分析中文文獻,但使用中會面臨兩個主要問題,一是需用轉換程序將分析數據轉換為WOS格式,但無論轉換前還是轉換后要對分析數據進行清洗都比較困難和麻煩(包括部分數據項的規范、缺項補充、剔除重復和誤檢題錄、機標關鍵詞是否采用等);二是由于CiteSpace相關閾值等的不同設定可能導致圖譜節點大小及報表個別數值與實際統計結果有些不完全一致,如作者發文數量不區分作者排序、不區分同名作者而使得圖譜數據與用通常方法統計結果的個別不一致。作者用自編的軟件較好地解決了這些問題,同時自編軟件的計量結果還可與圖譜及由工具軟件導出的數據相互印證。因此,分析工具再好,也需要有“干凈”的數據做基礎,更需要使用者嚴謹的研究態度。
參考文獻:
[1]?國家檔案局.?GB/T?18894—2002?電子文件歸檔與管理規范[S].?北京:國家質檢總局,2002.
[2]?馮惠玲.?認識電子文件《擁有新記憶——電子文件管理研究》摘要之一[J].?檔案學通訊,1998(1):44~48.
[3]?陳丹丹.1991-2000年我國電子文件研究論文統計與分析[J].?檔案與建設,2002(9):18~19.
[4]?曹芳.近十年來我國電子文件研究論文的統計與分析[J].?檔案學研究,2003(4):45~49.
[5]?張寧.?2010年我國電子文件管理理論研究綜述[J].?檔案學研究,2011(3):4~7.
[6]?Chen?Chaomei.?CiteSpace:?Visualizing?Patterns?and?Trends?in?Scientific?Literature[CP/OL].?[2014-06-15].??http://cluster.ischool.drexel.edu/~cchen/citespace/download.html.
[7]?李曉明,宮啟生,謝靜靜.?2001年-2013年國內檔案數字化研究文獻分析[J].?檔案管理,2014(4):51-53.
(作者單位:北京電子科技學院圖書館(檔案館)??來稿日期:2014-10-17)