鄢明芳, 鄭 川
(1.湖南省語言文字培訓測試中心,湖南 長沙 410016;2.中南大學 檔案技術研究所,湖南 長沙 410083)
信息化時代,傳統載體的記錄模式受到巨大沖擊,傳統載體文件的管理體制和機制無法完全適應電子文件的管理和利用需求。數字文件易于復制、修改等特點給電子文件的真實性、完整性、安全性和可讀性保障帶來了難題,特別是作為社會記憶載體的電子檔案,保證其長期可讀可用尤為重要,國內外也開展了諸多研究。本文對我國電子文件長期保存的相關文獻進行系統梳理,旨在理清該領域研究的熱點、成果和現狀,為相關研究提供參考。
通過關鍵詞聚類法和內容分析法,可視化分析軟件Citespace 5.5.R2對電子文件長期保存相關文獻進行研究熱點分析,并基于研究熱點的演進發現該領域的研究趨勢。關鍵詞聚類,可以將關系密切的主題詞集中呈現以展現某領域的研究結構。內容分析法通過對文獻的閱讀、分析和整理,能夠突破文獻計量的表象數據特征達到對“質”的認識,確保分析深度[3]。Citespace是近年來可視化文獻計量分析領域中影響力較大的軟件。
中國知網(CNKI)是國內領先的集期刊、會議論文、報紙、雜志、碩博士學位論文、標準、年鑒、專利、工具書等文獻資源于一體的網絡出版平臺。本文以中國知網為數據來源,檢索數據庫包括中國學術期刊網絡出版總庫、中國優秀碩士學位論文全文數據庫、中國博士學位論文數據庫和中國重要會議文論全文數據庫。檢索條件為:SU =“電子文件”and “長期保存”(精確匹配)、文獻來源=“不限”、發表時間=“不限”,檢索時間為2019年10月30日,檢索得到中文文獻376篇。通過逐篇閱讀摘要對文獻進行數據清洗,剔除內容無關文獻15篇、重復題錄6篇、期刊要覽1篇、新聞資訊6篇、訪談稿1篇和卷首語1篇,最終得到346篇國內電子文件長期保存的相關文獻。將這些文獻在CNKI里以Refworks格式導出后轉換為CiteSpace可使用的專用格式。
關鍵詞是為文獻標引而設置的能反映全文主題和中心內容的詞匯和術語,關鍵詞選取的規范性會直接影響科技論文的檢索效率。但關鍵詞一般是非受控的自然語言詞匯,論文的關鍵詞易出現詞義寬泛、專指性差、用詞不規范、無法準確反應主題等用詞泛化問題[1],在計量分析之前需對關鍵詞進行數據清洗。譬如,將“電子檔案”、“數字檔案”等同義詞統一合并為“電子檔案”;刪除無明確含義和專指性差的詞如“問題”、“探析”、“應用”、“檔案”等。結合高頻詞與低頻詞詞頻界分公式,得到詞頻排名前20的關鍵詞如表1所示。

表1 關鍵詞詞頻表
將清洗后的關鍵詞導入Citespace 5.5.R2,設置分析年份Time Slicing從1996年到2019年,時間切片Years Per Slice=1年,分析節點Node Types=Keyword,連接強度Links Strength=Consine,切片選取標準Selection Criteria=Top 80%,網絡裁剪Pruning=Pruning the merged network,繪制關鍵詞共詞圖譜。網絡同質性指標Silhouette=0.7397≥0.5、Q=0.5906表明聚類結果可信。根據圖譜中關鍵詞聚類情況,結合文獻可將電子文件長期保存相關文獻劃分為五個主要熱點研究領域:文獻和研究綜述、相關技術研究、相關標準研究、電子檔案管理和實際案例分析。
3.1.1 文獻和研究綜述
該領域研究主要是對電子文件長期保存某方面的研究綜述。劉家真、徐義全、毛義春等學者早在2000年前后就開始對數字信息長期存取研究和以美國、澳大利亞為主的國外研究進行介紹。其后的時間里,鄧丹丹、蘇旻、李景、張雅君等人不斷對該領域新的研究進展進行介紹。近年來,謝永憲和王巧玲等人從目的、相關主體、技術、標準、法律、經濟和國家策略七方面對國內數字檔案長期保存相關文獻進行了整理分析,并建議未來應加強理論與實踐的結合,建立具有中國特色的數字檔案長期保存理論體系[2]。肖秋會和趙文艷從作者、年度和主題三方面對歐美電子文件研究相關文獻進行了分析和梳理,發現從20世紀60年代至今,歐美電子文件研究經歷了萌芽、創新和國家戰略三個階段,熱點研究主題有電子文件元數據、電子文件鑒定、電子文件長期保存和電子文件的法律憑證性等,并介紹了歐美核心作者David Bearman和Luciana Duranti的主要研究成果[3]。
3.1.2 相關技術研究
該領域主要是對電子文件長期保存的相關技術展開研究。劉國偉、毛義春、張江珊、閆曉創等學者對電子文件長期保存的格式問題進行了研究,周楓、呂東偉等人對我國自主開發的版式文件格式OFD進行了SWOT分析[4],錢毅從文件全生命周期的角度提出了電子檔案長期保存所用格式的基本原則,總結了電子檔案長期保存格式的主要管理策略[5]。張永潔、康惠清、連秉然、湯衛新、張晶晶等人對電子文件長期保存的各類載體進行了優劣勢分析,蔣術基于我國現狀從存儲載體、存儲技術、環境保護、管理制度、標準規范五個方面提出了電子檔案長期保存存儲載體的綜合方案[6]。金更達、王艷麗、李澤鋒、劉益妍、馬仁杰、錢毅等學者基于OAIS結構框架對電子文件長期保存的可信度保障進行了系列研究,重點關注依賴于技術和信息系統前提下的長期可信保障。蔡盈芳、劉越男、楊建梁等學者對電子簽名的原則、方案與應用策略等相關問題展開了研究。程妍妍、鄭靜、馬仲凱、劉越男等人分別對圖像文件、電子發票、電子文件的元數據和封裝方案進行了研究,劉越男和楊建梁面向電子文件長期保存構建了統一的元數據模型,主要包括文件、技術環境、責任主體、業務、法規標準五個實體[7]。李亞男、畢建新、楊靜、殷建琳等人探索了在云環境、云存儲等新技術條件下電子文件長期保存所面臨的機遇和挑戰。劉越男和吳云鵬分析了區塊鏈技術在數字檔案長期保存方面的優點、不足和風險,提出應用區塊鏈技術長期保存需解決哈希值持續有效、合適的區塊結構、相關技術集成、合適的共識機制、保持節點相對穩定、保證鏈上數據長期可用、提升管理水平七大關鍵問題[8]。
3.1.3 相關標準研究
該領域研究主要是對電子文件長期保存的相關標準展開分析和討論。陳曉輝系統介紹了我國當前關于電子檔案管理的63項相關標準[9],趙屹系統介紹了國際標準化組織ISO關于電子檔案管理的49項相關標準[10]。陶悅、于浩、趙屹、馮文杰、賈茹等人梳理了我國電子文件長期保存標準研究的發展歷程。郭曉云、李從衛、劉國偉、肖秋會等人重點分析了我國關于電子檔案長期保存格式方面的相關標準,張曉娟、唐長樂、程妍妍等人梳理了我國電子文件長期保存元數據方面的相關標準。周耀林、李叢林和羅亞利分別介紹了國內外文化記憶機構關于信息資源長期保存的標準體系建設和質量標準研究情況。
3.1.4 電子檔案管理
電子檔案是電子文件的組成部分,檔案管理機構是研究電子檔案和電子文件長期保存的重要力量,檔案行業許多學者和從業工作者對電子檔案這一特定形式的電子文件開展了許多研究。寧娜、王英瑋、常建法、劉俊、彭蒙蒙等人結合檔案工作實際情況對電子檔案和電子文件的歸檔要求、流程等相關問題進行了研究。駱建珍等人對電子檔案長期保存的安全性、真實性、完整性和可用性檢測要求和實現方法進行了探索。陳海平闡述了高校實行電子檔案單套制歸檔的緊迫性,并重點對可行性進行了研究,管先海、何思源、武夢雅、廖倩文等人研究了電子檔案的管理模式和單套制管理的推進策略。耿志杰、凌桂萍、毛海帆、王新陽、康璐等人從需求分析、功能設計、應用開發等實際應用的角度對電子檔案管理系統進行了研究。
3.1.5 實際案例分析
該領域研究主要是對一些典型案例進行分析和經驗介紹。肖秋會和伍黎丹介紹了澳大利亞國家檔案館針對數字信息長期保存開展的數字連續性計劃(Digital Continuity Plan),分析了該計劃制定的背景、相關要素和理論依據、關鍵舉措和管理理念,總結了值得借鑒的地方。祁天嬌和劉越男介紹了美國國家檔案與文件署的電子文件檔案館項目(The Electronic Records Archives of NARA),描述了該項目的建設背景、目標和主要成果,解讀了ERA 2.0系統新的技術方法和研發理念,以及近年來在系統功能實現和運維方面的局限性。馬林青對電子文件永久真實性國際合作項目InterPARES(International Research on Permanent Authentic Records in Electronic Systems)政策框架的制定背景、概念基礎、框架結構、研究視角和主要內容進行了全面的介紹和分析,并基于此對我國電子文件長期保存政策提出建議,侯衡重點從概念內涵、整體設計、管理流程、管理責任、管理系統等方面對InterPARES項目電子郵件長期保存研究成果進行了分析,總結對我國電子郵件長期保存的啟示。徐擁軍和馬林青介紹了加拿大圖書檔案館(Library and archives of Canada)可信數字倉儲的發展歷程,及其在永久保存聯邦政府電子文件中遇到的困難和挑戰,并總結了其成功經驗。
二十年來我國電子文件長期保存的研究熱點主要集中文獻和研究綜述、相關技術研究、相關標準研究、電子檔案管理和實際案例分析五個方面。對電子文件長期保存體系而言,技術研究是基本前提,標準研究是邊界參照,電子檔案管理和實際案例分析是結合理論知識針對具體問題的實踐經驗,文獻和研究綜述是對整個研究的不斷總結。除此之外,還有許多學者對電子文件長期保存的法律法規、參與主體、目的和意義、新技術應用、趨勢展望、策略研究等其他相關主題進行了大量研究,這些研究共同推進了電子文件長期保存研究體系的進步與發展。