文 / 葉茹雨
多學科視角下的檔案學理論研究進展(之六)
——信息技術視角
文 / 葉茹雨
信息技術的發展為檔案工作帶來了新對象,電子文件進入檔案領域。由于電子文件與傳統紙質檔案差異巨大,檔案管理的方法出現變革。數字檔案資源的長期保存依賴于各類技術的研發與完善。新技術的不斷產生帶來了更多檔案學研究熱點,也為檔案工作帶來了機遇與挑戰。檔案學教育順應時代發展,課程也隨之調整與發展。
信息技術;檔案學;電子文件;檔案教育
在檔案事業的歷史進程中,信息技術的變革與檔案事業的發展密切相關。在信息技術的影響下,檔案工作從實體、模擬形態向電子、數字模式轉型,將檔案工作者從手工管理中解放出來,過去受到技術限制而只能停留在思考層面的設想得以實現。檔案學理論在信息技術手段的幫助下真正“落地生根”。
在計算機技術的飛速發展下,電子文件成為檔案工作的新對象。電子文件指在數字設備及環境中生成,以數碼形式存儲于磁帶、磁盤、光盤等載體,依賴計算機等數字設備閱讀、處理,并可在通信網絡上傳送的文件。[1]由于與傳統檔案工作對象差異巨大,如何從技術角度認識電子文件引發了檔案領域的熱烈討論。電子文件的載體、格式和元數據標準成為認識檔案工作新對象的首要研究內容。
傳統檔案工作對象以紙質檔案為核心,由于紙質檔案的內容與載體相統一,管理載體即為傳統檔案管理的核心工作。而電子文件的出現,其存儲載體多樣且不再固定,紙本不再是唯一的載體形式。檔案載體的變化引起了檔案管理活動的變革。
由于電子文件存儲載體的壽命有限,存儲載體的技術發展對電子文件的存儲具有較大影響。目前較成熟且通用的載體為三類:磁性載體、光學載體和電(半導體)載體。硬盤及以硬盤為基礎的各類存儲系統(磁盤陣列、NAS存儲、SAN存儲、集群存儲等)是在線存儲、近線存儲、異地(容災)存儲、在線備份的主要載體。光盤及光盤庫則為近線存儲、本地備份異地保存的主要載體。以磁帶為載體的磁帶庫是在線備份的主流選擇,同樣也是本地備份、異地保存的主要方式。縮微膠片則成為異質備份的主要載體。[2]DA/T38-2008《電子文件歸檔光盤技術要求和應用規范》對存儲載體明確了相關技術指標;GB/T18894-2016《電子文件歸檔與電子檔案管理規范》對電子檔案離線備份的存儲載體作出了規定,以確保存儲載體滿足存儲條件。
可選載體多樣性的背后,是電子文件的信息與載體間的關系。這二者是否分離的問題引發了學界的討論。一種觀點指出電子文件信息與載體可分離。馮惠玲認為,電子文件的信息與載體具有可分離性,“載體的轉換不僅是可能的,也是必須的”。[3]黃世喆等認為,信息與載體的可分離性是電子文件的核心特點,但其分離是暫時的、相對的。[4]另一種觀點認為信息與載體不可分離。仇壯麗指出,靜態電子文件、動態電子文件與虛擬文件都離不開“內存”這一物理載體。[5]謝光耀在上述兩種觀點的基礎上,提出電子文件信息與載體的關系是“一種動態的、相對的分離和絕對的依附的辯證統一的關系。”[6]從檔案工作實踐上來看,電子文件的確不再如同傳統紙質檔案一般保持著載體與內容的統一,但仍需載體提供相應的存儲與利用空間,而載體可以且應該變更。
如果說載體可以不斷更換以保證載體的可識別與可用,那么存放在各類載體中的電子文件內容的可讀、可用則是電子文件存儲的意義所在,電子文件的存儲格式成為了世界范圍內的重要研究內容。由于技術的迅速發展,舊格式逐漸被淘汰或不斷更新,新格式也在不斷產生,各種格式數量眾多、類型復雜,開放程度各異。這給電子文件的存儲帶來了巨大挑戰。
DA/T47-2009《版式電子文件長期保存格式需求》要求版式文件的格式應滿足格式開放、不綁定軟件、文件自包含、格式自描述、顯示一致性、持續可解釋、穩健、可轉換、利于存儲、支持技術認證機制、易于利用等十一項要求。[7]GB/T 33190-2016《電子文件存儲與交換格式版式文件》確立OFD作為我國電子文件版式文件格式。OFD格式開放,且保障國家信息的安全,但利用、管理、風險等問題皆引起了檔案界的高度關注。OFD格式對于電子文件產生的影響有待觀察。GB/T18894-2016《電子文件歸檔與電子檔案管理規范》[8]指出:“電子文件歸檔格式應具備格式開放、不綁定軟硬件、顯示一致性、可轉換、易于利用等性能,能夠支持同級國家綜合檔案館向長期保存格式轉換”,“以專有格式存儲的電子文件不能轉換為通用格式時,應同時收集專用軟件、技術資料、操作手冊等”[9]。
國際上對電子文件的格式研究已較為成熟。以美、澳、英三國為例,其所接收的電子文件種類多樣,且規定了各類電子文件接收格式。

表1 美、澳、英國家檔案館電子文件歸檔種類
各國在保存電子文件時,無一例外都對格式類型進行了控制。這一方面指明了長期保存的電子文件格式需要滿足特定要求,另一方面則意味著檔案部門能夠實現對這些電子文件格式的管控。國際上通過建立文件格式登記系統(或稱“數字文件格式等級系統”“電子文件格式登記系統”)實現格式信息體系化管理,代表性項目有英國國家檔案館的PRONOM技術等級系統、美國哈佛大學的GDFR(GlobalDigitalFormatRegistry)、互聯網數字分配機構(IANA)的MIME(MultipurposeInternetMail ExtensionsMediaTypesRegistry)以及加州大學管理中心(University of California Curation Center)開發的UDFR(UnifiedDigitalFormatRegistry)。[13]文件格式的登記管理從軟件上實現了管控,便于各機構選擇使用適合長期保存的文件格式。
元數據為維護電子文件憑證價值提供了新的思路和解決途徑[14]。作為電子文件管理不可或缺的工具,其標準的制定一直以來是電子文件管理研究的重點。目前國際上已出臺了大量電子文件元數據標準,我國近年來也取得不錯的研究成果。

表2 國際主要電子文件元數據標準
除表2中列舉的元數據標準外,國際標準化組織制定的ISO 23081《信息與文獻—文件管理流程—文件元數據》系列標準由原則、概念與實施、自我評價方法三部分構成。其提出的多實體、多屬性的元數據框架結構,被很多國家、地區、單位制定的文件管理元數據標準、方案所采納。[26]
我國檔案界關于元數據的研究以2001年國家檔案局邱曉威研究員主持的國家社會科學基金項目“電子文件和電子檔案的真實性、完整性保證及其法律地位的認定”啟動為標志。[27]目前我國已出臺了一批標準規范用以指導元數據方案制定工作。
在地方層面,2002年青島市檔案局頒布了《青島市電子文件歸檔與管理規范(試行)》,其電子文件元數據項目見于“附錄A電子文件著錄項目”;2005年天津市檔案局制定了《天津市電子公文元數據表》;廣州市地方技術規范DBJ440100/T 10.4—2008《電子文件檔案資源管理規范第4部分:元數據》在2008年7月出臺;[28]
在行業層面,2008年3月我國核行業標準EJ/T1224-2008《核電電子文件元數據》頒布;[26]檔案行業標準DA/T46 -2009《文書類電子文件元數據方案》與DA/T54-2014《文書類電子文件元數據方案》先后在2009年與2014年頒布[29]。
在國家層面,2011年1月,ISO23081-1《信息與文獻—文件管理流程—文件元數據—原則》被正式采納為國家標準,標準號為GB/T26163.1-2010。 國家檔案局承擔的國家標準《電子文件通用元數據規范(征求意見稿)》也于2012年完成,[26]并在福建、江蘇等地進召開適用性試點研討會。
由于檔案工作對象的改變,管控方式迫切要求變革。在紙質環境下,載體控制是檔案工作的核心。然而在電子環境下,載體控制的管理思想已無法再完全實現對電子文件的管理。檔案界對電子文件的管理模式進行了討論。
在我國,在電子文件出現初期,信息技術較為落后,電子文件(檔案)的長期保存問題難以解決,對電子文件并不信任,進而產生了雙軌制與雙套制的管理思路。雙軌制是指在文件生成、運轉過程中,電子文件與紙質文件二者的共存,即兩種版本文件同步隨業務流程運轉。雙套制則是指“雙套歸檔”[30]。
劉東斌在1999年指出,由于電子檔案具有非人工直接識讀性、軟硬件依賴性、不穩定性和易更改性,“電子檔案不能單獨承擔檔案的職能”,進而可實行雙軌制,即紙質檔案與電子檔案“同時歸檔保存,可以起到互相印證,互相補充的作用”[31]。雙套制的管理思路則可從表3中涉及電子文件管理的相關文件與標準中看出。

表3 我國實行電子文件(檔案)雙套制的有關規定[32]
隨著近年來信息技術的飛速發展,信息產業逐漸成熟,相關電子文件管理與長期保存的國際標準與項目陸續出臺,雙軌制與雙套制受到了檔案領域的巨大爭議。電子檔案雙套制管理面臨諸多困難,如資源浪費、電子檔案無法轉換為紙質或縮微膠片版本、電子文件流失、電子文件憑證性混亂等問題。
信息技術與相關國際標準的發展已經為電子檔案單套制與單軌制發展提供了技術可行性,以無紙化為核心的電子文件管理思路逐漸興起,單套制與單軌制的呼聲越來越高。GB/T18894-2016《電子文件歸檔與電子檔案管理規范》替換了GB/T18894-2002《電子文件歸檔與管理規范》,刪除了原標準中有關雙套制的內容,并對電子檔案管理系統做出了更多要求。2016年4月,國家檔案局在《全國檔案事業發展“十三五”規劃綱要》中指出:“我國應加快提升電子檔案管理水平……在有條件的部門開展電子檔案單套制(即電子設備生成的檔案僅以電子方式保存)、單軌制(即不再生成紙質檔案)管理試點。”[35]信息技術的發展正在實現檔案管理思路從雙套制、雙軌制向單套制、單軌制過渡。
“雙套保存”不僅意味著將原生電子檔案轉換為異質檔案,也帶來了檔案數字化。所謂檔案數字化,即利用數據庫技術、數據壓縮技術、掃描技術等技術手段,將紙質檔案、銀鹽感光材料照片檔案、以模擬型號為記錄形式(錄音帶、錄像帶)的錄音、錄像檔案等介質的檔案進行數字加工,將其轉化為存儲在磁帶、磁盤、光盤等載體上并能被計算機識別的數字圖像或數字文本的處理過程。[36]在生成數字版本后,以古籍數字化為例,還可利用數字化輸入技術、OCR光學識別技術、字處理技術、智能化處理技術和網絡技術[37]等信息技術為檔案利用帶來更多的便利,這也是檔案數字化工作的目的所在。
臺灣于2002年推出了“數位典藏科技計劃”,2008年將其與數位學習科技計劃整合為“數位典藏與數位學習科技計劃”,在數字化工作方面經驗頗豐。該計劃在實現將各類資源轉化為數字資源后,更著重強調對數字資源的管理與利用。其所設置的后設資料工作組負責從后設資料(即元數據)方面實現對數字資源的檢索與管控。此外,多媒體管理、聯合目錄、影音處理、中文缺字與斷詞系統、數位典藏資料庫及時空資訊整合系統等二十余項技術也是臺灣數位典藏與數位學習科技計劃多年來研發出的核心技術。[38]
中國第一歷史檔案館[39]、中國第二歷史檔案館[40]從上個世紀末開始進行檔案數字化工作。 國家檔案局相繼出臺了DA/T31-2005《紙質檔案數字化技術規范》、DA/T43-2009《縮微膠片數字化技術規范》。這兩部行業標準為我國檔案數字化提供了相關技術規范,有利于檔案數字化工作的長足發展。然而在檔案數字化為利用帶來便利的同時,檔案數字化工作本身也存在一系列風險,如采取數字化工作外包導致的檔案信息外泄、操作不當導致檔案受損、具體操作管理不當等問題。此外,人們也需持續關注技術發展情況,對相關檔案數字化規范進行更新。
對于原生電子文件而言,這些電子文件產生于系統并生成相關元數據,利用系統實現對電子文件的管理逐漸成為一種現實可行的管理方式。而對于數字化生成的電子文件,其后續的維護與利用工作從大體上來看與原生性電子文件基本無二。各國都在積極探索利用電子文件管理系統管理電子文件的方案。

表4 國際主要電子文件管理系統標準
我國2009年建立國家電子文件管理部際聯席會議制度之后,也加快推進電子文件管理系統相關標準和技術的研發。GB/T29194-2012 《電子文件管理系統通用功能要求》的出臺,使電子文件管理系統研發有了標準依據。GB/T33189-2016《電子文件管理裝備規范》對電子文件管理過程中所涉及的硬件設備和系統的功能、性能與技術管理要求做出了規定。
需要指出的是,在此處所指的電子文件管理系統,是指從業務系統(BusinessSystem,BS)捕獲電子文件后對其予以檔案化維護和處置的電子文件管理系統(ElectronicRecords/Documents&RecordsMana gementSystem,ERMS/EDRMS)。而在電子文件管理系統之后,還需由電子文件長期保存可信數字倉儲(TrustedDigitalRepository,TDR)系統/接收并長期保存電子文件。[41]從概念上來看,電子文件管理系統的功能是介于業務系統與電子文件長期保存系統之間的。在檔案領域,國際上許多電子文件管理系統項目的開發并不僅局限于這一過渡階段。從對電子文件管理系統的相關要求以及項目的開展趨勢看來,更多項目與相關規范、標準在向數字資源長期保存方向發展。
數字資源(電子文件)長期保存項目旨在將具有長期保存價值的數字資源以數字形式保存下來。隨著時間的推移,人們逐漸意識到與紙質檔案不同,數字資源的壽命會因種種原因受到限制,最終導致數字資源的流失。世界范圍內各國積極展開數字資源長期保存項目,從各個角度尋求長期保存數字資源的最佳實踐。
美國國家檔案和文件署(National Archives and Records Administration,NARA)于1998年提出了電子文件檔案館(Electronic Records Archives,ERA)項目的建設方案并于1999年立項,旨在將ERA建設為全面管理電子文件的檔案系統。ERA主要任務是永久保存各類電子文件,并實現不受文件生成格式和生成環境的限制、不受閱讀環境制約的電子文件利用。[42]自2012年起,NARA要求所有聯邦機構通過ERA遞交文件期限(RecordsSchedule)以獲得許可,所有永久保存文件的移交也都通過ERA進行管理。目前,ERA系統中已存儲超過8億份文件,共計超過400TB。[43]NARA在2016年發布了ERA2.0的項目計劃,以迎接由原生性電子文件與數字化文件所帶來的挑戰。ERA2.0由數字處理環境( Digital Processing Environment, DPE)和數字對象存儲(Digital Object Repository, DOP)兩個主要部分構成,實現各類數字資源的上傳、處理、元數據編輯、存儲、檢索與探索能力。[44]
加拿大自1998年起實施的“保障電子文件永久真實性國際合作項目”(International Research on Permanent Authentic Records in Electronic systems,InterPARES)已開展近二十年。該項目第一期就電子系統中文件真實性的永久保障進行了深入的研究。二期旨在確保在電子藝術、電子科學和電子政府活動中,在數據庫、辦公系統以及互動式體驗的動態性系統中準確而可靠地生成數字文件,并且確保無論是長期還是短期,在被其形成單位和整個社會利用的過程中,數字文件的真實性都能夠得到維護,而不受技術更新和載體不耐久的影響。InterPARES已形成了數字文件長期保存方針、政策、策略和標準的框架、文件形成者指南、文件保管者指南、檢驗電子文件真實性的比照要求和基準要求等一系列成果。三期則將已有成果應用于中小型檔案機構。四期(InterPARESTrust,ITrust)旨在制定理論與方法框架以保障公眾對電子文件與網絡數據的信任。
澳大利亞維多利亞州檔案館推出了“電子文件管理策略”(Victorian Electronic Records Strategy,VERS)項目。2000年維多利亞電子文件管理標準出臺,即VERS標準,2003年推出2.0版本,2015年推出數字信息封裝標準,即VERS3.0。在VERS2.0的五個規范明確了電子文件保存系統、元數據、標準電子文件格式、長期保存格式和輸出電子文件的技術要求,VERS3.0的三個規范則從構建封裝包、封裝包元數據和長期保存格式等方面對數字信息封裝標準進行技術補充。
荷蘭數字文件保管試點項目(D i g i t a l Preservation Testbed)于2000年展開。該項目選取電子郵件、文本文件、電子報表、數據庫四種電子文件,試驗評價了遷移、仿真和XML三種數字保護策略的效果和局限性,研究如何長期有效保存電子文件,并在此基礎上制定了保存系統功能要求。[45]
英國國家檔案館的電子文件格式管理項目PRONOM是以文件格式為核心的電子文件長期保存基礎性項目。該項目由PRONOM技術登記系統、PRONOM永久唯一標識符(PRONOM Persistent Unique Identifier,PUID)和電子文件格式識別工具(DigitalRecordObjectIdentification,DROID)三部分構成。PRONOM項目可實現對電子文件進行充分描述,并以此為基礎輔助遷移活動等保存策略的制定。[46]
瑞士聯邦檔案館于2 0 0 7年開發了S I A R D(Software Independent Archiving of Relational Database),并于2013年發布SIARD2.0版本。SIARD是一套基于XML的長期保存關系型數據庫的解決方案。SIARD提供了SIARD格式與SIARD套件,實現了關系型數據庫與SIARD格式的相互轉換,且SIARD是用于存檔的開放數據庫格式。[47]
上述數字資源長期保存項目各有特色與側重,形成了一系列數字資源長期保存的最優實踐,對世界范圍內數字資源長期保存工作的開展具有指導與借鑒意義。
數字資源在近年來逐步走上了規范化和標準化的道路。ISO14721《開放檔案信息系統參考模型OAIS》、ISO 18492《電子文件信息的長期保存》、ISO/TR 26102《信息與文獻——電子文件的長期保存需求》、ISO19005《文檔管理-長期保存的電子文檔格式》等國際標準為確保電子文件長期可讀、可解析、可利用和共享奠定基礎。此外,數字資源長期保存需獲得保存機構、用戶與投資方等多方的信任,對保存系統進行可信認證是提高數字資源長期保存可信度的重要手段。2002年RLG與OCLC發布《可信數字倉儲的屬性和責任》(Trusted Digital Repositories:Attributes and Responsibilities)研究報告;2006年德國數字資源長期保存專業網(Network of Expertise in Long-Term Storage of Digital Resources,Nestor)制定了《可信賴數字倉儲的指標目錄》;2007年RLG與NARA發布《可信賴倉儲的審計及認證: 指標與列表》( Trustworthy Repositories Audit&Certification: Criteria and Checklist,TRAC),且于2012年發展成為國際標準ISO16363。2014年ISO16919《審計與認證機構的要求》對執行認證的機構、人員及認證過程進行了規范。數字長期保存能力成熟度模型(DigitalPreservationCapabilityMaturity Model,DPCMM)等成熟度模型項目則從系統成熟度的角度對保存系統進行評估。上述標準與項目成果對數字資源長期保存的系統建設與可信認證提供了巨大支持,有助于數字資源長期保存項目的可持續發展。
我國在數字檔案資源長期保存研究領域也取得長足進步。一是出臺了電子文件元數據、長期保存技術策略、長期保存格式等方面標準規范。其中DA/46-2009《版式電子文件長期保存格式需求》將對電子文件保存格式的要求從具體格式轉移到格式需求上;DA/47-2009《文書類電子文件元數據方案》遵循了國際標準ISO23081《信息與文獻——文件管理過程——文件元數據》;DA/48—2009《基于XML的電子文件封裝規范》則參考了澳大利亞維多利亞州文件策略(VERS)項目中的封裝規范。二是通過會議交流促進數字檔案資源長期保存工作的有效開展。我國近年來以“電子文件的長期保存”“信息系統環境中的文件與檔案管理”等主題舉辦了多次電子文件管理論壇。馮惠玲教授曾在會上指出,電子文件長期保存是一個立體性的難題,需要概念、技術與管理多種維度予以解決。技術作為其中一維在電子文件長期保存的工作中具有重要地位。
20世紀90年代,我國檔案界就開始把數字檔案館作為新興的有發展潛力的重要研究領域,并從國家戰略層面出發,將數字檔案館研究與建設納入國家信息基礎設施計劃。2002年以來,國家檔案局先后發布了《全國檔案信息化建設實施綱要》;發布了《檔案事業發展“十一五”規劃》,提出了“建立一批電子文件中心和數字檔案館,實現檔案信息資源社會共享”的總體目標;印發了《數字檔案館建設指南》《數字檔案室建設指南》,明確數字檔案館(室)建設的具體內容;發布了《檔案事業發展“十二五”規劃》,提出要“加快數字檔案館建設步伐”。2014年,國家檔案局成立了數字檔案館(室)建設領導小組,并討論通過了領導小組工作規則和《2014年數字檔案館(室)建設重點工作》。《全國檔案事業發展“十三五”規劃綱要》提出持續推進數字檔案館建設,“到2020年,全國地市級以上國家綜合檔案館要全部建設成具有接收立檔單位電子檔案、覆蓋館藏重要檔案數字復制件等功能完善的數字檔案館;全國50%的縣建成數字檔案館或啟動數字檔案館建設項目;全國省級、地市級和縣級國家綜合檔案館館藏永久檔案數字化的比例,分別達到30%—60%、40%—75%和25%—50%”[37]。可見,國家對數字檔案館建設的重視和投入為數字檔案館建設提供了有力的保障。
隨著數字檔案館理論與實踐的逐步深入,檔案界從概念界定、技術實現、信息資源組織與建設等方面對數字檔案館進行了探討,產生了一系列專著,如表5所示:
國內數字檔案館研究還同時呈現出與實踐緊密結合的特征。2001年,國家檔案局將青島、深圳確立為數字檔案館建設的試點城市,從此拉開了全國數字檔案館建設的序幕。北京、上海、天津、浙江、福建、江蘇、重慶、深圳、青島等省市的綜合檔案館先后開展數字檔案館的建設。根據中國檔案學會檔案自動化管理技術委員會發布的《檔案信息化發展現狀、趨勢的研究報告》,目前我國數字檔案館建設呈現出“綜合性數字檔案館建設的引領示范”“專業、行業、部門數字檔案館建設的探索實踐”“數字檔案館建設逐步規范”的局面。與此同時,數字檔案館建設的內容覆蓋也較為全面,包括數字檔案館“三網一庫”基礎設施建設、館藏檔案數字化、檔案目錄和專題檔案數據庫建設、提供“一站式”檔案信息服務、檔案網站建設、開放檔案目錄等。[48]
當下,我國數字檔案館建設仍在向前推進,呈現出從個體向群體的發展態勢。如何實現電子文件在線存取、如何實現電子文件長期保管、如何建立分布式和可擴展的數字信息系統、如何建立多個數字檔案館之間的信息資源跨庫共享,是我國數字檔案館建設在下一個階段需努力解決的難題。
信息技術的發展為過去難以實現的檔案管理研究思路帶來了可能性,帶來了研究新熱點。其中較為典型的研究熱點內容為網頁歸檔、數字記憶、大數據與云計算等。
互聯網技術的迅速發展導致一些具有重要保存價值的網頁淹沒在網絡汪洋中,或因為網站缺失維護導致網頁流失。網頁歸檔成為檔案人在網絡時代的一份重要職責。網頁歸檔實際是數字資源長期保存的一項內容,但由于其技術內容復雜,在此作為一項熱點研究提出。
目前,網頁歸檔技術已逐步成熟,采集、管理、保存與訪問利用四個環節均需要一系列的技術支持,也是網頁歸檔技術研究的重點內容。以傳統PageRank和HITS算法為基礎所形成了網頁評價算法模型解決采集對象挑選問題,定域采集、定題采集與定點采集成為三類重要采集方式,Heritrix、HTTrack、Nutch和SmartCrawler等常用開源采集工具為網頁獲取提供支持。HTML重寫、超鏈接重寫、ProxyYRL技術方法可實現某個時間節點內歸檔網頁的重現。[49]網頁歸檔訪問方面則以WaxBack、NutchWAX、WERA、WayBack Machine等為代表性技術工具。[50]
目前,在國際上具有影響力的網頁歸檔項目包括美國Internet Archive、澳大利亞PANDORA 網頁歸檔項目(PANDORA Australia's Web Archive)、英國國家檔案館英聯邦政府網絡檔案(UK Government Web Archive)、美國國家檔案與文件署(NARA)的聯邦網絡采集(Federal Web Harvests)、美國國會圖書館(Library of Congress Web Archive)的“國家數字信息基礎設施及保存計劃”(National Digital Information Infrastructure Preservation Program,簡稱NDIIPP)。我國則以國家圖書館的 WICP項目和中國 Web 信息博物館項目為典型網頁歸檔項目。
網頁歸檔技術仍在不斷發展、改進,以期獲得更為完善的歸檔成果。隨著社交媒體的廣泛應用,社交媒體的信息采集是網頁歸檔問題下的一大討論熱點。歐盟ARCOMEM(ARchiveCOmmunityMEMories)項目采集保存社交媒體信息,在信息采集方面為社交媒體網絡資源保存開辟了新思路。[51]以英、美、澳等國為代表的國家在社交媒體歸檔方面也已經積累了一些經驗與成果。[52]中國國家檔案局在《全國檔案事業發展“十三五”規劃綱要》中也將研究和制定重要網頁資源的采集和社交媒體文件的歸檔管理辦法作為提升電子檔案管理水平的重要內容之一。
隨著檔案記憶觀相關理論的發展,社會記憶逐漸成為檔案學的研究熱點。在信息時代的大背景下,電子文件的出現為保存人類記憶帶來了新的挑戰與機遇,數字記憶成為檔案學理論研究社會記憶的重要內容。
在理論層面,數字記憶是社會記憶與檔案記憶觀研究的重要內容。戚穎、倪代川對檔案學界關于社會記憶的相關研究進行了梳理,指出檔案學者從傳統檔案和電子文件兩個方面進行社會記憶研究。[53]丁華東指出,電子文件的出現“要求檔案界勇敢地承擔起保護電子時代社會記憶的歷史使命……是推動檔案記憶觀興起的動因之一”[54]。馮惠玲在當代檔案記憶觀和資源觀的基礎上,提出構建“中國記憶”大型數字資源庫,為中華民族集體記憶的建構和傳承提供文獻支撐。[55]徐擁軍從內涵和使命、價值理念、建設原則、基本內容和資源架構等方面對“中國記憶”數字資源庫的建設提出了進一步的構想。[56]2015年,主題為“數字記憶:構建、認同與傳承”的“數字記憶國際論壇暨第六屆中國電子文件管理論壇”在中國人民大學召開,引發學者們從“數字的”社會記憶視角來思考檔案和數字時代檔案管理的轉型。
在實踐層面,利用信息技術記錄數字記憶是各類社會記憶項目的操作內核。在世界記憶工程的影響下,各國積極開展各類記憶項目,利用各類信息技術保存社會記憶是各類項目的主導思想。我國自2002年青島市率先開展城市記憶工程以來,北京 、上海、重慶等五六十座城市積極響應;2011年浙江省檔案局開始實施“浙江記憶工程”,將城市記憶工程拓展到鄉村。[57]這些項目通過錄音、錄像、照片拍攝等方式記錄社會面貌,并提供在線訪問與利用,將傳統記憶轉化為數字記憶保存下來。國家檔案局在《全國檔案事業發展“十三五”規劃綱要》中提出,應鼓勵開展國家記憶和城市(鄉村)記憶工程。
云計算是近年來興起的技術。在云計算出現之前,面對大量異構數據,擺在人們面前一直有兩個棘手的問題:一是如何實現異構數據的共享問題,二是如何在異構數據中挖掘有價值的信息。這兩個問題同樣困擾著檔案領域。隨著信息技術迅速發展,數字檔案不論在數量上還是在類型上都呈現出爆炸性的增長態勢。云計算技術憑借按需服務、高可靠性、廉價等特點,一經出現便得到了檔案領域的廣泛關注,成為檔案管理發展的新趨勢和新動態。
2010年5月,NARA發布《云計算機環境下的文件管理指南》;2010年7月,澳大利亞檔案與文件協會和新西蘭檔案與文件協會共同發布《云計算環境下文件風險管理指南》;2010年8月,英國和愛爾蘭檔案與文件協會發布《信息外包云存儲指南》;國際文件管理協會(Associationof Records Management and Administrator, ARMA)也于2010年頒布了《文件外包云存儲指南》。上述指南對云計算的概念、優勢進行了詳細闡述,同時也著重強調了云計算環境下文件檔案管理風險與應對政策。[58]
2009年,云計算被引入我國檔案領域。2011年,北京市檔案局“基于‘云計算’的區域性數字檔案館建設研究”被列入國家檔案局科技項目計劃。該研究指出云計算是區域性數字檔案館實現的技術保障,并基于云計算環境提出了區域性數字檔案館的建設原則與基礎架構,[59]是云計算技術對檔案領域發展帶來新方法、新思路的典型案例。薛四新在《云計算環境下電子文件管理的實現機理》中將電子文件管理置于云計算環境下,研究了云生態環境中電子文件對象模型的構造原理,并基于云平臺把握電子文件管理系統的實現機理,探索基于云服務的電子文件管理模式的運作機制,為在云計算環境下全面實現電子文件的科學管理提供思路、方法和機制。[60]2012年,我國國家檔案局科技項目立項選題指南中明確將云計算等新技術在檔案管理中的作為項目申報內容之一。自2012年以來,我國國家社會科學基金中出現了多個有關云計算與檔案管理研究的項目,如表6所示。
隨著社交網絡、移動設備的出現與普及,物聯網、云計算的等新技術的變革與普及,人們獲得、存儲、處理數據的能力發生了重大變革。“大數據(Big Data)”成為當前重要的時代特征。從2012年以來,大數據理念和方法被不斷應用于各行各業,也改造著傳統產業。檔案領域從理念到模式上均受到大數據思潮的洗禮。據統計,2011年,各級國家檔案館館藏已達3.3億卷,到2020年,館藏將達到6億多卷。如果加上企事業各類檔案部門館藏,將是一個海量資源庫。[62]劉國華認為,檔案數字信息資源已經滿足大數據體量大(Volume)、種類多(Variety)、價值高而價值密度低(Value)、處理速度要求高(Velocity)的四個特征。[63]在上述背景下,如何在大數據背景下更好進行檔案管理成為學界一個新的研究課題。
目前,我國檔案管理正在從數字化設施建設轉向數字檔案內容建設,數字檔案資源利用也從簡單的目錄查詢轉向綜合的數據挖掘和深度整合,如何從海量數據中發掘出有價值的信息,滿足不同檔案客戶的信息需求,將檔案資源轉化為知識資源,而基于大數據的數據分析和數據挖掘技術將會起到巨大的推動作用。這已成為檔案領域理論和實踐研究和應用的關注熱點。
第一,大數據影響數字檔案資源建設的結構與內容。北京檔案局副局長陶水龍認為從技術實施上來看,檔案大數據的獲取源于兩個維度:數據結構類型和時效性要求。具體而言,檔案的“收”要做到全流程控制,“將檔案管理融入到企業辦公系統、合同管理系統、工程項目管理等系統中,將文件、數據歸檔流程寫入發文環節、付款環節、驗收環節等,抓好文檔的前端控制”。周楓從技術維度入手,認為大數據技術將從檔案資源挖掘、用戶數據挖掘、關系洞察及趨勢預測等三個方面實現檔案資源與用戶需求的雙向理想控制。[64]
第二,大數據影響檔案服務模式。施永利從檔案服務的角度出發,認為大數據檔案服務面臨兩大挑戰,一是如何在海量數據中查詢到所需要的檔案信息;二是如何在海量數據中抽取和挖掘有用的信息和知識。對此,她認為,只有通過數據挖掘和文本挖掘,深層次發掘檔案之間的關聯,開發檔案信息中蘊藏的知識,通過智能化處理平臺主動推送給用戶,才能不斷滿足用戶日益增長的高層次、個性化的需求。[65]
第三,大數據影響檔案館建設。吳緒成認為,智慧檔案館是適應大數據時代要求的第四代檔案館,其目標是應用新一代信息技術及相關工具和方法,最大限度地提高檔案資源的整合建設能力和開發服務能力。建設智慧檔案館的關鍵節點在于大數據的來源、大數據特征的認知、大數據技術的應用、數字“鴻溝”的跨越、“檔案云”的構建等。[66]
新技術帶來了革命性的思潮,在其席卷而來之際,檔案領域的機遇與風險并存。一方面,大數據理念能進一步促進檔案的信息化和數字化,推動電子文件管理的發展,引起人們對檔案留存、記憶保護和電子文件管理的重視。另一方面,大數據造成的檔案概念泛化、檔案管理各環節界限模糊化、檔案管理技術手段先進化等,以及如何保證檔案數據的真實、可靠、完整、可用,都是檔案學在大數據環境下面臨的巨大挑戰。因此,如何在大數據時代完善檔案學基礎理論、變革檔案管理模式、探索檔案管理技術,仍然是當前亟待解決的難題。
隨著信息技術的發展與電子文件管理的需要,檔案學教育也在不斷發展變化,引入新課程、調整過時課程與理論,推動信息時代下檔案學新理論與新方法的出現與傳播。
2009年6月美國成立檔案教育研究院(AERI),旨在加強檔案教育和研究,并支持學術隊伍建設和指導。AERI代表了美國檔案課程教育,引領了檔案教育和研究的未來趨勢。AERI目標之一即推進檔案課程改革。AERI對數字保存技術給予高度重視。目前,美國有8所高校開設了數據保存相關專業,包括加州大學洛杉磯分校、密歇根大學、馬里蘭大學、美國德克薩斯州大學奧斯汀分校、西蒙斯學院、匹茲堡大學、北卡羅萊納州教堂山大學、俄克拉荷馬大學。[67]這些高校開辦的檔案數據保存相關專業各有特色。
iSchool作為信息教育領域的重要組織,在課程上尤其凸顯了技術內容。美國iSchool排名前十院校的計算機課程、信息課程明顯占一定比重。[68]我國iSchool院校更加注重檔案學基礎理論教育,同時也順應信息社會時代背景,開設了計算機科學的相關課程。[69]2016年,iSchool理事會侯任主席SamOh在“數字時代iSchool與數據科學的力量”講座中強調了數據科學的重要性。美國加州大學伯克利分校、華盛頓大學、賓夕法尼亞州立大學、雪城大學、韓國成均館大學等院校開設了數據科學項目。[70]中國人民大學信息資源管理學院也開設了數據科學課程,在數據科學領域進行探索。
信息技術改變了檔案工作的管理對象、管理方式,影響了檔案學的研究熱點與教育內容。檔案學理論的落地離不開信息技術的支持,而新興技術的產生也為檔案管理的發展與創新帶來了無限可能。如何平衡信息技術推陳出新與平穩發展思維的矛盾,使得信息技術能切實服務于檔案理論,是檔案界將長期面對的問題。
[1]國家質量監督檢驗檢疫總局.電子文件歸檔與管理規范:GB/T18894-2002[S].北京:國家檔案局.
[2]方昀,楊安榮,宗琳.電子文件長期保存技術需求研究[J].檔案學研究,2016,(1):96-100.
[3]馮惠玲.認識電子文件《擁有新記憶——電子文件管理研究》摘要之一[J].檔案學通訊,1998,(1):44-48.
[4]黃世喆,劉勇.論電子文件信息與載體的可分離性[J].廣西民族學院學報(哲學社會科學版),2001,(5):138-140.
[5]仇壯麗.電子文件信息與載體的不可分離性[J].北京檔案,2003,(2):30-31.
[6]謝光耀.動態的、相對的分離和絕對的依附——電子文件信息與載體關系及原始性研究[J].檔案學通訊,2011,(3):62-65.
[7]國家檔案局.版式電子文件長期保存格式需求:DA/T47-2009[S].北京:國家檔案局.
[8]GB/T18894-2016《電子文件歸檔與電子檔案管理規范》替代了GB/T18894-2002《電子文件歸檔與管理規范》.
[9]國家質量監督檢驗檢疫總局.電子文件歸檔與電子檔案管理規范:GB/T18894-2016[S].北京:國家檔案局.
[10]National Archives and Records Administration.Appendix A:Tables of File Formats[EB/OL].https://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords.
[11]National Archives of Australia.Preservingdigitalrecords[EB/OL]. http://naa.gov.au/Images/Preservation-File-Formats_tcm16-79398.pdf.
[12]The National Archives.Fileformatsfortransfer[EB/OL]. http://www.nationalarchives.gov.uk/information-management/manage-information/selection-and-transfer/digital-records-transfer/file-formats-transfer/.
[13]韓若畫.英國電子文件格式管理項目PRONOM研究[R]//2010-2015電子文件管理發展與前沿報告[M].北京:電子工業出版社,2016:232.
[14]張文娟.中國電子文件元數據標準研究綜述[J].電子政務,2012,(1):49-54.
[15]Library of Congress. Development of the Encoded Archival Description DTD[EB/OL]. http://www.loc.gov/ead/eaddev.html.
[16]Library of Congress.EAD3 Available[EB/OL]. https://www.loc.gov/ead/ead3available.html.
[17]International Council On Archives.ISAD(G):General International Standard Archival Description Second Edition[R/OL].http://www.ica.org/sites/default/files/CBPS_2000_Guidelines_ISAD%28G%29_Second-edition_EN.pdf.
[18]2008年起由都柏林核心元數據計劃有限公司(Dublin Core Metadata Initiative Limited,DCMI)獨立負責都柏林核心元數據標準.OCLC Research and the Dublin Core Metadata Initiative[EB/OL].http://www.oclc.org/research/activities/dublincore.html.
[19]Dublin Core Metadata Initiative. Dublin Core Metadata Element Set,Version 1.1[R/OL].http://dublincore.org/documents/dces/#ISO15836.
[20]2008年7月所頒布的AGRkMS 2.0是聯邦機構文件保管元數據標準1.0(Recordkeeping Metadata Standard forCommonwealth Agencies 1.0)的修訂版.
[21]NationalArchivesofAustralia.Australian Government RecordkeepingMetadataStandardVersion 2.2[R/OL].http://www.naa.gov.au/Images/AGRkMS-Version-2.2-June-2015_tcm16-93990.pdf.
[22]Library of Congress.METS Schema&Documentation[EB/OL].http://www.loc.gov/standards/mets/mets-schemadocs.html.
[23]The National Archives.e-GovernmentMetadataStandard 1.0[R/OL].http://webarchive.nationalarchives.gov.uk/+/http://www.cabinetoffice.gov.uk/media/259127/e-Government_Metadata_Standard_v1.pdf.
[24]The National Archives.e-GovernmentMetadataStandard Version 3.1[EB/OL].http://www.nationalarchives.gov.uk/documents/information-management/egms-metadata-standard.pdf.
[25]Library of Congress.PREMISDataDictionaryforPreservationMetadataVersion 3.0[R/OL].http://www.loc.gov/standards/premis/v3/premis-3-0-final.pdf.
[26][28]劉越男,梁凱,顧偉.電子文件管理系統實施過程中元數據方案的設計[J].檔案學研究,2012,(2):56-64.
[27]金更達.國外電子文件元數據標準簡介[J].浙江檔案,2004,(11):8-10.
[29]行業標準目錄[EB/OL]. http://www.saac.gov.cn/xxgk/2015-05/28/content_100320.htm.
[30]馮惠玲.電子文件與紙質文件管理的共存與互動[J].中國檔案,2003,(12):40-42.
[31]劉東斌.論電子檔案的“雙軌制”[J].檔案管理,1999,(4):8-9.
[32]陶水龍,田雷.電子檔案雙套制管理問題研究[J].檔案學研究,2014,(4):61-64.
[33]修訂后的《會計檔案管理辦法》已于2016年1月1日正式實施,已刪除這部分內容.
[34]GB/T18894-2016《電子文件歸檔與電子檔案管理規范》已刪除了這部分內容.
[35]國家檔案局.國家檔案局印發《全國檔案事業發展“十三五”規劃綱要》[EB/OL].http://www.saac.gov.cn/news/2016-04/07/content_136280.htm.
[36]國家檔案局.檔案數字化光盤標志規范:DA/T 52-2014[S].北京:國家檔案局.
[37]高娟,劉家真.中國大陸地區古籍數字化問題及對策[J].中國圖書館學報,2013,(4):110-119.
[38]中央研究院數位文化中心.核心技術[EB/OL]. http://ascdc.sinica.edu.tw/technology.jsp.
[39]王光越.中國第一歷史檔案館數字化工程述要[J].歷史檔案,2008,(3):132-137.
[40]馬振犢.中國第二歷史檔案館館藏檔案數字化及其開放利用[J].檔案學研究, 2016,(5):86-89.
[41]劉越男.試析電子文件管理系統的建設模式[J].中國檔案,2011,(7):58-60.
[42]祁天嬌.美國國家檔案與文件署電子文件檔案館(ERA)項目研究[R]//2010-2015年電子文件管理發展與前沿報告[M].北京:電子工業出版社,2016:207.
[43]National Archives and Records Administration.About ERA[EB/OL].https://www.archives.gov/era/about.
[44]National Archives and Records Administration.ERA 2.0 Project[EB/OL].https://www.archives.gov/era/about/statusaccomplishments.html.
[45]郝晨輝,曹燕,程春雨,等.荷蘭數字保護試驗項目介紹[J].數字與縮微影像,2005,(2):1-3.
[46]韓若畫.英國電子文件格式管理項目PRONOM研究[R]//2010-2015電子文件管理發展與前沿報告[M].北京:電子工業出版社,2016:232.
[47]Swiss Federal Archives.Factsheet SIARD[R/OL].https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html.
[48]屠躍明,錢毅,黃建峰,等.檔案信息化發展現狀、趨勢的研究報告:2010年全國檔案工作者年會[Z].南寧,2010:25.
[49]黃新平,王萍.國內外近年Web Archive技術研究與應用進展[J].圖書館學研究,2016,(18):30-35.
[50]李華,吳振新,郭家義,等.Web Archive發展歷程與發展趨勢研究[J].現代圖書情報技術,2009,(1):2-9.
[51]張衛東,黃新平.面向Web Archive的社交媒體信息采集——基于ARCOMEM項目的案例分析[J].情報資料工作,2017,(1):94-99.
[52]周文泓.全球社交媒體歸檔行動概覽與展望[J].浙江檔案,2016,(12):16-19.
[53]戚穎,倪代川.數字記憶:檔案記憶觀研究的新領域[J].山西檔案,2010,(3):14-16.
[54]丁華東.檔案記憶觀的興起及其理論影響[J].檔案管理,2009,(1):16-20.
[55]馮惠玲.檔案記憶觀、資源觀與“中國記憶”數字資源建設[J].檔案學通訊,2012,(3):4-8.
[56]徐擁軍.建設“中國記憶”數字資源庫的構想[J].檔案學通訊.2012,(3):9-13.
[57]丁華東.論社會記憶數字化與鄉村檔案記憶工程推進策略[J].檔案學通訊,2015,(4):36-39.
[58]劉越男.云中的機遇與風險:云計算環境下國外文件(檔案)管理指南研究[R]//2010-2015年電子文件管理發展與前沿報告[M].北京:電子工業出版社,2016.
[59]陶水龍.基于云計算的區域性數字檔案館建設研究[J].中國檔案,2013,(2):60-63.
[60]薛四新.云計算環境下電子文件管理的實現機理[J].檔案學通訊,2013,(3):65-66.
[61]國家社會科學基金項目數據[DB/OL]. http://fz.people.com.cn/skygb/sk/index.php/Index/seach.
[62]楊冬權.關于隨館藏數量增加而相應增加各級國家檔案館人員編制的提案[N].中國檔案報,2013-03-07.
[63]劉國華,李澤鋒.檔案工作中大數據框架構建及應用思考[J].檔案管理,2014,(2):32-34.
[64]周楓.資源·技術·思維——大數據時代檔案館的三維詮釋[J].檔案學研究,2013,(6):61-64.
[65]施永利.大數據時代背景下的檔案利用服務探討[J].商界論壇,2012,(11):145+129.
[66]吳緒成.淺談大數據背景下的第四代檔案館建設[J].湖北檔案.2013,(3):9-12.
[67]AERI.AERI2014.[EB/OL].http://aeri.gseis.ucla.edu/2014.html.
[68]司莉,劉劍楠,張揚聲.iSchool課程設置的調查分析及其對我國圖書館學課程改革的啟示[J].圖書館學研究,2011,(21):21-26.
[69]伍黎丹.iSchool視角下的實用型檔案人才教育研究[J].檔案與建設,2017,(1):24-28.
[70]中國人民大學信息資源管理學院.數字時代iSchool與數據科學的力量——iSchool理事會候選主席Sam OH教授應邀在我院演講[EB/OL].http://irm.ruc.edu.cn/displaynews.php?id=5404.
G270
A
1005-9652(2017)02-0019-11
(責任編輯:虞志堅)
葉茹雨,女,中國人民大學信息資源管理學院2016級檔案學專業碩士研究生,主要研究方向:檔案學基礎理論。