張健
摘要:在明確電子檔案長期保存中可用性內涵的基礎上,論文分析了包括物理設備風險、系統軟件風險和應用程序風險等三種可用性風險,提出電子檔案復制、選用自主操作系統、確定格式標準三項應對策略。
關鍵詞:電子檔案信息安全可用性
以信息技術為依托的電子檔案在長期保存過程中,如何確保以可用性為基礎的信息安全,是近年來檔案界討論的熱點和難點問題。由于電子檔案本質上是數字信息,具有信息非直讀性、信息與載體可分離性、信息易變性、設備依賴性等特點,使電子檔案長期保存中可用性(以下簡稱電子檔案可用性)保障與傳統載體檔案相比存在很大的不同。
一、電子檔案可用性的內涵
根據國家檔案局《電子檔案管理基本術語(征求意見稿)》,電子檔案是“具有參考和利用價值并歸檔保存的電子文件”,因此可以認為電子檔案是歸檔后長期保存的電子文件,針對電子文件長期保存的研究結論可以被認為適用于電子檔案。
不同國家、國際組織均對電子文件長期保存進行了全面系統的研究,其中對電子文件長期保存中可用性的認識主要有:
國際標準化組織頒布的《ISO 15489-1信息與文件-文件管理-第1部分:通則》中認為:可用性就是文件應該是可被查找、可被檢索、可被顯示及可被說明。
國際檔案理事會頒布的《電子文件檔案工作者業務指南》中認為:可用性是指利用計算機技術,如硬件與軟件,可以查找、定位到所需的文件,并可將文件轉換成人可直讀的形式,如屏幕上的文字。如果無法達成該要求,那么即使文件具有真實性和齊全性,文件內容仍然不可能被理解,即不能被利用。
國家檔案局在《電子檔案管理基本術語(征求意見稿)》中認為:電子檔案的可用性是電子檔案可以被定位、檢索、呈現和理解的性質。
本文認為電子檔案的可用性在于構成電子檔案內容的信息經過計算機等技術設備的硬件和軟件處理,能夠從載體上被提取并呈現,人們能夠通過視覺(聽覺等)方式理解其含義。
從電子檔案可用性的概念中可以明顯看出,確保可用性是電子檔案實現其他長期保存要求的前提和基礎。如果電子檔案不可用,即無法最終呈現給人們并被理解,那么諸如真實性、完整性、可靠性、及時性等就根本無從談起,電子檔案的長期保存也就失去了意義。
二、電子檔案可用性的風險分析
在長期的保存過程中,存在多種風險因素可能對電子檔案的可用性造成損害,這些風險因素既可以來自于自然環境,如洪水、地震、火災等;也可能是人為的過失或蓄意,如管道泄漏、斷電、盜竊、縱火、打砸等;以及電子檔案所依存的信息技術的發展與淘汰等。本文從上述風險因素作用的對象角度入手分析,將影響電子檔案長期保存中可用性的有關風險劃分為三個層次的不同風險:物理設備風險、系統軟件風險和應用程序風險。
(一)物理設備風險
構成電子檔案內容信息的“0”與“1”以某種物理方式記錄在載體上,通過相應的讀取設備從載體上被讀取。根據載體的不同,信息的記錄方式也不同。目前常用的電子檔案載體為光盤、硬盤、磁帶等。光盤以凹坑的方式將信息記錄在光盤的記錄層上;讀取信息時,通過伺服電機的驅動,激光頭將激光投射到光盤上,通過接收到反射光的變化讀取信息。磁盤、磁帶等磁性載體將信息以磁信號的方式記錄在盤片或帶基的磁性涂層上;讀取信息時,通過伺服電機的驅動,磁頭掠過磁性涂層,通過感知磁信號的變化讀取信息。
通過上述描述可以看出,電子檔案內容信息的讀取,需要載體與讀取設備的良好配合,這其中涉及光、電、磁等復雜而精密的物理操作。如果載體或讀取設備的物理狀態發生了變化,則極有可能造成信息無法正常讀取。例如載體的物理變形、磁性涂層消磁、光盤表面污損、供電失效等。造成物理狀態變化的原因有很多,如撞擊、摩擦、電壓不穩、外界磁場等,大多可以通過技術手段減輕或避免;但隨著時間推移或使用次數增加,物理設備老化(壽命終止)則不可避免,這也是物理設備面臨的最大風險。
(二)系統軟件風險
由于當前常用的光盤、硬盤、磁帶等載體容量較大,因此單一的載體就可以存儲很多電子檔案。從操作系統的層面看,這些電子檔案是以計算機數據文件(以下簡稱數據文件)的形式保存在載體上的。在具體對數據文件進行管理時,需要設計一定的規則來區分和處理載體上不同的數據文件,這就是操作系統使用的“文件系統”。以最常用的Windows操作系統為例,其在硬盤上常用的是NTFS、FAT32文件系統,如圖1所示。

由于載體上的文件系統是一種數據文件的存儲與管理方式,因此具有一定的操作系統獨立性,即某一種文件系統可能被不同的操作系統識別并使用。但這并不表明某個具體的文件系統能夠被所有操作系統識別并使用。對于操作系統不支持的文件系統,則在該載體上將表現為一片空白,無法看到(讀取到)任何信息。由于光盤、硬盤和磁帶使用的文件系統存在很大差別,如果未能正確地配置和使用操作系統,那么很有可能在嘗試讀取時遇到困難。
(三)應用程序風險
操作系統以數據文件的方式讀取電子檔案內容信息后,將其交給某個具體的應用程序,如Word程序,進行顯示和編輯。不同的數據文件以文件名中的擴展名進行類型(格式)區分,如“.DOC”為Word程序專用的數據文件。電子檔案使用不同的應用程序處理,將保存為不同格式(擴展名)的數據文件。
一般而言,較為復雜格式的數據文件(.TXT這種簡單格式的除外)都存在與編輯處理該類數據文件的應用程序的對應關系。由于常用的應用程序大多由專業軟件公司研制開發并進行升級維護,出于商業利益考慮,軟件公司不會將應用程序的源代碼公開,因而一旦軟件公司破產倒閉甚至主要開發人員離職,使應用程序將得不到正常的維護升級,進而影響到該程序專用格式數據文件的處理。
另外還有一種與格式相關的風險,即電子檔案的內容被加密或壓縮。被加密或被壓縮的電子檔案內容已經變成了普通應用程序(如Word程序)無法直接打開顯示的亂碼數據文件。如果解密軟件(包括密鑰丟失)或解壓縮軟件無法正常解密或解壓縮電子檔案,則該電子檔案將無法被還原而成為“死檔案”。
三、電子檔案可用性保障策略
電子檔案存在的可用性風險應當引起檔案工作者的高度重視。針對上述風險,本文認為可以綜合采用以下幾種技術方法進行應對:
(一)電子檔案復制
針對電子檔案可用性面臨的物理設備風險和系統軟件風險,最好的應對措施是進行電子檔案復制。
電子檔案的載體及讀取設備本身存在物理壽命及技術壽命。物理壽命指的是載體及讀取設備的性能隨著時間的推移和使用次數的增加不斷衰減直至完全終結;技術壽命指的是新技術載體和讀取設備出現后,老的載體及讀取設備被技術淘汰。由于信息技術發展速度非常快,多數情況下載體及讀取設備的技術壽命短于物理壽命。由于電子檔案的載體及讀取設備屬于復雜精密的光、電、磁設備,其維護保養的復雜度和難度遠遠大于傳統檔案載體(如紙張),加之技術壽命短,因此制造能長期(幾十年甚至數百年)使用的電子檔案載體及讀取設備的難度極大。
但應當看到,電子檔案的數字信息特征使其具備信息與載體的可分離性,即信息不再依賴于載體,進而電子檔案的真實性、完整性、原始性等維護措施與傳統檔案依靠維護載體的原始性達成同樣目標的方法有了很大的區別。在可控的環境下依照嚴格的程序,適時將電子檔案從原有載體上復制到新的載體上,可以規避載體及讀取設備的壽命風險。
(二)選用自主操作系統
由于文件系統風險與所使用的操作系統密切相關,因此最佳應對方案是能夠研發設計并使用自主操作系統。
盡管國外商業化的操作系統如Windows的新版本在很多功能上具有向前兼容的能力,如對文件系統的處理上,最新的Windows10也能正確讀取Win? dowsXP甚至更早的Windows98、Windows3.1等版本所使用的“古老”的FAT/FAT32文件系統中保存的數據。但由于Windows的版權以及內部核心代碼均由國外公司掌握,因此不排除今后的某一天未來的Win? dows的新版本將不再支持FAT/FAT32文件系統,從而導致使用Windows新版本時無法讀取保存在硬盤上FAT/FAT32文件系統中的電子檔案。
自主研發全新的或改進開源的操作系統可以確保針對所需要文件系統(如FAT/FAT32)的正確讀取。具體方法可以將其中針對不同文件系統的數據文件讀取功能以模塊化方式掛接在操作系統中。針對用戶實際使用的載體情況,由操作系統自動判斷其文件系統,調用相應的讀取模塊讀取電子檔案;或者由用戶手工選擇操作。FAT/FAT32等文件系統的技術細節已經不再是秘密,因此該方案的實施具有很強的可行性。
(三)確定格式標準
針對用于打開、顯示(播放)電子檔案的應用程序風險,當前國內外檔案界比較認可的解決方法是將電子檔案以某種不會過時(即現在和將來的應用程序都能打開)的數據文件格式保存。
國家檔案局制定頒布的《DA/T47-2009版式電子文件長期保存格式需求》正是應對這一問題的解決方案。該標準中明確列出了對數據文件格式的要求,即格式開放、不綁定軟硬件、文件自包含、格式自描述、顯示一致性等共11項具體的要求。但該標準并未給出哪些計算機數據文件格式符合上述11項要求,即未推薦具體的數據文件格式用于電子檔案的長期保存。
國際標準化組織發布的《ISO 19005-1:2005文件管理-電子文件長期保存文件格式-第一部分:使用PDF 1.4 (PDF/A-1)》以及后續PDF/A-2和PDF/A-3構成的完整PDF/A已經被眾多國際組織及國家所接受。PDF/A相對于其他格式標準具有以下優勢:首先完全符合DA/T47-2009;其次作為ISO標準,其技術支持和維護具有可靠保障;再次采用這一國際標準將有利于我國檔案工作對外交流合作。
對于多媒體類(如音頻、視頻等)的電子檔案,目前尚無國際或國內的正式數據文件格式標準,但若干技術組織或企業制定的標準基本上成為了事實上的應用標準。國內檔案界亟須盡快形成自己的意見,確定所需的數據文件格式標準。
此外,為避免處于加密或壓縮狀態的電子檔案由于無法解密或解壓縮而帶來保管和利用上的不便,應當確保電子檔案去除所有加密和壓縮,以便直接打開使用相應的常規應用程序。
參考文獻:
[1]張正強.論電子文件長久保存基本要求體系的建立[J].中國檔案, 2010(3):61-64.
[2]崔屏.電子文件憑證性溯源及內涵研究[J].檔案與建設, 2013(9):4-7.
[3]馮惠玲.電子文件管理:信息化社會的基石[J].電子政務, 2010(6):3-9.