戴秀文
(內江師范學院 檔案館,四川 內江 641100)
隨著檔案資源總量的增加,近年來,各個檔案館借助信息技術開展了一系列檔案信息化工作。其中,電子文件管理是檔案信息化進程中的核心工作。目前,檔案信息化建設正逐漸由檔案數字化邁向檔案數據化。檔案數據化強調對檔案全文資源進行存儲、管理、利用,與檔案數字化僅改變檔案存儲載體有著很大的不同。在這樣的背景下,如何建設電子文件管理體系是一個亟待探討的問題。
隨著檔案數字化建設的開展,電子文件應運而生:將傳統檔案文件錄入計算機儲存,即形成了電子文件。然而這樣的操作方式僅僅是將信息從傳統存儲載體轉移到了計算機,雖然具有易于保管等優點,但并沒有改變文件管理方式,更不可能利用更先進的信息技術,例如數據挖掘技術等,對文件信息進行深入的分析利用。近年來的檔案數字化建設的主要工作之一就是將傳統檔案錄入至計算機儲存,經過多年建設,目前已較為成熟。隨著大數據時代檔案數據量的增大,以及對檔案服務利用需求的增加,各個檔案館開始向檔案數據化轉型。檔案數據化是將數字檔案資源轉換為可供分析和處理的檔案數據資源的過程。因此,為了適應檔案數據化建設,電子文件管理體系也應當與數據化工作對接。
檔案數字化工作一般同時歸檔紙質和電子兩套檔案。隨著檔案數據化建設中對電子文件的深度開發利用,各檔案部門開始嘗試實施電子文件單軌制管理。單軌制管理方式僅以電子方式對文件進行歸檔、管理與利用,電子文件與紙質文件擁有同等的法律效力。目前,一些部門已經實施了檔案單軌制管理機制,例如上海自貿區就推行了相關政策,國家自然科學基金委員會開展無紙化試點,推進核心業務單軌制。檔案單軌制管理機制對電子文件的管理、利用提出了更高的要求,僅僅采用數字化儲存的方式不足以支撐單軌制中對文件分析、利用的需求。
檔案數據化的重點之一是對檔案內容資源的深度挖掘與利用,因此電子文件知識服務也是目前工作的重點之一。相比于傳統檔案的開發利用,電子文件知識服務的重點是除了要為用戶提供文件等一般特征信息之外,能夠使用戶直接檢索內容,還要使用戶能夠從多維度了解案卷之間、全宗之間的關系。目前,電子文件的組織方式基本還處于數字化階段的實現方式:通過關鍵詞和目錄的索引對文件進行檢索和匹配,查詢的結果是包含這些字段一整份電子文件,并不能深入到電子文件的全文內容,更不能提供眾多電子文件之間的關系,尚需用戶自己去組織推理從而形成知識。
目前的電子文件管理工作主要存在兩點問題,一是管理效率需要提升,二是需要對文件內容進行深度開發以更好地為用戶提供服務。這兩點問題的解決依賴于電子文件數據化。本質上這兩點問題是由電子文件數據化程度不足導致的。具體而言,現有的電子文件基本是基于檔案數字化構建的,對各類文件的保管方式進行了電子化處理,文件的載體就會發生改變。而數據化的電子文件是將數字化形態的文件進一步轉換為可識別的文本與可分析的數據,從而開展全文檢索、文本挖掘、數據分析等工作。對全文的檢索相比關鍵詞檢索從根本上提高了檢索速度,從而提高管理效率。而文本挖掘、數據分析等工作使文件可以轉化為知識,從而為用戶提供更好的服務。數字化的文件是數據化的基礎,但是數據化在對文件全文信息的識別和處理上的能力是數字化不能勝任的。綜上所述,雖然現有電子文件為開展后續工作,諸如知識服務等奠定了基礎,但其數據化程度不足,故亟待加強數據化建設以實現更高效的管理和更好的服務。
保證文件的安全,文件的準確性、完整性是開展一切工作的前提。電子文件將文件從物理空間的模擬態轉變為由0、1 表示的數字格式,因此電子文件的安全問題從物理空間內的實體安全擴展到了網絡空間的信息安全。長期以來,各檔案部門制定了一系列嚴格的規章制度以保證實體文件的安全性。在檔案數字化建設過程中,各檔案部門一般都建立了基本的信息安全防護體系,例如加密、部署防火墻等。然而,對于數據化背景下的電子文件信息安全防護體系而言,還需要根據數據化的特點加強信息安全措施,例如數據安全、云安全、遠程訪問控制等,這部分安全措施的建設目前還比較薄弱。由于目前各檔案部門仍在探索和建設檔案數據化、電子文件等信息化管理體系,因此各部門的重點基本上放在檔案數據化和電子文件本身的建設上是無可厚非的。但在建設檔案數據化過程中,應當同時建設信息安全防護體系。事實上,信息安全防護建設是基礎性的長期工作,通過構建不斷更新的、全面的安全防護體系,才能保證檔案信息系統的安全穩定運行。
建設檔案數據化背景下的電子文件管理體系采用了很多新的信息技術,因此需要制定相關制度和規范。具體而言,應根據數據化建設的工作流程逐一分析并制定相應制度,例如,制定紙質檔案文件錄入計算機的規范;制定文件全文數據庫建設規范等。目前,這些相關制度建設還很不完善,例如,現行關于數據轉換的標準中,僅有國家檔案局頒布的《檔案關系型數據庫轉換為XML 文件的技術規范》。
建設電子文件管理體系是一項系統的、規模較大的工作。在檔案數據化的背景下,主要側重于數據化,具體的電子文件管理體系建設措施如下。
元數據是指從信息中提取的用于說明其特征、內容的結構化數據。例如,對于一篇論文,“題目”是其元數據項目,“檔案數據化背景下的電子文件管理體系探討”是其對應的元數據內容。元數據為文件資源提供了檢索點,標準化的元數據對數據之間的關系進行了結構化的詳盡描述,可用于數據傳輸、分析。因此,元數據對于檔案數據化背景下的電子文件相當重要,加強元數據的管理是建設檔案數據化的一種方式。對于元數據項目,需要根據需求提前進行設計,在設計時要盡可能全面地包含電子文件整個管理過程中的各類信息,并體現各個項目之間的關聯性。文件錄入后,這些元數據項目不可更改,以保證電子文件的真實性。對于元數據內容,保留一定的開放性。例如,將元數據內容與數據分析系統對接,并設置為只讀,從而在保證數據完整性的情況下,為文件深度分析利用提供基礎數據。
常規的信息安全措施,例如防火墻、入侵檢測系統等能夠一定程度上保證內網的安全性。但在大數據背景下,隨著數據化工作的開展,各檔案館數據量的增大,電子文件往往不再只保存于檔案館內部,而是在多部門之間傳輸、共享,甚至存儲于云端。數據在檔案館內網和外網之間反復流通,存在信息安全隱患,而常規的信息安全措施對此防護效果不好。因此,電子文件的信息安全重點主要是數據安全,以及云安全和遠程訪問控制。數據安全主要針對儲存電子文件的數據庫,需及時掃描發現數據庫中存在的漏洞,記錄數據庫的各項操作日志以及對部分數據進行加密等。對于云安全,重點是選取具有良好資質的云服務商,并在云中配置相應的安全防護措施。對于遠程訪問控制,重點是管理檔案館以外的部門或用戶的訪問權限,要求每個用戶配置強度較高的密碼,記錄每個用戶的操作日志并及時審核。
分類是文件管理過程中最重要的環節之一,是庫房管理、檢索利用等工作開展的前提。在數據化背景下,電子文件的數量和類型都越來越多,如何安全有序管理成為分類面臨的一大挑戰。目前的分類制度是人為主觀設置主題,容易出現同一部門在不同領域中形成的檔案被割裂在不同門類。此外,從整個部門層面看,缺少對文件資源管理的整體視角,包括文件數量、內容、關聯關系等,文件分散在各種互有壁壘無法共享的系統之中。一種改進思路是采取智能的文件分類方式,即關注“文件為何記錄、怎樣記錄”,而不是按照部門職能對文件進行分類,從而打破壁壘達到共享目的。具體而言,在整體層面梳理各部門職能,以職能劃分形成文件分類的大類條目。之后再自上而下進行梳理,進而形成分級樹狀分類規范。在改進文件分類方式過程中,首先設計一套頂層的文件分類屬性,以3.1 節中闡述的元數據方式對這些屬性進行結構化管理。這些屬性應當覆蓋文件管理的全流程。例如,保管期限、利用范圍等都是常見的屬性。此外,要將各環節細化為單個基本管理單元,對每個管理單元制定相關的管理制度,從而做到精細化管理。