摘 要:本文對電子文件的特點及管理現狀進行了分析,介紹了用于信息分析的數據倉庫技術,并借助于其思想內涵,提出了一種建立電子文件倉庫的管理方案,該方案通過對電子文件共有屬性的抽象,形成電子文件倉庫的維度,可以有效地實現電子文件安全保護及方便利用.為電子文檔一體化的實現提供保障措施。
關鍵詞:電子文件 數據倉庫 管理
1 引 言
文件的運動過程可以劃分為三個階段[1],即現行階段、暫時保管階段、永久保存階段。要實現電子文件的完整性運動,必須考慮到電子文件的特點及與紙制文件的關系。電子文件的特性包括:信息的非人工識讀性、系統(tǒng)的依賴性、信息與特定載體之間的可分離性、信息的可變性、信息存儲的高密度性、多種信息的集成以及信息的可操作性等[2],這些特性決定了電子文件保存與歸檔必須采用前端控制思想,將文件運動過程的各個階段進行綜合設計,形成一套與電子文件運動階段相對應的系統(tǒng)管理模式。我們知道,在企事業(yè)單位運作過程中不斷產生各種類型的文件材料,從數量上看,有著越來越多的趨勢,從類型上可以有多種媒體,從來源來說,可能來源于上級機關、或者職能管理部門、下級部門、合作單位、自己單位等。其中絕大多數是首先產生電子文件,然后將其打印出來以紙質的形式進行審閱、傳閱等,最后將有關電子或紙質文件到一定期限后移交到檔案部門進行歸檔處理,由于文件的數量和類型較多及經手人的變化,在紙制文件利用的過程中容易造成損毀和遺失。
由此看見,電子文件的管理與應用是檔案管理的當務之急,其具有易用性、可復制性及一定意義上的原始性。依據國家有關檔案管理的標準,借助于先進的計算機技術,對電子文件進行綜合管理,形成一套包括電子文件的形成、歸檔、利用和安全保護等管理系統(tǒng)具有很大的現實意義。
2 電子文件管理問題分析
1)電子文件的保存與利用問題
原始的電子文件保存較為混亂,人為因素較大,分布于不同的存儲設備中,保存時較為隨意,文件屬性不明確,甚至這些草稿性的電子文件在計算機存儲器上處于整體無組織狀態(tài),一旦紙質文件在歸檔前遺失,將難以溯源。
由于上述原因,對電子文件檢索和利用往往基于人的記憶和對存儲設備的瀏覽查找,由此制約了其效能。
2)電子文件歸檔問題
傳統(tǒng)的立卷方法要進行文件及案卷兩級整理,而計算機管理系統(tǒng)則可以直接以每份文件材料為整理單位,而其“立卷”功能存在于其方便的查詢當中,是邏輯上的立卷,實現了真正意義上的“文件級”保管。但是,實行計算機管理檔案后,一般只停留在目錄級的管理,其重在對文件的日期、所屬部門的屬性的管理,由于文件內容的數據最大,形式復雜(可以是文本、圖形圖像、聲音等)難以實現對文件內容的管理,從而不便于對電子文件內容的查詢與利用,削弱了系統(tǒng)的功能。解決的辦法之一是將文件內容以大二進制字段集成到數據庫表中,這樣將對歸檔的其他有關操作產生不利的影響。
3)自動化程度不高
計算機及網絡技術發(fā)展迅速,電子文件及現有的檔案管理系統(tǒng)并沒有實現對計算機及網絡技術充分利用。事實上現有的計算機軟硬件完全可以支持對電子文件夾的自動監(jiān)視、檢索、轉運、文件信息(如建立日期、大小等)提取等,分布式計算技術也可以滿足信息在不同的計算機節(jié)點之間流動和處理。而目前對電子文件的處理大部分僅僅限于手動的拷貝、復制、上傳、組織到文件夾等操作,檔案管理系統(tǒng)自動化程度不高,手工錄入的工作量較大,缺乏后臺的服務程序及自動化觸發(fā)功能的利用。
3 數據倉庫技術
1)數據倉庫概述
由于一般的數據庫,數據存放的方式以及表的結構等都是為方便事務處理而設計,所以這種適合于線上事務處理的數據不適合從數據中取得“信息”,而信息正是近年來受到重視的決策支持所不可缺少的資源。以某個商業(yè)數據庫為例,要用SOL語法從數據庫中查詢出甲客戶在什么時候購買了乙產品,應該不是太難的事情,但是要以相同的方式查出那位客戶在某段時間內買了最多的乙產品或者每一項產品在那些地區(qū)賣的最好就不是那么容易了。
由此可見,雖然用功能強大的查詢語法來查詢事務性的數據是事務性數據庫的基本功能,但是要從中取得一些決策信息來分析市場則就不是十分方便了,必須在數據庫系統(tǒng)上構建復雜的查詢語句.其所帶來的問題有兩個,一是要影響到日常的事務處理,使得日常的作業(yè)速度變慢甚至影響到數據的安全;二是決策人員也必須等待較長時間才能獲得信息。
為了解決以上問題,產生了數據倉庫技術,數據倉庫可定義為是個整合的、主題導向的、長期積累的、且內容小需要更改(但可加入新數據庫)的數據集合,以輔助管理員進行決策的思考
2)數據倉庫結構
數據倉庫本質還是數據庫系統(tǒng),但是不同于關系數據庫的“物理一關聯(lián)模型”(E-RModel),而建立數據倉庫所川的則是“緯度模型”(Dimensions Model)。數據庫結構通常為星狀結構如圖1所示:
FactTabl中存放的數據稱為量值,是用于保存和分析信息的直接數據,它是數據倉庫中最大的表,由于數據倉庫通常不進行事務處理,因此它不考慮數據容量所帶來的效率問題,Dimension Table則用來存放各維度的數據(描述FaetTable中數據的信息),每個維度的數據都存放在單獨的Dimension表中,例如類別、時間等。因此Fact Table中要有各個Dimension·Fable的主索引鍵的Foreign Key。
4 基于數據倉庫思想的電子文件管理實現方案
我們可以將數據倉庫的思想和結構用到管理電子文件中來,建立電子文件倉庫。就電子文件的產生與運動過程來說,它是符合數據倉庫的主要特點的,即,整合的(電子文件的日期、大小等屬性)、主題導向(以文件內容為核心)、長期積累的(產生于日常業(yè)務)、歷史性的數據(電子文件保存)、只讀數據(檔案性質的電子文件)。
針對電子文件處理的三個階段,采用數據倉庫的思想.抽象出所有電子文檔都具有的基本屬性,例如,文件號、文件類型、密級、簽發(fā)日期等引用與描述性屬性(度)及創(chuàng)建日期、文件名稱、簽名等命名性屬性。將在工作中產生的電子文件審閱后進行基本的屬性著錄并將電子文件的保存與歸檔,保存的主體是數據倉庫,歸檔的主體是檔案管理信息系統(tǒng)。利用采用一體化進程進行管理,管理流程如圖2所示:
與通常所理解的數據倉庫產生順序不同,首先建立以文件主體本身為主的數據庫(數據倉庫),主要內容包括:電子文件主體(或者其相對于文件存儲的絕對路徑)、各種類型電子文件的共有屬性(作為基本的查詢索引)。由于本數據庫只是針對文件內容,建立的目的是組織和保存歷史所形成的電子文件及進行信息分析,其利用頻率相對較低,因此可以將文件內容、文件名稱、文件號等及相關的屬性索引直接集成到數據庫表中。其數據庫負荷的增加并不影響檔案管理數據庫系統(tǒng)的日常事務處理負荷,其基本結構如圖3所示。(見圖3)
在文件的流動過程中,在電子文件產生端的客戶端軟件(文件收集系統(tǒng))功能是收集有關文件的內容及屬性信息并將這些內容轉發(fā)給文件倉庫文件接收服務器程序,服務器程序的功能是接收文件及相關屬性并進行合法性判斷,通過后激發(fā)數據庫的觸發(fā)器將有關內容插入到數據倉庫表中。
在歸檔操作中,要從文件倉庫中提取相關的電子文件基本信息,再按照歸檔的流程(著錄、編研、鑒定)等過程對電子文件進行歸檔處理。在此過程中,可以借助于數據庫管理信息系統(tǒng)中的數據轉換服務 (Data Transformation Service,簡稱為DTS)實現從數據倉庫到檔案數據庫的數據定期自動轉換。通過制定科學的數據處理方案可以將紙質文件、電子文件同時歸檔以保證其一致性。
5 結束語
本文提出的基于數據倉庫的管理機制是對現有計算機軟硬件技術的較充分的利用,這種機制將電子文件的保存形成系統(tǒng)并有效地通過各種中間程序與歸檔相關起來,提高了電子文件的組織性與管理的自動化程度。不足之處是該方案的實施將不可避免地增加硬件與軟件的投資,但從長遠來看其所降低的管理成本與提高的管理效率及安全性保證將是更大的無形資產。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。