錢 毅
檔案作為一種重要的信息資源,為人們提供鑒往知來?獲取歷史經驗教訓的重要信息功能?但是由于檔案信息資源具有時空分散性?數量龐大?記錄形式多樣等特點,使得檔案信息的利用一直處于較低層次?如何真正盤活檔案信息,從大量歷史數據中獲得有價值的信息為現實服務,傳統的數據處理技術并沒有給出令人滿意的答案?采用數據倉庫技術,可以實現有效的海量數據管理,提供數據管道實現多種數據源的綜合,并提供聯機分析和數據挖掘等手段對檔案信息進行活化,為決策者提供參考服務,這將是日后包括檔案信息在內的信息資源管理手段的努力方向?
數據倉庫技術簡介
數據倉庫的標準定義是支持管理決策過程的?面向主題的?集成的?隨時間變化的?信息相對穩定的數據集合?主題是數據倉庫用來組織數據的維度,像對檔案信息用戶的分析就可以從用戶年齡?職業?查詢內容?使用偏好等主題進行組織?集成是指這些數據是經過清理加工?并按照某種預定的規則進行整理的具有一致性的數據?“隨時間變化”的特征主要用于進行時間趨勢分析,因此需要擁有大量的歷史數據?所謂“相對穩定性”是指數據倉庫一旦裝入數據,一般情況下就不能更改,但可以加入新數據?由此可見,相比傳統數據庫,數據倉庫是一個復雜的數據存儲體系,它從外部系統數據源中提取數據到數據倉庫中,通過集成管理器對多種數據源(有可能是異構的)進行抽取?整理和轉換,得到基礎數據庫,并與各種外部分析工具相結合對數據進行分析整理,根據需要輸出綜合信息?數據倉庫在信息抽取?決策支持?知識管理等領域都具有廣泛的應用?
檔案數據倉庫的建設
(一)數據倉庫是檔案信息服務方式的發展方向
目前,絕大多數檔案館都擁有自己的信息管理系統,建立了規模不等的檔案數據庫?有不少數據庫的容量已經達到相當規模,且還在不斷進行紙質檔案文件的電子著錄和數字化工作,如何對這些數據進行科學有效的分析并從中提取有價值的信息,變被動服務為主動服務,是檔案信息服務在新的技術條件下面臨的重大挑戰?
隨著信息化的不斷深入,機構內部可能存在運行于不同平臺上的不同結構標準的數據集合,當要跨越一定的時間長度來查詢歷史信息時,或者需要匯總多個系統的文件信息時,數據處理和查詢的難度便增大不少?而且隨著歷史數據的積累,這種情況便越發突出?數據倉庫為解決這些問題提供了技術保證,它能夠處理大量的數據資源,通過它的集成管理器能夠將發展過程中離散的數據有效集中,此舉不但能夠提高業務效率,保證機構歷史的完整性,而且能夠集中處理歷史數據,獲得對某一問題歷史的完整認識?
(二)檔案信息數據倉庫建立流程
檔案信息數據倉庫的建立過程是一個系統工程,需要參與各方協同工作,其中包括倉庫系統選型?模型設計?數據轉換等技術工作,需要協調溝通檔案數據源的提供方,需要熟悉檔案業務流程和應用需求的領域專家,此處僅就檔案數據倉庫建立的核心環節進行討論,參與各方的角色和功能從略?
1?檔案應用需求分析
如果檔案利用者難以由現有的系統獲得所需信息,或者決策者的要求比較復雜,需要對大量數據進行綜合處理才能獲得,那就有必要采用數據倉庫技術來輔助決策?比如對于檔案用戶的分析,決策者需要知道用戶的利用偏好,包括利用時間?查閱檔案的類別與用戶年齡層次的關系?利用效果等信息,這些結論都需要參考大量數據,包括歷年的用戶記錄和調查報表?惟有如此,才能反映正確的用戶信息,為調整檔案開放時間?確定檔案編研產品等決策提供信息保證?
2?檔案數據采集
經過多年的檔案信息化進程,在檔案領域中普遍存在著多種檔案信息源,包括關系數據庫?文件系統和INTERNET數據形式,這些檔案數據源在數據結構上有不同的構造?可以通過數據采集技術將其匯總,經過數據清理轉換后集成到統一的檔案數據倉庫中,共同構成原始信息來源?
雖然本環節具有一定的技術含量,但真正實現的難點在于破除檔案信息孤島的藩籬,溝通各數據單位,實現檔案數據共享,同時需要由良好的檔案質量保證體系來維護數據質量?
3?檔案數據轉換
采集之后就需要將現有的檔案數據轉換到數據倉庫中,這有可能是一項龐大的工作,取決于檔案數據源的質量和規范程度?仍以檔案用戶分析為例,用戶籍貫的記錄方式就有可能五花八門,有些用中文表示,有的用代號或者拼音來表示,這時數據轉換工作就要根據用戶需求將它們轉換為相同的格式?這種情況在建立文件中心和地區性檔案目錄中心時就表現出來了,而且普遍存在于文件和檔案信息源中,這對檔案數據源的整合是一個很大的障礙?
在進行檔案數據源特別是檔案數據庫建設的同時,應建立健全檔案數據質量控制體系?該體系主要從微觀的角度,以具體的可操作的形式提供對數據庫進行全面質量管理的方案,包括制定數據質量考核指標?校對制度?備份制度等,定期檢查,責任到人,盡量將質量管理的要求嵌入軟件功能之中,以期最大限度地保障檔案數據的質量?
對于檔案數據的邏輯結構,則應當加強依賴于著錄標準的元數據庫的建設?由于我國的《檔案著錄規則》在著錄項目設置上并沒有提供完全適用于計算機管理的結構,各檔案數據庫在建設時都根據自己的理解自行增刪著錄項目,自由選擇字段類型?字段長度,這樣的數據庫進行互聯互通的難度就可想而知了?因此筆者建議以著錄標準為基礎,建立一定范圍內的元數據標準,并以此構成元數據字典?該字典提供數據項目的結構化信息,包括數據字段的名稱?數據類型?長度?默認格式等規范,并說明字段之間的聯系?需要指出的是,這樣一個具有內在聯系的有機的元數據字典,實質上是為檔案數據庫提供通信格式,并不要求完全遵循,如果有特殊要求,只需要在此基礎上提供轉換功能即可?在目前階段,元數據字典的建設以二次文獻信息項目為主,同時加強檔案全文和電子文件元數據規范研究,為檔案數據倉庫的整合和檔案管理系統的深入設計提供規范標準?
數據倉庫分析技術在檔案信息管理中的應用
數據倉庫只是存放和管理歷史性數據的特殊數據結構,如果希望利用檔案數據倉庫服務于決策支持,獲取高價值的信息,還需要諸如聯機分析處理技術和數據挖掘等分析工具?
(一)運用聯機分析處理技術(OLAP)分析檔案數據倉庫
聯機分析處理技術是針對特定問題的聯機數據訪問和分析,通過對數據進行多層次?多階段的分析處理,獲得高度歸納的分析結果?OLAP是一種自上而下的分析工具,在用戶提出問題之后,可以從宏觀至微觀的各個角度來查看分析數據,以比較直觀的方式呈現給用戶?通過OLAP服務器可以將數據倉庫模擬成多維數據庫,采用EXCEL等前端分析工具獲得信息?例如利用數據倉庫分析檔案利用情況,決策者可以獲得某類檔案在2005年的利用次數數據,就時間維度而言,他可以再深入到該年各季度?各月份的利用次數,還可從用戶類別維度獲知哪些類別的用戶查閱檔案的次數較多?
(二)運用數據挖掘分析檔案數據倉庫
在傳統數據庫應用中,人們通過查詢獲取數據,數據經過人的理解或解釋,成為有用的信息?數據庫管理系統(DBMS)提供的查詢手段一般只限于一些基本的數據庫操作,因此通過DBMS只能對數據進行粗加工,獲得一些初級的綜合信息,但對于蘊藏在大量原始數據中的規則?規律?信息模式等高層次信息,僅僅通過查詢是難以獲得的,需要在數據倉庫的基礎上進行分析?推理,我們形象地稱之為“數據挖掘”?主要的挖掘方法包括以下幾類:
聯系分析?在數據挖掘中通過關聯算法,尋找數據屬性之間的相關性?比如挖掘檔案用戶類型與查詢檔案類別之間是否存在相關性,如果存在高相關性,就可以為不同類別的用戶提供具有針對性的服務?
聚類分析?這是一種對具有共同趨勢和模式的數據進行分組的方法,依據類內相似性最大、類間相似性最小的原則對數據集合進行分組。檔案信息服務提供者可以根據信息用戶群中是否存在某種相似性,進而劃分不同的用戶群體,掌握其各自的特點,更好地提供服務產品。比如我們一般是按照職業、年齡等屬性來劃分檔案客戶的,但通過聚類分析也許會發現,查詢目的屬性可以更有效地區分用戶行為,為公查詢和為私查詢的用戶在查詢時間、查詢檔案類型等方面表現差異很大,因此可根據該屬性將用戶分類以便采取不同的服務措施。
總之,隨著檔案信息化的不斷深入,如何存儲管理呈爆炸性增長的數據,提供深層次的信息服務成為檔案信息管理進一步發展的巨大障礙。采用數據倉庫技術是檔案信息管理領域中一個全新的課題,利用該技術來整合數據、管理數據,并使用其各種分析工具來分析、挖掘檔案信息,是檔案信息服務方式的發展方向。
參考文獻:
1、萬里云:《數據倉庫技術以及在證券業應用展望》,《現代圖書情報技術》2002年第4期。
2、錢毅:《政務數據庫系統》,中國人民大學出版社 2004年出版。
3、浙江省檔案數據庫建設調查組:《檔案信息化建設數據質量是關鍵 》,《檔案學研究 》2002年第3期。
4、(美)W·H·Inmon著, 王志海等譯:《數據倉庫》,機械工業出版社。
作者單位:中國人民大學信息資源管理學院