孫亞麗
摘 要:隨著信息技術及互聯網技術的快速發展,社會迎來了大數據時代,沖擊著人們的生活、工作及思維方式,并對數字檔案資源的安全造成了極大的影響。在大數據時代,復雜的網絡環境、各種攻擊源及威脅的存在、數字檔案資源安全保障體系不完善等問題嚴重威脅到了數字檔案資源的安全。本文就大數據時代檔案數字資源整合的難點及對策進行簡要分析,僅供學習和參考。
關鍵詞:大數據;檔案數字資源整合;難點;對策
大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。數字化、網絡化、信息化已深刻地影響了人們的工作、學習、生活和娛樂,數字不再只和計算有關,更使人的生存方式發生了巨大改變,我們已不可逆轉地進入了大數據時代。
一、大數據時代檔案數字資源整合的難點
1.各種數字資源分散、獨立、關聯性不強。我們知道檔案館數字資源來源于許多下屬檔案部門,不同的檔案部門提供不同格式的數據資源、 不同的數據庫以及不同信息檢索工具,這就使得不同部門的檔案數據庫存儲不同類型的檔案信息,各個數據庫之間沒有聯系起來,不同的檢索工具也只是適合于相應的數據信息。 這就使得檔案管理人員很難有效地將這些數字檔案信息資源進行統一管理,也使得利用者在查詢相關檔案信息時需要不斷切換檢索工具,使用不同的檢索方法,為檔案信息資源共享和用戶利用帶來不便。
2.數字檔案信息質量參差不齊 ,內容有交叉重復甚至雜亂無序。在檔案館收集上來的大量數字檔案信息中,存在著各種質量不一的數字信息,有許多數字檔案信息在一些檔案部門提交的數據庫中存在交叉和重復,也有一些數字檔案信息對檔案館只具有數字性而沒有價值性。
3.數字檔案信息存儲格式和檢索標準的不統一。無論是數字形式移交上來的數字檔案信息,還是將傳統載體檔案信息轉化來的數字檔案信息,都存在著不同的數字格式和不同的檢索工具。 比如:文本格式就有 TXT、DOC、PDF 等,檢索工具也有全文檢索、目錄檢索、主題檢索等。 這也使得數字檔案信息無法統一到一個信息平臺上,無法使用簡便統一的管理系統進行管理和利用。
4.目前數字檔案信息資源系統大多為目錄型數據庫,二次數字資源和一次數字資源之間缺少鏈接關系,用戶難以獲取全文。
二、大數據時代數字檔案信息資源整合的對策
1.明確數字資源整合目標
(1)整合檔案館盡可能多的資源包括:檔案館接收上來的各種電子文件,音頻、視頻等多媒體文件,由傳統檔案轉化而來的數字化檔案,全文數據庫,目錄或主體數據庫,相關的數字資料、文獻等。
(2)提供統一的界面并發檢過異構資源,即通常所說的集成檢索 、聯邦檢索、跨庫檢索、平行檢索等能提供統一的檢索界面,將讀者輸入的檢索工具轉換成符合不同資源要求的檢索命令進行并發檢索, 同時支持檢索結果的去重與合并、統一格式顯示、多種格式保存等。
(3)提供個性化服務。在檔案信息資源共建與共享整合基礎上,實現面向不同用戶的資源組合和動態性重構,使之與用戶需求相適應;在信息資源服務功能上,進行服務功能的整合,使用戶能夠充分而有效地利用整合資源系統;在用戶界面上,進行交互性融合,使整合平臺有交往地與用戶界面接口;利用信息集成技術,過濾技術、知識挖掘技術,實現基于資源整合的定向服務;在系統個性功能中,能夠為利用者提供個性化的學術信息環境和服務,利用者可以創建自己的資源列表和利用某一專題檔案列表,建立個人的電子信息架、保存檢索歷史、設置定題資源提醒等。
2.確定整合資源范圍
數字檔案信息資源整合對象的種類和數量直接影響到資源整合的策略,因此對整合對象的全面調研和剖析是整合工作開展的必要前提。
各個檔案館應該根據各自數字檔案信息資源整合目標和各館數字檔案信息資源特點,確定整合范圍。
應包括各檔案館接收上來的各種類型數字檔案信息以及自身館藏數字化的檔案信息,通過鑒定它們的內在價值和外在價值,從而通過建立網絡數據庫,光盤數據庫,多媒體光盤等形式來明確數字檔案信息資源整合的對象。
3.選擇數字資源整合系統
要對多種不同類型的數字檔案信息進行整合,并為利用者統一檢索平臺,就必須自主開發或是引進一種數字資源整合系統。隨著數字資源整合的深入研究,國內外的信息學者以及軟件商相繼開發出了大量的數字資源整合系統。 國外比較典型的數字資源整合系統有以色列Exlib公司的Metalib&SFX, 美國 Endeavor 公司的 ENCompass&LinkFinderplus,美國 Innovation 公司的MAP 等 ;國內的主要有清華同方的TPI 跨庫檢索系統 、北京拓爾思的 TRS 資源整合門戶、江蘇匯文公司的一站式文獻檢索系統以及上海金鑫公司的跨數據庫檢索系統等。當然,各個檔案館可以根據自身的館藏數字檔案信息特點、整合目標及資金狀況,可以選擇適合自己的數字資源整合系統;同時,在選擇系統時也要結合數字檔案的特點對相應系統進行一定的調查,以便最高效地整合數字檔案信息資源。
4.制定數字檔案信息資源整合的標準與規范
(1)數字檔案信息資源采集標準。(2)數字檔案信息資源組織與存儲標準。 如文本信息的表示和存儲、多媒體信息的存儲、數字資源分類標準、元數據標準等。(3)信息檢索標準。 如多媒體信息檢索、異構系統的互操作標準等。(4)網絡與網絡資源標準。 如傳輸控制與互聯協議、信息資源網站評價、網絡信息資源組織標準等。(5)權限管理和安全標準,如加密、水印技術等。(6)其他標準,如文獻信息系統質量管理、質量認證體系等。
5.構建數字檔案信息資源整合評價體系
對于一個數字檔案信息資源整合方案,在實施過程中和結束應該有一定的評價方法和指標體系對其進行規范,使檔案館和開發商都有據可依,實施效果的方法可以采用專家評審法、臺階法、標桿法、定性、定量等方法。 評價指標體系的建立可以從資源數量、資源類型、檢索速度、資源利用率、用戶數量、用戶滿意度,接口標準化程度等方面進行考慮。
結語
在大數據時代,對信息資源的開發利用能力已經成為國際競爭力以及國家綜合實力的重要因素,當全球范圍內數據成為國家資產、創新前沿,要實現數據治國,數據強國,檔案部門應勇挑重擔,轉變思維觀念,轉變管理職能,由“管檔案”向“管數據”拓展,制訂大數據戰略,創造高效、靈活的云環境,從可信賴的數據源中捕獲和提取結構化、半結構化和非結構化數據,優先處理最重要的數據,確定需保留的內容和保管期限。通過整合現有檔案館藏資源,進行數據分析和深度挖掘,把檔案資源轉化為知識資源,尤其是覆蓋人民群眾的知識資源,對企業來說,利用這些資源增加競爭能力; 對政府部門來說,使大數據成為國家宏觀調控、社會治理的信息基礎,提高執政為民的質量和響應力。
參考文獻:
[1]徐郁萍.淺析大數據時代檔案數據信息資源整合與共享[J].辦公室業務,2017(08).
[2]王震宇,王寧.大數據時代圖書館館藏數字資源整合與存儲策略分析[J].中國中醫藥圖書情報雜志,2017(03).endprint