藺文卓
摘 要:檔案數據化是大數據時代的必然發展趨勢,隨著5G時代的到來,必將加快檔案數據化的進程。檔案界要獨立潮頭,就必須融入數據化的大潮,步入數據化時代。為了加快數據化步伐提供借鑒,筆者對數據化的理念、檔案數據化國家戰略、實現路徑進行了粗淺的分析,提出了建立管理數據庫、增量檔案數據化、采用挖掘技術等建議。
關鍵詞:檔案;數據化;發展;路徑
DOI:10.12249/j.issn.1005-4669.2020.25.075
隨著計算機技術和網絡技術的飛速發展,我國的檔案工作經歷了三個階段:第一階段是以紙質檔案為核心的紙質檔案開發利用階段,第二階段是以數字化為核心的數字檔案開發利用階段,第三階段是數據化檔案開發利用階段。就目前的檔案管理情況看,我國現階段仍處在第一階段或第一或第二階段相融合的時期,即紙質檔案與數字化檔案并存時期。未來,我國的檔案工作將進入數據化時代,并對其進行全面的數據化研究,為國家經濟建設和行政管理提供全新的借鑒。
1 數據化的核心理念
近年來,隨著大數據技術的出現,數字革命的到來,引發了數據化浪潮。數據化的直接結果是,推動了文化革命和產業革命,使得各項決策均以數據為依托,以數據模型的分析結果為依據,進而實現科學決策。那么,什么才是真正意義上的數據化呢?
從檔案管理的視角看,我認為檔案數據化的實質是將檔案信息轉化為計算機可以閱讀和理解的檔案信息資源的過程,將利用檔案的途徑由“頁面閱讀”轉化為“內容控制”“信息開發”。實質是,將數字檔案資源轉換為可供閱讀、分析和處理的數據資源的過程,并進一步轉化為可制表分析的數據形態,進而實現檔案服務模式的創新。如何實現由數字化向數據化的轉換呢?這就要求我們引入智能化的技術,通過OCR光學字符識別技術對紙質檔案進行掃描,然后將圖片的文字轉化為數字化格式,形成文字集合;對于圖像、音視頻文件可通過音頻的文字轉換,形成文字數據,建立數據化文字形態。
2 檔案數據化的國家戰略
我國的檔案數據化戰略,經歷了從管理到實際應用轉化的認知過程。尤其是運用大數據后給工作帶來的效益,對它的認識空前提高,歷經12年的發展逐漸實現了由數據到數據化的轉變,并上升為國家戰略。2011年,《全國檔案事業發展“十二五”規劃》指出,“加強檔案信息系統安全技術防范技術管理……,確保檔案數據及檔案網絡設備設施安全。”是對檔案數據的首次提及。
2016年國家檔案局頒布的《全國檔案事業發展“十三五”規劃綱要》提出“建立開放檔案信息資源社會化共享服務平臺,制定檔案數據開放計劃。”這一時期,國家層面的部署直接轉入到數據服務
領域。
2017年,國家檔案局局長李明華在全國檔案安全工作會議上強調,“做好檔案數據的安全備份,確保檔案數據、信息系統及網絡始終可用可控。”這里有兩層意思:一是要保證數據安全,二是要保證數據的網絡化,提高數據的可利用性。
2019年,國家檔案局原局長楊冬權在檔案從業者安全保護專題研討會上的講話則實現了從檔案數據到數據化的升華。楊冬權強調,“過去我們搞檔案數字化,是把紙質檔案掃描成圖片,這些圖片上的檔案還需要人來讀,不能夠成為數據,由電腦來處理。今后,我們還應該把這些圖片轉化為電腦可以讀的字,變成電腦可以任意檢索的數據,讓它和其他的大數據一樣,進入大數據系統,可以任意的檢索、主動的推送、深度的挖掘,變成人工智能、人的智慧、人的外腦。”這里雖然沒有提及數據化的概念,但其中提到的將數字化的圖片轉化為電腦可以讀的字,變成電腦可以任意檢索的數據,并實現主動推送、深度挖掘,則集中體現檔案數據化的根本要義。
同年,國家檔案局制定了DA/T75—2019和DA/T82—2019兩項檔案專業標準,分別對檔案數據硬磁盤離線存儲和基于文檔型非關系型數據庫的檔案數據存儲進行規范。這兩個專業標準雖然只規定了檔案數據硬磁盤離線存儲和非關系型檔案數據存儲,但卻從根本上彰顯了我國檔案數據化管理和應用的戰略步驟,使檔案數據化邁上了國家戰略的快車道。
3 檔案數據化的實現路徑
自我國工業和信息化部2016年12月印發了《大數據產業發展規劃(2016—2020)》,標志著我國大數據時代的到來。歷經5年的融合發展,截至目前,大數據已經在電商、城市規劃、科學研究等領域大有作為,并開始介入檔案信息資源領域,成為檔案工作創新的引擎。為了實現檔案資源的數據化目標,筆者認為檔案界應采取一系列措施,進行全新的數據化實踐。
1)建立數據化關聯數據庫,實現存量檔案數據化。以往的檔案信息資源是互不關聯的獨信息,很難為大數據技術所應用。這就要求檔案部門,從檔案工作的實際出發,在數字化檔案數據庫的基礎上,通過OCR光學字符識別技術、音視頻文字轉換技術,對數字化的JPG圖形檔案進行格式轉換,形成適應大數據利用的數據化的數據庫。根據大數據分析體系的要求,檔案資源的數據化一是要能夠實現互聯網平臺的分享和瀏覽;二是要適應數據挖掘的需要,在數據之間建立相應的關聯,為數據挖掘、分析提供數據支撐;三是數據的類型要符合可制表分析的數據形態。
2)做好增量檔案數據化。增量檔案是檔案大家族中不可或缺的重要資源,是保持檔案資源連續性的重要步驟。由于增量檔案大多是現實工作中形成的、具有保存價值的歷史記錄,其形成過程既有紙質文件,又有電子文件,要做足數據化的工作比以前要輕松得多。但是在數據化的進程中,數字化并不等于數據化。因為只有將掃描后形成的圖片實現智能識讀,并進入可列表分析、挖掘才能說是實現了初步的數據化。因此,做好增量檔案的數據化同樣是一項艱苦、繁復的工作。為了實現上述目標,一是要做足增量檔案的數字化,二是要加快管理數據庫的建設,三是要加快光學字符識別技術、音視頻文字轉換技術的應用,四是要加快挖掘技術的應用,進而實現一切皆數據,數據源可追溯的目標。
3)利用挖掘技術實施挖掘分析。挖掘技術是互聯網時代,尤其是云計算時代的核心技術,旨在通過對海量數據對某一經濟現象和社會現象的智能分析,找出事物的規律性,對政治、經濟、文化、社會的走勢、動態提供理論模型,為未來事態發展提供掌控依據。檔案數據挖掘工作,就是要對數據化的檔案進行智能化、情報化檢索,并利用數據之間的關聯性,實現精細化分析,進而找出事物間的規律,服務社會。
4 結束語
檔案數據化是檔案數字化的子集,數據化是數字化進程中的一個方向。只有實現數據化,浩繁的檔案才能為廣大的群眾所利用。檔案作為一個龐大的系統,必將在未來,尤其是在21世紀的互聯網時代發揮更大的作用。這就依賴于檔案的數據化,尤其是存、增量數據庫的建設和挖掘技術的全面應用。