摘要:本文針對如何處理和利用海量數據這一問題,依托以大數據為主的現代技術,提出搭建具有高度自動化、智能化的檔案大數據系統,對海量的數據資源進行有效的處理。
關鍵詞:檔案大數據檔案資源檔案管理
大數據技術對信息時代產生的海量數據能夠做到有效處理和存儲,這一特質使擴展和統一管理檔案資源成為可能。隨著檔案資源的擴展和管理,檔案資源的有效利用也必將得到大幅度提升。在這種情況下,建構檔案大數據系統成為必然要求。在建構檔案大數據系統的過程中,數據結構的科學性、數據的價值密度、共享性和可操作性等諸多因素,是影響檔案大數據系統運營效率、安全服務模式和內容變更、提升服務能力的重要因素。特別是如何搭建高智能的基礎設施框架和采取科學、合理的方法,對價值密度低、分散、無序、海量的數據資源進行有效采集、清洗、轉換和整合,使其結構合理、價值密度高、易于管理和應用,是檔案界需要該認真思考的重要課題。
一、信息時代檔案大數據系統的提出
維克托·舍恩伯格在《大數據時代》中寫道:“半個世紀以來,隨著計算機技術、網絡技術融入社會生活,信息爆炸已經成為事實。大數據時代的許多學科都會發生巨大甚至是本質上的變化和發展,必將成為新發明和新服務的源泉。”[1]隨著檔案數字化、信息化進程的加速,社會需求的種類、數量和質量影響著檔案數據的同步急速提升,檔案大數據成為當今檔案界普遍關注的熱點問題。筆者參考相關文獻,認為檔案大數據是指檔案數據量巨大到現有軟件工具無法在有效時間內實現采集、整合和管理的檔案數據的集合,它區別于傳統檔案數據,是傳統檔案數據的海量擴展和補充。
目前,檔案信息化管理中檔案數據基本基于單機管理,無論是結構化數據還是非結構化數據基本上比較零亂、不便管理、不能實現數據共享。加上檔案數據量呈幾何級增長,原有的檔案數據系統已經很難適應時代發展的要求。為了解決上述問題,筆者嘗試依托互聯網、基于數據庫、以Hadoop為框架建構檔案大數據系統。檔案大數據系統強調智能化理念、決策理念、管理理念及服務理念的先進性,具備前瞻性和創新性特質。它通過系統的人工智能特征及決策支持系統的應用功能,實現檔案大數據的有效利用,從而實現檔案服務功能的最大化,達到業務價值增值的目的。具體而言,檔案大數據系統是研究如何基于大數據的數據分析和數據挖掘技術,從海量數據中發掘出有價值的信息,滿足不同檔案用戶的信息需求,將檔案信息資源轉化為知識資源,實現電子文件的鑒定、非結構化電子文件的處理,提升檔案數據存儲與備份的數量與質量,有效管理、組織和利用檔案資源。
二、信息時代檔案大數據系統的建構
從檔案的收集、管理、利用來看:在傳統管理方式下,“收”是各部門移交;“管”是手工管理,手工查詢;“用”是提供被動地查閱服務。在信息時代,“收”是將數據實時、自動歸集;“管”是采用云平臺存儲、計算、分析;“用”則是分析、發現與預測,為社會、企業創造價值。[2]
根據我國檔案信息化建設多年積累的經驗,針對系統建設的自動化、智能化目標,依據計算機數據管理規則要求,筆者主要采用了垂直+水平的分布式檔案數據庫模型,從檔案數據的采集、整合、過濾、管理四個層面對檔案大數據系統進行建構。如圖1所示。
(一)檔案數據的采集
傳統的紙質檔案管理所采集的信息不準確、圖像的清晰度及可識別性不高。而檔案大數據系統平臺的數據表現形式多樣化,如網頁、圖像、音頻視頻、文檔等。為了獲得高質量的檔案數據信息,不僅可以通過內網獲取現有局域網中的元數據、中心數據、引用數據、運行數據、用戶數據、服務數據等結構化數據,而且也可以通過外網、RFID射頻、B/S移動輸入等多種方式實現用戶反饋、監視器采集、遠程應用系統數據等非結構化數據的獲取,并對這些數據進行采集、變更和處理。其中,通過影像識別技術獲取的動態數據以及通過掃描、攝影等方式收入電腦的紙質文檔,都是由非結構化數據轉換為結構化數據的事例。采取這種方式的優勢在于便于管理者查詢原始數據和利于數據分享、數據檢索、數據分析、數據展現。
(二)檔案數據的整合
檔案大數據系統平臺的檔案數據整合是對上傳檔案數據進行質量分析和治理,并對信息的生命周期進行管理。也就是說,在進行數據整合的過程中,主要采用了數據接入技術(包括廣域網、局域網、個人網等),將數據采集層(下層)已處理過的數據安全、穩定、快速地輸送到上層(即數據過濾層),并通過數據交互功能模塊形成檔案大數據源共享系統,并使其具備“智能交互”功能。
一般而言,檔案數據整合包括控制系統、運行引擎、基礎平臺管理三個方面。主要通過聚類和相似性分析等手段,對檔案數據間的有機聯系進行分析和整合。其中,整合控制系統指的是通過調度、轉換、功能等手段,對檔案數據進行索引和協同搜索,在前期信息整合前提下進一步實現上下協同洞察。整合運行引擎指的是對數據對象、數據訪問、工作流的引擎和任務引擎的整合,它是一個分布式的基礎架構。一個分布式文件系統的實現,能夠做到經濟高效地分析PB級的結構化數據、非結構化數據、信息。基礎平臺管理整合包括日志管理、數據訪問及訪問策略、信息通知、異常處理、緩存管理,它主要是按照預定規則對檔案數據進行存儲,并隨之進行數據庫內的科學分析。
(三)檔案數據的過濾
為避免海量數據傳輸中出現擁擠、堵塞及不必要占用空間等現象的發生,檔案數據過濾主要是按照規定的數據清洗與過濾規則,對已采集的大數據源(先期采集和整合過的數據)進行可用性檢查及質量分析、對數據進行過濾與清洗,以保證數據整合時的價值密度和可操作性。
檔案大數據過濾服務是一種快速、完全托管的TB/PB級數據倉庫解決方案,由方法庫、知識庫和模型庫共同組成。它向用戶提供完善的數據導入以及多種經典的分布式計算模型,能夠更快速地解決用戶海量數據過濾問題。基于云計算的分布式系統具有足夠的數據存儲和傳輸能力,它的數據清洗、數據過濾和外部數據存儲功能,能夠實現檔案大數據的智能交互,搭建檔案大數據的過濾層,并保障數據的安全。
(四)檔案數據的管理
管理層面指的是使用和維護系統的接口。管理員通過該層面實現系統的管理、控制、應用和維護,是數據服務的指揮中心。管理層有兩個核心功能,一是將加工和過濾后的數據進行可視化處理;二是建立多種應用模塊,提供智能服務。也就是說,利用可視化和圖像處理技術輸出需要分析和預測的數據結果,并通過大數據技術的匹配機制為用戶提供智能化應用。該系統中檔案數據的管理層面,是通過多維分析、數據挖掘和各種查詢三個工具實現人機交互界面的。通過對人機交互、操作邏輯、界面美觀的整體設計,實現登錄與認證、數據存儲、數據操作、數據查詢、基本參數設計等功能。需要注意的是,不管采用何種技術,關鍵是應用。應用需要的數據才是有價值的數據,只有生成多模式、多樣性的應用數據,檔案大數據的價值才能得以充分體現。
*本文為黑龍江省高校本科科研業務費黑龍江大學專項資金“智慧城市背景下檔案信息資源規劃研究”(項目編號:HDJDZ201613)的階段性研究成果;2017年黑龍江大學校級研究生創新科研項目“智慧城市建設中的檔案服務工作研究”(項目編號:YJSCX2017-108HLJU)的階段性成果。
注釋及參考文獻:
[1]維克托·舍恩伯格.大數據時代[M].杭州:浙江人民出版社,2015:8.
[2]蘭祝剛,劉在國.大數據時代檔案管理帶來的挑戰與機遇[N].中國檔案報,2013-11-29(2).
[3]席暢.大數據環境下未來檔案館建設的新構想[J].云南檔案,2017(1):55-57.endprint