鄧 嵐
(民政部國家減災中心,北京 100124)
進入21世紀,人類在信息存儲和處理能力方面不斷涌現技術性的突破,大數據(Big Data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據。大數據是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革。大數據時代的到來,各行各業都面臨著對龐大而復雜的數據進行有效管理的巨大挑戰,人們越來越認識到對自身產生和擁有的大數據進行有效管理的重要性和迫切性,災害檔案數據管理也不例外。隨著計算機技術和網絡通訊技術的飛速發展,災害管理信息化程度不斷提高,災害檔案數字化、網絡化管理已成為網絡信息時代檔案管理工作的必然選擇。面對洶涌而來的大數據,災害檔案數據管理工作如何應對,是擺在我們面前一個亟需研究的課題。
關于大數據的定義,最早提出“大數據”時代到來的全球知名咨詢公司麥肯錫稱:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。維基百科的定義:大數據指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策目的的資訊。還有學者認為大數據指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產[1]。可以看出,大數據由海量交易數據、海量交互數據和海量數據處理三大主要的技術趨勢匯聚而成[2]。
從本質上看,大數據主要解決的是海量數據存儲、計算、挖掘和利用的問題。其特點可概括為“4V”,一是規模性(Volume),數據容量巨大,大型數據集合一般在幾十TB至PB級的數據量;二是多樣性(Variety),數據類別繁多,數據來自多種數據源,數據種類和格式日漸豐富;三是高速性(Velocity),數據處理速度快,在數據量龐大的情況下,實現數據的實時處理;四是價值性(Value),數據真實性高,愈發需要有效的信息資源確保其真實性與安全性[3]。可以說,大數據時代是一個數據資源更加豐富的時代,是一個信息技術更加先進的時代。
災害檔案數據資源主要來自災害管理和科研活動產生的電子文件,按照來源和形成方式不同,可以分為數據庫文件、電子數據表、字處理文檔、電子郵件、掃描圖像、地理空間數字記錄、數字照片、網站及其相關文檔。災害檔案數據具有分布性、多源性、異構性等特點。從災害檔案管理部門來看,災害檔案資源主要集中在民政、水利、氣象、地震、國土、環保、測繪、軍隊、海洋等部門,檔案數據源分散在不同部門、不同地點,并由不同行業、不同單位和組織機構所擁有。從災害檔案內容來看,包括災情、氣象、遙感影像、基礎地理、專題地圖、涉災行業、經濟統計、現場多媒體等多種數據。近年來,災害檔案數據管理有了較大提高,但由于缺乏強有力的技術支持,檔案信息服務水平還比較落后,普遍存在管理意識薄弱、數字化建設不足、服務方式被動、開發利用欠缺等一系列的不足,利用信息技術進行檔案數據分析、開發、利用、交換、共享的水平還很低,沒有充分發揮檔案信息的憑證、參考和情報作用,無法滿足管理部門對災害檔案信息的需求。
目前大數據研究成果最多的是大數據技術和大數據應用。大數據技術的特色在于它依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術對海量數據進行分布式數據挖掘,在金融、醫療、教育、軍事、電子商務甚至政府決策等幾乎所有的領域都有非常廣闊的應用空間。隨著大數據時代的到來,應用大數據技術讓災害檔案數據獲取、儲存、搜索、共享、分析,乃至可視化地呈現,成為了可能,為災害檔案數據管理提供新思路和新方法。
1.大數據技術對實現災害檔案智能管理提供強大保障。大數據技術具有的可靠安全的數據存儲、方便快捷的云服務、超強的計算能力、諸多技術的集合體、良好的經濟效益以及以用戶為中心的個性化服務等優勢,對實現災害檔案“存儲數字化、管理自動化、利用網絡化”智能管理提供保障。應用大數據技術對分散于不同部門、不同地理位置的檔案數據資源進行管理、傳輸、檢索和提供利用,滿足用戶對檔案信息的遠程訪問操作,包括信息查詢、檢索、統計、提取等,實現檔案數據資源的互聯互通和共享利用,將檔案“藏”和“用”的功能都提高到一個新的水平,對于充分發揮檔案數據資源的價值具有前所未有的推動作用。
2.大數據技術對實現災害檔案數據挖掘提供有力支持。數據越來越多。傳統的檔案管理以文檔管理為主,檔案基本處于被動利用,沉淀的檔案沒有人去分析利用,也沒有技術工具去支撐挖掘和分析。大數據最核心的價值就在于對海量數據進行存儲和分析,只有通過分析,才能獲取更多智能的、深入的、有價值的信息。在大數據時代,檔案系統中除了大量的文檔之外,還有海量結構化數據,并且數據利用的效果要大于文檔利用效果。檔案部門在收集大數據之后,通過主動調查利用者的需求,建立各種數據模型,對海量數據進行聚類、分類、相關性分析,找到數據之間的關系,提高檔案價值,將原來的“死檔案”變成“活信息”,為災害管理決策提供參考。
3.大數據技術對實現災害檔案知識服務提供解決途徑,解決災害檔案如何實現知識服務,如何從浩如煙海的檔案數據中快速識別、選擇和有效利用檔案信息,為災害管理部門提供知識服務和智力支持,發揮檔案的參考憑證、決策咨詢、評估依據作用。應用大數據智能識別、傳感與適配等技術,構建基于基礎框架體系、大數據處理體系、過程管理體系、大數據分析與決策體系、交互體系的大數據知識服務平臺[4]將成為有效的解決辦法和途徑。災害檔案大數據知識服務平臺搭建的是一個大數據獲取、存儲、組織、分析和決策服務資源和服務能力共享、交易和協作的智慧平臺,依據災害管理不同行業、不同領域、不同需求的大數據處理需求,在平臺上實現數據、知識、資源、能力、服務、過程和任務等資源和能力的共享和協作。
當前,我國經濟發展已進入新常態,認識新常態、適應新常態、引領新常態,是當前和今后一個時期中國經濟發展的大邏輯,也是發展檔案事業的基本遵循。災害檔案工作主動適應新常態,需要分析發展新變化,順應發展新趨勢,這既是經濟社會發展對災害檔案管理提出的更高要求,也是檔案事業深化改革和持續發展的內在需要。在大數據時代背景下,災害檔案的產生主體、利用群體、生態環境都發生著新變化,災害檔案數據管理應用大數據技術分析、挖掘出龐大的檔案數據獨有的價值,從“被動服務”向“主動服務”轉變,還面臨著諸多挑戰,需要從以下方面加以完善和提高。
1.建立高效有序的運行機制。大數據建設是一項有序的、動態的、可持續發展的系統工程,必須建立良好的運行機制,以促進建設過程中各個環節的正規有序,實現統籌協調,搞好頂層設計。應當增強災害檔案數據管理意識,做好災害檔案數據發展規劃,并將其納入國家綜合防災減災規劃中,建立災害檔案數據標準與規范,構建檔案數據管理系統,實現災害檔案數據有效組織、集中存儲、共享與服務。
2.制定科學規范的建設標準。災害管理涉及部門多、領域多、專業復雜,各部門都是按照各自定義的內部數據標準進行信息系統建設,因此存在災害檔案數據資源結構不統一、標準不配套等問題。沒有標準就沒有系統,應建立面向不同主題、覆蓋各個領域、不斷動態更新的大數據建設標準,為實現各級各類信息系統的網絡互連、信息互通、資源共享奠定基礎。
3.搭建共享利用的服務平臺。我國的災害管理涉及多個部門,通過幾十年的努力,已經積累了海量與防災減災相關的專題數據,并建立了一些信息網絡系統,部分開展了信息共享,但絕大多數災害管理相關數據還沒有實現有效共享和利用。數據只有不斷流動和充分共享,才有生命力,所以應在各專用數據庫建設的基礎上,通過數據集成,實現各級各類信息系統的數據交換和數據共享。
4.培養高素質的專業隊伍。災害檔案大數據建設的每個環節都需要依靠專業人員完成。一方面,需要培養和造就一支懂指揮、懂技術、懂管理的大數據建設專業隊伍;另一方面,需要加強檔案管理人員對信息技術的掌握,加強檔案管理人員大數據相關知識的培訓和輔導,做好大數據背景下檔案管理的人才儲備。
檔案大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些有較高價值的飽含歷史意義的數據進行專業化處理[5]。大數據時代下災害檔案數據的巨大價值如何從“沉睡”中醒來并在災害管理實踐中發揮作用,無論是在檔案數據資源建設、科學技術支撐,或是在管理機制運行、人才隊伍培養等方面都還存在巨大的發展空間,大數據技術應用也還有大量基礎性工作亟待開展。一場不同于以往的技術革新已經到來,大數據時代的發展對災害檔案數據管理既是挑戰,更是機遇。可以預料,在不遠的未來,隨著大數據技術的日臻完善和成熟應用,對災害檔案數據管理必將產生深刻影響。目前我們需要關注的是清晰了解、充分掌握大數據服務的技術實質、特征、基本屬性與應用價值,然后有所選擇地引入災害檔案數據管理領域,從而進一步提升災害檔案的服務能力,將檔案管理事業推向一個全新的發展高度。
[1]楊旭,湯海京,丁剛毅.數據科學導論[M].北京:北京理工大學出版社,2014.
[2] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013,(8):142-146.
[3]于曉萍.大數據時代下檔案管理的應對策略研究[J].蘭臺世界,2014,(10):12-14.
[4]李晨暉,崔建明,陳超泉.大數據知識服務平臺構建關鍵技術研究[J].情報資料工作,2013,(2):29-34.
[5]鄒華英.試論大數據時代的檔案工作[J].檔案與建設,2013,(12):4-5.