馮曉霞 馮曉玲
摘要:2012年“大數據”一詞被介紹到中國,如何在大數據時代取得更大的發展,成為社會各界探討的熱點。大數據對各行各業的發展帶來了巨大的影響,檔案工作也不例外。本文主要介紹了“大數據”的內涵,從大數據的概念、價值作用以及大數據的特點三個方面介紹大數據,在此基礎上,結合現階段檔案工作館的發展,對大數據背景下檔案工作館遇到的機遇和挑戰做簡單的分析,真正了解大數據對檔案工作發展的影響。
關鍵詞:大數據;信息;檔案館
中圖分類號:G271 文獻標識碼:A 文章編號:1005-5312(2019)0b-0284-01
一、“大數據”的概念
(一)“大數據”的概念
大數據不是對數據量大小的定量描述,而是一種在種類繁多、數量龐大的多樣數據中進行的快速信息獲得。大數據是結構化數據、半結構化數據與非結構化數據的總和,是對海量數據的管理;大數據的核心是海量數據的決策,日常生活中智能設備、物聯網、社交網站等產生的半結構化數據、非結構化數據量遠遠大于在學習、工作中產生的結構化數據。如何處理這些半結構化數據與非結構化數據成為大數據的主要業務與內容。
綜上所述,大數據的概念可以總結為:大數據是指通過對結構化、半結構化、非結構化數據的挖掘、分析,進而為社會決策提供數據依據的一種數據研究。
(二)“大數據”的作用、價值
通過對大數據概念的理解,可以歸納為以下幾個方面:一是通過數據的分析、挖掘,為企業的可持續發展做出科學預測,減小企業發展風險,實現企業的科學發展。為社會經濟的發展提供科學的分析依據。二是對用戶的研究分析,從海量數據中的深度分析,挖掘利用者的行為習慣和愛好,充分了解利用者的需求。三是有助于提高信息安全,為信息安全部門應對安全威脅提供有效途徑。四是通過對公共大數據的分析、挖掘,可提高公共機構的執行能力,減少錯誤數據的負面作用,幫助政府節省開支,為政府決策提供可靠依據。
(三)“大數據”的特點
業界認為滿足“4V”(Variety、Velocity、Volume、value,即種類多、流量大、容量大、價值高)指標的數據才可稱為大數據。
1.容量大:數據量級已從TB(1012字節)發展至PB乃至zB,可稱海量、巨量乃至超量。
2.多樣化:數據類型繁多,愈來愈多為網頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數據信息。
3.快速化:數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理;處理工具亦在快速演進,軟件工程及人工智能等均可能介入。
4.價值高和密度低:以視頻安全監控為例,連續不斷的監控流中,有重大價值者可能僅為一兩秒的數據流;360。全方位視頻監控的“死角”處,可能會挖掘出最有價值的圖像信息。
二、“大數據”背景下的檔案工作館現狀
(一)大數據背景下檔案工作現狀
檔案工作是一項基礎性的工作,是對各類信息的綜合管理。隨著社會的發展,檔案工作的對象和工作內容都在不斷地發展改進,檔案的范圍從紙質檔案擴展到了音像檔案、電子檔案,檔案工作的方式也從手工擴展到了計算機,這些變化都展現出了檔案工作與時俱進的特性。然而目前在計算機技術快速發展的背景下,檔案工作的發展出現了一些問題,這些問題或多或少地影響了目前檔案工作的發展。
(二)電子檔案的管理水平參差不齊
計算機應用已經滲透到了各個方面,電子文件、電子檔案已經在各個行業中得到了廣泛的運用,然而關于電子檔案的收集、歸檔等基礎性工作卻沒有得到良好的指導和規范,導致大量電子文件、電子檔案信息資源的流失。各單位對電子文件、電子檔案的收集、歸檔流程、規范都有所不同,導致目前電子檔案的管理水平良莠不齊。
(三)檔案信息資源建設發展緩慢
在大數據背景下,檔案信息資源的建設更加需要綜合各類檔案信息,只有將檔案信息資源池建設好,才能夠進一步地建設數字檔案館,才能夠發揮檔案信息資源的真正價值。
(四)大數據背景下的檔案工作多體現在硬件設施的現代化,而缺乏對檔案工作實質性地改革
檔案人員信息處理能力不足,綜合性檔案人才缺乏。
當前檔案工作大多還停留在傳統檔案工作模式中,檔案資源的開發利用也多是以檔案匯編、檔案編纂資料的形式開展,并沒有很好地利用網絡、計算機技術、大數據技術對檔案資源進行深度地分析整合。如何將檔案信息資源進行深度的開發,不僅是對檔案館存儲能力提出更高的要求,更對數據的分析、挖掘能力提出更生層次的挑戰,如何從如此復雜大量的數據中找出有效的信息,分析出有效的數據,為用戶提供更加準確的信息服務都將是檔案工作館面臨的新問題。