韓向邁
(一)大數據的概念
從字義來看,大數據(big data)顧名思義,指 的是海量的資料,巨量的數據,這些資料數據來源于世 界各地,信息量龐大,常用的軟件工具無法在有限的時 間范圍內對這些海量數據資料進行獲取、管理、分析和處 理,是一種新的思維方式。無論在生活、工作還是學習中 ,我們無時無刻不在進行著數據的收集、篩選、處理、分 析和應用等工作。
客觀來講,目前針對大數據的概念并沒有準確 的界定,這是因為大數據商業特征顯著,若其應用背景 不同.研究者的切入點不同,其概念也會存在顯著的差異 。在實際應用中,大數據的概念因實際情況而有所不同。
(二)大數據的特點
大數據應用技術是一種非結構性的數據處理技 術,在處理規模較大的信息數據量時,應用數據化的思維 與先進的數據分析技術,提取關鍵、有價值的信息,并且 能夠快速而高效地處理這些數據,進而推動工作進程。
數據信息大量化特點(Volume)。大數據用于搜 集、存儲和運算數量復雜的信息,在云空間的背景下,數據 儲存空間加大。而當前,檔案信息數量也呈現出“幾何式” 增長態勢,數字信息數量龐大,數字化管理已成為必然趨 勢。
數據的復雜多樣化特點(Variety)。不同的數 據源,購物信息、影像資料、行程軌跡、地理位置等信息, 繁雜多樣的類型數據要求數據的處理能力必須要提高。要 求能夠將數據進行系統的整理、篩選、計算等操作,進而 轉換為結構數據。大數據是處理海量數據的利器,更是為 處理不同來源、不同格式的多元化數據提供了可能。
數據價值密度低的特點(Value)。價值是大數 據的核心特征,數據信息采集具有時效性,若因為數據采 集得不夠及時,數據不連續,數據樣本不夠全面,則數據 便會失去其真實性。而當數據符合收集條件,所需處理的 數據量也在允許范圍內,那么運用大數據技術運算可以得 到更確切的反饋。對檔案管理來講,檔案信息量龐大,大 數據技術能夠對海量的檔案信息數據進行運算,并合理地 分析利用,發揮數據最大化的價值效益。
數據信息高速運行特點(Velocity)。大數據背景下,檔案管理工作要求能及時快速地響應突如其來的變化 ,要求數據分析要快速、準確,即便是異地檔案信息也能 快速獲得、闡發與處置。此外,若采用數據分析和分布式 處理模式,對儲存的檔案信息進行全面的檢索、決策,則 能夠從中可獲取更高價值的信息。
檔案學是以檔案現象為研究對象,以揭示檔案現象的本質和規律為目標,探討檔案信息資源的辦理、開 創的理論、原則與方式的學科。檔案學知識的利用有助于 深化檔案管理工作和檔案管理的科學程度,能夠更有效地 開發利用檔案信息資源,為人類社會的現代化發展服務。
在現代社會中,檔案隨處可見,與我們息息相關,檔案以不同形式存在于我們的社會工作生活中,是人 類有意識地記實保留下來的書面標記,是個人、社會組織 和國家機構在社會活動中具備保留代價的筆墨、丹青、音 頻、影像以及其他各種方式的歷史記錄。檔案在社會實踐 中的基本作用為:憑證作用、參考作用和情感作用。
檔案主要由4個基本要素組成:檔案的構成者 ,分別為個人、社會組織和國家機構;檔案具體內容,是 檔案承載的常識信息及人類文明智慧結晶;檔案形式,指 的是載體形式、信息記錄和表達形式,檔案的形式多種多 樣;檔案的本質,是直接的、原始的歷史記錄,是歷史的 最真實的憑證。
檔案開啟了人類的文明時代,五千多年以來, 人類以文字為載體來記錄重要的數據信息,檔案由此形成 ,并隨著人類文明的發展逐漸完善。遠古時代,人類主要 是用肢體語言進行交流和傳遞信息,但這種傳遞方式不能 將信息完整地保存下來;到了原始社會后期人類嘗試用結 繩、結珠、編貝和積石等原始實物來幫助記錄時事;直至 后來出現紙質檔案,再到近現代音頻、圖片、電子文件等 檔案形式產生,它們記錄了人類的每一步歷史足跡,構成 了人類的檔案信息財富。
從古至今,人類一直很重視對檔案的保存和利 用,設置專門的館室并選派專門的人員進行管理。在幾千 年的日積月累中,檔案信息的數據量翻倍增長。
(一)大數據與檔案同為信息范疇
通過閱讀丁海濱教授出版的檔案學類圖書,對 檔案學有一個大致的了解。從古至今,人類一直都在用自 己的方法記錄著重要的信息,以滿足人們生產生活的需要 ,久而久之,檔案這一概念油然而生。在如今的信息化時 代,紙張并不是記錄檔案信息的唯一載體,記錄檔案的載 體多種多樣,記錄形式也不盡相同。我們的生活發生了深 刻的變化,數字經濟、數字化行程等大數據技術產物層出 不窮,尤其在新冠疫情防控期間,大數據技術在我國社會 生活的各領域發揮著極為重要的作用。在收集、存儲檔案 信息方面,大數據的運用有著深遠的意義。
(二)大數據與檔案同為人類文明瑰寶
大數據與檔案共同承載著人類社會的智慧文明 ,同為人類的瑰寶。檔案是人類活動的記錄工具,新技術 環境下檔案資源種類日益豐富。社會媒體、全媒體、融合 媒體等新技術平臺產生的檔案資源,如大量網頁信息等, 對于這些檔案資源的采集與長期保存,傳統的檔案開發與 保存的方法就顯得無能為力。大數據收集信息數據量大, 與傳統紙質實物檔案不同的是,大數據是借助互聯網在 線上獲取信息,所存儲的數據也是雜亂無章的。而這些雜 亂無章的數據是人類在日常生產生活無意識產生的,這樣 看來檔案學與大數據并無直接聯系。但我國檔案學基礎理 論研究已經并將繼續證明,任何科學的研究方法都不可能 獨立于特定學科而孤立存在。檔案學也是如此,近些年來 ,檔案學相關工作自覺地參與集體記憶,存在于社會記 憶的一部分,而社會記憶是碎片化的,也就是人類生活產 生的碎片化數據信息。
(三)大數據與檔案相輔相成
大數據與檔案之間是密不可分的,具有共通性 。大數據加工并保存所得的信息一般存儲在線上數據庫中 ,可隨時調動和查詢利用。而檔案信息一般以實物存儲在 館室中,在現實生活中,對于重要的檔案信息,比如企 業管理合同,學生的學籍,家庭中的開支賬簿等重要信 息文件,我們都會進行備份以備不時之需。在傳統的檔 案信息記錄之中,大多是以紙質實物作為備份文件,以實 物形態存在,在信息安全方面具有一定優勢,但傳統的紙 質實物檔案不易保存與利用。以數據形態存在于檔案大家 族中,具有長久保存利用的優勢,但也會存在數據信息泄 漏的風險。在現代信息化時代,檔案信息的備份多以電子 版文件為主,攜帶方便,可以隨時查詢、獲取有效信息。 大數據與檔案都會涉及收集、管理、應用,兩者取長補短 、相輔相成。
所謂數據化管理就是利用計算機網絡等其他手 段,對有用的信息進行數字化處理,這種方式簡易、效率 高,改變了繁冗復雜的傳統檔案管理模式。自人類社會進 入信息時代以來,以微機應用為核心的各項業務信息化與 自動化處理建設已提上日程,檔案數字化建設也是如此。 依托當代新型檔案信息管理系統,實現紙質檔案的數字網 絡化管理。檔案作為社會信息資源的重要集合,其代表的 社會價值更是難以衡量,同時也為大數據發展提供了堅實 的信息基礎。從目前的實際情況來看,檔案數據化是檔案 數字化的進一步拓展,既是檔案數據的內容體現,也是 檔案價值分析與挖掘的基礎。傳統的檔案管理工作模式在 當今信息化發展的時代已不再適用。檔案管理工作正在 逐漸實現數字化,實現數據的簡化。
紙張等非數字化介質為載體的檔案信息數據, 如保存備查的圖紙、賬本、圖稿、合約等,長期以來存放 在各個檔案館室中,這樣會給檔案信息的存放、管理和使 用帶來巨大的困難,致使檔案工作進度緩慢,效率低。一 方面,隨著信息量的爆發式增長,實物檔案信息數量變得 更加龐大,存儲這些實物檔案需要耗費大量的人力物力; 另一方面,大數據時代背景下,要求信息具備時效性,而 這些實物檔案限制了信息的流通性,致使這些信息不能得 到有效的利用,造成信息資源的浪費。而檔案數字化管理 可以彌補實物儲存檔案信息的缺點,檔案數字化管理能夠 更加快速、精準地檢索信息,且可以隨時隨地查閱檔案信 息,若出現數據更新,數字化檔案可以及時快速替換掉過 時數據,為檔案價值最大化利用創造良好的環境條件。 在檔案數字化管理過程中,大數據技術會將零散的、不同 的信息資源存儲在數據庫中,進行初步的運算分析,對數 據信息分門別類,便于連接網絡以后能夠進行有效的資源 共享。
(一)大數據時代下檔案學學科發展情況
在大數據時代背景下,海量數據信息中有許多 信息是具有重要價值的,是促進我國社會進步重要數據資 源,因此,檔案學學科的學習研究需要有一個全新的方 向。在學科教育上,增加學習研究內容,在實踐中深化 檔案學內容研究程度,緊跟時代的步伐,開辟一條適合 我國檔案學發展之路。大數據時代下,豐富檔案學研究 內容勢在必行。
(二)大數據時代下檔案工作發展態勢
人類記憶和把握事物發展規律的關鍵在于檔案 信息的記錄,它記錄著人類歷千年來的智慧文明寶藏。檔 案的存在對人類的發展和社會生活是必不可少的,檔案 數字化管理為我國文明的傳承帶來了新的思維方式,例 如文化檔案信息以數據化形式儲存,大家可以隨時隨地 了解各地文化習俗,促進民族團結,滿足社會需求,推 動社會現代化發展。
檔案管理工作對于企業和單位而言至關重要, 檔案工作就是用科學的原則和方法管理檔案信息。就目 前而言,檔案管理工作存在效率低、利用率低等問題, 傳統的管理模式已不再適用。檔案工作的信息化將是社 會發展的必然趨勢,建立電子檔案系統,將相關檔案信 息資料通過大數據技術的處理保存于線上數據庫中,必 要時可以對其信息文件設置密碼,以防檔案資料丟失。
在現代檔案管理工作中,不僅要有先進技術的 應用,還要打造優質人才隊伍,提高機關檔案工作人員的 業務認知,統一信息的搜集標準,加強各方面工作監管 力度,以保障檔案接收工作的完整性,準確性;建立 完善的網絡檔案管理系統,推進檔案工作的順利進行, 實現資源共享,降低試錯成本,提高工作效率。
(一)有利于提升數據分析處理能力
大數據應用范圍愈來愈大,數據分析形式更加 復雜化,數據分析是大數據技術的主要組成部分。為實 現檔案信息數字化,需要改變傳統檔案管理的理念與思維 ,學習和深化檔案信息化理念,真正意識到將大數據技術 融入檔案管理工作當中的重要性,真正將檔案管理工作與 單位的未來發展聯系在一起,進行智能化管理和個性化服 務。將大數據技術應用到檔案工作當中,能夠有效提升 工作機關在檔案信息數據的分析處理能力。在此背景下, 機關工作人員能夠正確快速地在檔案信息數據庫中提取 出有用的信息,進而挖掘信息的潛在價值,充分有效地 利用檔案信息資源,并及時更新數據信息,保證信息的 時效性與準確性。
(二)有利于加強數據檢索質量
檔案的存儲是其管理工作中一個至關重要的步 驟,當前,檔案資料信息數量和規模不斷增加,結合實際 情況,實現檔案信息資料的數據化存儲是具有現實意義的 。在以往的檔案存儲中,大多以紙質檔案為主,在進行數 據檢索時,往往要耗費更多的精力,加大數據檢索成本, 數據檢索質量也得不到保障。將大數據技術應用到檔案管 理工作中,管理人員需要轉變檔案管理理念和改進檔案管 理工作方式,積極應用數據結構分析法、功能分類法等方 法對檔案進行分類管理,同時利用Spark、Hive、Impala等計算機程序進行整合,便于對檔案信息的查詢分析;借助PowerBI、Qlikview等平臺對檔案信息數據進行可 視化分析,觀察數據信息間的關聯,有利于對檔案資源進 行整合。從而精準數據檢索信息,提高檢索準確性和數據檢 索質量,能夠保障后續工作的順利開展,起到事半功倍的效果。
(三)有利于加大信息存儲量
利用大數據技術建立檔案信息數據庫,儲存信息空間更大,能更好地滿足數據存儲的需要,這種儲存方式,不僅可以提升空間存儲量,且相較于傳統的紙質檔案 存儲,將信息存儲在數據庫中更不易受外力因素的影響而 損壞,可以有效確保數據的安全性;隨著數據庫技術的提 高,對于無關緊要的數據,沒有意義的數據會自動進行清 理,節省存儲空間,且不必耗費更多的精力。
總之,大數據本身存在的價值很高,雖然大數據會存在個人隱私泄露的隱患,但其更多的是給我們的工 作生活帶來了極大便利,對未來的科學技術與經濟發展產 生了巨大影響。隨著大數據與信息技術的快速發展,各領 域都充分地認識到此項技術在檔案工作中發揮著舉足輕重 的作用。檔案工作應在夯實檔案開放利用、數字化等工 作的基礎上,充分運用大數據技術挖掘數據資源,追求既 有專業深度又有跨學科研究廣度的發展趨勢。從多方運用 其成果,加大對其的投入和運維,如此能推動檔案工作 水平的提升和優化,提高我國信息資源開發利用能力。