董鳳娟
摘 要:在大數據技術背景下,每天都有海量各種形式的檔案資料需要收集處理,再加上已有的檔案數據,不少檔案工作者已不知該如何應對。隨著大數據和云計算時代的到來,檔案信息安全管理與傳統信息安全管理有著一定的傳承邏輯,但也開始慢慢形成一些新的特點和變化。本文將主要探討大數據時代下的檔案信息安全管理等方面的問題。
關鍵詞:大數據;檔案;安全管理
大數據技術一經產生,就迅猛發展,像颶風一般影響到社會的各個領域,至今為止,上至國家戰略、國防安全管理、科學發展研究,下至城市交通、個人出行等都離不開大數據技術支持。面對著大數據信息技術使用逐漸成熟和普遍,各行各業都被龐大而復雜的數據管理問題困惑,對各種數據和信息進行有效處理和保存已經被人們意識到其重要性,檔案行業亦是如此。大數據技術橫跨數據存儲、虛擬化、云計算、數據庫管理、并行計算和數據挖掘等多個技術領域。隨著大數據和云計算時代的到來,檔案信息安全管理與傳統信息安全管理有著一定的傳承邏輯,但也開始慢慢形成一些新的特點和變化。
1 檔案數據采集安全
檔案數據的來源主要有兩部分,一部分是電子文檔,另一部分是數字化的紙質檔案。檔案數據的采集安全既重視檔案數據能否保持完整安全失,也要盡量避免同一檔案數據的重復收集和錄入。
1.1 檔案數據收集范圍擴展
“大數據”和“云計算”的關系,簡單的打個比方,“大數據”是我們所擁有的數據,它是我們所能收集的所有個體信息的集合,“云計算”是我們如何運用這些數據的方式方法,我們可以通過不同的計算方式方法,得出樣本中我們所需要信息,由于這個“大數據”信息的樣本足夠大,大到可以代表整個樣本的特點,從而體現其參考價值和情報價值。所以進入“大數據”時代后,具體到檔案工作,無論是從檔案的憑證價值和情報價值,還是檔案的現實價值和長遠價值來考慮,檔案數據收集的范圍必須擴大,形式必須多樣化。
相對于其他領域的數據而言,檔案“大數據”更強調的是數據的全面性,即要收集業務范圍內的所有數據檔案。不管是全國性的還是省級檔案部門,就算是一個基層檔案部門,只要收集了其職責范圍內的所有檔案數據,即使總量不大,也可以稱之為運用了“大數據”。因為在使用這些檔案的時候,由于采集了所有的樣本,在進行數據分析使用的時候,采取的是“樣本=總體”的計算方法,簡單來說,凡采用這種分析方式的數據分析法,就是“大數據”。當一個單位已經掌握全部或者幾乎全部個體的數據,那么就可以運用各種邏輯計算方式,推斷出不同的“相關”關系,而不是以樣本代替總體推斷出結論。所以每一個個體數據都是必要的,檔案工作者應該細致地全面地進行統計。由此也可以看出,檔案“大數據”中的“大”,不是絕對的“大”,而是相對意義上的“大”,意味著檔案數據需要分析對象的總體。
每一個檔案管理單位或機構都有其檔案收集的范圍和權限,在具體工作中,我們會發現,在“大數據”環境下,以單位或機構進行檔案信息收集會產生相當程度的冗余。以行政部門為例,各單位每年會收到上級各部門下發的紅頭文件,各單位在進行檔案匯總后,會有相當多相同的文件被重復收集,不管是在數據收集還是在進行數據分析的時候,都會造成一定的麻煩。這就需要檔案管理單位提前將各種信息進行邏輯分析,明確規定這類的紅頭文件需要什么樣的單位進行檔案歸檔,而其他相關單位雖不需進行歸檔,卻可以有查詢和使用的權限。
1.2 紙質檔案數字化過程和結果安全
紙質檔案數字化的過程安全是指在檔案數字化過程中沒有發生危害檔案實體和信息安全的事件或行為。因此,一系列的規章制度和規范的操作流程是必要的。首先,要確保提供紙質檔案數字化服務的單位的能力和聲譽。第二,紙質檔案數字化的過程中,要按照嚴格的規章制度。比如,檔案出入庫要有嚴格的登記、交接手續;檔案資料不能擅自帶離工作現場等。第三不能破壞原有的紙質檔案,也不能對原有案卷隨意進行拆卷,要以不破壞檔案原貌為基礎,在數字化掃描的過程中,也不能使檔案破損、有污漬,掃描出來的電子版和原件圖像要一致。
紙質檔案數字化結果安全是指數字化后的檔案數據真實有效、能夠使用。為了確保數字檔案真實可用,必須對電子檔案進行嚴格檢查,這也是確保檔案信息安全的重要環節。對紙質檔案進行數字化后,要及時對電子信息進行檢查,主要檢查內容有:一是掃描質量,這一環節主要以抽查的形式為主,對于發現的不清晰、不對版的檔案要及時返工;二是邏輯檢查,將所有檔案都錄入系統后,通過試用以檢測數據是否科學可用;三是程序檢測,主要通過殺毒軟件查殺數據中可能攜帶的木馬、病毒、惡意程序等。可以定期將數字化檔案進行拷貝,備份在多臺存儲設備上,以防現用數字檔案出現安全問題。
2 檔案信息管理系統安全
如果說每一份數字檔案是人體的細胞,那么檔案信息管理系統就像是人體的骨骼和神經系統。檔案管理系統經過近20年的發展,已經從單機版,發展到網絡版,再到最新的面向服務的數據平臺(SOA架構),功能上也逐漸從單一向多元,由低級向智能化發展。大數據時代下的檔案管理系統,能否在一定時間段內,將大量的信息進行提取、分析、處理,最后整理成管理者需要的有價值的信息,為管理者提供決策依據,成為檔案信息管理至關重要的環節。所以,檔案信息安全在很大程度上受檔案信息管理系統的影響和制約。
2.1 數據支持平臺安全
截止目前,參考國內各領域的大數據建設,檔案大數據管理平臺至少要滿足四個方面的要求:一是云服務商能夠提供全面可視化的服務;二是能夠兼容海量電子檔案;三是數據庫有識別目標、鎖定威脅來源和敵對事件的相關設置;四是數據平臺能夠不斷擴展。一般來說,能夠實現監控管理、風險控制、擴容擴存是檔案云數據支持平臺安全的基本要求和特點。
2.2 數據計算環境安全
對電子檔案進行快速分析處理能力是檔案管理系統的一個關鍵。在大數據背景下,由于電子數據類型復雜且數量龐大,傳統的檔案信息管理系統無法既迅速又經濟地對系統進行拓展。大數據檔案管理系統需要對每個電子檔案進行詳細的類別劃分和標注,之后才是對數據進行分布式存儲和計算,由于其數據庫內容比較大,通常需要幾臺計算機聯合計算,這就需要打破傳統檔案系統的信息“孤島”,需要云計算環境予以技術支持。同時,檔案大數據系統必須具有目錄整理、檔案采集、檔案審核、系統維護等功能,滿足不同使用人群的不同需要,利用現化代網絡技術,實現多人多客戶端操作。
3 檔案數據利用安全
咨詢服務是檔案數據利用的主要內容,是指在海量檔案數據的收集、存儲和處理技術基礎上產生的一種具有前瞻性的判斷和預測能力。大數據顛覆了傳統檔案的數據查詢和利用方式,有了海量電子檔案資料,可以通過分析檔案數據之間的邏輯關系,推算出有價值的信息。
例如山東諸城恐龍國家地質公園的恐龍化石檔案系統,該檔案系統收集了一萬多塊恐龍化石的電子信息,包括化石挖掘時間、地點、序號、挖掘人、化石屬種、化石類別、所屬年代等,將這些化石錄入系統之后,通過系統自動分類,可以根據不同需要得出不同的展示結果。根據恐龍屬種,就可以分別查到鴨嘴龍、角龍、暴龍等恐龍的化石標本,再輔之以挖掘地點,就大致可以推斷出各種恐龍的埋藏地點。
檔案的終極目的是“用”。利用者在檔案數據比對分析時,通過軌跡研判、信息關聯等方式,由已存的較全面的檔案信息,才能得出正確、合理的結論。在這種狀況下,可提供利用的數據資源的豐富,就代表了一定程度上的利用環境安全。專家往往是在原理理論和實踐經驗的基礎上,根據一定的因果關系推導,得出具有指導意義的預測結果。而大數據背景下的檔案,當樣本足夠大時,能夠覆蓋整個樣本,就能夠減弱對理論和經驗的依賴。
4 結語
放眼未來,檔案管理工作已不可避免地引入大數據技術,這必將對檔案管理工作帶來諸多變化,我們必須緊隨科技步伐,不斷修正更新管理技術,積極主動地為大數據檔案管理工作提供更好的安全保障。
參考文獻
[1]韓晗.“數據化”的社會與“大數據”的未來[J].中國圖書評論,2014(5):27.
[2]黃欣榮.大數據時代的思維變革[J].重慶理工大學學報(社會科學),2014(5):15.
[3]蘭祝剛,劉在國.大數據時代給檔案管理帶來的挑戰與機遇[N].中國檔案報,2013-11-29(002).