吳偉寧
我們不得不承認,檔案工作已經無可逆轉地進入到知識、信息快速更迭的時代。知識呈井噴式增長,信息呈幾何級泛濫,使得包括檔案工作在內的各領域都飽受數據與信息的密集轟炸。隨著大規模數據海量級的增長,人類社會進入了一個以“PB”(1024TB)為單位的結構和非結構數據信息的大數據時代。
一、大數據時代檔案工作面臨的機遇
1、有利于社會檔案觀的形成。檔案事業由“國家模式”逐漸轉變為“社會模式”是新時期我國檔案工作的風向標,這既是檔案部門內部主動變革的需要,又是外部環境驅動的結果。大數據更是為這種內部變革和外部驅動提供了新契機,對社會檔案觀的形成起到了促進作用。大數據的核心在于從海量的數據中挖掘價值,這將為檔案價值的進一步發現和提升,提供了新的方法。檔案館的館藏資源無疑就是一個海量的大數據,如何從如此龐大的數據資源中提取有價值的檔案知識、信息,如何對分散的海量數據進行組配并挖掘信息價值,這是大數據應用于檔案工作必須解決的問題之一,即如何幫助用戶挖掘他們所需要或者關心的分散于海量檔案數據中的信息價值,如何激發用戶的潛在需求。毋庸置疑,在這一過程中檔案價值將會得到進一步擴展和提升,同時社會公眾也將會倍感檔案資源的重要性和親民性,一旦這樣的檔案意識逐步成型,檔案社會觀將得到廣泛認可。
2、為電子文件的有效管理開辟新途徑。如何有效保障電子文件的真實性一直是困擾電子文件管理的一大難題,而且該難題至今尚未得到很好地解決。電子文件每年呈指數增長,其量大驚人,對電子文件的真實性鑒定無法采用傳統的“直接鑒定法”,因為這樣操作會消耗大量的人力物力,投入成本過高。大數據在處理海量數據和分析復雜數據方面具有超強的能力,大數據技術能夠提升電子文件管理的有效性,為保證電子文件的真實性提供新的技術路徑。此外,大數據技術框架中還可以借助云平臺提升檔案數據處理的及時性,保證電子文件管理的及時性,防止電子文件游離于監管之外或者流失。
3、促進檔案工作的變革和檔案理論的創新。我國檔案工作可以歸納為“八大環節”或者“管”和“用”兩大方面。無論是在檔案工作的各業務環節,還是在管和用上,我們都離不開“卷”或“件”這樣的檔案保管單位,傳統檔案管理的科學性在某種程度上需依托于特定的基本單位。而隨著大數據時代的到來,以“卷”或“件”為單位的檔案管理方法或許已經無法適應一些特殊情況。大數據所具有的即時性、碎片化、非結構化特征,我們很難再沿用“卷”或“件”為單位進行管理。大數據對傳統檔案資源本身的組織形式的弱化,使得檔案工作逐漸轉向依靠智能化的檢索技術和挖掘技術,提高檔案管理水平,而不再受傳統檔案組織形式的束縛。檔案實踐的不斷深入,必將使檔案理論得到相應的擴充。大數據時代,檔案學理論體系本身很有可能實現新的突破,檔案意義的大數據資源、理念模式、技術平臺等等都將擴充檔案學理論體系,甚至對來源原則、鑒定理論等核心理論提出革命性觀點。
二、大數據時代檔案工作遭受的挑戰
大數據時代的到來,在給檔案工作帶來機遇的同時,也帶來了諸多沖擊和挑戰。只有認清各種形勢,檔案工作才可能趨利避害,迎難而上,開創一片新天地。
1、傳統檔案管理模式受到沖擊。大數據時代,檔案等大量信息載體正由傳統的形態和傳播方式轉向基于信息系統的方向發展,信息系統正逐漸成為當前世界信息資源產生、處理、流轉和存儲的主要平臺。檔案的產生形成、運轉傳輸、提供利用等對網絡和信息系統的依賴性會大大提高。在統一平臺上實現檔案的形成、處理、移交、保存、利用等業務環節的無縫鏈接將是檔案管理的發展趨勢,這無疑極大地沖擊了傳統線性的檔案管理方式。傳統的檔案收集范圍、保管方式、利用手段等方面也將隨之受到沖擊并引發變革。傳統紙質檔案管理以“卷”或“件”為基本單位,比較直觀且便于操作,而在大數據時代,面對海量的檔案數據,我們根本無法對其進行立卷,只能以“件”或“數據庫”為管理對象。隨之,后續的檔案鑒定和檔案統計都要進行相應的調整,對海量的檔案數據不能再逐份鑒定,只能以項目、事件為單元項進行宏觀鑒定;檔案統計也從原有的“頁”、“米”為單位改為以“GB”為檔案數據統計單位。大數據的到來對檔案工作的影響是廣泛而深遠的,今后檔案更多的是以一種信息資源的方式融入到相應的信息管理系統中,實現統一平臺的一體化管理,這必將對原有的檔案管理理念和方法帶來極大的沖擊和挑戰。
2、數據的安全與隱私成難題。大數據在給人們帶來便捷獲取檔案資源的同時,也在數據安全與隱私的維護上存在很大的隱患,這既有理念和技術層面上的因素,同時也涉及法律方面的問題。從國家層面上來看,帶有密級的國家檔案的泄露,會給國家造成重大的損失,嚴重的還可能危及國家安全。就公民個人而言,公民個人隱私的泄露或者被他人惡意傳播,會對個人的生活、工作帶來許多不利影響。據不完全統計,2013年我國就有近千萬公民個人信息泄漏,造成經濟損失高達數十億元。在面對數據的安全與隱私問題上,我們肩負三大任務:一是完善各種軟硬件系統將安全風險降到最低程度;二是處理敏感數據過程中要設法保護數據隱私,實現信息的保密,解決所謂的數據隱私問題;三是在開放的數據環境下設法避免數據被惡意使用,保證合法數據在正常狀態下使用。
3、技術挑戰。首先,大數據的容錯計算相當困難,算法也極為復雜,目前根本無法設計出絕對安全可靠的容錯設備或軟件。檔案管理系統只能將失敗的概率盡可能降低到可接受的范圍,而不能完全消除,而且在這過程中系統的成本是要不斷增加的。其次,大數據環境下的檔案管理系統采用的是云計算技術,云技術的優勢在于聚集工作負載,提高資源共享度,如此一來必然導致檔案管理系統運行成本增加,而且還會加大系統出現故障的頻率。再次,海量數據的獲取和存儲都需要較大的成本,當然,獲取有價值的數據量越大,越有助于管理決策。現在檔案管理系統遇到的關鍵問題是如何鑒定和區分數據的有用與無用,還有需要多少量的數據才能夠支撐一個正確的決策。最后,異構數據增加了檔案管理系統的運行負擔。大數據時代的檔案數據種類繁多,結構多樣,有結構數據、非結構數據、半結構數據等。結構數據與系統有良好的集成性,便于系統的處理,而非結構化數據則不一樣,處理非結構化數據比較繁瑣且成本高。
三、大數據時代檔案工作的應對策略
無論面對的是機遇還是各種嚴峻挑戰,我們都應該積極應對,不失時機地將檔案工作推到一個新高度。大數據時代檔案工作是大有可為的,為此我們應做好以下應對措施。
1、樹立檔案大數據意識。在信息時代,檔案工作強調檔案數字化,而且經過一段時期的數字化,取得了一定成效。但是,在這一階段的數字化僅僅解決了檔案載體形式的應用問題或者說是信息技術初步應用于檔案管理。而在大數據時代,無論是信息管理者還是公眾用戶已不再滿足于更易于管理和共享的信息形式,而是更關注信息的價值,強調信息技術應用于檔案管理領域所產生的檔案價值,從改變信息形式轉向挖掘信息價值。要完成這一轉變,就要樹立檔案大數據意識,只有如此才能從海量的檔案大數據中挖掘信息價值。大數據時代對檔案的管理將會越來越深入,從信息載體形式深入到數據層面,從信息共享深入到信息價值共享,這是大數據技術框架下對數據的“流處理”模式,這也是檔案工作大環境的大勢所趨。只有樹立檔案大數據意識,才能夠對檔案數據、檔案信息價值共享產生更為敏感的“嗅覺”,這對檔案工作者來說尤其重要。可喜的是,一些檔案部門也開始形成這種意識并嘗試性地開展檔案服務工作,如,北京房山區提出“基于數據挖掘的檔案信息資源深度開發與利用”等。
2、革新檔案管理技術。在傳統的檔案實體管理階段,檔案工作的直接對象就是檔案實體,檔案管理的手段與方式主要是依靠手工,諸如檔案的整理、編目、裝訂等等都是純手工的勞動。在計算機應用于檔案管理之后,計算機輔助檔案管理逐漸普及,計算機可以輔助檔案管理提升其管理水平,這現在看來只是計算機技術在檔案管理領域的初級應用。隨著現代信息技術不斷引入檔案管理,電子文件的大量出現,數字檔案(館)室建設也已初見成效。這讓人們越發感到現代信息技術與檔案工作的密切關系。檔案管理技術的每一次變革無不都是現代科技進步的驅動。由此,要使檔案工作跟得上時代步伐,不落后于社會發展的腳步,就要求檔案工作對新技術具有相當高的敏感度,并有選擇性的、及時的引入檔案管理領域。在大數據時代,檔案工作更應該反應迅速,積極應對。大數據環境下的檔案管理完全可以借助云技術建立一個統一的檔案云平臺,實現一體化的管理。
3、再造檔案業務環節。整體上來看,檔案業務環節可以用“收”、“管”、“用”來概括。在大數據時代,檔案工作的收、管、用將被賦予更多內容。“收”一改以往各部門的定期移交,而是轉為對檔案數據的實時接收或自動歸集,做到全流程控制。“管”由手工管理轉為通過統一的檔案云平臺,實現檔案數據統一存儲、處理、利用,做到全技術支持。“用”由提供被動的檔案查詢閱覽服務轉為主動挖掘信息價值、分析和預測檔案用戶需求,為檔案用戶及社會提供高價值的檔案服務,做到全智能服務。對檔案業務環節進行再造,使其朝著知識管理、知識服務的方向發展,提升檔案管理在組織內部,甚至在社會大環境中的地位,這也是大數據賦予檔案工作的新任務。
4、自上而下建章立制。為應對大數據給檔案工作造成的沖擊,國家層面應該制定統一的標準規范,以規范各行業業務信息管理系統的形成。各單位也應在遵循國家統一規范的前提下,根據自身實際情況制定本單位的管理規范,加強組織內部的檔案信息管理,使之更加科學化、規范化。必要時還可以借鑒或引入國際通用的相關標準規范,結合實際應用,定期進行檢查梳理,推進檔案工作再上新臺階
(作者單位:鴉片戰爭博物館)