摘 要:在大數據浪潮呼嘯而來的今天,新興技術的快速發展帶來了整個社會每天產生的數據呈指數級別的增長,如今,社會各行業都面臨著對紛繁復雜的數據進行分析處理的困境,作為主管歷史記錄和信息資源的檔案部門也同樣面臨著大數據給數字檔案資源管理帶來的挑戰和機遇,如何從海量數據“提純”出有價值的信息歸檔保存,并能夠長時間的利用成為檔案部門在大數據時代必須承擔的不可推卸的責任。檔案學能否和大數據進行一次成功的親密接觸,這是眾多學者目前關注的一大焦點。本文首先分析了檔案大數據與大數據之間的關系,通過文獻計量的方式對比了國內外檔案領域大數據技術應用研究現狀,從機遇與挑戰兩方面分析了大數據給檔案館帶來的影響,提出檔案館應用大數據技術的模擬框架,分析了現階段檔案館推行大數據技術的可行性以及需要采取哪些措施,最后展望了在檔案館應用大數據技術的廣闊未來。
關鍵詞:大數據;檔案大數據;檔案館
1 大數據和檔案大數據
1.1 大數據概念的界定
大數據(big data),或稱“巨量資料”,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到獲取、管理、處理并整理成為幫助企業經營決策更積極目的的數據,即不能用隨機分析法(抽樣調查)這樣的捷徑,對于大數據概念的起源,學術界還沒有統一的定論,在工信部的《2014年大數據白皮書》中,認為大數據概念來源于2011年麥肯錫、世界經濟論壇等機構的相關研究。這些機構通過研究海量數據在社交網絡、網絡廣告、電子商務、數據挖掘中的應用,使全社會開始重新審視數據中蘊含的巨大價值,并隨后在全世界興起了一股大數據的熱潮。
1.2 大數據的特點
大數據的特點有很多種說法,IBM認為大數據有三個特征(3V),即Volume,Variety,Velocity,還有學者從Size,Resolution,Scope這三個角度來定義大數據,即數據規模足夠大,數據的深度足夠深,以及數據的廣度足夠寬,在這里,本文采用主流的“4V”來對大數據進行特點概括,即Volume,Velocity,Variety,Veracity。
①Volume,即數據量巨大,甚至能夠達到PB數量級或者更大;
②Velocity,數據種類眾多,包括視頻、音頻、圖片、日志、地理位置信息等多種類型數據
③Variety,即價值密度低,而商用價值高,大數據多數為半結構化和非結構化的數據
④Veracity,要求處理速度快,大數據的處理技術上與云計算、集群網格計算、分布式計算等技術的應用緊密相關,一般要求在秒極時間范圍內給出分析結果,時間太長就可能失去了大數據的分析價值,這一點與傳統的數據挖掘技術有著本質的不同。
1.3 檔案資源符合大數據的特征
①檔案數據體量巨大(Volume)。目前,單個國家綜合檔案館檔案資源總量基本達到了TB級,考慮到每個檔案館資源的不同,以及各類檔案部門保存的檔案數量,必將達到PB級甚至EB級。據統計,2011年,各級國家檔案館館藏已達3,3億卷,到2020年,館藏將達到6億多卷,如果加上企事業各類檔案部門館藏,將是一個海量資源庫。
②檔案資源種類多(Velocity)。檔案資源以文本類為主,還有大量的音視頻檔案、照片圖片檔案、圖紙、憑證檔案、地理信息、網絡日志等,都是非結構化數據,描述這些檔案資源的元數據又是結構化數據。海量結構化數據與非結構化數據的混合正是傳統數據處理難以解決的問題,符合大數據的多樣性特征。
③檔案價值高,但價值密度低(Variety)。檔案留存著社會的歷史記憶,具有很高的歷史價值。然而對當前應用來說,海量檔案信息,每次可能利用的數據非常少,存在著價值密度低的特點。如視頻,連續不間斷攝制過程中,可能有用的數據僅僅有一兩秒,這些檔案信息蘊含著巨大的潛能,需要人員、流程與技術的密切配合,方能將其轉化為更大的真正價值。
④處理速度要求高(Veracity)。大數據要求實時或近乎實時的處理速度,這對企事業單位來說沒問題,對于國家檔案館來說好像要求過高,其實不然,傳統檔案利用方式是被動地等待用戶來查找原始信息,給社會留下“故紙堆”的印象,如果改被動服務為及時、準確地主動服務,這種主動服務不僅提供檔案原始信息,還應提供BI、預測分析、內容分析、輔助決策分析等。
2 大數據給檔案館帶來的影響分析
2.1 大數據技術給檔案館發展帶來的機遇
從資源角度而言,檔案是社會組織和個人在社會實踐活動中直接形成的具有清晰、確定的原始記錄作用的固化信息。大數據時代,檔案概念存在著嚴重的泛化問題,很多之前不能被稱之為檔案的信息在大數據時代都可能變成檔案,這就造成了檔案數量的急劇增長,“每一條記錄都將變成具有長期保存價值的檔案,這些單位價值密度低的記錄信息將作為不可分割的整體來發揮檔案的價值。這也就意味著”一切具有保存價值的文件、數據、視頻、實物都將視為檔案,基于信息系統的電子文件在形成之后‘一秒鐘即形成‘電子檔案”。檔案館將“更多地關注一些底層化、碎片化、復雜化的信息。
(2)從管理角度而言,大數據時代的到來,推動了檔案管理的變革。不同于傳統的手工管理,大數據時代的檔案管理將在云平臺上建設云檔案系統,實現云存儲,檔案館傳統的“收管用”也將發生變化,“收”是將數據實時、自動歸集,“管”是將采用云平臺存儲、計算、分析,“用”則是分析、發現與預測,為社會、企業創造價值。從大量數據中分析潛在的價值,決定著大數據時代檔案館的發展水平及方向,這就意味著大數據時代,“檔案館的傳統業務將向檔案資源的數據分析、數據挖掘方向轉移,對大量數據的分析與處理將成為檔案館的主要業務。
(3)從服務角度而言,大數據時代檔案館的服務內容、服務方式、服務目的均將發生改變。檔案服務將“朝著社會化、多元化、開放性和先進性發展,以企業、客戶個性化的需求為導向,提供網絡化、智能化服務。大數據的發展將實現真正的個性化服務,“不僅提供用戶所需要的信息,還通過對用戶需求進行分析,提供基于海量分布式資源的精細化知識組織輸出,實現“信息+解決方案”的一站式服務。
(4)從思維角度而言,大數據時代的到來,將從多個方面變革傳統的檔案館思維模式,為檔案館管理、服務及業務理念帶來顛覆性的變化。管理思維上,將推動檔案館從經驗驅動到循數管理的轉變,讓“數據說出話來”;服務思維上,檔案館的服務理念將實現從供給導向到需求導向的轉變,實現從資源密集型服務到服務主導型的轉變;業務思維上,從追尋“因果律”走向審視“相關性”,從出現問題——邏輯分析——找出因果關系——提出解決方案的逆向思維模式,到收集數據——量化分析——找出相互關系——提出優化方案的正向思維模式轉變。
2.2 檔案館推進大數據的挑戰
2.2.1檔案服務利用方式急需革新
大數據技術發展推動了檔案管理的科學化,在龐大的數據信息源的支持下,檔案館的服務將走向結論化、知識化和智能化,從而改變以往簡單復制、查閱等利用方式,減少了服務過程中的不確定性。而且用戶希望提供個性化、可視化服務,也對檔案部門的服務利用提出了新的需求。大數據時代的發展將實現真正的個性化服務,不僅提供用戶所需要的信息,還通過對用戶需求進行分析,提供基于海量分布式資源的精細化知識組織輸出,即實現信息解決方案的一站式服務。檔案服務方式的革新對檔案館提出了很高的要求。
2.2.2技術的滯后跟不上大數據的發展
檔案館自身技術的滯后也引起了研究者的深刻憂慮。在檔案大數據的檢索方面,“如何在大量的檔案數據中快速而準確地檢索到所需的信息”;在檔案大數據的分析方面,如何實現大數據處理方法和工具的簡易化和自動化;在檔案大數據的展示方面,如何實現最終結果的可視化:在檔案大數據的利用方面,如何在海量數據中抽取和挖掘有用的信息和知識并提供給用戶,進行專業化處理,實現數據“增殖”。這些實質性的問題若得不到妥善的解決,大數據的發展、普及和深入將遭遇嚴峻的挑戰。
2.2.3思維觀念的及時調整
在新事物的推進過程中,還要特別注意不要陷入極端的思維誤區,一般情況下檔案館在推進大數據的過程中容易陷入兩種思維誤區,一種是完全的否定大數據,沒有大數據觀念,無視大數據時代的來臨,不想改變,采取固守原狀的鴕鳥政策;二是泛大數據化,即不加鑒別地收集保存一切數據,從而使得檔案館陷入數據沼澤,數據數量太多進而喪失了自己的特色,此外人才問題也是一個很大的挑戰,檔案專業技術人才及信息技術人才的匱乏將極大地阻礙檔案館大數據的發展。
3 大數據在檔案信息化工作中應用的應對策略
(1)轉變服務觀念。目前大多數檔案部門依然是幾十年前的服務觀念:被動的等待利用者,提供的服務主要還是檔案信息內容,隨著檔案信息化工作的開展,檔案目錄、部分檔案全文經數字化后上網供利用者瀏覽,這是主動服務思想的體現。一些檔案部門也在嘗試開展進一步的主動服務工作,比如,北京房山區提出“基于數據挖掘的檔案信息資源深度開發與利用”等,盡管是傳統的數據倉庫應用,但服務的主動性已經有了很大的提升,是一大進步。
(2)開展檔案數字化工作,提高紙質檔案數字化率,盡可能的將館藏傳統檔案進行數字化,如果數字化率比較低,數據肯定不全有遺漏,抓緊實施電子文件管理工程,進行電子文件收集管理與保存工作,在進行檔案數字化的過程中,由于同一份傳統檔案可能存在多個全宗或立檔單位都存在,在大數據處理前需要進行查重,以免增加超級計算機或服務器集群的負擔。查重有兩種方法。一種方法是利用檔案目錄,各檔案部門基本都已建設自己館藏的檔案條目,先把條目上傳,根據條目比對檔案的重復性,將結果反饋給相應的檔案部門,以一個檔案部門為主進行數字化,其他部門或下載拷貝相關鏈接關聯相應檔案,該方法條目上傳到上一級檔案部門,由上級檔案部門統籌安排進行數字化,該方法的優點是節省資源,有限的資源可以盡可能多地數字化,缺點是協調,統籌不容易。另一種方法則是各部門分別數字化自己的館藏,將數字化結果全部上傳到數據治理計算機,由數據治理計算機進行全文比對查重。該方法優點是比對準確,缺點是資源有所浪費,同時加重了數據治理服務器的負擔。兩種各有利弊,應當靈活使用。
規劃全國性或區域性的檔案資源云服務。大數據的基礎是云計算,同時檔案信息資源的整合也應該建立在云計算基礎之上,可以考慮建設全國或區域性的公有云,實現全國或區域內檔案條目的集中與共享,實現查重檔案的存放與共享,甚至可以實現區域內所有電子文件、數字檔案的存儲,下級檔案部門保留檔案鏈接地址即可。這樣的前提是訪問公有云的是高速網絡。公有云下,區域內檔案部門可以建設自己的私有云。檔案云資源的建設使得大數據平臺有了強有力的數據支撐。
(4)提升檔案工作員工綜合素養。要建設檔案強國,首先要建立一支與檔案強國相匹配的檔案工作員工隊伍,特別是大數據時代,檔案工作不再是原先的裝裝訂訂,檔案利用也不是簡單的查閱,檔案人員應從數據的視角看待檔案,以大數據推動檔案館的管理和服務。這也對檔案人員提出了更高的要求,大數據時代,檔案館人員要努力向“數據科學家”轉變,大力提升綜合技能,一是具備一定數學知識能夠建數據模型,二是能夠利用信息技術建數據模型分析系統,三是處理數據,得出結論和自己的見解。
(5)加強檔案資源集群建設,打造數據資源平臺。大數據時代,各檔案館之間互聯互通,實現館藏資源共享,打造集群檔案資源和數據平臺意義重大。尤其在當前,許多檔案館本身館藏數據都分散在互不聯通的數據庫中,如何將這些數據庫打通,實現各數據庫乃至各檔案館間的資源共享,才能提升檔案工作的大數據水平,才能充分體現出館藏數據的價值,檔案館之間的合作也可以實現優勢互補,最大范圍的實現價值最大化。從信息技術層面來看,科學利用云計算技術,將我國各檔案館資源進行整合集成,打造并建設中國檔案云,將可以實現這一目標,因此我國檔案部門必須大力推進信息化建設,為大數據時代的檔案工作奠定堅實的信息化基礎條件。
(6)創新檔案服務方式,加快市場化開放進程。大數據時代的到來,使得一些原本模糊的因素得以清晰的顯現,大數據對檔案工作的影響還體現在服務職能化層面上,隨著信息技術的不斷發展,檔案服務更有針對性、更為準確、更能滿足用戶的想法和需求。換言之,檔案服務方式將升級為數據服務,大數據時代,閱覽、咨詢、展覽等傳統檔案服務將得到變革,而以館藏為基礎,為社會提供數據分析服務、數據挖掘服務將成為大數據時代檔案的常態服務內容,如何將孤立的檔案聯系起來,讓檔案活起來,形成一個綜合的智能化的系統,這個系統能夠為需求者提供全面的服務,將是檔案管理者面對的直接挑戰,也是最嚴峻的挑戰。
4 結語
在大數據時代,對信息資源的開發利用能力已經成為國際競爭力以及國家綜合實力的重要因素,當全球范圍內數據成為國家資產、創新前沿,要實現數據治國,數據強國,檔案部門應該勇挑重擔,轉變思維觀念,轉變管理職能,由“管檔案”向“管數據”拓展,制定大數據戰略,創造高效、靈活的云環境,借助基于云的平臺,從可信賴的數據源中捕獲和提取結構化、半結構化和非結構化數據,優先處理最重要的數據,確定需保留的內容和保管期限。通過整合現有檔案館藏資源,進行數據分析和數據挖掘,把檔案資源轉化為知識資源,尤其是覆蓋人民群眾的知識資源,對個人來說,大數據技術提高了檢索信息的效率;對企業來說,利用這些資源增加競爭能力,提高決策的科學性;對政府部門來說,使大數據成為國家宏觀調控、社會治理的信息基礎,提高執政為民的質量和影響力。
參考文獻
[1]魯德武.試述檔案大數據的定義、特征及核心內容.檔案,2014(4):13-15
[2]周楓.國內檔案學領域“大數據”研究述評.檔案,2014(6):9-12
[3]石俊峰,周俐霞,付雙雙.大數據時代數字檔案資源管理研究現狀與趨勢分析,信息安全與通信保密,2014(5):87-93
[4]劉國華,李澤鋒.檔案工作中大數據框架構建及應用思考,2014(2):32-34
[5]王鐵牛.大數據檔案學國內研究現狀及研究方向分析.檔案研究,2015(3):107-110
[6]鄒華英.試論大數據時代的檔案工作.檔案事業管理,2013(12):4-5
[7]張芳霖,唐霜.大數據影響下檔案學發展趨勢的思考.檔案學通訊,2014(1):9-13
[8]陳南.淺析檔案大數據時代的必然性及其給檔案管理帶來的機遇.治黃科技信息,2015(12):26-29
[9]王蘭成,劉曉亮.網上數字檔案大數據分析中的知識挖掘技術研究.浙江檔案,2013(11):14-19
[10]高茂科.對檔案大數據關鍵環節的認識.中國檔案,2013(10):72-73
[11]丁國勇.大數據時代對檔案工作影響及應對策略研究.蘭臺世界,2014(6):42-43
作者簡介
臧茜玉(1993-),女,漢族,籍貫:安徽省蚌埠人,上海大學圖書情報檔案系,15級在讀研究生碩士學位,專業:圖書情報,研究方向:檔案學基礎理論研究。