劉國華,李澤鋒


摘 要:依據大數據定義,簡要分析檔案資源符合大數據特征,構建檔案工作中的大數據框架,指出目前檔案工作開展大數據條件尚不具備,但應從服務觀念、檔案信息質量、檔案資源云平臺構建三個方面為大數據應用做好準備,并以鄭州市為案例分析了大數據試點的研究思路與實施路徑。
關鍵詞:大數據;檔案信息化;主動服務
1 大數據研究現狀
1.1 大數據含義。大數據(big data),或稱“巨量資料”,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到獲取、管理、處理并整理成為幫助企業經營決策更積極目的的數據,即不能用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法。[1]亞馬遜網絡服務(AWS)、大數據科學家JohnRauser提到一個簡單定義:大數據就是任何超過一臺計算機處理能力的龐大數據量。[2]
上述定義盡管表述不完全一致,如何定義大數據到目前為止仍然沒有具體的標準形態,但基本體現了大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
1.2 研究現狀。通過對CNKI以大數據為主題詞檢索,得到相關文獻4434條。進一步縮小范圍,在圖書情報與檔案一級學科中檢索,獲得文獻39篇,其中檔案學方面文章2篇。這些文章研究角度各異,或從圖書館服務角度,或從競爭情報角度等,偏重于圖書情報二級學科。檔案學方面,周楓[3]剖析了大數據給檔案館帶來的影響,并據此提出了大數據時代檔案館生存與發展的相關策略;李小晨[4]介紹了在檔案管理中運用大數據技術的策略。
國外對大數據研究較深,檔案領域中也已有實際應用。如EMC與梵蒂岡檔案館合作將82000件珍貴古代手稿數字化,通過大數據讓更多人通過互聯網閱讀原版手稿。[5]
從以上分析可以看出,大數據已成為我國信息研究方面的熱點,但在檔案學方面的研究尚未開始。本文擬從大數據與檔案工作的關系、架構、實施可行性等方面進行分析,并就大數據在檔案工作進行試點展開討論。
2 大數據框架構建
2.1 檔案資源符合大數據特征
(1)檔案數據體量巨大(Volume)。目前,單個國家綜合檔案館檔案資源總量基本達到了TB級,考慮到每個檔案館檔案資源的不同,以及各類檔案部門保存的檔案數量,必將達到PB級甚至EB級。據統計,2011年,各級國家檔案館館藏已達3.3億卷,到2020年,館藏將達到6億多卷。[6]如果加上企事業各類檔案部門館藏,將是一個海量資源庫。
目前,各類檔案館正在開展數字化建設與電子文件管理,進行資源整合。如,鄭州市檔案館擬對850萬卷檔案進行數字化,并對鄭州市所屬5區6縣的檔案資源建設統一的資源整合平臺。
(2)檔案資源種類繁多(Variety)。檔案資源以文本類為主,還有大量的音視頻檔案、照片圖片檔案、圖紙、憑證檔案、地理信息、網絡日志等,都是非結構化數據,描述這些檔案資源的元數據又是結構化數據。海量結構化數據與非結構化數據的混合正是傳統數據處理難以解決的問題,符合大數據的多樣性特征。
(3)檔案價值高,但價值密度低。檔案留存著社會的歷史記憶,具有很高的歷史價值。然而對當前應用來說,海量檔案信息,每次可能利用的數據非常少,存在著價值密度低的特點。如視頻,連續不間斷攝制過程中,可能有用的數據僅僅有一兩秒。這些檔案信息蘊含著巨大潛能,需要人員、流程與技術的密切配合,方能將其轉化為更大的真正價值。
(4)處理速度要求高。大數據要求實時或近乎實時的處理速度,這對企事業單位來說沒問題,對于國家檔案館來說好像要求過高,其實不然。傳統檔案利用方式是被動等待用戶來查找原始信息,給社會留下“故紙堆”印象。如果改被動服務為及時、準確的主動服務,這種主動服務不僅提供檔案原始信息,還應提供BI、預測分析、內容分析、輔助決策分析等。
2.2 檔案工作中大數據架構分析。其實大數據并不是現在才有的,也并不神秘,古已有之。檔案學中的檔案編纂與編研實際上就是大數據的處理過程,如,檔案編研工作的一般程序是選題、選材、加工編輯、總纂與審核。其中選材包括搜集素材、確定素材與考訂素材三個步驟。這個過程是人工處理,在浩瀚的檔案中選取合適的數據不是一件容易的事,有時還需要到其他檔案館去查找,這是一個長期而艱巨的任務,往往需要幾個月甚至數年去完成。
在信息化時代,可以依托信息技術構建大數據處理流程,如圖1所示。
圖1 大數據處理流程
圖1中,數據源是各檔案館館藏檔案資源,這些館藏資源應該是數字化結果或電子文件。目前,各級各類檔案館正在大力開展檔案數字化與電子文件管理項目建設,為大數據數據源奠定了基礎。為順利實現下一步信息整合與治理,應在標準基礎上構建全國性電子文件與數字化成果管理與服務體系,如基于OAIS的全國性管理體系。[7]
高速網絡則是為了海量檔案資源的傳輸。以TB甚至PB級的數據依賴Internet傳輸將耗費太長時間,數據容易丟失,必須以High-Performance Networks(如UltraScience Net、ESnet5/OSCARS等)為基礎,以便順利將數據傳輸集中于一個大的服務器集群進行信息整合與治理、大數據處理。
信息整合與治理則是在超級計算機或服務器集群中對傳輸來的各級各類檔案數據進行數據質量治理并管理信息生命周期。通過聚類、相似性分析等分析檔案數據間的有機聯系。
大數據處理包含語境搜索、數據倉庫、Hadoop系統。語境搜索指對檔案信息進行索引與聯邦搜索,在上一步信息整合基礎上進一步實現上下文協作洞察。數據倉庫是檔案數據按照預定規則進行存儲,進行先進的數據庫內分析。Hadoop系統是一個分布式基礎架構,實現一個分布式文件系統,適合超大數據集即大數據,可以經濟高效方式分析PB級的結構化與非結構化信息。
可視化顯示利用最佳的可視化組合,收集、提取并探索大數據的處理結果。
數據分析包括BI報告、預測分析、內容分析、輔助決策分析等。在國家級檔案館,內容分析是主要工作;在企事業單位,預測、BI、輔助決策更為有幫助。
將上面內容整合,可以得到圖2所示的檔案信息大數據平臺框架。
圖2 檔案信息大數據平臺框架
3 大數據在檔案信息化工作中應用的思考
3.1 可行性分析。盡管從理論上分析了檔案信息大數據平臺框架,但目前實施還是有相當的難度。實施大數據戰略需要“數據到位+應用明確+手段成熟”的三位一體的戰略。這三個條件缺一不可,也即大數據發展的關鍵要素一是要擁有足夠多的大數據,二是要有迫切且明確的大數據研究需求推動,三是要有一定的技術積累和成熟度。
從這三個條件來看,檔案部門準備得并不充分。檔案館具有足夠多的數據,但這些數據大部分以傳統介質存在,檔案數字化并沒有覆蓋所有館藏,電子文件管理剛開始走上正軌起步,大數據收集最重要,但這是一件長期且困難的事情。檔案部門長期以來利用思想是提供原始信息的被動查詢,還談不上迫切且明確的大數據研究需求,即使在企事業單位,檔案部門也很難做到主動提供服務,利用好大數據,依然需要敏銳的洞察和創新的思維,這是檔案部門比較欠缺的。一定的技術積累與成熟度對于檔案部門目前更是困難。
綜合上述分析,大數據目前在我國檔案部門開展有相當大的難度。如果依靠檔案部門自己,目前幾乎是不可行的。但并不表示面對大數據,檔案部門無所作為,可以做好迎接大數據的準備工作,同時借助外力開展試點工作。
3.2 做好大數據應用準備
(1)轉變服務觀念。目前大多數檔案部門依然是幾十年前的服務觀念:被動等待利用者。提供的服務主要還是檔案信息內容。隨著檔案信息化工作的開展,檔案目錄、部分檔案全文經數字化后上網供利用者瀏覽,這是主動服務思想的體現。一些檔案部門也在嘗試開展進一步的主動服務工作,如,北京房山區提出“基于數據挖掘的檔案信息資源深度開發與利用”等,盡管是傳統的數據倉庫應用,但服務的主動性已有了很大提升。
面對大數據,這種轉變尚不夠。大數據數據量大、查詢分析復雜,更重要的是精準把握利用者的需求。然而利用者很多時候并不知道準確的需求,需要檔案管理人員主動深入了解業務,明確需求,準備相應數據,尤其對企事業單位檔案部門更應該如此。
(2)治理檔案質量。治理檔案質量,首先是數量。各級檔案館應繼續大力開展檔案數字化項目,盡可能將館藏傳統檔案進行數字化,如果數字化率較低,數據肯定不全有遺漏;抓緊實施電子文件管理工程,進行電子文件收集管理與保存工作。
由于與載體的不可分離,同一份傳統檔案可能在多個全宗或立檔單位都存在,在大數據處理前需要查重,以免增加超級計算機或服務器集群的負擔。查重有兩種方法,一是利用檔案目錄。各檔案部門基本都已建設自己館藏的檔案條目,先把條目上傳,根據條目比對檔案的重復性,將結果反饋給相應檔案部門。以一個檔案部門為主進行數字化,其他部門或下載拷貝或通過鏈接關聯相應檔案。該方法條目上傳到上一級檔案部門(如省級檔案館甚至國家檔案局),由上級檔案部門統籌安排數字化。該方法優點是節省資源,有限的資源可以盡可能多地數字化,缺點是協調、統籌不容易。另一種方法則是各部門分別數字化自己的館藏,將數字化結果全部上傳到數據治理計算機,由數據治理計算機進行全文比對查重。該方法優點是比對準確,缺點是資源有所浪費,同時加重了數據治理服務器的負擔。
(3)規劃全國性或區域性的檔案資源云服務。
大數據的基礎是云計算,同時檔案信息資源的整合也應該建立在云計算基礎之上,可以考慮建設全國或區域性的公有云,實現全國或區域內檔案條目的集中與共享,實現查重檔案的存放與共享,甚至可以實現區域內所有電子文件、數字檔案的存儲,下級檔案部門保留檔案鏈接地址即可。這樣的前提是訪問公有云是高速網絡。公有云下,區域內檔案部門可以建設自己的私有云。檔案云資源的建設使得大數據平臺有了強有力的數據支撐。
(4)借助外力,試點開展大數據研究。本文以鄭州市為案例,簡要分析開展大數據的試點研究路徑。鄭州市新檔案館2011年建成,信息化建設較為完備,構建了涵蓋鄭州市下轄6區5縣的檔案信息整合平臺??梢钥紤]以此為公有云基礎,將6區5縣檔案館藏目錄及數字化成果納入進來,對檔案信息進行整合。鄭州大學建設了高性能計算中心,包含90個瘦計算節點、10個胖計算節點,共2336個計算核心,理論峰值49.7萬億次,56GbIB計算網絡,以此作為服務器集群硬件進行信息治理與大數據計算。河南教育網(Hernet)于2014年建設成10G光網絡,鄭州市新檔案館通過Hernet(河南教育網)將數據傳輸到鄭州大學,依托鄭州大學進行大數據試點處理。處理結果通過河南教育網傳輸到鄭州市檔案局,提請專家分析數據。假定要分析研究鄭州市霧霾形成原因及變化,可采取以下大數據試點研究路徑:6區5縣的工業信息、汽車信息等理論上形成霧霾原因的相關信息—河南教育網—鄭州市新館信息平臺—查重—河南教育網—鄭州大學高性能計算中心—河南教育網—鄭州市新館服務器集群—專家分析—分析報告、輔助決策。這樣一個過程還需要分析建模,并作更進一步的研究。
﹡本文是國家社科基金項目“檔案網站信息資源開發與服務(09BTQ029)”階段性成果。
參考文獻:
[1]維克托·邁爾-舍爾維恩、肯尼斯·庫克耶.《大數據時代》[M].杭州:浙江人民出版社,2013:39.
[2]一個亞馬遜數據科學家關于大數據時代的職業分析.http://www.itongji.cn/article/0Z22H12013.html(檢索日期:2013年12月20日).
[3]周楓.大數據時代檔案館的特征及發展策略[J].檔案與建設,2013(8).
[4]李小晨.大數據時代背景下的檔案管理探討[J].云南檔案,2013(6).
[5]EMC:大數據先鋒,http://china.emc.com/microsites/bigdata2013W3/index.htm?reg=IN1&M=06388987-2697-4CE4-A2E0-764926E1C82F.
[6]楊冬權.關于隨館藏數量增加而相應增加各級國家檔案館人員編制的提案[N].中國檔案報,2013-3-7,第001版.
[7]李澤鋒.基于OAIS的電子文件服務體系構建[J].檔案學通訊,2011(7).
(作者單位:鄭州航空工業管理學院 來稿日期:2013-12-20)