文·樊樹娟
隨著社會信息化程度的加深,檔案信息資源數量正以前所未有的速度增長,并廣泛存在于政府部門、企事業單位以及個人等不同類型的社會主體中。信息技術的發展使檔案信息更多的以非結構化與半結構化數據的形式產生和保存,檔案數字化進程的加快也使檔案資源的形態快速向數據化轉變,我們正在走向檔案大數據時代。在這一時代背景下,檔案逐漸被視為一種數據資產,其意義并不在于檔案數據資源的龐大占有量,而在于對其所蘊含的信息和知識進行充分開發和利用,像一座“數據礦山”,需要通過各種手段提煉出有價值的信息和知識產品,才能更好地服務于經濟發展和社會進步。
目前,學界對“檔案大數據”的定義仍沒有定論,大多數學者在大數據定義與特征的基礎上進行探討闡釋。有人強調檔案大數據的體量巨大,用目前主流軟件工具在合理時間內無法從中獲取信息[1];有人認為檔案大數據特指檔案中的大數據,是檔案數據的集合[2];有人指出檔案大數據是在檔案業務活動中形成的與檔案相關的數據集[3];也有人從大檔案觀、知識挖掘、思維方法與管理模式等方面來強調檔案大數據與大數據聯系之密切[4]。從不同角度理解,幾位學者的觀點都有其合理性。
從理論探討和實踐嘗試兩方面來看,檔案大數據在生成、管理、開發和利用等方面已經具有大數據的一些基本特性,但其本質仍然是具有原始記錄性的檔案。檔案大數據更像是檔案信息化過程中自然產生的一種現象或檔案工作發展的新樣態,在這一現象發展成熟之前,各界尚無法對其定義進行明確界定。但可以看出,檔案大數據的核心內容是檔案資源,以大規模數據集形式存在,必須借助先進的信息技術手段進行科學管理、智能開發與開放共享式服務,才能充分挖掘數據資源的內涵,發揮潛在的無限價值。
檔案大數據的來源主要有三個方面:一是各類業務系統在運轉過程中直接產生的業務數據流轉成檔案數據,包括電子文件、音視頻文件、系統數據、用戶數據等;二是立卷單位和檔案部門將紙質文件或實物等通過掃描、拍照等方式轉換成電子形式而生成的檔案數據;三是基于網絡平臺而產生的具有保存價值的檔案數據,如電子郵件、社交媒體、各類網站產生的檔案數據。隨著信息化發展的深入,由業務系統生成而流轉到檔案系統的檔案數據與基于網絡平臺產生的檔案數據將成為檔案資源的主流,而且具有歸檔及時、數據量大、數據類型復雜等特點。目前,傳統紙質檔案資源經過數據化處理轉化而成的檔案數據也仍將占據一定的比重。
檔案大數據既具有大數據的一些基本特征,也有其獨特性:
1. 數據體量巨大。社會各領域存量檔案數字化工作持續推進,各類業務系統產生的檔案數據快速累積,加之產生于官方網站、社交媒體等網絡平臺的檔案數據資源也陸續被納入歸檔范圍,檔案部門積累的檔案數據規模越來越大,數據集總量甚至能夠達到PB甚至EB級別。
2. 數據類型復雜。在網絡化環境中,基于各類業務系統與網絡平臺產生的半結構化與非結構化數據逐漸占據主流,特別是社交媒體在生活中的廣泛應用使得照片、音視頻等數據占據了較大比重,檔案大數據類型必然呈現出更加多樣化和復雜性的特點。
3. 數據價值密度高。檔案數據是具有較高完整性、真實性與準確性的數據,其價值不會隨著數據規模的擴張而降低,這是檔案大數據的獨特之處。在檔案內容開發中重視檔案數據的全面性、復雜性與相關性等特征,并在數據關聯的基礎上進行全數據分析反而會更大程度地提升數據價值,進而開發出更高價值密度的信息和知識產品。
4. 數據兼具動態性與穩定性。檔案大數據在數據處理流程上可以實現動態生成與捕獲、實時鑒定與存儲、自動著錄與標引以及智能分析與開放共享,但數據本身的穩定性才能保證其作為檔案的證據與憑證功能。實時的數據流需要經過規范處理才能轉換成有效的檔案數據,如將數據鎖定為不可更改的穩定狀態。
5. 技術依賴性強。檔案大數據的存儲、處理與服務等每一個環節都對信息技術具有強烈的依賴性。以數據驅動技術創新是大數據時代發展的必然趨勢。因數據體量大、結構復雜等特點,目前主流軟件工具已不能完全滿足檔案大數據開發與信息服務方面的需求。盤活檔案數據資產,創新檔案信息服務必將依賴于信息技術的創新與完善。
6. 處理速度快。在信息技術的幫助下,檔案數據在生成、流轉、檢索、分析、查閱、獲取等各個處理環節都能在較短的時間內快速完成。在“數據為王”的時代,數據占有量與數據分析處理速度是決定檔案大數據開發與信息服務效果的關鍵因素。
在大數據時代,從大量檔案數據中分析潛在的價值,決定著檔案館的發展水平及方向。檔案館的傳統業務將向檔案資源的數據分析、數據挖掘方向轉移,對大量數據的分析與處理將成為檔案館進行資源開發與服務的主要方式[5]。基于檔案大數據的信息開發質量與服務水平將成為衡量未來檔案館核心競爭力的重要因素。
面對大數據時代帶來的機遇與挑戰,檔案部門必須積極應對,突破傳統的思維方式,要樹立互聯網思維、數字化思維、數據化思維、客戶化思維[6],用大數據理念重構檔案數據開發與服務思維模式、組織架構與運行方式。
培養大數據思維方式不僅要正確認識檔案大數據規模之大、類型之繁多、結構之復雜,更要認識到檔案大數據管理與開發過程中的一系列原理,比如接受數據的混雜性、重視數據之間的關聯性等。這種思維方式所對應的檔案工作方式與傳統的檔案收集、整理、鑒定、統計、利用等規范化工作流程截然不同,檔案數據收集、鑒定等工作過程將更加動態化與實時性,數據內涵挖掘、信息與知識呈現將成為檔案大數據狀態下檔案工作的重心。
信息社會的發展使公眾的信息權利與需求意識進一步覺醒,以用戶為中心、優化用戶體驗是檔案部門轉變姿態與創新服務模式過程中應遵循的首要理念。在檔案大數據開發過程中要秉承以用戶為中心的原則,利用大數據分析技術分析用戶需求與信息利用偏好,進而根據用戶需求開發有用的知識產品和面向問題解決的信息服務方案,實現檔案利用個性化。
在檔案信息服務過程中要優化用戶體驗,優化檔案資源的可用性、有用性、可找到性、可獲得性、滿意度、可靠性和價值性體驗[7],不斷提高檔案數據資源質量,準確把握檔案信息用戶的動態需求,主動開放共享公眾利用頻次高的檔案信息,或針對檔案利用平臺注冊用戶以及其他老用戶開展檔案信息推送服務,使信息服務更加便捷化、人性化。
大數據時代是讓數據說話的時代。檔案大數據信息服務的核心是以數據為驅動、以技術為支撐,通過數據挖掘、數據分析、數據可視化等工具為用戶提供更有價值的信息與知識,進而提高效益、推動科學管理與決策。檔案數據資源建設是檔案大數據信息服務的基礎。大數據不僅僅是數據量巨大、數據種類繁多,在數據挖掘中更要關注數據之間的關聯性,即數據的整合度與共享度。因此,在檔案數據資源建設方面不僅要重視自身檔案數據積累狀況,更要積極參與推動行業內部甚至全社會范圍內檔案資源的關聯與共享。
檔案部門要進一步深化檔案數字化工作,在此基礎上加快檔案數據化進程,將數字檔案資源轉化成適用于大數據挖掘和分析技術的數據形式。更要加強館際合作,可以通過建立檔案資源庫連接池的方式實現各行業、各系統檔案資源庫的連接,強化數據關聯,實現數字檔案信息資源的整合共享[8]。此外,要重視收集分散產生于各類網絡平臺的網絡數據,網絡數據具有數量龐大、類型多樣和內容繁雜的特點,檔案部門在抓取網絡數據歸檔時需要進行鑒定與審核,保障檔案數據的真實性與準確性。
隨著各行各業積累的檔案數據資源越來越多,加上檔案資源整合與共享程度的提高,未來將形成多個具有海量數據資源的檔案資源庫。如國家檔案局開發的國家開放檔案信息資源共享利用系統自上線以來,全國各省市公共檔案館已經陸續在共享平臺上公開了大量特色檔案資源,全國范圍內的檔案資源整合共享已初見成效。
隨著檔案數據資源的不斷豐富以及公眾查檔需求的不斷增加,利用網絡技術構建多樣化、網絡化的檔案信息服務平臺成為必然需求。如基于大數據技術應用的檔案大數據分析平臺、基于檔案網站的信息公開與智能檢索平臺以及基于移動互聯網終端的檔案服務微平臺等。通過構建多樣化的服務平臺并實現平臺之間的連接互通來整合檔案數據資源,打通檔案數據資源之間的物理隔閡,增強共享融合,將有助于實現檔案數據資源的一站式檢索與智能分析。
網絡化的檔案信息服務方式開啟了互聯網時代檔案遠程服務的新篇章。特別是移動互聯網終端的開發使用,為檔案信息服務的開展提供了更加便捷的工具。移動終端以其存儲量大、攜帶方便、操作簡單、服務快捷、性能更高等優點,拓寬了檔案信息接收途徑和信息服務路徑,并以絕對優勢占據市場有利地位[9]。手機APP、微信公眾號、微信小程序、微博等基于移動終端的工具在公共檔案館和高校檔案館的檔案信息服務工作中已經有較多成功應用的典型。推進互聯網與檔案工作深度融合是檔案信息服務創新發展的未來方向,移動網絡服務方式憑借其便捷性優勢在未來的檔案信息服務中將有更廣泛的應用。
海量檔案數據資源的開發與服務是一項非常復雜的工作,檔案部門雖積累了大量的檔案資源,但其在大數據技術等創新技術應用方面并不具有優勢,數據的開發與信息服務需要引入其他領域專業人員的參與。跨領域、跨機構、跨部門等多種跨界合作對于新時期檔案工作的開展非常必要。通過跨界合作的方式為檔案數據挖掘和數據分析任務靈活匹配高水平的技術人才,既能夠保障數據開發與信息服務的質量,也能夠有效彌補檔案部門各領域專業人才不足的問題。
檔案部門在檔案管理系統開發、檔案數字化、檔案資源開發等方面大多采用與其他單位合作的方式,積累了較多的項目合作經驗。隨著檔案數據資源積累的增多,檔案工作在數據收集、歸檔、大數據技術應用以及信息服務等方方面面的跨界合作將更加普遍。例如在網絡數據采集方面,跨界融合為實現檔案部門、用戶和新媒體等網絡運營商三方協同優化數據歸檔提供了一個前所未有的契機[10]。一方面檔案部門可以與網絡運營商合作研發網絡數據抓取和數據分析技術,實現網絡數據的及時歸檔;另一方面可以發揮社會公眾的力量,調動公眾在檔案數據收集、資源開發和信息服務中的自主性與參與性,讓用戶爭做“市民檔案員”,提高網絡數據采集的全面性。
檔案安全保障體系建設是我國檔案工作“三個體系”建設中的重要一環,檔案實體安全、檔案數據安全、用戶隱私安全、訪問渠道安全等都是檔案部門非常重視的問題。大數據時代環境下的檔案數據安全保障工作必須制定嚴密的風險防范機制,包括檔案數據生成時的前端風險控制、數據流轉過程中的訪問通道安全控制、數據管理過程中的容災備份措施等。檔案數據載體的穩定性、訪問通道的安全性以及網絡系統平臺的開放性等都對檔案數據資源安全管理具有很大的影響。
基于檔案大數據的信息服務在實現檔案信息開放共享和服務便捷化的同時也帶來了信息泄露和侵犯用戶個人隱私等種種安全問題。在檔案工作中,無論是采用跨界合作還是吸引公眾參與的方式,都必須以維護國家機密和個人隱私為前提。涉密信息不上網是基本準則,在此基礎上開展檔案數據分析與檔案信息開放等工作要對檔案數據資源內容進行必要的鑒定與審核。在對大量檔案用戶訪問數據進行挖掘分析過程中,需要注意預防用戶隱私信息的泄露。
大數據技術雖然為檔案數據開發與服務帶來了便利,但其應用要因地制宜,不是所有單位或所有類型的檔案大數據都適合引進大數據技術。檔案部門要根據自身積累的檔案數據體量和內容制定適用的數據開發方案,避免數據開發過程中帶來檔案信息安全問題。
人才是推動檔案工作創新發展的關鍵。檔案工作正處于一個新的業態環境中,工作內容比以往更加豐富也更加復雜,對檔案人員的素質要求更加趨于專業化與精細化。在新的發展時期,檔案工作人員要不斷加強學習,了解信息化背景下的檔案工作新樣態,緊跟時代要求,在自己所熟悉的領域之外涉獵一些其他領域的知識,拓寬眼界,培養大數據思維方式,盡快掌握數據管理、開發與服務方面的理念與方法,適應檔案大數據發展帶來的新的工作流程與方式。
檔案部門在引進人才方面要注重豐富人才的層次與結構,在引進檔案專業人才的同時,著重引進一些大數據管理與應用相關方面的技術型人才。促進不同學科背景與工作技能的人員相互學習與交流,使其不斷強化自身綜合素質,在檔案工作中進一步加強檔案數據資源建設與大數據技術應用,深化數據內涵挖掘力度,更大程度地盤活檔案資源的潛在價值。
檔案大數據的發展代表著檔案領域一種新的數據生成、存儲和處理樣態。如果說檔案數字化是檔案信息化發展的初始階段,檔案數據化則是檔案信息化發展的深化階段,是檔案數字化建設的發展方向。信息技術的發展已經將社會推進到了大數據環境中,檔案數據資源以前所未有的速度不斷形成和累積,是各行各業的檔案部門在信息服務工作中所共同面臨的新局面。基于這樣的局面與發展趨勢,檔案部門必須抓住機遇,多方面做好準備迎接挑戰,在改革與創新中轉變檔案部門一直以來所處的邊緣化的尷尬境地,也讓沉睡已久的檔案在新的社會環境中煥發活力。
★本文為山東省檔案局2016年科技項目“檔案大數據開發和服務機制研究”成果之一。
●
[1] 高茂科.對檔案大數據關鍵環節的認識[J].中國檔案,2013(10):72-73
[2] 魯德武.試述檔案大數據的定義、特征及核心內容[J].檔案,2014(4):13-15
[3] 康蠡,金慧.檔案大數據定義與內涵解析[J].檔案管理,2017(1):24-26
[4] 葉大鳳,黃思棉,劉龍君.當前檔案大數據研究的誤區與重點研究領域思考[J].北京檔案,2015(7):14-17
[5] 周楓.大數據時代檔案館的特征及發展策略[J].檔案與建設,2013(8):6-9
[6] 周玉鵬.“互聯網+”助推檔案服務業發展——全國首屆“‘互聯網+’時代檔案服務業發展高峰論壇”召開[J].中國檔案,2016(3):25
[7] 王毅,魏扣.優化用戶體驗的數字檔案資源服務策略研究[J].檔案學通訊,2017(1):64-69
[8] 米永寧,耿志杰.應用大數據技術開發數字檔案信息資源的現實困境與策略研究[J].北京檔案,2016(11):16-19
[9] 周耀林,賈聰聰.“互聯網+”戰略下數字檔案信息服務發展策略研究——基于SWOT框架的分析選擇[J].檔案學通訊,2016(4):56-61
[10] 王協舟,王露露.“互聯網+”時代檔案工作改革的幾點思考[J].檔案學通訊,2016(5):94-100