摘 要:大數據背景下,檔案館的服務模式與應用將會發生改變。首先介紹大數據時代檔案館所面臨的時代背景;接著分析大數據背景下檔案服務的問題與挑戰,最后提出相應的應對途徑與方法,以期為開展大數據檔案服務提供借鑒和參考。
關鍵詞:大數據 檔案服務;數據挖掘
1 大數據與檔案服務應用
大數據是一場革命,將改變我們的生活、工作和思維方式。大數據并無統一定義,一般認為由巨量的結構與非結構化數據組成。通常以“4V”特征或稱為維度對大數據進行描述性解釋:規模(Volume)指數據的數量規模巨大;類型(Variety)指數據類型多樣復雜,混合結構化與非結構化的多種類型;實時(Velocity)一方面是數據增長速度快,另一方面是要求在合理的時間內訪問、處理數據;價值(Value)反映了數據中隱含著價值轉化。大數據發展的最終目標是挖掘數據的應用價值,其重點在于數據的分析和服務應用,“大”不過是信息技術不斷發展所產生的海量數據的表象而已。
隨著數字檔案館的興起,檔案網絡服務得到應用與普及,數字化檔案、檔案數據庫的種類、數量不斷攀升,成為檔案資源數據的重要增長點,已經達到海量數據規模。另外,檔案數據中存在大量的非結構化數據,包括各類照片檔案、錄音檔案、錄像檔案、文書文檔、電子表格等,以數字形式作為文件或錄入數據庫存儲,符合當前大數據的“4V”基本特征。然而,這些檔案數據資源遠未得到有效與相應的服務利用程度。隨著大數據技術的發展與應用,必然需要檔案館進一步從大量的檔案信息中分析和挖掘數據的價值,要求檔案館在服務模式、資源利用方式等方面作出相應調整與改變。因此,探索大數據對檔案館服務應用產生的影響以及應用大數據思維方法拓展檔案服務是亟須思考和解決的問題。
2 大數據檔案服務應用的需求與挑戰
大數據背景下,檔案數據類型多樣、數量眾多,檔案數據存儲分析處理技術、環境與條件的變化導致了其服務應用面臨著新的需求與挑戰,體現在以下幾個方面:
(一)檔案數據存儲與備份受到挑戰 檔案數據量已經可達到相當級別的數據規模,并且數據量在不斷增長,這就對數據存儲系統的擴展能力要求不斷提高。檔案館的數據存儲已不止于結構化的二維信息,各類圖像、音頻、視頻、網頁等非結構化數據來源與數量也在不斷增加,會出現類似傳統檔案管理時的“脹庫”問題。同時,必須解決大規模檔案數據的安全備份問題,而且在實踐中通常會伴隨存儲管理復雜、存儲利用率低下、存儲能源消耗巨大等問題。這就必須應用合理可行的集群存儲方案,優化存儲提高效率和節約成本,運用高效存儲技術,比如數據壓縮、自動精簡配置、自動分層存儲、存儲虛擬化等解決或緩解這些難題。
(二)檔案數據加工分析能力亟待加強 檔案建設慣用“倉儲”方式,工作重心是征集接收保管檔案。近些年雖然也強調檔案的數字化工作,但加工與分析處理檔案資源的能力嚴重不足,大量的檔案資源的價值得不到有效體現利用。隨著信息化進程不斷推進,相對大眾網站與其他信息機構,擁有海量社會價值信息的檔案館地位作用正在被不斷弱化與邊緣化。大數據的目標在于數據價值的發現,迫切需要利用數據挖掘、機器學習技術與工具從檔案數據中獲取有價值的檔案知識。通過數據的整合共享,交叉復用提升檔案館的智力資源和知識處理加工能力。
(三)檔案服務方式與內容發生變化 傳統的信息服務模式和內容雖然能夠滿足用戶的基本要求,但在大數據時代下關注個體的服務需求明顯。信息服務的方式和內容以為用戶提供個性化、精準化知識服務為目的,強調用戶體驗與知識發現。用戶在面對海量的檔案資源時,如何準確快捷地檢索利用檔案,需要檔案館為用戶提供綜合一站式的服務體系,良好的用戶體驗,并且具備個性化服務、語義化服務、社交網絡以及數據可視化等服務應用能力。
(四)檔案數據隱私安全需求不斷增長 數據開放已成為檔案館發展的必然選擇,但檔案數據中存在各種敏感信息與隱私信息,比如健康檔案、醫療檔案,開發和利用會涉及到檔案信息的安全問題。如何協調處理數據隱私與數據開放之間的矛盾,在開發利用檔案的同時保護隱私敏感數據就顯得格外重要,必然要在傳統的用戶準入控制、權限驗證等安全技術的基礎上,利用安全多方計算、數據模糊、數據加密檢索等隱私保護技術提高數據的安全性與可控性。同時,通過制定完善檔案安全管理法規制度,明確檔案的使用權限,控制和應對未來的潛在風險,健全人防、物防、技防三位一體的檔案數據安全防范體系,以防止失泄密問題發生。
3 開展檔案大數據服務應用的途徑方法
(一)轉變觀念,拓展服務理念 大數據背景下,促進信息的開放、交流與共享是開展深度信息服務的大勢所趨。如果檔案館仍然故步自封、無所作為,不突破傳統服務理念與服務范圍的局限,那么檔案館會失去大數據發展機遇,作用地位會被不斷弱化。檔案館要拓展服務應用內容與范圍,實行開放性服務,緊跟社會發展與用戶需求主動調整服務應用模式。利用互聯網與移動網絡拓展服務領域,延伸服務范圍至社會各領域的用戶與單位。這就對檔案館員提出了更多要求:(1)處理加工數據的能力,能夠利用數據挖掘技術工具分析數據;(2)研判見解,能夠從數據中講道理、作解釋、說故事,能夠從數據的角度看待檔案,以大數據理念推動檔案館的服務應用。
(二)個性化服務應用體系 個性化服務依據各種渠道方法對資源進行收集、整理和分類,根據用戶需求、習慣和行為方式提供和推薦相關信息和個性化的應用環境,滿足用戶需求。從整體上說,個性化服務打破了傳統的被動服務模式,能夠充分利用各種資源優勢,主動開展滿足用戶個性化需求為目的的全方位服務。檔案館要面向社會用戶,以需求為著眼點,以技術為手段,發展基于檔案數據的知識化產品化服務。大數據時代,所有信息機構都想獲得并充分了解用戶需求。將海量的檔案數據進行知識化加工是深層次信息服務的重要模式,也是大數據檔案服務應用的必然選擇。目前,各大檔案館與網站能真正運用數據分析挖掘技術,為用戶提供知識服務的功能還比較薄弱。可以從檔案數據中抽取本體、知識單元,通過語義標注、知識庫構建等方法實現檔案資源知識鏈接形成知識網絡,為語義處理提供支撐,進而通過分類聚類等數據挖掘加工處理從不同角度滿足用戶對檔案知識的需求。同時,可借助微博、微信提供的API接口,獲得更廣泛的用戶數據,通過對用戶需求與檔案數據深層處理分析,利用APP等多種方式搭建起檔案與用戶之間的服務橋梁。
(三)集成檔案數據資源 數據集成把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,采用統一標準管理數據,從而應對大數據數量眾多、類型多樣、來源廣泛等問題給檔案數據管理服務所帶來的挑戰。目前,檔案館的一個重要問題就是檔案資源的分散化與碎片化。館內資源存儲在互不連通的系統或數據庫中,產生大量的數據孤島。孤立的數據是難以發揮出數據價值的,如何連接這些數據,實現資源交互共享,是大數據價值最大化的關鍵。大數據時代,萬物互聯,檔案館不能處于社會信息服務體系之外。檔案館的數據集成不單要在館內實現集成,而且要整合集成不同檔案館間的數據,與圖書館等其他信息機構之間的數據進行連接集成,從而將檔案資源納入大數據社會信息服務應用體系之中,提升檔案利用價值。
為了檔案館事業能夠在大數據時代穩步前進,必須把握與應用大數據思維、方法與技術,探索與創新檔案服務應用的方法與模式,使檔案館信息服務水平不斷得到提高,滿足時代需求。
參考文獻
[1] 舍恩伯格.維克托 大數據時代:生活、工作與思維的大變革[M]. 浙江:人民出版社,2012.
[2] 王蘭成 劉曉亮. 網上數字檔案大數據分析中的知識挖掘技術研究[J]. 北京檔案,2013(10):14-19
[3] 韓翠峰. 大數據帶給圖書館的影響與挑戰[J]. 圖書與情報,2012(5):38-39
[4] 周楓. 大數據時代檔案館的特征及發展策略[J]. 檔案與建設 2013(8):6-9