摘 要:大數據時代數字檔案以指數型倍數暴增,數字資源易獲取但長期保存難度大,數字資源生命周期短、計算機載體依附等特點使其比紙質資源面臨更多風險。本文通過分析大數據時代數字資源長期保存的價值,結合其存在數據結構、技術、資金等問題,提出健全法律建設、加大人才技術投入、完善備份等對策,為推動數字資源長期保存工作提供借鑒。
關鍵詞:大數據;檔案;數字資源;長期保存
大數據時代海量的數字資源使得傳統存儲方式不足以適應社會的發展,數字資源的普及程度逐漸超越紙質資源,其獨有的優勢和特點以及重要價值日趨凸顯,同時也引發了對數字資源存儲工作的深入研究。2010年,耶魯大學完成了純電子本E-only的推行,我國中科院已經大規模減少紙質期刊[1]。數字資源生命周期短,為了在未來數字資源可以方便被讀取、理解、利用,數字資源長期保存凸顯其更高的必要性和價值性。
1 大數據及數字資源長期保存相關概述
1)大數據概述。大數據概念源于20世紀80年代,《大數據時代》中定義大數據為“不用隨機分析法而采用;所有數據進行分析處理”;麥肯錫研究所對大數據定義是指一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據軟件工具能力范圍的數據集合,其具有4V特征,即數據量大、流轉速度快、類型多樣性、價值密度低[2]。大數據涵蓋了技術、資源和思維三個維度,其本質意義在于對數據進行加工處理挖掘數據的潛在價值。
2)數字資源長期保存概述。數字資源主要指進行了一定程度加工且相對獨立的數字資源系統,無序的和自身沒有控制的資源不屬于數字資源[3],包括聲音、文字、圖像、視頻等多源異構數據。數字資源長期保存是指保證數字比特流(或數字資源)可撐起維護和內容可長期獲取必要的管理活動。[4]數字資源長期保存是數字資源的長期保管并且保證其完整性有效性,確保數字資源的可持續利用,具有長期儲存(storage)和長期可獲取(access)性。
2 數字資源長期保存的必要性和價值性
1)數字資源長期保存的必要性。數字資源以及數字資源保存系統的更新迭代,導致數字信息的不可讀取丟失;其次,數字信息存在易被篡改的脆弱性以及受到自然災害、人為因素影響遭到破壞,對數字資源妥善長期保存的要求相應提高。
2)數字資源長期保存的價值性。從理論價值來說,檔案傳承著人類文明的發展,是社會進步重要的文化瑰寶,是人類智慧的結晶,檔案數字資源亦如此。可持續性地利用檔案數字資源,汲取前人的智力成果,傳承人類的思想,從而推進社會的持續創新。從現實價值來說,檔案數字資源長期存儲和利用為科研人員提供參考資料,為學術研究提供淵源的理論基礎。檔案數字資源長期存儲研究促進文獻資源能夠更加便捷地服務于社會,不僅能夠長期完整、安全地保存檔案資源,同時也能長期穩定地為后代研究提供利用借鑒。
3 數字資源長期保存面臨的主要問題
1)數據的多源異構性,限制數字資源廣泛利用。業務系統和數據管理系統的多樣性、差異性,以及人為數據管理的習慣性,導致各個部門累積了批量的不同格式的數據。從單一文件數據到繁雜的系統數據庫,從網頁信息、音頻、聲像數據到視頻等,數據多源異構要求機構必須對批量數據進行統一的轉碼、處理、加工,從而使數據盡量結構統一,打通數據壁壘,并適用于各個機構部門。然而,當前很多存儲系統架構及軟件無法滿足檔案數字資源指數暴增的態勢,需要開發新的系統架構來滿足現在以及未來的數據要求。
2)存儲設備的局限性,促使數字資源保存的不穩定。存儲設備更新迭代速度快的特點導致存儲設備兼容性差,設備工作環境的物理環境不當也會造成設施損壞。數字媒介比傳統的膠片、紙質圖書生命周期更短[5]。設備是數字資源的長期保存的載體,長期穩定的存儲離不開對存儲設備的定期維護、保養和更新。云存儲是當前流行的存儲方式,但第三方數字存儲機構存在風險導致數據丟失,如360云盤服務器停止服務導致用戶存在云盤里的資源遭到不同程度的損壞。
3)技術要求不斷升級,促使資源長期保存面臨新挑戰。數字資源長期保存技術設計數據抽取、通用計算機虛擬(UVC)、數字再造技術等[6]。存儲器是數字檔案資源存儲重要性影響因素,其存儲的質量關系到數字檔案的安全性。云儲存技術、區塊鏈技術當前尚未成熟,存在數據安全和隱私性問題。因此數字資源長期存儲所依靠的優質環境離不開安全技術的不斷提升來充分保障存儲系統的安全穩定。
4)資金投入不足,阻礙資源長期保存策略進程。數字資源長期存儲的投入包括設施、人力技術、維護等費用,為采用最低的成本存儲最有價值的信息,數字保存機構會對長期存儲的數字資源數量進行限制。制定合理的存儲策略,吸納有利的資金支持,也是長期保存工作的重點。
4 檔案數字資源長期保存實施路徑
1)建立健全檔案數字資源相關法律法規建設。法律法規可以有效保護數字資源的長期保存。目前,檔案數字資源相關法律法規相對滯后,《檔案法》的修訂草案還未正式實施。同時,法律用詞較籠統模糊,操作性不強,主觀性強。因此,重視檔案數字資源長期保存的法制建設,提升法律的規范性與可操作性,明確檔案數字資源“保存什么”、“有誰保存”、“如何保存”等[7],規范數字資源的安全標準和法律措施,為數字資源的長期保存提供有力的保障。
2)推進數字資源保存技術與存儲模式的深入研究。大數據、云計算、AI技術的快速發展推動了檔案數字資源的長期存儲的發展,同時也對檔案數字資源的存儲安全、信息隱私、數據真實性帶來了挑戰。數據安全方面,加強計算機防火墻與防病毒防御功能,開發新存儲系統,將存儲系統與外界網絡斷開。推進大數據存儲模式探究,大數據存儲意指將數據集合存儲在計算機中實現長期可持續可利用。在數據開放的范圍內,數據資源對公眾是透明開并且可以隨時隨地使用數字資源。而在該種模式下,需要各部門共同合作,將有價值的數字資源存儲在大數據系統中。
3)制定合理的檔案數據備份與恢復策略。備份工作是檔案數據信息系統的日常管理的重點,需要構建科學完善的數據備份和恢復機制來避免數字資源災害造成的危害[8]。檔案數字資源的安全隱患主要來源于自然災害和人為因素兩方面,因此,定期做好備份并完善恢復系統極其重要。
5 結語
檔案數字資源長期保存是一項持續且復雜的系統性工程,需要法律、人才、科技、資金等方面的支持。在緊跟大數據的發展步伐、規避傳統存儲方式的問題的同時,也要規避大數據、人工智能等新技術的弊端。檔案數字資源長期保存需要制訂靈活、合理的存儲策略,確保有價值的檔案資源和人類記憶在大數據技術的支持下能有效地長期保存。
參考文獻
[1]朱學武.網絡環境下圖書館數字資源的整合與利用[J].圖書館學刊,2009,21(2):82-83.
[2]張云麗.大數據背景下企業會計信息化研究[J].現代商貿工業,2018,39(29):104-105.
[3]馬文峰.數字資源整合研究[J].中國圖書館學報,2002(4):64-67.
[4]8.RLG.Trusted Digital Repositories:Attributes and Responsibilities[EB/OL].[2019-12-10].http://www.rlg.org/longterm/repositories.pdf
[5]張容,李勇文.長久保存數字資源的文件格式互操作探析[J].山西檔案,2017(06):75-77.
[6]劉曉英.大數據時代圖書館數字資源長期保存問題研究[J].圖書館(7期):90-96.
[7]祁天嬌.美國數字檔案資源長期保存戰略的分析與啟示[J].檔案學研究,2019,166(01):110-115.
[8]吳筱貞.大數據時代構建數字檔案資源安全保障體系探究[J].黑龍江檔案,2017(02):52.
作者簡介
方俠(1993-),女,漢族,安徽黃山,研究生在讀,檔案基礎理論與檔案管理現代化。