譚定平
(重慶圖書館 重慶 400000)
數字資源是信息時代的核心資源,而數字保存是指對數字資源進行長期有效的存取,并實現其長期可獲取性[1]。一個國家的數字資源保存能力代表著其保護人類科技文明記憶的水平,因此數字資源的長期保存問題日益受到各國政府的關注[2]。對于數字資源保存的實踐研究既有利于提升數字資源的保存能力,同時也有助于記憶機構了解和學習其他區域和國家在數字保存方面面臨的挑戰和采取的解決策略。2019年11月29日,加拿大研究型圖書館協會(Canadian Association of Research Libraries,CARL)發布了《2017—2018年加拿大記憶機構數字保存能力與需求調查最終報告》(Final Report of the Survey on Digital Preservation Capacity and Needs at Canadian Memory Institutions, 2017-18)(以下簡稱為《報告》)[3]。這項調查研究旨在提供加拿大數字保存活動最新和最全面的進展信息,并確定加拿大記憶機構現存的差距和緊迫的需求。該調查研究分了兩個階段進行,第一階段于2017年10月至12月面向CARL會員機構開展調查。第二階段于2018年8月至9月面向更為廣泛的加拿大記憶機構開展調查。調查共收到52份完整的答復,包括27個CARL會員和25個非CARL會員的加拿大存儲機構,機構類型有研究型圖書館,國家及省市各級政府的檔案館、圖書館和博物館,社區或非營利檔案館、圖書館和博物館。報告詳細介紹了加拿大記憶機構的各個職能領域(從組織認同感、策略和規程,到存儲、訪問和人員配置)的數字保存能力。CARL主席、CARL數字保存工作組前組長喬納森·本特生(Jonathan Bengtson)表示,“這些數據對于規劃我們未來的數字保存活動及相關投資將是非常寶貴的[4]。”針對國家數字保存能力的相關研究,筆者通過中國知網進行了查詢后發現,國內學者有針對俄羅斯數字資源保存倡議[5]、美國印第安納州與蒙大拿州數字資源長期保存實踐[6]、英國數字保存獎[7]、美國數字資源保存國家工程項目[8]和基于美國保存機構數字資源存儲和獲取實踐調查[9-10]的研究,但是關于加拿大數字保存方面的研究較少。本文介紹《報告》的主要內容,并分析其所反映的加拿大數字保存的特點,結合我國圖書館界的數字保存實踐和現狀,思考下一步的措施。
2.1.1 概況
100%的受訪者表示參與數字化活動,94%的受訪者表示正在收集原生數字資料,資料兩個主要來源為:機構記錄和出版物等內部來源以及私人捐助者。3家沒有收集原生數字資源的單位都來自于政府,原因是沒有保存這些資料的能力。檔案館通常獲得的材料最為豐富,包括照片、動態圖像、音頻以及個人文件和記錄形式的文件,圖書館通常收集的資料包括購買的數字圖書、期刊和數據集。
根據受訪者的打分,數字化活動材料的優先級排序為照片、基于文本的文檔、音頻、圖像、器物,而有3家受訪單位指出其所在機構不根據內容類型確定數字化的優先次序,而由內部需要確定,如主題、收藏或客戶請求。針對目前尚無法保存的數字資源類型,與網絡內容有關的訴求最多,其中包括公共和內部網站以及學生組織網站;排名第二位的是組織數據,包括來自大學和政府的行政和業務數據;第三位的是研究數據、數字視聽載體、電子郵件和三維圖像,有2家受訪單位分別提到了軟件、軟盤等傳統媒體、數字化電影等。
受訪者被要求使用成熟度等級從0分(表示無活動)到5分(表示過程成熟且不斷改進),對其數字保存項目的狀態進行打分,72%的受訪者認為本機構得分為1或2,27%的受訪者認為本機構得分為3或4,而5分的沒有。2家受訪單位認為本機構目前的數字保存能力足以保存其收藏的大部分數字資源,而有2家受訪單位認為目前無法保存收藏中的任何數字內容;4家受訪單位表示這不是一個與內容有關的問題,而是一個由組織或資源驅動的問題,另有3家受訪單位認為其主要問題是如何評估和確定保存材料的優先次序,1家受訪單位提到缺乏專門用于該領域的支持資源。
2.1.2 分析
加拿大記憶機構的數字保存能力差距較大,且普遍有待增強,只有一小部分受訪者對自己的資源保存能力有信心;在數字保存方面對機構和個人記錄資源非常關注,因此建立相關的支持工作流程是非常必要的;記憶機構已經開始重視特殊數字資源的保存,如基于網絡的內容,以及研究數據、電子郵件和軟盤等數字載體上的材料等,但這類數字資源在保存上技術難度相對較大。
2.2.1 概況
一個組織對數字保護做出承諾體現在其戰略計劃、使命聲明或任務中含有相應的語言表述。79%的受訪者表示其擁有數字化保護承諾的文字表述,這些承諾或已經發表,或正在等待批準、起草、計劃中,而 21%的受訪者表示其沒有相應的文字表述。
63%的受訪者表示在其組織中從事數字保存活動的不止一個單位或部門,如數字保存的專門部門、技術部門等,但通常由高級管理人員、委員會或領導工作小組在整個組織內進行協調,協調工作主要為確定和起草政策,監督業務并確保其與戰略計劃保持一致,另外還有監測趨勢、確定數字化的最佳做法、編寫培訓材料、確定保存材料的優先次序和清點資產等。75%的受訪者表示參與或加入了與數字保存相關的外部組織、項目和倡議。
針對與組織承諾和參與程度,63%的受訪者表示缺乏資源來推動組織變革,50%的受訪者表示缺乏資源來參與合作,44%的受訪者表示利益相關者之間缺乏溝通和協調,37%表示缺乏高層組織承諾或支持,另外還有對數字保護的認識尚未在整個組織內保持一致、發展技能不足或缺乏數字保存專業知識等問題。
2.2.2 分析
盡管加拿大的一些記憶機構已經通過戰略計劃或使命聲明公開了數字保存的承諾,但是大部分機構還尚在摸索和建立其在數字保護方面的作用;加拿大的記憶機構與數字保護相關的外部組織、項目和倡議有很多接觸,反映出該領域的各種活動與同行進行知識交流和資源共享的需要;在如何將機構資源從其他領域轉移到數字保護活動方面存在不確定性,數字保存在加拿大記憶機構的組織活動內沒有普遍明確的優先級。
2.3.1 政策
所有受訪者都表示已經或有興趣在其組織內實施數字保護政策,其中17%的受訪者表示機構有現行政策,19%的受訪者表示機構正在審查或起草政策,63%的受訪單位表示機構正在討論制定政策或沒有政策。
19家受訪單位提供了政策的詳細信息,有9個政策涉及數字保存活動的任務或管理框架,包括角色和責任、資源和長期保護承諾,其中2個涉及到可持續性和成本支出,2個涉及與外部組織的伙伴關系;5個政策提供了收集框架,如獲取、訪問和優先保存,其中2個涉及不同內容類型的保存級別,2個涉及組織保存活動的特定內容范圍;2項政策包括傳輸數字檔案材料、元數據和數字化、存儲、安全和災難規劃的指導方針;1項政策包括一個廣泛的框架,并附有針對組織內不同單位的內容行動計劃;1項政策具體涉及數字存儲庫中的內容;還有1個機構的政策已完成,但已過時,尚未修訂。
針對于政策相關的差距和挑戰,79%的受訪者認為缺乏制定政策的時間和資源,40%的受訪者認為政策是臨時性或特定于項目的,23%的受訪者認為缺乏制定政策的知識,包括工作人員和政策制定者不了解或缺乏有關數字保護的知識,然后是政策沒有得到審查、政策不好理解或不好遵循、對政策制定缺乏興趣等。還有受訪者反饋政策在各單位或內容類型之間的應用并不一致,并強調政策中所規定的程序和準則需要適用于通過不同技術管理的各種不同類型的集合和數據類型。
2.3.2 策略、工作規范及標準
(1)數字保存策略。35家受訪單位表示其機構制定了數字保存計劃或策略,其中25家受訪單位表示這些計劃或戰略涉及文件格式的保存和訪問標準,包括內容行動計劃或文件格式注冊表,通常列出的格式有文本、照片、音頻和視頻;6家提到了數字化策略,4家提到了存儲和備份策略。
(2)工作規范流程。只有23%的受訪者表示有記錄在案并正在使用的工作規范流程,其他機構尚處于沒有起草規范流程或沒有記錄在案的流程的狀態。
(3)數字保存的相關標準。58%的受訪者表示機構采用了特定的數字保存標準、最佳做法或準則,被提到較多的分別是OAIS、PREMIS/METS、TRAC/ISO 16363、Dublin Core、Archivematica的格式政策等。40%的受訪者表示其采用了元數據標準來構建和管理數字保護元數據,被提到較多的分別是METS/PREMIS、Dublin Core、MODS、DDI。尚沒有一個被調查者獲得了ISO 16363可信數字存儲庫認證。
(4)數字保存工具的應用。具有文件格式識別、特征描述和標準化等功能的保存處理工具可以使數字保存工作流程中的方法更加全面,但只有48%受訪者表示在測試或生產過程中至少使用了一種保存處理工具,開源軟件Archivematica是其中最常被使用的。工具使用率低主要是由于缺乏資金和人員。
2.3.3 分析
雖然所有受訪者都表示有興趣制定與數字保存相關的政策,但大多數組織還未制定有效的政策,尚處于發展或討論階段;可以看到,加拿大越來越多的記憶機構正在使用正式的或草擬的工作程序來處理數字保存活動中涉及的實際需求;標準和評估工具的熟練使用通常表明數字保存的成熟度較高,而加拿大記憶機構的標準和評估工具的使用情況喜憂參半。最后,缺乏制定政策和流程的資源和專業知識是許多機構面臨的關鍵挑戰。
2.4.1 存儲
可靠存儲是數字保存項目的關鍵組成部分,94%的機構將本地網絡存儲作為其選項之一,只有一半的機構(幾乎都是高校圖書館)使用網絡存儲基礎設施如云網絡、磁帶備份和復制存儲服務,但這些基礎設施其實具有更高的可靠性。LOCKSS是使用最多的復制存儲服務,私有/社區云是選擇最多的云存儲服務。平均來說,65%的資源存儲在網絡系統上,33%存儲在外部媒體上,如外部硬盤和捐贈者的磁盤等。本地網絡存儲的成本較高仍是一半受訪者面臨的問題。
2.4.2 訪問
96%的受訪者表示提供了數字資料的訪問途徑,途徑從多到少依次為網絡平臺/存儲庫、網絡傳輸/共享文件夾、專用計算機終端、外部媒體(CD、USB等)等。可見,參與調查的絕大多數機構都提供基于網絡的訪問平臺,但也有一部分機構使用網絡傳輸方法,如共享文件夾。
2.4.3 分析
大部分參與調查的加拿大記憶機構會使用本地網絡存儲來保存一部分資源,但存儲仍然較多地依賴外部介質和傳統介質,這對數據保存來說是存在較大風險的。被廣泛認為適合數字保存的存儲方法(云、磁帶和復制存儲服務)在加拿大記憶機構的使用率不高。
2.5.1 人員配置
多數機構在數字保護方面的人員配置水平較低,雖然許多機構至少有一個或兩個人在該領域負有某些責任,但平均數只相當于1.14名全職員工,所以實際責任是由多個員工分擔的。62%的機構負責數字保存的全職員工數不到1人,因此許多機構打算通過招聘新員工和重新分配現有工作人員來擴大數字保存人員的編制。面臨的主要挑戰是缺乏職位資金支持和專業知識。
2.5.2 資金來源
85%的機構通過一般預算為數字保存活動提供資金。一般預算是一個關鍵的資金來源,但機構對短期資金如贈款和獎勵的依賴也很高;大多數機構難以估計有多少資金用于數字保存工作,預計未來1—2年此項資金會增加,但增加的程度尚不清楚;大多數機構認為資金不足。
2.5.3 分析
在數字保存方面,加拿大的記憶機構普遍缺乏專項資金,人員方面不僅數量配置較少,且缺乏專業知識和相關技能,不利于數字保存活動的可持續性發展。
加拿大的記憶機構在數字保存方面的涉獵較廣,長期保存的資源類型相對豐富,且開始重視特殊數字資源的保存,對于未來的發展方向有一定的思考,對自身的能力條件也有相對客觀的評估。總的來說,加拿大的數字保存活動的實踐層面比較豐富,并有深入發展的趨勢。
從以上介紹和分析可以看出,加拿大記憶機構的數字保存能力發展不均衡,且缺乏持續性的資金、人員以及政策方面的明確支持;工作人員一定程度上缺乏技能和專業知識,隨著技術的變化,與數字保存有關的方法、流程和工具也在不斷變化,對工作人員的挑戰更大。
從調查結果可以看出,加拿大的許多記憶機構都面臨著數字保存方面的共同的挑戰。共同的挑戰也就意味著類似的解決措施,技術和人員配置的交流、合作以及存儲共享會對解決這些相似挑戰有所助益。實際上,加拿大的這些機構確實與數字保存相關的外部組織、項目和倡議有著密切的接觸。數字保存是一個需要大量持續性支持的工作,所以交流和共享是實現其可持續性發展的重要路徑。
加拿大記憶機構前期在數字保存方面已經有了相對普遍的實踐,具有對數字保存相關要素的認知,因此調查結果也充分體現出了其對數字保存專業知識儲備不足的擔憂和對技能培訓的需求,因此,為參加數字保存工作的人員提供具有針對性的專業培訓,加強工作人員的數字保存理論知識和工具及平臺的實際操作技能培訓,提高其數字保存的理論和實踐能力是加拿大記憶機構未來在數字保存方面的重要工作。
加拿大的大多數記憶機構的數字保存政策尚處于發展或討論階段,未來需要制定明確的政策聲明并建立適合的組織模式,以確保有充分的資金、人力及科學的組織架構去開展數字保存活動。政策的內容應包括角色和責任、長期保護承諾、管理框架、資金來源及人員安排,活動在組織內的優先級以及不同內容類型的保存級別、保存方式等;組織模式方面應考慮根據內容類型制定相應的工作流程以及行動策略和規劃等。
數字資源標準化工作的目的在于確保不同系統間的互操作性和數字資源的共享與利用。現有數字資源長期保存的標準、規范、指南各有不同的功效,標準選擇失誤會對整個數字保存項目造成較大的影響,因此需要根據項目訴求、技術要求等選定合適的標準[11],沒有任何一種標準是放之四海而皆準的靈丹妙藥。加拿大記憶機構對數字保存相關標準的使用較為普遍,且遵循的種類較為多樣化,這一方面說明了加拿大數字保存工作的開放性和標準化,另一方面也體現了機構對標準的了解較全面,會根據自身情況選擇適合本機構數字保存工作的標準。
加拿大記憶機構的存儲模式總體來說相對保守,使用云存儲、類似LOCKSS的復制存儲服務的主要是高校圖書館,可以看出,高校圖書館在數字保存方面有自身的發展思路和特點,這些圖書館本身的學術性也使其對新事物的接受程度和能力表現較好。
4.1.1 組織和倡議
數字文獻資源已經成為我國教育科研機構的主流信息資源,數字文獻資源在我國本土的長期保存已經成為國家自主創新能力的重要保證和國家信息安全的重要體現。2013年,國家科技部批準國家科技圖書文獻中心(National science and Technology Digital Library,NSTL)牽頭組織國家數字科技文獻資源長期保存體系( National Digital Preservation Program,NDPP)。
2015年9月,國家科技圖書文獻中心與中科院文獻情報中心聯合主辦了《數字文獻資源長期保存共同聲明》發布會,中國科技信息研究所、國家圖書館、北京大學圖書館、清華大學圖書館等近一百個圖書館及文獻信息機構共同簽署了該聲明。簽署機構在聲明中明確宣示,圖書館擁有對所采購的數字文獻資源進行本土長期保存的權利,將委托國家長期保存系統長期保存自己所采購的數字文獻資源;同時希望國家將數字文獻資源長期保存系統作為重要的國家公共基礎設施,予以長期穩定的支持和規范可靠的管理[12]。
4.1.2 代表性保存活動和實踐
(1)國家圖書館。制訂了《國家圖書館數字資源保存管理暫行條例(草案)》及具有可操作性的規范流程,闡述了數字資源保存的原則、保存級別、不同類型數字對象的保存格式等要求。另外,國家圖書館還啟動了“中國記憶”“WICP和ODBN”等項目;加入了國際互聯網信息保存聯盟(International Internet Preservation Consortium,IIPC),該聯盟致力于促進網絡信息資源保存的工具、標準的研究和最佳實踐,并積極應用在文化遺產的數字保存工作中[13]。在社交媒體的保存方面,國圖啟動了互聯網信息戰略保存項目,已與新浪簽達成戰略合作,對新浪新聞和微博博文進行長期保存[14]。
(2)北京大學圖書館。北京大學圖書館作為NDPP的參建節點和唯一的高校保存節點,與Emerald期刊數據庫、ProQuest碩博士論文數據庫簽署了長期保存協議,開發Emerald數據插件一個,保存了300多篇文獻[15]。其中,ProQuest碩博士論文數據庫保存協議的簽訂是NDPP首次涉獵學位論文,在保存類型方面有了較大的突破。
(3)中國科學院文獻情報中心。中國科學院文獻情報中心自2004年開始持續開展數字科技文獻資源長期保存的研究和實踐,2009年成立了數字科技文獻資源長期保存中心,保存了包括Springer、Wiley、IOP、Nature等十多家國外重要出版商的數字資源。同時,中國科學院文獻情報中心還與NSTL共同承辦了第4屆iPRES(2007年)會議,并將在2020年9月再次共同承辦第17屆iPRES會議[16]。iPRES會議是國際數字資源長期保存領域的權威會議,是展示數字保存成果、尋求合作共享的專業平臺,在我國舉行此次會議將有利于我國更積極深入地參與國際間數字資源長期保存的共同努力。
4.2.1 全面調研我國圖書館界數字保存能力的現狀
由加拿大研究型圖書館協會開展的針對本國記憶機構的數字保存能力與需求的調查,從數字保存的各個方面進行了全面而細致的調研,并形成了報告,體現了加拿大相關組織對于數字保存工作的重視及對數字保存工作意義的認知。目前,我國圖書館界尚未有針對數字保存能力的官方調查,可以借鑒加拿大的調查要點和內容,考慮由NDPP和國家圖書館牽頭開展針對我國圖書館的數字保存能力調查。以調查結果為基礎,針對需要改變和完善的方面著重進行分析,明確現有能力、意愿及問題,查明癥結,提出解決措施,繼而制定能夠指導全國圖書館數字保存活動的相關政策規劃、指南和規范流程,選擇和確定儲存標準,以便增強已有機構的數字保存能力。
4.2.2 充分發揮聯盟和國家組織的力量
高校圖書館數字資源采購聯盟(Digital Resource Acquisition Alliance of Chinese Academic Libraries,DRAA)的宗旨是團結合作開展引進數字資源的采購工作,通過聯盟的努力為成員館謀求最優價格和最佳服務。根據研究[17],在DRAA發布的數據庫采購方案中,同時提供存檔權和永久使用權的數據庫只占26.5%,成員館作為保存主體的方案居多,集團存檔次之,較少方案允許集團和成員館共同存檔。正如加拿大調查中所體現的,由于數字保存的難度和復雜性,合作和共享是非常必要的,任何一個機構都難以完全由自己對所需的所有資源進行長期保存,也無法由單一的力量去爭取最大化的保存權益。因此,從圖書館目前最為迫切的采購資源的長期保存為起點,一方面要擴大在DRAA采購方案中提供存檔權和永久使用權數據庫的比例,同時爭取將保存主體設置為集團存檔或集團和成員館共同存檔;另一方面要充分發揮NDPP的作用,目前NDPP在集團存檔方面已經有了初步的成效,未來要在指導單館數字保存方面做更多的工作。制定相關數字保存規劃和指南,指導機構自身的數字保存活動,從聯盟和單館兩個方面雙管齊下,保障資源采購的權益。
4.2.3 適當豐富數字保存的資源類型、確定采集標準
目前,我國圖書館界主要致力于學術信息資源和重點文化遺產(如國際敦煌項目)的長期保存,對社交媒體的保存剛剛起步,數字保存的類型相對單一。隨著保存實踐的增多,保存能力的提高,可以適當考慮豐富數字保存的資源類型。正如加拿大調研中發現,機構記錄、網站信息以及個人數字資源的管理和保存頗受重視,又如美國國會圖書館會指導公眾提高個人數字信息保存意識并提供多樣化的保存途徑[18],這些也值得我國圖書館界參考。在此過程中需要注意與內外部的合作,如檔案館和博物館獲得的資源類型會相對豐富,而圖書館界擁有較為豐富的經驗和技術儲備,可以強強聯手,實現共贏。另外,不同類型的數字資源就會有相應的采集標準,包括采集頻率、采集方式和特定的技術。確立數字資源長期保存采集標準是保存活動開展的指南,是保存活動得以有序進行的保障,因此,圖書館在擴展數字保存的資源類型時需要提前制定統一的采集標準,數字活動才能有的放矢,事半功倍。
數字保存是當代記憶和文化機構面臨的最大挑戰之一,必須要有匹配的組織、模式、政策和技術作為支持,才能實現數字內容保存在未來發展的可持續性。