吳振新,寇晶晶,單嵩巖,張潤杰
(1.中國科學院文獻情報中心;2.中國科學院大學圖書情報與檔案管理系;3.國際關系學院圖書館;4.首都經濟貿易大學信息學院)
隨著全球數字化進程進一步加快,越來越多行業、領域的信息以數字方式生成,并以唯一形式存在,但數字信息資源的保存和使用面臨生命周期短、易被更改、嚴重依賴環境等風險,同時還易受自然災害、戰爭和國際政治秩序變革等因素的影響。因此,數字信息資源的長期保存已經成為各機構戰略資源管理的重要舉措,并逐步成為各國國家信息安全的重要內容。
2004年起,數字資源長期保存國際會議[1](Inter nationalConferenceonDigitalPreservation,iPRES) 每年一屆在亞、美、歐三大洲輪流舉辦,成為數字資源長期保存領域展示成果、宣傳理念、學術推介、合作共享的專業平臺,對全球數字資源長期保存理論和實踐發展起到了積極的推動作用。我國研究人員一直關注和追蹤著該會議的情況。[2-8]鑒于iPRES在長期保存領域的重要作用和前瞻性,本文旨在通過對2008-2017年iPRES會議論文的統計和分析,把握國際長期保存的研究重點和發展趨勢,揭示研究熱點、難點、未來發展趨勢和國際合作狀況,以期為我國數字資源長期保存的發展提供參考。
文章以2008-2017年的iPRES會議論文為數據來源,使用分析工具對其進行初步分析和挖掘。
對2008-2017年iPRES的會議成果(不包含PPT等非論文性質的產出)進行初步統計(見表1)。可以看出,iPRES的論文產出在2016年之前處于較為平穩的上升狀態,2017年出現了急劇下滑。

表1 2008-2017年論文發表數量
為了更準確地了解當前數字資源長期保存領域的概況,文章在表1的基礎上進行了更深層次、更多角度的挖掘和分析,旨在挖掘出具有研究潛力和較強學術發展趨勢的個人、機構和國家,為研究數字資源長期保存領域的學者或關注長期保存領域的個人提供參考。合作分析是掌握當前研究發展趨勢的重要途徑之一,主要研究不同作者、國家及機構之間的合作情況,通過合作分析可以發現當前研究的聚焦點。
1.2.1 作者發文及合作分析
筆者對534篇文章的作者進行了統計(對同一作者不同署名進行了確認和歸一),得到了2008-2017年長期保存領域發文量Top20的作者(見表2),并對發文量Top10的作者其歷年發文量做了統計和分析(見表 3)。

表2 2008-2017年發文量Top20的作者
(1)分析2008-2017年發文量Top20作者可知,德國費賴堡大學共4人發文50篇/次,奧地利維也納技術大學共2人發文25篇/次,英國樸次茅斯大學共2人發文16篇/次,英國數字保存中心DPC共2人發文15篇/次,此外還涉及國家級圖書館4個、大學4所。從國家層面看,美國、英國、德國、奧地利獨領風騷,均有高產作者。
(2)由近五年發文比重可以快速得知近五年來較為活躍的作者,避免因過度關注發文總量和長期積累量而忽略現實活躍度的情況,相當于從時效性角度對發文總量做了補充。由表3可知,Andrea Goethals雖然總發文量僅有8篇,但有7篇發表在了近五年的會議上,基本上可以認為是近五年內崛起的領域新秀;此外,還有A.Lee Christopher(總發文量13篇,近五年發文10篇)、Eld Zierau(總發文量13篇,近五年發文9篇)、Rudolf Mayer(總發文量8篇,近五年發文5篇)等人,在今后的研究中都值得重點關注。

表3 2008-2017年發文量Top10作者歷年發文統計
(3)筆者分析了作者之間的合作共現情況,進一步發現了有跟蹤價值的團體。如,英國科學與技術設施理事會(Science and Technology Facilities Council,STFC)的BrianMatthews所在的小組、丹麥皇家圖書館的Eld Zierau所在的小組、英國數字保存聯盟(Digital Preservation Coalition,DPC) 的 Angela Dappert所在的小組等。
1.2.2 國家發文及合作分析
分析國家發文及合作情況有助于了解當前哪些國家在該領域的投入和產出較多,有助于尋求國外的合作伙伴,借鑒其成功經驗。在對國家發文進行統計之前,筆者對國家名稱數據進行了清洗:① 對同一國家名稱寫法不同的問題進行了處理,如合并Netherlands和the Netherlands;② 對聯邦國家的名稱進行了合并,如將北愛爾蘭、威爾士、英格蘭、蘇格蘭以及聯合王國等統一著錄為United Kingdom。
(1)表4為2008-2017年發文量Top20的國家,與高產作者情況非常一致,美國、英國、德國、奧地利等位居前列。

表4 2008-2017年發文量Top20的國家
(2)筆者研究了國家之間的合作共現情況(見圖1)。圖中畫圈代表該國家的中心度較高,即在一定程度上與其他國家的合作較頻繁。可以發現,美國、德國、新西蘭、荷蘭和丹麥的中心度較高,與世界其他國家合作相對頻繁,在世界范圍內具有較高的影響力。其中,丹麥雖然發文總量較上述幾個國家處于弱勢,但其中心度最高,也就是說其合作強度高于其他國家,在世界范圍內比較活躍,合作范圍比較廣泛。相比之下,我國的發文量少,合作國家僅有德國。發文量少說明我國對數字資源長期保存領域的關注度、投入和產出都處于劣勢;合作國家單一說明了我國在該領域的國際影響力和國家合作度均較低,未來應努力加強與世界其他國家的合作。

圖1 國家合作共現
1.2.3 機構發文及合作分析
在對機構發文進行統計之前,依據文章貢獻歸屬原則對機構名稱數據進行清洗,主要針對同一個機構多種名稱寫法、不同語種、不同簡稱等情況進行合并,如一所高校的學院、分校、圖書館等都署名為該高校。由此,得到2008-2017年發文量Top20的機構(見表 5)。

表5 2008-2017年發文量Top20的機構
(1)由表5可以看出,發文量比較靠前的機構有大英圖書館、北卡羅來納州立大學和維也納技術大學等。值得注意的是,大英圖書館的作者并未進入作者發文Top20行列,這反映了大英圖書館的機構發文量并不主要依靠個人,而是依賴于工作人員的廣泛參與,而北卡羅來納州立大學和維也納技術大學的機構發文量則更加依賴于小團隊的產出。因此,筆者認為,雖然這3個機構的發文量相當,但由于大英圖書館參與數字資源長期保存研究的人員較多、與其他機構的合作也更為廣泛而更具優勢。在全球化的趨勢之下,這種機構的生命力更強,具有較強的研究可持續性,出現研究斷層的風險相對更低。
(2)從機構類型上看,包括10所大學、7所國家級圖書館和3個研究機構。10所大學中美國占了7所,英國、德國、奧地利各1所;3所研究機構都屬歐盟國家。僅從數量上看,美國的參與機構更為廣泛且成果較多,歐盟次之。而國家級圖書館正逐漸成為開展數字資源長期保存實踐的主力。
(3)筆者根據機構間合作共現情況將其大致劃分為以下4個團體。① 大英圖書館所在的機構團體。2008-2017年,主要與特塞拉(Tessella)公司、利茲大學、巴斯大學、Caixa Magica軟件開展了合作。②北卡羅來納州立大學所在的機構團體。主要與印第安納大學、密歇根大學、布萊頓大學、DuraSpace等開展了合作。③ 維也納技術大學的機構團體。主要與丹麥皇家圖書館、奧地利科技學院、INESC-ID、Secure Business Austria等開展了合作。④ 德國費賴堡大學的機構團體。主要與荷蘭國家檔案館、荷蘭國家圖書館、IBM、德國國家圖書館等開展了合作。
為了進一步窺探2008-2017年數字資源長期保存領域的關注熱點,并預測未來的發展趨勢,筆者通過可視化工具對關鍵詞的分布情況進行了分析,并揭示了2008-2017年iPRES的研究主題。
在進行關鍵詞統計時,考慮到iPRES是一個關于長期保存領域的會議,“長期保存”出現的頻次會遠超其他詞匯,為了避免遮蓋其他重要詞匯,筆者對“(long-term)preservation”做了過濾處理,得到關鍵詞頻次分布圖(見圖2)。可以看出,2008-2017年iPRES會議論文的關鍵詞主要有:digital repositories、 digital archives、metadata、OAIS、digitalcuration、digital objects、 software、 emulation、access等,并呈現出逐漸弱化的趨勢,其他關鍵詞呈現“長尾”狀,這在一定程度上說明iPRES會議論文既顯示了比較集中的研究主題,同時涵蓋的研究內容也比較廣泛,形成了較為分散的“長尾”型研究發展狀態。

圖2 關鍵詞分布
關鍵詞是文獻核心內容的集中概括,可以較好地反映某一研究領域的主題分布。關鍵詞和主題詞共現都可稱為共詞,是指利用文獻集中詞匯對或名詞短語共同出現的情況,確定該文獻集所代表學科中各主題之間的關系。一般認為,詞匯對在同一篇文獻中出現的次數越多,則代表這兩個主題的關系越緊密,這種關系在可視化分析時會以網絡節點和邊的形式體現在共詞網絡中,用于反映主題內容的親疏關系。[9]關鍵詞的共現可以幫助研究者預測當前的研究熱點和趨勢。在圖2的基礎上,筆者利用CiteSpace軟件對關鍵詞的共現情況做了可視化分析(見圖3),發現中心性較高的關鍵詞有:digital repositories、digital curation、digital archives、 metadata、 infrastructure、 workflow、authenticity等,筆者選取中心性大于0.5的關鍵詞作為關鍵節點(見表6)。

圖3 關鍵詞可視化
2.2.1 數字資源長期保存的系統和工具
從上述分析中可以發現,“digital repositories(數字倉儲)”頻次最高、中心性較強,數字倉儲的重要性不言而喻。“digital repositories”實際上代表了長期保存領域一個非常重要的研究問題,本文將這部分研究稱為“長期保存的系統和工具”,其中涉及的主要關鍵詞 包 括 “ digitalrepositories”“ tools”“systems”“software”,筆者以這幾個詞為代表,對數字資源長期保存的系統和工具在2008-2017年間的變化做了統計分析(見圖4)。在這期間,以“數字倉儲”為代表的系統和工具研究發展較為穩定,呈現出螺旋上升的態勢。

表6 2008-2017年關鍵詞共現關鍵節點

圖4 2008-2017年會議系統和工具代表詞匯統計
值得注意的是,“software”的關注度在2008-2011年一直處于較低水平,但于2012年陡然升高且持續處于較高的水平。筆者認為出現這種現象的一個重要原因是,隨著數字信息體量和類型的增加、技術的不斷更新,新一代或者滿足特殊需求的軟件及相關工具在逐漸更新,如 e-depot、Fedora、DAITSS、DSpace、ELAK、arxiv等系統;同時,許多新系統也在不斷出現,如商業Ex Libris Rosetta長期保存系統,葡萄牙米尼奧大學開發的兼具格式轉換、質量評估和元數據生成服務的CRiB倉儲系統,[10]斯坦福大學開發的、能夠支持存檔存儲庫和其他存儲機構的電子郵件的評估、處理、發現和交付開源軟件ePADD,[11]芬蘭CSC-IT科學中心開發的可以滿足不同需求的模塊化預攝取工具,[12]可信賴的便攜式數字保存仿真平臺等。[13]
2.2.2 數字資源長期保存的技術方法
技術方法作為數字資源長期保存工作的實踐基礎,是該領域研究的重要組成部分,長期保存的技術方法是一個復雜多元的集合體,涉及技術流程、認證評估、永久標識符等方面。[14]根據對2008-2017年iPRES文獻的分析,筆者對數字資源長期保存的技術和方法做了分類,每個類目的主要關鍵詞如下,歷年的關鍵詞頻次見圖5。
(1) 認證評估:authenticity、audit、evaluation、qu ality assurance、 trust、 appraisal、 certification、 assessment。
(2)遷移取證仿真:migration/virtualization、digital forensics、emulation。
(3)永久標識符PID:persistentidentifiers、Smarter Persistent Identifiers、Web Persistent Identifiers(wPID)、PURL、ARK、DOI、URN、HANDLE。
(4) 訪問:access、webaccess、permanentaccess。
(5) 云:cloud&cloudcomputing、Grid。
(6) 技術流程:pre-ingest、ingest、storage、acquisition、digitization、file format identification、 format identification、workflow。
(7)封裝格式:METS5、Bagit2。
(8) 語義:linkeddata、text processinganddatamining、ontologies、semantics。
(9) 監測:watch、monitoring、characterization、validation、characterization。

圖5 2008-2017年會議技術方法代表詞匯統計
可見,“遷移取證仿真”“認證評估”“技術流程”的出現頻次遠超其他。“遷移取證仿真”和“認證評估”出現頻次在2011年之前趨于一致,并在2011年達到頂峰;之后“遷移取證仿真”的出現頻次有所下降,但趨于平穩,2016年關注度又一次陡升;“認證評估”在2011年之后與“遷移取證仿真”的出現頻次拉開了距離,但2012-2017年間受關注程度一直處于上升趨勢,這與可信賴性一直是數字資源長期保存持續關注的問題有關。[15]技術流程作為保存倉儲系統研發的主要內容,其受關注度基本與保存倉儲系統趨同,隨著新系統新工具的研發,其關注度也在2016年達到最高。
“訪問”“云技術”“永久標識符”“封裝格式”“語義”“監測”等的關注度相對低一些,其中,“封裝格式”的關注度在2009-2011年、2014-2016年內出現了斷層,其他類目則一直或多或少地作為研究點活躍在歷年的iPRES會議上。這些類目雖然為數不多,但正在作為研究點逐漸受到研究人員的關注,很有可能成為未來研究的重點。數字資源長期保存技術和方法的不斷擴充和更迭告訴我們,隨著長期保存面臨的挑戰增多、保存需求的日趨復雜,研究的技術方法會更加多樣、深入,更新也將更加頻繁。
2.2.3 長期保存數字對象與元數據
數字對象與元數據一直以來都是數字資源長期保存領域的基礎研究內容。在2008-2017年iPRES的會議論文中,數字對象的研究包括:digital objects、data dictionary、data model、content model、significant properties、conceptual models、SIP、AIP、DIP 等,雖然數量并不多,但每年的會議上都有所涉及。
相對數字對象,元數據受到了更多關注。從表6可知,“metadata”的中心性最高,與之密切相關的還有“PREMIS”“METS”“metadata extraction”“descriptive metadata”“representation information”等。其中,“PREMIS”保存元數據是目前數字信息資源長期保存領域公認的保存元數據標準,在歷屆會議上都有相關主題的論文,近幾年以研討會(Workshop)或專場培訓(Tutorial)的形式出現,更大范圍地推廣使用PREMIS元數據體系。圖6統計了2008-2017年iPRES會議元數據的代表詞匯。

圖6 2008-2017年會議元數據代表詞匯統計
2.2.4 數字資源長期保存標準規范
標準規范是數字資源長期保存各個環節之間互操作的基礎和根基,它貫穿于長期保存的整個生命周期,對長期保存系統的建設具有重要意義。目前,全球范圍內公認的長期保存核心標準有:① 開放檔案信息系統參考模型(Open Archival Information System,OAIS),它不僅界定和規范了長期保存的相關概念和術語,還建立了長期保存系統規劃和設計的概念框架,并對保存系統的存在環境、功能組織以及信息基礎架構等做了描述,對全球范圍內的長期保存活動和實踐起到了重要的指導作用,是長期保存的基礎標準;② ISO 16163,即《可信賴倉儲的審計及認證:指標與列表》(,TRAC),于2012年被認定為國際長期保存系統可信賴認證標準;③ PREMIS作為保存元數據的標準,在前文中已經提及。
圖7為“standards”“OAIS”和“PREMIS”歷年出現的頻次:“standards”在2008年出現過一次,直到2012年作為關鍵詞又一次被提及,此后相關研究就從未中斷,并在2014年達到頂峰;“OAIS”出現頻次則遠高于“standards”和“PREMIS”,且呈現一種增長型的發展趨勢,歷年來圍繞這一基礎標準的討論從未間斷,尤其在2014年和2016年修訂OAIS 2.0期間;ISO16363作為核心標準,經常以研討會(Workshop)或專場培訓(Tutorial)的形式出現。

圖7 2008-2017年會議標準規范代表詞匯統計
2.2.5 數字資源長期保存宏觀規劃與管控
保存計劃作為OAIS標準中一個重要內容,定義了長期保存的整個生命周期及保存活動中對數字對象所采取的一系列保存行為的規劃和政策,關系到長期保存活動實施的成功與否。長期保存宏觀規劃與管控的內容涵蓋了國家層面的戰略規劃和政策、機構層面的長期保存計劃、整個保存環境的監控管理等,需要綜合考慮政策、法律、組織和技術限制、用戶需求、保存目標等因素,并進行定期評價、更新相關規劃與策略。
在iPRES的會議論文中,長期保存宏觀規劃與管控涉及到的詞匯主要有“strategies”“policies”“planning”(見圖 8)。其中,“policies”“planning”的波動不大,而“strategies”的關注度出現了較大的起伏,在2008年和2009年處于巔峰,之后幾年迅速下降,2014年才逐漸回歸大眾視野,在近年的關注度也有所增長。數據分析結果表明,隨著大數據的發展,數字信息長期保存的規劃和策略也在隨之調整,以應對變化中的挑戰。

圖8 2008-2017年會議宏觀規劃與管控代表詞匯統計
2.2.6 數字資源長期保存的基礎架構
長期保存的基礎架構是長期保存活動在最開始階段就要設計和確定的,對長期保存活動尤其是長期保存系統的建設具有指導意義。2008-2017年iPRES的論文中研究長期保存基礎架構的不在少數,主要涉及的關 鍵 詞有“infrastructure”“architectures”“frameworks”。

圖9 2008-2017年會議基礎架構代表詞匯統計
由圖9可知,3個基礎架構關鍵詞的變化趨勢基本相同,開始都處于較高的水平,之后出現了2-3年的低谷,于2014/2015年達到一個小的峰值,近兩年有所下滑。這個結果表明,在基礎性技術研究方面,長期保存是與整個技術大環境一起發展的,新的技術將不斷地應用于長期保存,因此造成了基礎架構和技術系統的周期性更新。當一種新的基礎架構逐步成熟后,該領域也隨之進行研究和探索,并進入應用和改進階段。信息技術的更新換代勢必對數字資源長期保存領域帶來同樣的影響。
2.2.7 專門領域和不同類型的數字資源長期保存
大數據時代,數字資源格式、類型的復雜化為數字資源的長期保存帶來了挑戰。同時,由于對保存數字資源的意識在不斷提升,越來越多的行業、領域都開始關注數字資源的長期保存管理。保存的資源類型從傳統館藏延伸到檔案、文化遺產、社交媒體、軟件工具、郵件、視聽資源等,保存研究和保存實踐也更加專門化和特性化。在2008-2017年的iPRES論文中,涉及多種不同類型對象的長期保存研究,既包括傳統物理載體的館藏資源,也包括原生數字資源,如軟件、音視頻、社交媒體、郵件、文化遺產、數字檔案、博客、研究數據、科學數據和地理信息數據等。

圖10 專門領域和不同類型數字資源代表詞匯統計
由圖10可見,除了通用詞“digital objects”處于較高水平外,具體到每種類型數字資源的論文數量并不多。一方面是因支持相關研究的機構和項目相對較少;另一方面是由于數字對象本身比較復雜,長期保存的研究和實踐發展尚處于探索階段。值得注意的是 ,“ cultural heritage”“ audiovisual”“ research data”(即文化遺產、視聽資源和研究數據)的長期保存和管理發展勢頭強勁,尤其是研究數據的管理于2011年被提出之后,得到了廣泛的關注。
iPRES所關注的問題清晰地反映了數字保存領域的發展趨勢,隨著全球數字化的飛速發展以及各國、各機構對于數字資產的重視,數字保存將會迎來飛速發展的時機。
從iPRES會議看,我國在數字資源長期保存領域的投入和產出都較少,缺乏國際間的交流、合作、共享。但實際上,國內很多領域和學者很早就開展了相關理論研究,也有少數機構進行了實踐探索。其中,以國家科技圖書文獻中心(National Science and Technology Library,NSTL)的“國家數字科技文獻資源長期保存體系”[16]最為突出。作為國家級的科技文獻信息服務和保障機構,NSTL于2004年就開展了具有前瞻性的研究工作,于2014年啟動了“國家數字科技文獻資源長期保存示范系統”項目,帶領中國科學院文獻情報中心、中國科學技術信息研究所和北京大學圖書館等機構,在國內率先開展商業數字資源的長期保存實踐探索,取得了一系列建設成果,同時在全國范圍開展了一系列頗具影響的宣傳和推廣活動。特別是2016年底舉辦的香山科學會議,對國內數字資源長期保存研究與實踐的發展產生了積極的推動作用。
第1屆iPRES由中國科學院文獻情報中心發起舉辦,[17]之后在2007年與 NSTL共同承辦了第4屆iPRES。[18]近日,NSTL和中國科學院文獻情報中心成功獲得聯合承辦2020年第17屆iPRES會議(iPRES 2020)的許可。[19]必將對我國數字資源長期保存的全面發展產生積極的推動作用,對加強國際合作共享、共同發展產生深遠影響。