李孟秋/中國人民大學信息資源管理學院
為加強科研檔案工作,國家檔案局、科技部發布了《科學技術研究檔案管理規定》(以下簡稱《規定》)。相較于既有管理規范,《規定》增加了科研電子檔案的管理要求,提出了科研電子文件可實行電子化單套制歸檔的要求[1],這體現出對數字科研檔案高質量管理的要求。
隨著第四范式等數據密集型科研活動的開展,數字科研檔案的管理愈發成為檔案理論與實踐共同關注的話題。首先,針對數字轉型背景下科研檔案的管理,學者們普遍認識到順應信息化潮流、實行電子文件管理[2]的必要性,并提出科研檔案的數字化改革是國家要求、高校需求與行業需求[3]。有學者認為,從管理理念出發,數字科研檔案的管理將不同于傳統科研檔案管理工作,如郝春紅等人引入英國數據資產框架,提出數字科研檔案的資產管理[4];也有學者提出應強化技術應用,通過知識圖譜驅動[5]等技術手段提升科研檔案的安全性與利用效率。與此同時,也有學者關注e-Science推動下科學數據與科研檔案管理的交流與融合[6][7],探索彼此間的理論借鑒[8]、協同框架[9]、管理交互[10]等內容,并進一步提出“實行全流程管理、強化前端控制、構建多方主體合作機制、強化科研項目檔案的收管用”[11]等管理措施。
研究者們正在積極探索數字科研檔案的管理變革,但隨著數字環境下科研檔案管理對象、管理目標的持續變化,科研檔案管理面臨新的挑戰,相關研究對此缺乏持續關注。此外,已有研究開始關注科研檔案管理與科學數據管理的協同,但多集中于兩者關系的探討以及理論層面的分析,缺乏對于實踐經驗的總結與借鑒。因此,基于文獻研究與網絡調研,輔以部分實地調研,本文分析數字科研檔案所面臨的管理挑戰,并以此為基礎,總結科學數據不同管理模式的主要經驗啟示;再根據數字科研檔案管理的挑戰與工作實踐,提出相應管理路徑。
《規定》明確科研檔案的形式包括文字、圖表、圖像等,并首次將數據納入管理范圍,這體現出科研檔案管理粒度逐漸細化的趨勢。隨著數字化進程的加快,科研項目所產生的文件、信息等逐漸以在線形式形成,許多信息載體如三維模型、數據庫等無法通過紙質形式進行管理,且隨著科研項目的發展,科研文件的體量逐漸增大,采用傳統管理方法無疑會導致管理成本的激增。在這種環境下,以信息化方式對科研檔案進行管理是符合檔案管理要求的。隨著科學技術研究的精細化發展,科學數據快速生成。相較于科研文件,科學數據的檔案化管理難度更大,對管理系統、管理者等的要求更高。目前檔案管理部門尚未建立完善的科學數據管理設施與系統,有效介入科學數據管理任重道遠。因此,科學數據如何歸檔、保存是科研項目檔案管理面臨的挑戰。
隨著科學技術的進步,科學研究項目的體量逐漸擴大,單個科研主體難以承擔越來越多的科研任務。因此,科研項目越發普遍采用合作開展的方式進行,即某主體牽頭、其他主體參與。這種跨學科、跨領域、跨機構開展的科研項目對于科研檔案的管理提出挑戰。在實地調研中可以發現,不同主體在管理過程中可能采用的系統、程序等存在差異,導致形成的檔案內容格式不統一,難以進行有效匯交。在各自開展科研任務的過程中,牽頭單位往往較為重視項目文件的歸檔,而參研單位的檔案管理則較為隨意,可能產生部分存在重疊、交叉的檔案內容,這不但造成管理資源的浪費,也進一步增加資源整合的難度,影響歸檔文件的齊全、完整與準確。
與其他門類檔案不同,科研檔案的管理目的主要是為科學研究提供支持,因此開發與利用是科研檔案管理工作的重要內容。科研檔案是開展科研活動的重要資產,尤其是數字科研檔案包含的關鍵科學數據,能夠有效減少重復研究造成的資源浪費。然而,科研檔案價值發揮存在滯后性,且存在“重管輕用”的現象,其價值不易為科研人員感知,用以支撐科研檔案管理的資源相對較少[12]。目前,科學數據與數字科研檔案的聯動不足,數字科研檔案尚未與相對應的科學數據建立有機聯系,兩者呈現出顯著的“分段式”管理特征,導致科學數據的利用主要發生于科學數據中心,大量重要科學數據歸檔難,不利于檔案部門對相關資源進行整合與開發利用。
在科研協同的趨勢下,跨部門、跨機構、跨區域的合作與交流較以往更為明顯。由于數字科研檔案往往包含重要的科研信息,一旦丟失或者泄露會造成巨大損失,因此在數據傳輸過程中如何保障檔案數據的安全,是數字科研檔案管理工作的新挑戰。此外,數字科研檔案往往存在保管系統、軟件更新換代的問題。在這一過程中需要實現科研檔案的長期保存,保障其在管理環境變遷后依然可讀、可用。目前,數字科研檔案資源建設呈現不均衡的態勢,一為科學數據尚未完全納入歸檔范圍,二為其資源結構以傳統載體檔案的復制件為主,沒有進行遷移、仿真處理,或以原生格式保存等,沒有實現長期保存[13]。
國際經濟與合作發展機構(Organization for Economic Cooperation and Development,OECD)認為,科學數據是指“科學研究過程中產生,并被科研人員或科研團體普遍認定對研究結果有用的事實記錄,例如數值、文本、圖像和聲音等”[14]。國務院《科學數據管理辦法》則將科學數據定義為“在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據”[15]。《規定》對于科研檔案的定義為“科研項目在立項論證、研究實施及過程管理、結題驗收及績效評價、成果管理等過程中形成的,具有保存價值的文字、圖表、數據、圖像、音頻、視頻等各種形式和載體的文件材料以及標本、樣本等實物”[16]。比較概念可知,科學數據與科研檔案間存在交集,兩者共同關注具有保存價值的科研數據。同時,兩者在管理目的、業務內容等層面存在一定交叉與互補。目前,國內外對于科學數據的管理較為成熟,積累了較為豐富的經驗。在兩者存在管理交集的基礎上,總結科學數據管理實踐的相關經驗,具有必要性。
本文對中國、美國、英國、澳大利亞、新加坡等國的數十個管理平臺和大學圖書館進行調研,發現數據管理實踐主要可分為四類。
第一類是數據生命周期主導模式。該模式以數據本身為管理的邏輯起點,將數據分為諸多階段,分析數據在不同階段的特征與主要需求,以此為基礎采取有針對性的管理措施。數據生命周期聚焦數據的規劃、收集、描述、分析、保存、利用等階段,注重數據價值的多次利用與深度挖掘,進行面向現實需求的多次循環開發。地球數據觀測網項目(Data Observation Network for Earth,DataONE)發布的《數據管理指南》[17],將數據生命周期分為數據規劃、數據收集、數據保障、數據描述、數據保存、數據發現、數據整合和數據分析八個階段,并圍繞這八個階段提供學習模塊與最佳案例,將其作為各項活動開展的前提基礎[18]。數據生命周期主導模式以數據為主要研究目標,流程清晰明確,同時具有較高的靈活性,更有利于實現數據的長期管護。
第二類是科研項目流程主導模式。目前,科學研究多以項目的形式開展,形成了科研項目流程主導的科學數據管理模式。該模式主要面向項目需求,并對項目完成過程中產生的科學數據進行管理。澳大利亞國家數據服務(Australian National Data Service,ANDS)平臺以項目研究流程為管理基礎,將管理環節分為項目進行前、項目進行中和項目完成后,并把每個管理環節進一步細分出子環節,使科學數據的管理貫穿始終,并面向研究人員和機構,明確個人和機構的職責[19]。科研項目流程主導模式管理涵蓋了兩套并行管理邏輯,即以科研項目流程為底層支撐,以每個流程所涵蓋的重要管理內容為關鍵過程域,兩者共同推進,對象范圍更廣,有利于保障科研活動流程中科學數據的有效流轉。
第三類是數據或項目主導的復合模式。就管理目標而言,數據生命周期主導模式與科研項目流程主導模式都是為了實現科學數據的線性與有序化管理,且兩種模式之間并沒有本質差異。因此,兩種管理模式在管理過程中可以根據管理需求互相嵌入,以針對所需場景提供更適合的管理方案。英國數字管護中心(Digital Curation Centre,DCC)建立了以數據為主導、嵌入項目流程的DCC生命周期管理模型,該模型包括數據、完整的數據生命周期、數據管理流程和數據管理非必要行為。模型內數據生命周期被分為數據描述、數據規劃、數據參與、數據儲存四個階段,在四個階段中內嵌項目流程管理的相關規定與要求,并分別規定涉及數據的項目流程[20]。在保障以數據為核心的基礎上,充分考慮科研項目開展過程中對數據的利用需求。新加坡國立大學圖書館提出了以項目開展為主導、嵌入數據生命周期的管理方案,它認為科學數據管理涵蓋了整個項目流程,對數據實行全生命周期管理[21]。該方案將科研項目分為項目起始階段、項目研究階段、項目成果發表階段與項目結束階段,制定涵蓋數據計劃、數據收集、數據標準化、數據加工與處理、數據共享、數據保存等內容的詳細管理方案[22]。這一管理模式充分考慮到在各項目流程階段科學數據的實際情況與管理需求,有利于組織機構落實科學數據存檔相關政策。
第四類是開發利用主導模式。基于科學數據的有效收集、管理與保存,管理者在通過功能設置保障數據安全的基礎上逐步推動數據對外傳播,從而開展學術研究。目前,科研人員主要通過數據知識庫、數據期刊、學術期刊等進行科學數據的發布與利用。在開發利用主導模式下,研究者主要通過數據知識庫實現科學數據的上傳、存儲與發布,通過數據期刊發布評議后的數據描述符,通過學術期刊發表包含可利用、可驗證的科學數據學術論文。開發利用主導模式要求數據儲存在數據知識庫中,同時分配對應的標識符,便于引用和查詢,從而實現數據的可獲得、可引用和可審查[23]。
對上述四種科學數據管理模式進行分析,可以發現雖然具體的管理邏輯存在差異,但是其共同前提是完善對于科學數據的精細化管理。這種精細化管理具體表現為:首先,注重科學數據的數據質量,對于獲取的原始數據,進行采集、鑒別、保存并提供再利用[24],使所管理的科學數據符合系統或平臺對數據可發現、可獲取、可互操作、可復用等的要求。其次,根據數據管理需求,系統設計科學數據管理的完整生命周期,并立足生命周期詳細規定各個環節的主要任務、明確具體要求。最后,進一步下沉數據的管理層級,對數據進行更為精準的描述,從而更完整地表述科學數據的屬性,便于后續科學數據的利用、安全控制、遷移等。對于數字科研檔案而言,應該更關注其質量管理,在檔案生成初期便明確管理目標與措施,加強科學數據的歸檔保存,并強化科研檔案的元數據著錄,為開發利用與安全管控打好基礎。
目前國外對于科學數據的組織方式主要包括面向數據生命周期進行組織、面向科研項目流程進行組織、數據或項目主導進行嵌入式組織,這幾種組織方式的選擇依據是科學研究活動的開展形式以及科學數據的主要性質。雖然組織方式存在差異,但均注重對科學研究活動全流程以及科學數據全生命周期的覆蓋。在數字環境下,科學數據管理方式十分靈活,能夠結合現實管理需求確定合適的組織方式,并且在管理環境發生變化時及時調整,其實質是實現對管理流程的全覆蓋,從而保障前端控制與全程管理。在現有科研檔案管理體制下,應積極協調參與數字科研檔案生成與管理的多方主體,在科研項目開展的各階段實現對科研檔案收集、整理、存儲、服務利用的管理覆蓋。
科研項目中產生的科學數據具有較大的利用價值,且不同來源、不同主體所產生的科學數據在進行有效匯集后可能會產生更為廣泛的利用價值。正是基于科學數據巨大的體量以及潛在的利用價值,國內外對于科學數據的管理均強調資源整合與協同,重視科學數據的有效匯集。相關實踐以平臺搭建、系統設置為基礎,將具有共同屬性的科學數據進行統一標識與描述,為后續科學數據的利用、遷移與長期保存奠定基礎。如DataONE項目中,項目建設者以全局視角看待數據管理問題,建立分布式信息基礎架構,并積極與其他解決數據管理、復用、發現和整合問題的相關組織進行交流與合作[25]。數字科研檔案管理應加強對不同主體的整合,便于各方制定統一的檔案管理政策、形成面向科研檔案管理與共享利用的基本共識。同時,加強基礎資源包括標準、規范、技術、平臺的共建共享,推動科研檔案數字化進程,消除資源建設壁壘,最大限度發揮科研檔案的積極作用。
科學數據管理是一項整體性工程,涉及多個管理對象,僅對數據本身進行管理并不能滿足諸多需求。因此,在國內外科學數據管理實踐中,各管理主體實際上開展了對科學數據的整體性治理,即“從分散走向集中,從部分走向整體,從破碎走向整合”[26]。這實際上是對各要素進行系統集成,將科學數據的形成者與管理者、管理政策、管理平臺與系統、管理技術、管理工具、相關活動、基礎權益、基礎設施、建設資金等納入管理范圍,以科學數據為核心,構建一套完整、體系化的管理框架。科學數據的整體性治理對于數字科研檔案管理的啟示在于,在管理過程中要更為注重不同要素的配合與與協同,基于特定目標開展有針對性的管理活動,綜合運用管理方法和手段促使系統內部各子系統或要素實現整合,進而實現一致性和互補性[27]。
本文基于科學數據管理經驗,結合當前數字科研檔案的管理挑戰,提出通過推動數字科研檔案與科學數據協同管理、發展覆蓋全流程的全宗組織方式、優化數字科研檔案著錄工作、完善管理基礎要素建設等,提升數字科研檔案整體管理效能。
在數字轉型的背景下,科學數據管理較早適應了數字環境帶來的管理變革,形成了面向數據態信息資源的管理模式。而科研檔案與科學數據作為重要的科研信息資源,對于支撐科研具有重要意義,且兩者在業務層面也包含諸多交集,能夠形成互補。實現科研檔案與科學數據協同管理,能夠學習借鑒科學數據管理的有效經驗,提升管理水平。因此應強化制度協同、組織協同、業務協同、資源協同與服務協同[28],加快建立并完善協同管理機制,將管理需求同步嵌入各自業務活動中。一方面,加快科研檔案數字化、數據化進程,實現科學數據與數字科研檔案的一致性銜接;另一方面,檔案管理部門應加強建立完善的科學數據管理設施與系統,有效介入科學數據管理實踐,建立與信息技術支持部門、科研業務部門的協同工作機制,在做好原始科研資料歸檔工作的同時,做好科學數據存檔工作[29]。
全宗理論是目前我國科研檔案管理主要原則的理論來源。隨著跨組織、跨機構合作科研的發展,將單一部門視為一個全宗的做法已經不符合科研檔案管理的發展,對于全宗的理解與全宗組織方式急需更新。隨著全宗理論的發展,不同的全宗單位相繼形成,在此基礎上我國學者提出了“客體全宗”的概念。客體全宗指“以客體為中心形成的檔案整體”[30],反映了客體的形成規律與發展階段,這為科研檔案組織方式的調整提供了理論來源,也為全宗的重新組織提供了現實依據。數字環境下,可以將科研項目視為一個完整的全宗單位,科研項目開展的整個流程中所形成的文件檔案材料都屬于該全宗。在科研項目全宗下,基于對項目全流程的分析與規劃,明確各流程生成的文件清單與歸檔范圍,以此為依據對各流程中參與項目各主體的歸檔責任進行明確規定。雖然形成檔案的部門、人員不同,但是都客觀反映了科研項目開展的信息,不能脫離科研項目的整體背景而單獨存在。數字科研檔案管理的核心在于構建清晰、完善的文件歸檔范圍體系和文件管理責任體系,減少漏歸檔、誤歸檔現象的發生,做到應歸盡歸[31]、應管盡管。
數字科研檔案的質量對于科研檔案管理工作至關重要,其中檔案質量主要包括檔案內容的完整性、準確性、一致性,以及不同來源數字檔案的可整合性。目前科研項目多以跨機構、跨部門、跨地域的形式開展,不同科研主體在科研過程中所選用的工具、系統不一致,數字科研文件、科研檔案的結構等信息具有異構性、差異性等特征,不利于檔案資源的有效匯集與利用。在科研檔案的生成與管理過程中需保障其一致性與統一性,對數字科研檔案進行著錄,能夠了解數字科研檔案的基礎信息,進而促進資源整合與匯集。目前科學數據的精細化管理以元數據描述為基礎,支持其在資源發現、促進互操作性、數據保存等過程中發揮的重要作用[32]。在數字科研檔案管理工作中,需制定統一、明確的元數據方案,結合科研項目特征盡可能選擇符合自身需求并且得到廣泛認可的元數據標準,確保檔案的形成符合元數據方案要求。對于數字科研檔案的著錄而言,背景信息十分重要,利用者在利用的過程中往往需對數據進行來源信息的追溯。因此,檔案工作者需更加注重背景信息的著錄,創造性應用新來源觀,突破對單一文件形成者或單一機構的認知,同時捕獲文件創建過程、利用權限、保管情況和預期用途等背景信息,并對其進行著錄[33]。
開展數字科研檔案管理要將與其相關的各基礎要素,包括主體協同、管理政策、管理平臺、人才等納入管理范圍。參照科學數據開展整體性治理的思路,應做到以下幾點。第一,針對數字科研檔案管理的特點與難點,進行多元主體的組織與協同,通過與科研項目管理部門、項目研究部門、檔案管理部門、信息技術部門等主體的對話,明確各主體角色、愿景、功能,合理分配權責,形成環環相扣的參與機制、網絡機制、合作機制與責任機制[34],促進各主體的有效合作。第二,加快制定符合數字環境需求的各項規則、制度與標準,使數字科研檔案管理有章可循、有規可依,并為具體業務如元數據描述、數字資源保存的開展提供標準規范。如澳大利亞發布《ANDS數據引用指南》,具體規定數據引用的定義、要素、格式、基本元素等內容,為用戶使用數據、創建數據引文提供最直接的引導和幫助[35]。第三,完善數字科研檔案管理平臺、系統建設,聚焦其資源匯集功能,發揮平臺、系統在有效整合數字檔案資源中的關鍵作用。在各參與主體的業務系統中設置平臺接口,實現科研文件的有效歸檔,完善平臺、系統的權限設置,確保科研檔案的安全保障。第四,探索開源管理軟件、工具的應用,為數字科研檔案的資源開發、安全管控、長期保存提供支撐。第五,加快人才培養,完善檔案人員的培訓和教育,增強信息素養,提升數字環境工作能力。同時,對科研檔案工作的資源建設、開發利用等進行整體和長期規劃,并加大各方面投入保障。