摘 要:科學數據作為重要的科技信息資源應規范歸檔管理事項,保障其共享利用及價值深度開發具有重要意義。文章對科學數據歸檔現狀進行分析,發現存在科學數據易丟失篡改、可用性無法保證、歸檔不齊全等問題?;诖?,提出科學數據歸檔管理策略為明確歸檔范圍,制定歸檔標準,優化歸檔方式,部署數據治理工具。
關鍵詞:科學數據;歸檔策略;數字檔案館
分類號:G275.3;G273.2
Exploration of Scientific Data Archiving Management in Digital Environment
Hao Zheng, Zhang Xiaoxu
( Digital Engineering Technology Center of China Nuclear Power Engineering Co., Ltd., Beijing 100840 )
Abstract: Scientific data is an important scientific and technological information resources should be standardized archiving management matters, to ensure its shared use and value of the depth of development is of great significance. The article analyzes the current situation of scientific data archiving and finds that scientific data are easy to be lost and tampered with, availability cannot be guaranteed, and archiving is incomplete. Based on this, it is proposed that the management strategy of scientific data archiving is to: clarify the scope of archiving, formulate archiving standards, optimize archiving methods, and deploy data governance tools.
Keywords: Scientific Data; Archiving Strategy; Digital Archive
隨著大數據時代到來和數字經濟繁榮發展,數據的價值日益凸顯。通過基礎研究、應用研究、試驗開發等產生的數據以及用于科研活動的原始數據及其衍生數據,已成為科學研究成果的重要組成部分。科學數據具有來源廣泛、種類豐富、數量巨大、專業性強、設備依賴性強等特點,部分科學原始數據收集耗時長、成本高、共享復用價值大。如果科學數據得不到合規管理,極易發生丟失、損毀,勢必造成科技信息資源無法逆轉的損失。近年來,我國科學數據管理體系已逐步建立,出臺《科學數據管理辦法》《國家科技計劃管理暫行規定》《國家重點基礎研究發展計劃資源環境領域項目數據匯交暫行辦法》《科學技術研究檔案管理規定》等。無論是行政法規層面還是部門規章、規范性文件層面,均明確了科學數據應及時匯交、歸檔,集中保存、管理,以便于數據利用與價值開發。文章聚焦科學數據歸檔環節,對科學數據歸檔意義進行闡述,并對歸檔現狀進行分析,以探析現存問題,在此基礎上提出針對性管理策略。
1 科學數據歸檔管理意義
1.1 確??蒲谢顒油暾?/p>
《科學技術研究檔案管理規定》(國家檔案局、科技部令第15號)第十四條指出,研究實施及過程管理階段的科研檔案包括“研究計劃、組織實施工作方案,研究、實驗任務書、大綱,實驗、探測、測試、觀測、觀察、野外調查、考察等的原始記錄和整理記錄,綜合分析報告;設計文件、圖樣,集成電路布圖,工藝文件,計算文件,數據處理文件;科學數據;研制的樣機、樣品、標本等的實物及其目錄、圖片等”[ 1],明確科學數據是科研檔案的組成部分。科研文字檔案與科學數據都來源于科研活動,“數據密集型”科研范式的出現,標志著未來的科技創新將更大程度地建立在數據基礎之上[2],因此,科學數據應與科研檔案一同及時收集、整理、歸檔,確??萍夹畔①Y源的完整。
1.2 真正發揮科研價值
科學數據統一管理和保存,應確保數據的安全以及便于共享利用。從檢索而言,通過專業化的分類、整理,借助數據管理平臺可提高科學數據的檢索、查找效率;從復用而言,大量科學數據收集耗時長、成本高,合理的科學數據復用可節省人力、物力,有效歸檔并提供信息支持可促進數據復用;從數據價值開發而言,通過集中數據管護,運用大數據業務多種算法挖掘科學數據的關聯價值,將數據潛在價值顯現化,有利于為數據利用者提供更為便捷的服務;從支持決策而言,大量科學數據的潛在價值被挖掘,可為科學技術創新提供實踐方向,為企業高層作出科學決策提供重要依據。
1.3 打造共建共享科研生態
海量的科學數據來源于不同業務系統、軟件,以電子形式產生。由于科學數據的原生性,其產生、傳輸、整理、歸檔、保存、利用在數字環境下完成,因此科學數據對設備、數字化技術的依賴性較強,迫使企事業單位通過部署業務系統、文檔信息系統,配置支持系統運行的硬件設備等措施,借助保證數據真實、可用、安全的先進技術,實現科學數據互聯互通。搭建科研業務全流程大平臺,從而推動企事業單位各項業務數字化轉型,打造共建共享的科研生態,提升科研項目管理和服務質量,賦能科研管理服務向數據治理服務轉變。
2 科學數據歸檔主要問題
2.1 科學數據易丟失篡改
科學數據作為一類原生電子文件,從產生到保管利用,全生命周期均在系統上運行,若不加以規范管理,極易受到地震、火災等自然原因的損毀,或因未授權人有意篡改、使用人員的誤操作、硬件設備故障、軟件漏洞等人為原因和技術原因,導致數據失真、傳輸泄露、關鍵數據丟失。此外,作為承載科學數據全生命周期的數字環境應安全可靠,可完整保存電子文檔管理關鍵業務的過程記錄。而保證電子文檔真實、完整、可用、安全,應采用防篡改、四性檢測、安全認證等技術手段。若企業搭建業務系統及文檔信息系統未完全部署相應信息化、智能化技術,易因電子文檔自身缺陷造成數據丟失、損毀、篡改等問題。
2.2 科學數據可用性無法保證
科學數據的產生和利用依賴于不同軟件,格式繁多,且涉及多領域、多專業。隨著信息技術不斷迭代發展,科學數據格式將持續更新,若缺少統一規范的數據管護措施,大量科研活動過程中產生的數據以及相應的元數據、軟件等配套事項未歸檔,極易造成歷史性科學數據無法正常打開和提供利用。
2.3 科學數據歸檔不齊全

除由于自身缺陷、技術迭代所致的損壞和不可用外,不得當的管理方式也會造成數據歸檔不齊全。對于合同管理而言,若科研課題承擔單位在簽訂合同時未規定將原始科學數據及其衍生數據作為交付物移交,將導致課題承擔單位僅有成果文件,缺少科學數據。對于管理職責而言,科研活動涉及團隊協作,科學數據的產生、流通同時覆蓋多業務主體,若未界定以科學數據全周期為主線的管理職責,勢必造成各部門各自為政,數據散落于各個部門,未集中統一管理。對于歸檔方式而言,成果性數據作為科研成果報告內容,與科研文件一同歸檔,成果性數據與原始數據并未單獨作為一類原始記錄歸檔,導致大量科學數據未歸檔。
3 面向數字環境的科學數據歸檔策略
面對目前科學數據歸檔所面臨的困境,檔案部門應及時制定歸檔策略,明確歸檔范圍,確定歸檔標準,優化歸檔方式,部署數據治理工具,打通數字環境下科學數據的歸檔路徑,加快科學數據流通(如圖1所示)。
3.1 明確科學數據歸檔范圍
《科學技術研究檔案管理規定》已明確將科學數據納入科研檔案歸檔范圍,但沒有具體規范科學數據本身的歸檔范圍和歸檔內容。因此,科研課題承擔單位應自行歸納科學數據歸檔范圍,做到“應歸盡歸”。科研活動的調研、訪談、觀測、試驗、測試、調試等過程所產生的原始數據,以及由原始數據經過推導、分析處理的衍生數據,應全部收集歸檔。除科學數據實體外,科學數據的描述信息(元數據)、加載科學數據的輔助工具軟件也要一同歸檔。
3.2 制定科學數據歸檔標準
(1)格式標準
目前科學數據依據來源大致分為三類:一是用專業成熟的試驗設備記錄,可以通用格式輸出的數據;二是用特殊分析工具或新開發的軟件進行測試、試驗而導出的特有格式數據;三是人工記錄的科學數據??茖W數據的歸檔格式種類繁多,易存在不規范的現象。作為科學數據保管部門,應及時依據數據來源,具體問題具體分析,制定不同的歸檔格式策略。針對可輸出通用格式的科學數據,以通用格式或版式格式歸檔;針對從特殊分析工具或軟件導出的特有格式數據,盡量轉換通用格式,若無法轉換或轉換后發生數據丟失,則以原始生成格式歸檔,同時將軟件及其源代碼歸檔;針對人工記錄數據,通過數字化加工,與科研文字材料一同以PDF格式歸檔。
(2)元數據標準
盡管科研檔案已有成熟的元數據標準,但科學數據有其自身特點,若直接套用科研檔案元數據標準將無法體現其專業性。因此,在描述科學數據除與科研檔案元數據通用部分外,還要添加科學數據特有元數據,例如試驗相關信息、試驗對象信息。特有元數據信息更直接揭示了科學數據內容,易于滿足利用者需求。[3]科學數據作為一類科研檔案,同時也要具備檔案元數據。因此,科學數據元數據標準應從三個方向制定,即科研項目通用元數據、特有元數據、檔案元數據。
3.3 優化科學數據歸檔方式
通過人工記錄或者可以打印出紙質文件的科學數據,可作為科研文字材料與其他科研文件一同歸檔;而從專用設備或軟件導出的數據,無論是通用格式還是特殊格式,無法打印成紙質,只能以原生電子文件形式歸檔。下文主要討論原生科學數據歸檔方式。
(1)分階段歸檔
傳統載體科研文件由課題組進行分類、組卷后,按項目階段或分批向檔案部門歸檔。檔案部門在接收科研文件后,需要檢查題名、編碼、頁數、數字化副本質量等,再進行編目、裝盒。而科學數據擺脫了傳統載體的束縛,以電子形式生成、流轉,由于科學數據具有極強的專業性,需要特別的分類和整理。此外,部分科學數據需要特定軟件和運行環境才可應用,若課題組人員未歸檔相應運行環境,科學數據無法檢驗和利用。為保證科學數據利用順暢,檔案部門與課題承擔部門可共同協作管理科學數據,在科研課題驗收前或驗收后的過渡期內,科學數據仍然由課題組固定人員保管,由檔案部門提供電子檔案保管業務指導;待過渡期后,科學數據逐漸失去現行利用價值,再將其向檔案部門歸檔。
(2)邏輯歸檔
除上述分階段方式外,也可通過課題組與檔案部門業務互認的方式歸檔。科學數據由課題組人員收集、整理后,由課題組上傳至業務系統,并進行服務器備份。課題全部數據以及元數據信息、所使用的軟件全部通過業務系統保管,設置知悉范圍和利用權限,便于具備權限的其他科研人員使用數據。科學數據集中保管在業務系統中,借助業務系統提供利用,視同歸檔。課題組需要向檔案部門移交科學數據的目錄清單(目錄清單包含科學數據查詢利用所需的元數據),目錄清單鏈接到業務系統,可查看實際科學數據。同時,檔案部門有權對科學數據管理情況進行指導、查看和提供利用。[4]
(3)科學數據歸檔分析
科學數據作為一類電子檔案,應滿足電子檔案“真實、完整、可用、安全”四性。保管和利用是電子檔案全生命周期的重要環節,保管是利用的前提,利用是著重體現科學數據價值的環節。因此,可從電子檔案四性以及保管、利用等方面來分析兩種歸檔方式(具體詳見 表1)。
綜上所述,兩種歸檔方式均在一定程度上存在弊端,無法全面保證科學數據的四性以及安全保管、有效利用。但分階段歸檔在保證四性和保管方面均優于邏輯歸檔,從側面反映出科學數據由檔案部門保管更為合理。因此,要將科學數據管理業務融入檔案管理業務,在確保電子檔案四性的同時實現科學數據專業、便捷的利用。[5]科學數據與檔案業務融合應考量科研管理部門、課題承擔部門、檔案部門通力協作,并借助智能化數據治理工具,而數據治理工具要兼具檔案管理和數據管理功能。

3.4 數據治理工具建設路徑
數據治理工具的部署在文檔信息化建設背景下可分為三步走,即文檔信息系統管理階段、文檔信息系統與數據管理平臺協同管理階段、數字檔案館管理階段(如圖2所示)。在文檔信息系統管理階段,由于系統的數據接收、容納能力不能滿足科學數據多格式、大數據量的歸檔要求,僅為人工記錄以PDF格式歸檔,系統接收的全部為科研文檔及其元數據,歸檔方式為接口方式,利用也僅是電子檔案在線瀏覽和借閱。此階段弊端為科學原始數據完全缺失。在文檔信息系統與數據管理平臺協同管理階段,在文檔信息系統部署基礎上并行部署數據管理平臺,平臺具備一定的數據接收、容納能力,可實現科學原始數據的接收、保管,同時可實現科學數據的共享利用及專業化利用。[6]雖然科研文檔與科學數據可建立關聯,但兩者隸屬于不同管理系統,科技信息資源仍處于割裂狀態。在數字檔案館管理階段,數字檔案館融合數據管理各項功能,使數字檔案館兼具科學數據與科研檔案統一管理功能,有利于維護科研檔案的完整性、成套性。同時,可實現科研檔案與科學數據在內的科技信息資源的一站式檢索、利用。在資源統一管理模式下,數字檔案館不僅能更大程度地提高用戶訪問科技信息資源的效率,優化用戶體驗效果,同時也能降低日常歸檔、保管和利用服務等環節帶來的成本能耗。
4 結 語
文章探索了一條科學數據歸檔管理、技術路線,借助數據治理工具將數據管理業務融入檔案管理,最大化發揮科學數據價值。不同企業、高校、科研院所承擔的科研項目存在差異,但受限于實際案例材料的難以獲取,未能借鑒到更多企業、高校科學數據歸檔實踐經驗。基于此,未來應擴大調研范圍,面向多源異構科學數據有效歸檔與共享利用的研究,提供不同場景的數據融合服務;開發智能化技術應用,進一步探索科學數據深層次加工技術方法與創新服務模式,提供數字環境下多維度、深加工、關聯性的知識服務。

作者貢獻說明
郝崢:撰寫論文與定稿;張霄旭:確定研究思路,修改論文。
注釋與參考文獻
[1]《科學技術研究檔案管理規定》(國家檔案局、科技部令第15號)正式發布[EB/OL].[2024-04-07]. https://www.saac.gov.cn/daj/yaow/202010/6 01f6491eabb4a2aa207685fb7a07c28.shtml.
[2]王芳,韓家鈺,卜昊昊.檔案機構參與科學數據歸檔管理的模式、問題與對策[J].科技情報研究,2022(3):1-14.
[3]孔祥盛.匯交政策視角下科學數據與科研檔案協同管理困境與反思[J].檔案與建設,2023(1):62-66.
[4]劉越男,何思源.科學數據與科研檔案的管理協同:調查與思考[J].圖書情報工作,2022(1):96-105.
[5]蔡盈芳.數據管理業務與檔案融合管理研究[J].檔案學研究,2021(3):40-46.
[6]齊敏華,李婉月,吳江,等. 基于數字化實現科學數據高效歸檔研究[J]. 蘭臺世界,2024(3):57-62.
(責任編輯:邵澍赟)