摘 要:在大數據背景下,海量科學數據涵蓋了科研活動的各個環節,已然成為科研活動中一類極為重要的資源。開展科學數據歸檔對數據價值的科學保管、充分利用及科技創新發展具有重要的作用。文章通過調研目前科學數據管理現狀,梳理了歸檔流程構建的原則,分析了歸檔流程構建的關鍵策略,闡述了歸檔流程構建與實施的過程,以期為科學數據歸檔實踐提供參考。
關鍵詞:科學數據;管理;歸檔;流程構建
中圖分類號:G275.3 文獻標識碼:B
引言
科學數據是國家科技創新的基礎性和戰略性資源,是科學研究中必不可少的基本要素。2020 年修訂發布的《科學技術研究檔案管理規定》,明確提出科學數據是研究實施及過程管理階段形成的重要文件材料,并將科學數據納入科研檔案歸檔范圍。同時,《“十四五”全國檔案事業發展規劃》中也強調要積極推動科學數據與科研檔案協同管理。從基礎研究到工程技術研究領域,科學數據貫穿于科研活動的各個環節,不僅是科研成果的重要體現,還是后續研究的基礎與支撐,對科技創新的深度與廣度有著決定性的影響。
科學數據歸檔作為科學數據管理的關鍵環節,對于數據價值的長期保存、有效利用以及科研活動的可持續發展具有極為重要的意義。盡管科學數據匯交工作已開展多年并取得了一定成效,但科學數據歸檔工作仍處于探索階段,在實踐過程中面臨著諸多問題與挑戰。
一、科學數據的概念和特點
根據2018年國務院辦公廳印發的《科學數據管理辦法》,科學數據主要包括在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發等產生的數據以及通過觀測監測、考察調查和檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據。這一明確的定義清晰地界定了科學數據的范疇,為后續科學數據管理、歸檔等相關工作的開展提供了基本依據。
1.數據來源廣
科學數據的來源極為廣泛,涵蓋了科研活動的各個環節與眾多領域。從基礎研究中的理論推導,到應用研究里的實際驗證,再到試驗開發環節的反復測試,科學數據源源不斷地產生,廣泛分布于科研活動的方方面面。
2.數據格式多
科學數據格式類型多樣,有數值型數據、文本數據、圖像數據和音視頻數據等。此外,因為大部分科學數據具有較強的學科特性,往往是由專業設備或專業軟件所生成,所以其除了通用格式外,還存在學科通用格式以及專有格式。
3.數據體量大
隨著科學技術的飛速發展,信息化設備在科研領域的廣泛使用以及存儲介質容量的不斷增大,科學數據的量呈現出爆炸式增長的態勢,已經從最初的KB、MB級別發展到GB、TB乃至PB、EB級別,體量極為龐大。
4.數據共享需求高
在科研領域,數據共享有著至關重要的作用,其需求十分迫切。對于科研人員來說,可以利用背景信息完整的科學數據,重現前人的研究結果,進而在此基礎上創新,避免重復開展相同的基礎實驗,大幅節省時間和資源,提高科研效率。從整個科技事業的角度來看,不同科研團隊之間共享數據,可以激發出更多創新的科研思路和方法,催生新的科研成果。
二、科學數據管理現狀
近年來,我國高度重視科學數據管理工作,相繼出臺了一系列政策法規與制度文件,為科學數據管理提供了明確的規范與指導。2018年2月,科技部、財政部聯合印發《國家科技資源共享服務平臺管理辦法》,將承接科技計劃項目實施所形成的科學數據的匯交、整理和保存作為國家科學數據中心的重點任務之一。2021年,國家標準化管理委員會發布的《科技計劃項目形成的科學數據匯交技術與管理規范》等3項國家標準,規范了匯交的原則、明確了匯交的管理主體與職責,確定了匯交的主要內容,并提出了標準化的匯交流程。2024年,科技部、財政部印發了《國家重點研發計劃管理暫行辦法》,要求國家重點研發計劃落實國家科技報告、科學數據匯交和科技成果匯交制度,做好有關檔案的整理、保存和歸檔。
此外,還建設了多家國家科學數據中心,這些科學數據中心分布在不同的學科領域,涵蓋了基礎科學研究、前沿技術研發及重大社會公益研究等多個方面,承擔了相關領域科學數據的整合匯交工作。
三、科學數據歸檔流程構建
雖然國家出臺了一系列的政策制度來規范科學數據管理,并建立多家科學數據中心,形成了較為完善的科學數據管理體系,從不同層面、不同角度規范指導科學數據管理工作,推動了我國科學數據管理工作的有序開展,促進了科學數據資源的整合、共享與利用,為我國科技創新提供了有力的數據支撐。但是,科學數據歸檔工作仍處于探索階段,缺少可供借鑒的實踐案例,構建規范的科學數據歸檔流程將為后續工作的開展奠定基礎。
1.歸檔流程構建的原則
構建科學數據歸檔流程,應當遵循以下原則:
(1)科學性原則。流程設計應基于科學研究的一般規律和特點,確保數據歸檔流程能夠與科研活動過程相契合,滿足不同學科領域的實際需求。
(2)可操作性原則。歸檔流程應簡潔明了,易于理解和執行,避免因設置過于復雜和煩瑣的操作步驟,導致科研人員對數據歸檔工作產生抵觸情緒,確保數據歸檔工作順利開展。
(3)安全性原則。流程設計應保障數據在存儲、傳輸與共享過程中的安全,采用技術手段防止數據被泄露、篡改或丟失,同時還應建立完善的數據備份與恢復機制,構建全方位的數據安全防護體系。
(4)可持續性原則。流程設計應考慮長期的運行、維護以及未來科研需求和技術發展,確保數據歸檔體系能夠持續升級,歸檔數據持續可用。
(5)成本效益原則。流程設計應在保證質量的前提下,盡可能降低數據歸檔的成本,提高資源利用效率。
2.歸檔流程構建的關鍵策略
科學數據歸檔流程的構建是復雜且困難的,下述關鍵策略對歸檔流程的構建和實施具有重要的作用。
(1)獲得高層管理者的重視與支持。高層管理者對科學數據歸檔工作的認知程度與重視程度,直接關乎整個歸檔工作的走向與成效。只有他們深刻認識到科學數據歸檔的重要意義,才能為歸檔工作的開展提供必要的人力、物力和財力等資源保障,才能通過自身的影響力與領導力,在本單位營造出重視數據歸檔、尊重數據資產的良好文化氛圍,帶動全體員工積極配合及參與數據歸檔工作,為構建完善的數據歸檔體系奠定堅實的人員基礎與文化根基。
(2)建立職能工作小組。科學數據歸檔流程的復雜性決定了其需要多部門協同合作。因此,建立職能工作小組至關重要。小組成員應涵蓋科研人員、數據管理人員、項目管理人員、檔案管理人員、信息化管理人員以及保密管理人員等,由本單位法人/主管領導擔任組長,并定期召開工作會。通過分工合作的工作模式,職能工作小組能夠充分發揮各成員的專業優勢,有效整合各方資源,為科學數據歸檔流程的順利實施提供有力保障,確保科學數據歸檔工作高效、有序地開展。
(3)制定規范、有效的管理辦法。科學規范的制度體系是科學數據歸檔工作得以正常開展的重要前提與基礎。各單位應依據自身的實際需求與特點,制定一套全面、細致且具有可操作性的科學數據管理辦法。在管理辦法中,需明確各部門、人員在科學數據歸檔工作中的具體職責及科學數據歸檔范圍、歸檔要求、歸檔方式和歸檔步驟等,同時提出相應的獎懲措施,確保管理辦法能夠得到有效執行,為科學數據歸檔工作提供堅實的制度保障與工作依據。
(4)開展多種形式的培訓。培訓能夠顯著增強各級各類人員的科學數據歸檔意識,提高技能水平。既可以包括制度宣貫、基礎知識培訓和操作技能培訓,也可以根據人員身份、關注的重點以及實際參與工作的不同,開展針對性的專項培訓。通過這些形式多樣的培訓,使他們充分認識到科學數據歸檔工作的重要性,掌握數據歸檔的相關知識與技能,在實際工作中自覺、規范地履行數據歸檔職責,為科學數據歸檔工作的順利開展提供堅實的人力保障。
(5)爭取持續性經費投入。科學數據歸檔工作無論是歸檔流程的構建還是歸檔系統的建立,都不是一蹴而就的,需要經過長期的經驗積累、技術升級和人員能力提升來不斷迭代,這些都需要有經費的持續性投入。因此,在做好上述關鍵策略并取得實際進展的基礎上,積極爭取各方投入,以保障科學數據歸檔工作在技術更新、設備維護和人員培訓等方面有穩定、充足的資金來源。
3.歸檔流程構建及實施過程
科學數據歸檔流程的構建是一項系統工程,需要細致規劃和周密考慮,結合本單位實際情況,總體按照“調研—制度體系建立—系統搭建—實施”的步驟來開展工作。
(1)調研階段
首先,通過訪談、問卷調查和研討會等方式對科研人員開展廣泛而深入的調研,以全面了解其在科學數據管理方面的現狀與需求。調研內容包括現行科學數據管理方式、數據歸檔需求、歸檔意愿、歸檔范圍、數據格式、數據體量和數據生成常用軟件等,并統計分析上述調研結果,形成初步歸檔范圍及歸檔方案,為后續科學數據管理辦法的制定、歸檔系統的搭建及推廣使用奠定基礎。
(2)制度體系建立階段
制定《科學數據管理辦法》,建立數據管理的責任體系,明確檔案管理部門、項目管理部門、信息化管理部門、保密管理部門、項目負責人、數據管理員及科研人員的職責。確立科學數據生成、收集、整理、鑒定、封裝、歸檔、存儲和利用等全生命周期的管理要求、工作步驟及獎懲措施,明確科學數據歸檔目標、歸檔范圍及歸檔要求。科研人員是科學數據管理的主體責任人,在數據歸檔前,收集保管科研活動中產生的科學數據,并確保其真實、完整,對完成科學數據歸檔至關重要。科學數據歸檔流程的實現,需要在各管理部門及管理人員的監督指導下完成,以保證科學數據的安全、可用。
(3)系統搭建階段
根據各單位的實際狀況,選取適配的系統搭建方式。對于建有科學數據中心且已開展數據收集、保管工作的單位而言,由于已具備一定的工作基礎與數據資源,可在現有基礎上適應性地開發與改造數據中心與檔案管理系統,構建兩者之間的有效銜接。在系統改造時,應充分考慮數據歸檔的特殊需求,如優化數據的分類標準、存儲結構和元數據管理等方面,以確保數據能夠順利地從數據中心流轉至檔案管理系統。可采用物理歸檔或邏輯歸檔的方式來實現數據歸檔。物理歸檔是將數據的實體文件完整地轉移至檔案管理系統中存儲,這種方式能夠確保數據的原始性與完整性,適用對數據安全性與可靠性要求較高的場景;邏輯歸檔則僅將數據目錄及相關元數據歸檔,數據實體仍保留在原數據中心,通過建立索引和鏈接的方式實現數據的共享與利用,這種方式在一定程度上能夠節省存儲資源,提高數據的訪問效率,適用于數據量較大且對實時性要求較高的情況。
對于尚未建立科學數據中心的單位,需要開展全局性、系統性的規劃設計,建立既能滿足本單位科研工作需要,又能保證數據真實性、完整性、安全性和可用性的科學數據管理系統。在系統設計過程中,應充分考慮數據的全生命周期管理,要注重系統的擴展性與兼容性,確保其能夠與未來的技術發展和業務需求相適應。同時,還需兼顧與檔案系統的接口銜接,確保數據在兩個系統之間能夠安全、高效地傳輸與共享。
(4)實施階段
上述工作完成后,科學數據歸檔的具體實施可分階段推進。初期可選擇幾個具有代表性的科研項目來做試點,通過試點項目驗證流程的有效性和可行性,并根據試點結果進行調整優化。在試點過程中,需嚴格測試歸檔流程的各個環節,包括數據提交環節、數據分類整理環節、數據存儲環節、數據檢索與訪問環節、數據鑒定環節以及數據移交環節、數據利用環節等。通過多個試點項目的反復迭代測試與優化,不斷完善歸檔流程及系統功能,逐步形成一套具有廣泛參考價值與推廣意義的科學數據歸檔體系。同時,可總結歸納試點過程中的經驗與教訓,形成詳細的文檔資料與操作規范,為后續數據歸檔工作的推廣提供可靠的依據與指導,推動科學數據歸檔工作在更大范圍內的規范化、標準化與高效化開展。
四、結語
科學數據歸檔流程構建是一項系統性工程,不僅需要組織層面的支持、跨部門的協作以及分階段的推進和技術保障,還需要持續優化改進。展望未來,應繼續致力于完善科學數據歸檔體系,加強交流與合作,促進數據共享與再利用,為科技創新提供更強大的數據動力。
參考文獻:
[1]科學技術研究檔案管理規定[EB/OL].(2020-11-30).https://www.saac.gov.cn/daj/xzfgk/202112/2618b69465e5469e9165116ddc1190f8.shtml.
[2]中辦、國辦印發《“十四五”全國檔案事業發展規劃》[EB/OL].(2021-06-08).https://www.saac.gov.cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca7310eca4.shtml.
[3]國務院辦公廳關于印發科 學 數 據 管 理 辦 法 的 通 知[EB/OL],https://www.gov.cn/gongbao/content/2018/content_5283177.htm.
[4]趙秋紅,李元睿,鄧修權,等.科學基金資助機構視角下的科學數據管理研究[J].中國科學院院刊,2021,36(12): 1456-1462.
[5]科技部 財政部關于發布國家科技資源共享服務平臺優化調整名單的通知[EB/OL].(2019-06-10) https://www.most.gov.cn/xxgk/xinxifenlei/fdzdgknr/qtwj/qtwj2019/201906/t20190610_147031.html.
[6]張 靜,付玥甜,何思源,等.重大科技項目科學數據歸檔路徑初探[J].檔案學通訊,2024(04):37-43.
作者單位:中國科學院西安光學精密機械研究所