丁曉芹,湯怡潔,徐 雯
(中國科學院武漢文獻情報中心/科技大數據湖北省重點實驗室,湖北武漢 430071)
科學研究第四范式的提出將數據推向了更高的地位,數據密集型科學正在逐步走進科研領域,科學數據也成為了大數據背景下最為重要的資源??茖W數據不再是以往單純的科技研究成果,而是轉變成為科技研究基礎,科學研究水平開始依賴于科學數據的持續積累,以及將科學數據轉化為科研成果的能力[1]。科學數據成為繼物質和能量之后的第三類資源,是重要的科技基礎條件和國家戰略資源。因此,全方位、多層級的科學數據匯交對于實現國家科技投入增值、促進數據更好地挖掘利用具有重要意義。隨著我國科技創新能力的不斷增強以及科研投入的不斷增長,各類科技計劃項目和專項項目相繼實施,科學數據呈現爆發式增長,現代計算機技術的飛速發展,為海量科學數據的使用提供了無限可能。科學數據匯交整合作為科學數據管理的重要一環,是國家科技興國、科研強國等計劃的關鍵所在。21 世紀以來,我國對科學數據的匯交實踐陸續開展,“973 計劃”、“十一五”國家科技計劃項目以及《科學數據管理辦法》等在不同階段建立了科學數據等科技資源匯交和共享機制[2]?!犊茖W數據管理辦法》明確要求各級科技計劃管理部門應建立先匯交科學數據再驗收科技計劃項目的機制[3],該管理辦法的出臺加快了我國科學數據匯交進程。目前,我國科學數據匯交工作正在全面鋪開,各部門、各機構以及科研人員正在逐步落實。
國家科技計劃是由中央財政支持的,面向國家重大戰略需求部署、重要發展規劃布局、重點科技領域創新開展的一系列科技項目,包含國家基礎研究重大項目計劃(簡稱“973 計劃”,現已整合為國家重點研發計劃[4])、國家自然科學基金、科技基礎性工作專項等,不僅代表我國科技創新最高水平,更關乎我國能源、科技、經濟、軍事安全[5]。開展國家科技計劃數據匯交,對于促進我國科技創新、保障我國科學數據安全具有重要意義。
1998年“973計劃”實施以來,積累了農業、能源、信息、資源環境、人口與健康、材料等領域的科學數據。2008 年科技部發布《國家重點基礎研究發展計劃資源環境領域項目數據匯交暫行辦法》,正式啟動“973 計劃”資源環境領域項目的數據匯交工作。同時,科技部成立了“973 計劃”資源環境領域項目數據匯交管理中心,要求將項目數據提交到“973計劃”資源環境領域項目匯交管理系統[6]。這是我國首次開展國家科技計劃項目的數據匯交,
科技基礎性工作專項于1999 年開始實施,通過考察、觀測、探測、監測、調查、試驗、實驗以及編撰等方式采(收)集和整理氣象、地球科學、生物學、農業、林業、醫學、環境等多個領域的科學數據[7]。2013 年科技部啟動科技基礎性工作專項項目數據匯交,并于 2014 年發布《科技基礎性工作專項項目科學數據匯交管理辦法(暫行)》,要求匯交項目開展科學考察與調查產生的數據。該管理辦法發布之后,完成了1999—2015 年結題驗收的331個科技基礎性工作專項項目的數據匯交,占所有立項項目的76.1%[8]。2019 年科技基礎性工作專項項目數據匯交管理中心正式建立,主要負責參與制定項目數據匯交管理辦法及相關技術規范,開展項目數據匯交工作培訓與數據備份保存,推動國家科學數據匯交與共享應用示范[6]。
2019 年為深入貫徹實施《科學數據管理辦法》相關要求,科技部、財政部優化調整了原有的國家科技資源共享服務平臺,形成了20 個國家科學數據中心和30 個國家生物種質與實驗材料資源庫[9],作為我國科學數據的保存、管理和服務載體。國家科技計劃產生的科學數據正在逐步匯入相應領域的數據中心和資源庫,初步建成了科學數據資源匯交體系,有力推動了我國科學數據匯交工作的落實。
全國各?。▍^、市)在開展科技項目過程中也形成了海量科學數據。通過調研發現,大部分省份尚未系統性開展科學數據匯交工作,但具備了一定的工作條件和基礎。部分省份創建了科技基礎條件平臺,對本省行業部門現有的科學數據資源進行了整合,但并未實現對科技項目中不斷產生的科學數據的統一匯交。
2018 年國務院發布《科學數據管理辦法》后,共有17 個省(區、市)發布了配套的科學數據管理實施細則,包括上海、山東、海南、江蘇、廣西、重慶、吉林、安徽、內蒙古、湖北、云南、甘肅、陜西、黑龍江、貴州、寧夏以及四川。其中海南、山東、江蘇、重慶、貴州等多個省份明確提出建設省級科學數據中心,承擔科學數據匯交工作。2021 年山東省在《關于進一步壓實省級科技計劃(專項、基金等)任務承擔單位科研作風學風和科研誠信主體責任的通知》規定各有關單位須按要求將論文等科研成果所涉及的實驗記錄、實驗數據等原始數據資料交單位進行統一管理和保存。暫未發布配套科學數據管理實施細則的廣東省在科學數據匯交實踐方面走在了前列,2022 年啟動建設7 家省級科學數據中心,2023 年啟動建設9 家省級科學數據中心,其中4 家為國家科學數據中心在粵分中心,開發設計、部署科學數據匯交工作。甘肅省已啟動建設5 家省級科學數據中心,開展科學數據的匯交,包括甘肅省科學數據總中心。2023 年2 月貴州省啟動科學數據中心信息平臺項目。部分省份科學數據中心立項情況見表1。

表1 省級科學數據中心立項情況
1.3.1 中國科學院信息化專項支持
中國科學院主要通過信息化建設專項穩步推進科學數據的整合、共享與應用。在“十五”期間加強信息化基礎設施建設,聯合45 個研究所共同建設完成503 個專業數據庫,初步形成中國科學院科學數據資源體系[10]。2019 年中國科學院發布《中國科學院科學數據管理與開放共享辦法(試行)》,明確科研項目數據匯交要求、科學數據開放共享主體責任,進一步闡述了數據匯交工作機制、業務流程以及適用范圍等[11]。同時,在“十三五”時期啟動實施中國科學院科學數據中心體系建設,創建中國科學院項目數據匯交管理平臺,作為中國科學院項目科學數據匯交的指定管理平臺和統一入口。建成后的中國科學院科學數據中心體系由1 個總中心、18 個學科中心和13 個所級中心三類組成,平臺在線資源量3.11 PB,匯交了105 個項目,含18 285個數據集[12]。
1.3.2 中國工程院知識創新中心
2012 年,中國工程院正式啟動中國工程科技知識中心建設,圍繞國家工程科技領域,建設跨領域專業數據資源集成和知識服務平臺。該平臺通過聯盟的方式將各個學科領域的數據資源匯集起來,并根據學科領域建設對應的領域分中心,在所有數據資源之間建立關聯,將分散在各個機構的數據資源整合到知識中心平臺。聯盟單位主要來自國家級科研院所、各部委情報所、行業信息中心及協會、學會、大型企業等。聯盟單位在本領域內處于國內領先地位,擁有本領域內主要的大規模數據庫,并有能力從多種渠道獲取本領域內其他主要的高質量數據源。截至2023年4 月,平臺已匯集了涵蓋農業、林業、醫藥、中醫學、化工、能源、材料、海洋、氣象、地質、航天、信息等超過20 個工程科技領域的數據資源[13]。
1.3.3 交通運輸科學數據中心建設
2020 年年底,交通運輸部發布公路科學數據中心[14],該平臺主要致力于全國公路交通科學數據資源的匯集與開放共享。2021 年10 月,交通運輸科學數據分中心與國家基礎學科公共科學數據中心共同簽署國家基礎學科公共科學數據中心交通運輸科學數據分中心建設合作協議,匯聚了交通運輸科學試驗、野外觀測、工程監測等各類科學數據,內容涵蓋出行云數據、足尺環道數據、橋隧服役性能數據和通航建筑物數據、港口及航道數據等,初步實現了公路科學數據的采集、匯聚、管理和開放共享等全生命周期治理。據統計,平臺已歸集人、車、路、環境等公路科學數據超過1.2 P,涵蓋公路科學研究方向79 個[15]。
1.3.4 氣象科學數據中心建設
2000 年,中國氣象局在國內率先實現部門內部數據共享,氣象數據匯交工作已持續多年。2017 年6 月1 日,國家氣象信息中心在中國氣象數據網基礎上構建的中國氣象數據匯交平臺正式上線運行。各級氣象主管機構、社會組織以及個人通過該平臺匯交氣象數據,包括水利、海洋、農業、公路、高鐵、航空、風電等氣象服務以及業務科研數據,還包括政府、社會組織及個人探測的氣象資料。2020 年發布《氣象數據管理辦法(試行)》要求國家級直屬單位將氣象數據直接匯交到國家級氣象信息中心,省級及以下氣象部門首先匯交氣象數據到本省(區、市)氣象信息中心,再由本?。▍^、市)氣象信息中心匯交到國家級氣象信息中心。全國氣象科學數據匯交體系基本建立,多項政策明確了各主體的責任,平臺提供了匯交渠道,極大地推動了氣象數據資源集中管理和共享共用。
現階段匯交的數據以科技計劃項目數據為主,包括國家科技重大專項、國家重點研發計劃、國家自然科學基金、科技資源調查專項、國際合作專項,且含有少量省級項目以及院校級項目。其中國家重點研發計劃項目匯交最多,國家人口健康科學數據中心匯交有372 個[16]、國家基因組科學數據中心30 個[17]、國家對地觀測科學數據中心39 個[18]、國家海洋科學數據中心19 個[19]、中國科學院科學數據中心67 個[12]。國家重點研發計劃項目匯交的科學數據較多,主要受政策影響。2018 年發布的《國家重點研發計劃項目綜合績效評價工作規范(試行)》中提出,項目執行期結束后需要提交由有關方面認可的科學數據中心出具的匯交憑證,從項目結題層面直接要求項目過程中產生的科學數據需要匯交[20]。因此,所有的國家重點研發計劃項目牽頭單位均需向領域相近的數據中心匯交數據。據不完全統計,2019—2020 年國家科學數據中心已經支撐了17 個專項200個國家重點研發計劃項目的科學數據匯交,匯聚數據量達5 PB[21]。中國工程科技知識中心的匯集資源類型多樣,主要包括中國工程科技知識中心自建數據和聯盟機構的監測數據、調查數據以及從外部獲取的一些統計數據等,平臺現已匯集3 646條數據集[13]。
從科學數據匯交的主動性角度,可將國家級、地方級以及重點機構的科學數據匯交分為項目驅動型、聯盟共享型以及垂直管理型。在科學數據匯交實踐中,項目驅動型占據主導地位,該類型科學數據匯交主要由國家及地方政策約束,從項目層面強制要求項目承擔單位匯交科學數據,這一類型在最大程度上保證了科技計劃項目科學數據的匯交,且對我國科學數據匯交工作的順利進行起到了極大的促進作用。中國工程知識中心數據匯交則可歸入聯盟共享型,知識中心聯合工程科技領域研究機構、高校、企業以及相關政府部門共同建立數據資源池[22],但該類型的局限性在于對聯盟單位的整體實力有要求,其聯盟單位本身必須擁有本領域內主要的大規模數據庫且具有吸納數據的能力。垂直管理型則由領域屬性和機構屬性決定,如中國氣象局,因氣象數據和民生息息相關,作為全民共享的數據,其下屬管理單位的氣象科學數據需要匯聚。中國科學院下轄多個研究所,直接從機構層面要求各單位匯交科學數據,建立統一的科學數據中心。
《科學數據管理辦法》提出各級科技計劃(專項、基金等)管理部門應建立先匯交科學數據、再驗收科技計劃(專項、基金等)項目的機制。各省相繼出臺的科學數據管理實施細則/辦法以及各部門制定的數據資源管理辦法,均對科學數據匯交進行了詳細規定。如《交通運輸科學數據管理辦法(征求意見稿)》《氣象探測資料匯交管理辦法》《農業科學數據匯交管理辦法》等,對行業科學數據的匯交范圍、匯交內容、責任人、質量控制、匯交流程、保存共享等作出了詳細規定。
隨著科學數據匯交工作的深入開展,科學數據匯交機制逐步建立(見圖1)。在科技計劃項目實施過程中,數據匯交方需向項目管理方提交數據匯交計劃,在項目結題之前可通過線上或線下方式匯交數據至鄰近領域的科學數據中心,項目負責人應對數據質量進行自查,同時,科學數據中心邀請專家對數據進行審核并通過后,提供匯交憑證,項目負責人獲取匯交憑證后方可進行項目驗收。分中心或者其他機構向科學數據中心匯交數據前應提供數據清單,再匯交數據。論文數據由科研人員直接匯交至科學數據中心。

圖1 科學數據匯交機制
《科技計劃項目形成的科學數據匯交 技術與管理規范》標準詳細介紹了科技計劃形成的科學數據匯交通用流程包括科學數據匯交計劃制定、科學數據制備、科學數據提交、科學數據審核、科學數據匯總、科學數據發布與共享和科學數據使用與維護更新等流程[23]?,F階段所有國家科學數據中心的數據匯交均采用了該標準規定的通用流程。
根據《科技計劃項目科學數據匯交工作方案(試行)》規定,科學數據具體匯交內容包含科學數據實體、科學數據元數據以及科學數據輔助工具。在實際匯交工作中,匯交的具體內容多樣,具體包括科學數據、科學數據描述信息(元數據)、軟件、算法、模型、標本、樣本、菌毒株資源的元數據、組學測序數據等實驗數據、圖片、圖像數據等觀測數據、標準與計量、考察/調查報告、論文、專著、專利、軟件著作以及數據庫系統等。
隨著科學數據匯交工作的推進,各類科學數據中心匯集的數據涵蓋的領域也在不斷擴展。據不完全統計,國家科學數據中心、省級科學數據中心以及重點部門科學數據中心涉及的一級學科超過39個[24](見圖2,參照國家標準GB/T 13745—2009學科分類與代碼),其中工程與技術科學類的科學數據資源所涵蓋的一級學科數量最多,體現了我國前沿科技發展所關注的重點學科方向。

圖2 科學數據中心學科分布
2018 年《科學數據管理辦法》發布后,僅有16個省(區、市)發布了科學數據管理實施辦法或實施細則,但均未出臺正式的科學數據管理配套政策,未形成一整套完善的工作制度,不利于科學數據的匯交。僅有部分科學數據中心發布了數據匯交相關的詳細管理辦法,如國家科技計量科學數據中心發布有《國家計量科學數據中心項目數據匯交管理辦法》《國家計量科學數據中心數據分級分類管理辦法》,中國科學院發布了《中國科學院科學數據管理與開放共享辦法(試行)》《中國科學院戰略性先導科技專項科學數據匯交管理實施細則(試行)》。然而,科學數據涉及眾多研究領域,不同領域的科學數據各具特色,需要根據不同領域數據特征及地方特色制定詳細的配套管理政策,才能更好地實現后期數據共享與數據使用。
全面開展科學數據匯交是近年來提出的一項新業務,面向科學數據匯交,加工整合數據需要一定的經費支持才能建立長期投入機制,特別是很多項目需要重新投入資金與精力開展科學數據匯交工作。但最新的國家科技計劃項目經費管理體系中沒有明確列出科學數據匯交科目,中國注冊會計師協會于2022 年6 月修訂印發的《中央財政科技計劃項目(課題)結題審計指引》沒有在相應科目中提到“科學數據”,沒有明確的政策制度支持將科學數據匯交相關經費納入課題預算[25]。缺少相應經費投入,不利于科學數據匯交工作的開展,更不利于科學數據匯交業務的常態化[26]。
科學數據中心是促進科學數據開放共享的重要載體,主要承擔科學數據的整合匯交、加工、管理、服務共享以及交流合作。目前已建立有20 個國家科學數據中心,但建設進度不完全一致,大部分國家科學數據中心已完成數據匯交全流程服務,少量國家科學數據中心尚未開通對外的科學數據匯交入口。例如,國家冰川凍土沙漠科學數據中心在2023 年3月23 日正式發布科技計劃項目科學數據匯交系統,采取“線上+線下FTP”的方式方便科研人員進行數據匯交[27]。國家極地科學數據中心尚未找到線上匯交通道,不利于廣大科技工作者自主匯交科學數據。
已發布科學數據管理細則或實施管理辦法的省份僅在文件中指出要建設地方科學數據中心,但對科技計劃科學數據中心建設未提出明確要求,科學數據中心的認定、評價與管理不明確,部分省份只是停留在科學數據中心建設的理論研究層面,僅有少數幾個省份開始著手實際建設工作,如廣東省科學數據中心、甘肅省科學數據總中心。2022 年6 月江蘇省提出建設省級科學數據中心,擬于2026 年6月完成一期建設。另外,地方科學數據中心尚未建成實體網站。全國各省市尚未完成科學數據地方管理平臺和管理團隊的創建,部分省份尚未開展科學數據匯交管理辦法或實施細則的制定,科學數據管理載體建設有待進一步落實,全國一體化科學數據管理體系尚未形成。
科學數據匯交目前尚在試點階段,科研工作者對科學數據匯交的積極性不高??蒲泄ぷ髡咧苯記Q定科學數據的匯交數量并影響科學數據的匯交質量。現階段科學數據匯交多在項目層面進行約束,2022年中國高科技產業化研究會科技成果轉化協作工作委員會在全國范圍內開展了國家科技計劃項目申報與科學數據匯交專題培訓,對國家科技計劃科學數據匯交進行了詳細介紹,各個國家科學數據中心也開展了不同規模的科學數據匯交專題培訓,但培訓時間短、培訓人數少、培訓范圍小,培訓效果有待進一步提高??茖W數據匯交應是整個科學研究行業工作者要達成的普遍共識。此外,科學數據匯交涉及到知識產權,相關利益者仍然處于觀望態度,導致數據匯交的積極性不高。
在GB/T 39909-2021 科技計劃形成的科學數據匯交通用數據元(所有部分)中,已明確說明科學數據匯交中各類元數據內容和格式規范、通用代碼以及擴展規則,在一定程度上保證了數據質量。科研工作者通過線上平臺進行數據匯交,科學數據在傳遞過程中可能出現各種各樣的錯誤,科研工作者的主觀失誤,也可能會造成數據缺失、數據錯誤、數據重復等。在數據匯交流程中,盡管設置有科學數據審核流程,但如果一個項目的科學數據量過大,專家評審將會變得異常困難??梢钥紤]將數據質量管控融入數據生產安全生命周期,由科學數據提交人對匯交的數據實行長期負責制。個人匯交到科學數據中心的數據發布之后,用戶如果發現數據質量問題,應向數據的原始提供方追責。
盡管國家層面、?。▍^、市)層面以及重要機構都在逐步踐行科學數據匯交工作,但我國科學數據匯交仍然處于初級階段,對于數據的匯交管理,還需要不同政策與良好的社會氛圍支持數據全生命周期的具體事務,這一復雜的社會化活動,尚存在許多障礙與困境需要我們逐一攻克。
健全科學數據匯交管理政策,建立和完善科學數據采集匯交機制,進一步明確匯交義務人制度、匯交審核制度、匯交工作管理制度以及匯交獎懲制度,特別是針對項目過程中產生的科學數據,應從項目和課題層面分別建立數據聯絡員和負責人制度,將數據匯交落實到具體的科研人員。重點在崗位設置、職稱評定、收入分配等方面進行適當的獎勵激勵,鼓勵科研人員進行科學數據的匯交、傳播、共享[28]。針對政府財政支持的項目,應在項目經費中劃出一定比例的經費用于開展科學數據匯交工作。在省級科學數據中心建設中,將建設成本納入本級財政預算,確保經費的長期穩定投入,以持續有效地推進科學數據匯交工作[29]。
自《科學數據管理辦法》發布以來,盡管已有不少項目匯交數據,但多數項目是首次開展科學數據匯交,難免存在抵觸情緒,部分科研工作者認為相比以往不僅需要交出數據,更是增加了科研工作者的工作量。因此,需要在全社會營造科學數據匯交文化,普及科學數據匯交知識,各級各類項目在立項階段就應做好科學數據匯交計劃。在各級科技計劃項目征集之前、項目執行過程中,科學數據中心與項目管理方都應對科研人員等相關主體開展科學數據政策和標準的宣傳培訓,不定期開展科學數據匯交和相關工作的交流。同時,各大科研院所應在機構范圍內廣泛開展科學數據匯交相關的宣傳和培訓工作,全面普及科學數據匯交意識,營造良好的科學數據匯交文化。
科學數據匯交的最終目的是實現數據的開放共享,將數據價值得以最大程度地實現。推動科學數據的開放共享,能夠有效促進科學數據的長期積累,為廣大的科研人員實現科技創新提供研究基礎,同時也能消除“數據孤島”,加快海量科學數據的流通和共享,避免各部門、各領域科研工作中的重復性勞動,優化科技資源配置。鼓勵并推動已匯交的科學數據平臺進科研院所、進高校、進圖書館,向廣大科研人員和學生推廣科學數據庫使用,引導科研院所和高校使用國產科學數據資源,并通過用戶反饋不斷改進完善,能夠促進科學數據庫健康良性發展。優化開放共享流程,面向廣大科研工作者提供更為便捷的數據使用方式,培養社會各方使用習慣。只有更多的人關注并使用科學數據,才能正向激勵更多的科研人員匯交科學數據,從而促進科學數據匯交工作的良性發展,實現數據驅動創新、數據可持續發展的目標。
科技計劃項目形成的科學數據匯交體系正在逐步建立,但社會資金形成的科學數據,特別是企業在創新研發過程中積累的科學數據具有很強的使用價值和實踐意義,其科學數據匯交情況有待進一步確認。受科學數據相關權益的影響,不能強制要求社會資金形成的科學數據完全參照政府預算資金資助形成的科學數據進行匯交,但可以考慮合作共享方式,探索科學數據的跨部門共享使用。從國家層面制定相關政策為企業提供各項優惠措施,創建良好的政策環境,以促進跨部門間的數據共享。圍繞關鍵優勢領域,鼓勵科學數據中心與行業領先企業開展數據共享、數據交換、數據交易,以建設集研發、生產、技術、產品等數據為一體的科學數據中心。積極吸納更多的企業參與科技計劃項目,在項目實施過程中共享數據;開展科學數據中心與企業之間的數據交換,以數據換數據、技術換數據、服務換數據等多種方式實現數據交換;另外,也可以直接采用數據交易方式實現跨部門間的數據匯聚整合。