邢文明,楊 玲
隨著大數據時代的到來和數據密集型研究范式的深入發展,科學數據作為重要的基礎性科技資源受到了國際社會的普遍重視。國際社會紛紛通過制定相關政策、為科學數據的存儲與監護提供基礎設施及服務、為科研人員管理與共享科學數據提供指導和幫助等多種措施,推動科學數據的開放共享。在這些措施中,通過制定相關政策以促進、規范和保障科學數據共享無疑是最切實有效的,為諸多國家所采用[1]。
作為當今世界最重要的發展中國家和發達國家,中美兩國的政府均出臺了有關科學數據開放共享的政策。2013年2月22日,美國白宮科技政策辦公室(Office of Science and Technology Policy)發布了《促進聯邦資助科研成果獲取的備忘錄》(Increasing Access to the Results of Federally Funded Scientific Research,以下簡稱《備忘錄》),要求每個年度研發資助經費超過1億美元的聯邦機構都必須制定計劃,提升其資助的科研項目成果的可獲取性,為公眾利用這些成果提供便利[2]。2018年3月17日,我國國務院辦公廳印發《科學數據管理辦法》(以下簡稱《辦法》),提出要進一步加強和規范科學數據管理,保障科學數據安全,提高開放共享水平,更好地為國家科技創新、經濟社會發展和國家安全提供支撐[3]。本文將從比較研究的角度,對兩項政策進行比較分析,以期為完善和優化我國的科學數據管理與共享政策提供參考。
本文選取這兩項政策進行分析,主要有以下兩個原因。(1)二者是迄今僅有的國家層面的科學數據政策。盡管世界上的重要國家(如美國、英國、法國、德國、加拿大、澳大利亞等)紛紛出臺相關政策以推進和規范科學數據的開放共享,但其他國家的相關政策大都是由某一政府部門或機構發布的。毋庸置疑,國家層面出臺的政策,其位階和效力更高,是其他相關政策的指南和依據,更具全局性和重要性。同時,國家層面的政策還體現各國對本國科學數據管理與共享戰略的頂層設計、優先重點和推進策略,因而具有較好的比較分析意義。(2)美國是世界上較早重視并開展科學數據管理與共享的國家。早在1991年,白宮科技政策辦公室就發布了關于研究數據管理的政策聲明,要求對全球變化研究項目所產生的科研數據實行“完全與公開”(Full and Open)的共享[4],經過30年的探索與積累,已建立了較完善的科學數據管理與共享的實踐體系,因而其政策也具有較好的借鑒意義,值得我國參考。
國外在科學數據管理政策實踐方面已取得了豐碩成果,國際組織[5]、政府及其各部門[6]、科研資助者[7]、科研機構(如研究中心[8]、高校[9]、出版機構[10]、數據中心[11])等不同主體均制定了有關科學數據開放共享的政策。同時,國外在理論研究方面也進行了諸多探討,主要包括:制定和優化科學數據政策的理論探討[12]、科學數據開放共享利益主體的行為研究[13]、科學數據開放共享服務探討[14]、專業領域科學數據開放政策的分析研究[15]、科學數據開放政策實證研究[16]等。
國內有關科學數據政策的研究,始于以中國科學院孫樞院士為首的科學數據共享政策考察團撰寫的《美國科學數據共享政策考察報告》。隨后,相關研究成果大量出現,可分為如下幾個方面:一是有關國內外科學數據開放共享政策的調研分析與經驗總結,如對國際組織[17]、科學資助機構[18]、科研機構[19]、高校圖書館[20]、出版商[21]、數據中心[22]等不同利益主體,對海洋科學[23]、人口與健康科學[24]、生命科學[25]、醫學科學[26]、農業科學[27]、天文科學[28]等不同學科領域的數據,以及數據保存[29]、數據安全[30]、數據匯交[31]、數據共享[32]等不同環節的政策內容進行調研分析與借鑒;二是有關政策框架及評價指標體系的研究,如徐天雪運用定性和定量相結合的方法,為科學數據開放共享政策建立評估指標體系[33];衛軍朝等從系統性、整體性的視角出發,對分散的科學數據開放政策進行梳理,構建相互協調、有機聯系的科學數據開放保障政策體系[34];路鵬等以憲法、黨和國家的科技政策為指導,將與有關科學數據共享的現行、正在制定和將要制定的全部政策法規組合起來,形成相互間具有內在聯系的科學數據共享政策法規體系,為科學數據共享立法提供政策法規體系框架[35];三是有關《科學數據管理辦法》的解讀與優化研究,如部分學者對《科學數據管理辦法》進行解讀和剖析[36],關注政策的實施細則,依據《辦法》的基本原則與要求,建立本省或本部門的科學數據管理辦法,為我國科學數據管理政策的推進貢獻力量。
綜上可知,盡管國內外有關科學數據政策的研究已較為豐富,圍繞政策的調研分析,評估借鑒、解讀探討等方面都有較多的成果。但從比較的角度,探討不同政策的異同,尤其是從國家層面對不同國家的科學數據政策進行對比分析的研究尚不多見。
文章借鑒國內學者顧立平在《前瞻導論:形塑未來與推動政策》[37]一書中提出的政策內容分析方法展開研究,即設置若干觀測問題并建立分析框架進行細化分析。同時,邢文明等[36]指出,《辦法》存在著“數據生命周期”和“相關責任者”兩條主線,其中,前者圍繞科學數據管理與共享的主要環節(采集與生產、匯交與保存、共享與利用等),明確各階段的主要任務及工作要求,后者從組織管理的角度明確各責任主體的職責與分工。筆者基本認同這種看法,但認為數據生命周期的各環節其實質是科學數據管理與共享的業務流程。據此,結合《備忘錄》和《辦法》中的具體內容,本文分別從一般信息(政策目標、科學數據的定義、適用范圍)、組織管理(管理體系、工作機制)、業務流程(數據管理計劃、數據采集與生產、數據保存與安全、數據開放與公開、數據獲取與利用)三個維度、十個觀測點對兩項政策進行比較分析(見圖1)。

圖1 中美國家層面科學數據管理政策的比較框架
3.1.1 政策目標
《備忘錄》的政策目標是“加速科學突破和創新、促進產業發展、提高經濟增長和就業。通過長期保存和開放獲取,促進這些出版物和數據被有效再利用,使聯邦科研資助的影響力最大化,也使得公共投資的可審計性最大化”。而《辦法》的政策目標則是“進一步加強和規范科學數據管理,保障科學數據安全,提高開放共享水平,更好支撐國家科技創新、經濟社會發展和國家安全”。二者都強調“促進科學數據的開放獲取以充分發揮數據對于推動科技創新和經濟社會發展的價值”,但與《備忘錄》相比,《辦法》多了“保障科學數據安全以支撐國家安全”的目標追求。
3.1.2 科學數據的定義
對于科學數據的定義,《備忘錄》沿用美國公共與預算管理辦公室(OMB)A-110[38]通告中的定義:“被科學界普遍接受的、用以證實研究發現的、以數字形式記錄的實際資料,包括用于支持學術出版的數據集,但不包括實驗室記錄、初步分析、科學論文草稿、未來研究計劃、同行評議、同行通信或物理實體(如實驗樣本)”;而《辦法》第二條指出:“本辦法所稱科學數據主要包括在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據。”
二者相較,《辦法》包含的“科學數據”范圍更廣,而《備忘錄》的定義更明確。主要體現在:(1)《備忘錄》僅指“以數字形式記錄的”數據,而《辦法》并沒有強調這一點;(2)《備忘錄》明確指出“實驗室記錄”不屬于科學數據,而《辦法》則包括“原始數據及其衍生數據”;(3)《備忘錄》通過排除方式進一步明確科學數據的內涵:“不包括實驗室記錄、初步分析、科學論文草稿、未來研究計劃、同行評議、同行通信或物理實體(如實驗樣本)”,而《辦法》沒有明確哪些不屬于科學數據。
3.1.3 政策的適用范圍
政策的適用范圍是對實施客體或實施對象的界定。《備忘錄》的適用范圍是“年度研發資助經費超過1億美元的聯邦機構”,而《辦法》的適用范圍包括兩個方面:一是“政府預算資金支持開展的科學數據采集生產、加工整理、開放共享和管理使用等活動”;二是“任何單位和個人在中華人民共和國境內從事科學數據相關活動,符合本辦法規定情形的,按照本辦法執行。”
二者的共同點是均重點關注公共資金資助產生的科學數據。其不同點在于:一方面,界定適用范圍的角度有所不同,《備忘錄》從責任主體(資助科研活動的聯邦機構)的角度加以界定,而《辦法》則是從行為規范和責任主體相結合(科學數據的采集生產、加工整理、開放共享和管理使用等活動及從事相關活動的單位和個人)的角度加以界定;另一方面,《辦法》的適用對象較《備忘錄》更為寬泛,《備忘錄》的規范對象僅是年度研發資助經費超過1億美元的聯邦機構,而《辦法》的規范對象不僅包括各級各類政府資助的科研活動,也包括非政府資助的科學數據相關活動。
政策的組織管理包括宏觀層面的組織管理體系和微觀層面的工作機制。其中,宏觀的組織管理體系主要是明確相關責任主體的職責與權限,理順科學數據管理的權責劃分;微觀的工作機制則是明確科學數據管理工作的具體內容以及標準規范,確保各項工作有效落實。兩者共同保障政策的順利實施。
3.2.1 科學數據管理的責任主體及其職責
分析《備忘錄》的政策文本,發現該政策中的責任主體有白宮科技政策辦公室、資助科學研究的聯邦機構、受資助者、用戶等四個類別。同樣,梳理《辦法》的政策內容可發現,該政策中明確了國務院科學技術行政部門、主管部門、法人單位、科學數據中心、科學數據生產者和科學數據使用者等六類責任主體。盡管二者的責任主體及其職責不同,但其指導思想卻基本一致,即明確不同責任主體的職責義務,形成職責明晰、各司其職的科學數據管理體系,確保科學數據管理與共享順利進行。
3.2.2 科學數據開放共享的工作機制
良好的工作機制是確保科學數據管理與共享順利進行的關鍵。分析發現,《備忘錄》確立了以聯邦資助機構“公共獲取計劃”(Public Access Plan)為核心的實施機制,即要求資助科學研究的各聯邦機構制定并落實公共獲取計劃,確保聯邦政府資助的科研成果得以公開獲取。而《辦法》則根據“國家統籌、各部門與各地區分工負責”的原則,確立統籌管理與分工負責相結合的機制,各級責任部門一方面要宣傳并貫徹落實國家和部門(地方)科學數據管理政策,另一方面要統籌規劃/指導/組織開展本部門(地區/單位)的科學數據工作,建立健全本單位科學數據相關管理制度,確保科學數據管理與共享的順利進行。由此可見,《備忘錄》確立了以資助科學研究的聯邦機構為核心的實施機制,而《辦法》則確立了上級部門統籌協調和綜合指導、下級部門組織實施相結合的工作機制。
3.3.1 數據管理計劃
數據管理計劃(Data Management Plan,DMP)是一份概述研究者在科研過程中以及結束后如何對科學數據進行管理、保存及提供共享的規劃文檔[39],有助于確保科學數據的創建、保存、歸檔和利用有章可循、有據可依,同時也能確保科學數據共享、重用和長期保存的一致性、準確性與可追溯性[40]。《備忘錄》要求得到聯邦政府經費資助的研究人員均需制定數據管理計劃,說明將如何確保研究過程中產生的數據得到妥善的長期保存與獲取,或說明為什么長期保存和公共獲取這些數據是不適宜的。而《辦法》并未提及數據管理計劃。
3.3.2 數據的采集與生產
按照相關標準采集(或生產)高質量的數據是確保數據可用性的關鍵,因而確保數據的質量是數據采集與生產階段的主要目標。對于科學數據的采集與生產,《備忘錄》并沒有相關規定,而《辦法》則分別對不同責任主體的職責加以明確,構建了系統完善的數據采集(生產)質量保障體系:(1)國務院科學技術行政部門負責組織研究制定國家科學數據標準規范;(2)有關科研院所、高等院校和企業等法人單位(以下簡稱“法人單位”)是科學數據管理的責任主體,應“建立科學數據質量控制體系,保證數據的準確性和可用性”;(3)法人單位及科學數據生產者要“按照相關標準規范開展科學數據采集生產和加工整理,形成便于使用的數據庫或數據集”。可見,《辦法》確立了周密的科學數據質量保障體系,通過嚴格管理和建立標準規范,確保數據優質可用,為科學數據的共享奠定堅實的基礎。
3.3.3 數據的保存與安全
數據的保存是實現數據長久可用,充分發揮其潛在價值的基礎。分析發現,《備忘錄》與《辦法》均重視科學數據的保存,但同時又各有側重,體現在:(1)《備忘錄》更注重數據的可獲取和可利用,指出“由聯邦機構全部或部分支持的非保密研究所產生的數字格式的科學數據應被存儲到可公開獲取的數據庫中,并支持數據的查詢、檢索和分析”;而《辦法》更注重數據的安全保護,通過建立安全保護措施和容災備份機制確保數據在存儲過程中不被非法獲取和惡意使用、不致丟失損毀等;(2)《備忘錄》考慮數據保存的成本,指出“在長期保存、獲取的價值與相關成本和管理責任之間尋求平衡”;而《辦法》則特別重視數據的保密管理以保障國家安全。一是在數據開放前明確數據的密級和保密期限、開放條件與對象;二是在對外提供數據時實行安全審查制度,并圍繞數據的保密與安全明確相關責任主體的職責。
3.3.4 數據的開放與公開
科學數據的開放與公開是保障數據自由利用的前提。對于科學數據的開放與公開,《備忘錄》并未特別強調如何建立公開機制,但強調要確保數據的可獲取性:一方面要求將科學數據“存儲到可公開獲取的數據庫中”,另一方面要求“在確保聯邦資助的研究成果得到長期保存的同時,不斷優化其查找、存檔和傳播的途徑,促進其在可獲取和可互操作方面的創新”。而《辦法》則以“開放為常態,不開放為例外”為指導思想,明確多種數據的公開方式:(1)編制和公布科學數據資源目錄,如第十九條指出:“由主管部門組織編制科學數據資源目錄,有關目錄和數據應及時接入國家數據共享交換平臺,面向社會和相關部門開放共享”,同時第二十條要求:法人單位“按要求公布科學數據開放目錄”;(2)通過數據出版以促進開放與傳播,如《辦法》第二十二條規定:“主管部門和法人單位應積極推動科學數據出版和傳播工作,支持科研人員整理發表產權清晰、準確完整、共享價值高的科學數據”。由此可見,《備忘錄》的規定簡潔高效,注重目標導向,而《辦法》則注重過程的規范性,通過多種途徑推動科學數據的開放與公開。
3.3.5 數據的獲取與利用
數據的獲取及使用是開展數據管理與數據保存的最終目的,也是實現數據價值的關鍵環節。如前所述,《備忘錄》以“公眾最大程度獲取聯邦資助(科研項目)產生的科學數據”為目標,一方面強調將數據“存儲到可公開獲取的數據庫中,并支持查詢、檢索和分析”,以確保其可及性,另一方面要求優化數據的“可獲得性和互操作性”,以確保其可用性;同時還要求資助科研的聯邦機構“支持與科學數據管理、分析、存儲、保存、監管有關的培訓、教育和人力資源建設”。而《辦法》則注重科學數據使用者的義務,指出要“遵守知識產權相關規定,在論文發表、專利申請、專著出版等工作中注明所使用和參考引用的科學數據”。
由上述分析可知,在政策理念與目標層面,《備忘錄》關注科學數據的最大限度獲取與利用,而《辦法》則強調科學數據的開放與安全,將國家安全放在突出位置。在政策實施層面,《備忘錄》更注重目標導向,要求資助科學研究的各聯邦機構制定和實施公共獲取計劃以確保數據的獲取與利用;而《辦法》更注重過程管理,圍繞數據的生命周期,對數據的采集、匯交、保存、開放、共享、利用等做出相對較詳細的規定。同時,《辦法》設專章對數據的保密與安全管理進行詳細規定。
相較于《辦法》,《備忘錄》不僅在目標上強調科學數據的可獲取和可利用,也通過具體措施加以保障。例如,在數據可獲取方面,強調數據必須存儲到可公開獲取的數據庫或存檔庫,并提高公眾發現和獲取聯邦資助的研究所產生的數字內容的能力;在數據可利用方面,強調在確保聯邦資助的研究成果得以長期保存的同時,不斷提升其被檢索和獲取的便捷性。
《備忘錄》鼓勵公私合作,強調政府和企業共同開發科學數據蘊藏的價值,以實現公共和私有力量的緊密協作,提高數據的可獲取性和可重用性,避免不必要的對已有機制的復制和資源的重復投入。美國的公私合作主要是指政府和社會資本合作,促進科學數據的共享利用。這種合作模式,于政府而言,可利用外部資源提升自身的公共服務能力和治理水平,緩解資金緊張的壓力,合理分擔風險;于企業而言,基于政府開放的數據資源,可開展大數據領域的創新創業,激發大數據產業的活力,促進經濟發展與就業[41],從而實現《備忘錄》“加速科學突破和創新、促進產業發展、提高經濟增長和就業”的目標。與此對照,《辦法》要求政府預算資金資助形成的科學數據按照“開放為常態、不開放為例外”的原則進行開放共享,并在此基礎上,鼓勵法人單位、社會組織和企業圍繞自身形成的科學數據資源進行分析挖掘,形成有價值的科學數據產品,開展市場化增值服務,以實現科學數據整體效益的最大化。
從政策表述看,二者關注的重點有所不同。《備忘錄》強調公共部門與社會力量的密切溝通與協作,共同推行統一的標準、規范和準則,形成多方互利共贏的局面,著眼于塑造實現數據價值最大化的生態和文化;而《辦法》則鼓勵社會力量積極參與科學數據的增值開發和市場化服務,通過挖掘和揭示數據的潛在價值,以滿足社會對科學數據多層次、多樣化的需求,著眼于數據價值的充分發掘。
比較美、中兩國科學數據政策的內容,發現《備忘錄》重視制定數據管理計劃。對于受資助科研項目所產生的科學數據,該計劃規定:需詳細描述如何確保其長期保存和公開獲取,若不適宜長期保存和開放獲取,則給出說明。數據管理計劃作為科學數據管理的第一步,可提前規劃好數據在整個生命周期中所面臨和需要解決的問題,使得數據管理有規可循、有制可依,有利于規范數據管理秩序,提高數據管理質量。
FAIR原則是2014年在荷蘭萊頓的勞倫茲會議上提出的初步構想,并于2016年發布,是一套旨在確保使用者易于發現、獲取、操作和使用數據的數據管理指南,即建議研究者和資助機構在存儲和開放數據時,應遵循可發現(Findable)、可獲取(Accessible)、可互操作(Interoperable)和可重用(Reusable)的原則。自發布以來,FAIR原則及其理念已得到眾多利益相關者的廣泛引用、認可和采納[42],被諸多專家學者在多個場合推薦,并發布了不少相關研究成果和實施指南。美國2013年發布的《備忘錄》就包含了FAIR原則的若干精神,如要求科學數據存儲時應確保其可檢索、可獲取和可互操作性。我國在實踐探索與實施方面也做了諸多努力,如由中國科學院計算機網絡信息中心和CODATA中國全國委員會聯合主辦的《中國科學數據(中英文網絡版)》致力于科學數據的開放、共享和引用,促進科學數據的可發現(Findable)、可訪問(Accessible)、可理解(Intelligible)和可重用(Reusable);中國科學院地理科學與資源研究所和中國地理學會聯合創建的“全球變化科學研究數據出版系統”,以出版和傳播全球變化相關領域的科學研究數據和數據論文為核心、以促進全球變化科學研究領域數據開放和共享作為宗旨,確保數據產權清晰、安全可靠、質量可信、計算機可識別、系統可交互、數據可挖掘再用。2019年9月,國際科學理事會數據委員會(Committee on Datafor Science and Technology,CODATA)及其國際數據政策委員會在北京召開了開放科學數據政策與實踐國際研討會,肯定了世界各地已發布的數據政策及其實施進展,并于2019年11月在CODATA官方網站發布了《科研數據北京宣言》(以下簡稱《宣言》)。《宣言》指出:科研數據具有全球公共產品的基本屬性,應按照FAIR原則的精神推動其開放和共享利用。《辦法》也強調科學數據的充分利用,但對數據的可獲取性和可互操作性不夠重視。我國在制定和完善相關政策時可吸收和借鑒FAIR原則的相關理念,將確保數據可發現、可獲取、可互操作和可重用的相關措施納入政策內容體系。比如,在數據開放前,為科學數據集建立唯一標識符并將數據集與研究成果相關聯;為數據集添加盡可能充分的元數據,以確保數據的可發現和可理解;數據發布時應包含明確的使用條件和協議,以促進數據的合理使用等,從而推動科學數據的充分共享與利用。
通過《備忘錄》與《辦法》的比較可知,美國國家層面的科學數據政策非常強調政府與企業的聯動發展,主張公私合作,實現科學數據價值最大化。科學數據的開放與共享、分析與挖掘、管理與應用,不僅能促進科學研究的進步,發展新興學科,而且能催生新型經濟形態、促進經濟高質量發展。有效收集數據,科學分析數據,最大化數據的價值,成為社會主義市場經濟發展的必然要求。2020年4月9日,國務院發布《中共中央 國務院關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱《意見》),數據作為一種新型生產要素首次被寫入文件中,與土地、勞動力、資本、技術等傳統要素并列[43]。《意見》圍繞推進政府數據開放共享、提升社會數據資源價值、加強數據資源整合和安全保護等方面提出指導意見,為數據要素市場培育指明方向[44]。在此背景下,我國科學數據政策應進一步明確政府、企業和其他社會主體之間合作的原則目標、領域方向、方式途徑、權利義務等,以更好地推動數據要素市場化的培育與發展,充分發揮各方力量與積極性,更好地促進數據價值的實現。
數據管理計劃作為推進科學數據管理共享的有效工具,對規范科學數據的采集與生產、促進數據的保管與長期保存、推動數據的開放共享等都具有重要作用。目前,不少國家的科研資助機構都將數據管理計劃作為科研項目申請中必不可少的一部分,并以此為依據推動科學數據的管理與開放共享。我國《辦法》尚未將數據管理計劃納入政策體系,僅指出“政府預算資金資助的各級科技計劃(專項、基金等)項目所形成的科學數據,應由項目牽頭單位匯交到相關科學數據中心”。盡管有助于推動科學數據的匯交,但不少項目在實施過程中由于缺乏前期規劃和數據保管意識,在結束時無數據可交或匯交的數據不完整、數據質量不高。《辦法》出臺后,我國部分地區、主管部門和法人單位等也相繼出臺了各自的科學數據管理辦法或實施細則。筆者調研發現,目前僅有中國科學院發布的《中國科學院科學數據管理與開放共享辦法》提出“將科技項目數據管理計劃作為項目立項的必要條件,列入項目評審內容”,并明確了科研項目數據管理計劃的主要內容:“項目預期產生的數據內容、類型、規模、質量、提交時間和最終匯交的科學數據管理機構名稱等”,而各地方和主管部門的相關辦法并沒有明確提出數據管理計劃的要求。因而,我國應加大數據管理計劃的應用與推廣力度,將數據管理計劃列入各政策中,并以數據管理計劃為依據,規劃和規范數據管理的過程,更好地推進國內科學數據的開放共享[45]。