徐淋楠,段美珍,寇晶晶
大數據時代,數據已成為科學研究和產業經濟發展的關鍵核心,受到了世界各國的高度重視。在科學研究領域,科學研究方法和知識生產的范式都發生了巨大變化[1],封閉式的科學研究已經不再適應時代的發展,打破“信息孤島”、消除數據閉塞已成為世界各國科研工作者的共識。尤其是在構建人類命運共同體的時代發展背景下,跨地域、跨機構和跨學科研究成為常態,開放合作與數據共享成為使眾多科學問題得以進一步深入探究與解決的關鍵,這一點在全球應對新型冠狀病毒肺炎的問題上已經得到了充分的驗證。作為推動開放科學發展的關鍵組成部分,科學數據開放共享不僅能夠降低科研成本和投入,實現公眾利益最大化,還能夠為科學研究成果的可重復、可驗證創造條件,有助于提升科研成果的透明性和準確性等,進而達到肅清學術風氣的目的。但作為國家社會經濟和科研創新發展的重要戰略資源,科學數據在開放共享的過程中,也出現了許多數據安全問題。
保障科學數據安全,是開放共享的基礎和前提[2]。為此,多個國家和地區出臺了相關政策以推進科學數據安全保障的落實。僅2018 年一年就有歐盟《一般數據保護條例》(General Data Protection Regulation,GDPR)[3]、英國《2018 數據保護法》(Data Protection Act 2018)[4]、我國《科學數據管理辦法》[5]等政策的出臺。2020 年9 月,我國在主題為“抓住數字機遇,共謀合作發展”的國際研討會上提出了《全球數據安全倡議》,呼吁各國秉持發展和安全并重的原則,保護好涉及本國國家安全、公共安全、經濟安全和社會穩定的重要數據[6]。2021 年6 月,我國出臺了第一部專門針對數據安全的法律《中華人民共和國數據安全法》[7]。這些政策和倡議的提出充分體現了科學數據對國家科技發展和創新的重要性,也充分說明了各國政府對科學數據安全問題的重視。數據作為與勞動、資本等生產要素比肩的核心生產要素,已成為國家之間競爭的焦點。誰掌握了和占有了更多的科學數據資源,誰就更有可能在新一輪的科技競爭中掌握話語權。因此,我國必須重視關于開放共享下科學數據安全問題的研究,建構出與時代發展相契合的安全戰略和治理路徑以應對激烈的國際競爭和博弈。
關于數據安全的討論,國內學術界主要集中在“政府公共數據”[8-11]、“個人隱私數據”[12-14]、“健康醫療數據”[15-17]等方面,專門針對科學數據安全問題的討論相對較少。現有的科學數據安全研究主要包括對科學數據共享后隱私保護的政策解讀[18-20]和方法探析[21]、對科學數據知識產權方面的法律探討[22]、對保障科學數據開放安全的技術研究[23],以及對影響科學數據開放安全程度的因素分析[24]等方面。除此之外,有一些學者從不同角度對開放共享環境下科學數據安全的治理路徑提出了建議。如有學者從科學數據的機密性、完整性、可用性角度提出了針對科學數據安全的治理對策[25],有學者從制度、基礎設施、數據素養、實施4 個層面構建了高校安全數據的治理框架[26],還有學者從研發人員、作者、我國政府、外國政府4 個主體的角度提出了云環境下科學數據的治理范式[27]。本文則主要基于信息生命周期理論,從科學數據的存儲、管理、應用3 個層級由下至上展開討論,進而從宏觀、中觀和微觀的視角提出開放共享環境下科學數據安全的治理路徑。
科學數據安全問題貫穿在數據管理的每一個流程和環節中,各環節又受多重因素的影響。結合有學者提出的信息生命周期管理的層次模型與科學數據管理實踐[28],本文認為可以從存儲、管理、應用3 個層級和階段對科學數據管理中可能存在的安全問題進行梳理提煉。
根據WSR 系統方法論,即“物理(Wuli)—事理(Shili)—人理(Renli)方法論”,在分析某一個對象或解決某一問題時通常會涉及物理、事理、人理3 個方面的要素和內容。其中,“物理”主要是指在分析某一個對象或解決某一個問題時人所面對的物質客觀存在。在科學數據安全治理過程中,“物理”主要涉及設備和技術等客觀的物理存在。“事理”主要是指改變物理層面的客觀存在及其規律時所應用的有效方式和對策。在科學數據安全治理過程中,“事理”主要指治理主體制定的相關制度規范和策略。“人理”是指在分析某一對象或解決某一問題時涉及到的主體(人、人群和團體)及其之間的關系和變化,使人們能根據可接納的道理實現項目或達成問題的原定目標。在科學數據安全治理過程中,“人理”主要涉及政府、科研機構和科研人員等科學數據安全治理的利益相關主體。在具體安全問題分析的過程中,本文結合現有研究成果和實踐中存在的問題,按照制度、技術、設施和人員的要素分析思路,對存儲、管理、應用3 個不同層級和階段中可能出現的科學數據治理問題及成因進行詳細梳理。
最后,從利益相關者角度出發,按照政府、科研機構和科研人員等參與主體分類,探究開放共享環境下科學數據安全的治理路徑(圖1)。

圖1 開放共享環境下科學數據安全研究框架
科學數據的保存和存儲是科學數據管理的第一步,在這一過程中可能會出現存儲數據丟失、數據存儲格式不規范、數據版本不完整等數據安全問題。
2.1.1 存儲數據丟失
存儲數據丟失通常涉及設施、技術和人員3個方面的問題。設施設備方面,如用于存儲的硬件設備可能會由于超出容量等各種突發原因崩潰、損壞或丟失,造成存儲的部分甚至全部數據丟失;技術方面,如存儲系統在存儲操作過程中可能會被病毒入侵或操作失誤使數據遭到損壞或丟失但無法復原等;人員方面,如科研人員未及時上傳相關研究數據或未進行充分的數據備份,以及其他管理人員誤操作等都會導致相關數據缺失或丟失。
2.1.2 數據存儲格式不規范
數據存儲格式問題受制度規范影響較大。目前國際和國內還未形成標準化的科學管理規范,不同機構對同一學科甚至同一類型科學數據的存儲要求都大相徑庭。各種主客觀原因導致數據存儲格式多樣,數據與軟件不兼容,原始數據無法訪問和互操作。在這種情況下,即使數據按規定上傳和共享,也不具備通用性,無法供其他研究人員使用。
2.1.3 數據存儲版本不完整
存儲版本不完整、存儲數據有誤等操作性問題通常與實施數據操作的人員有較大關聯。在實際研究過程中,科研人員可能缺乏數據版本保存意識,僅上傳最終科研成果中涉及的數據。然而,得出實驗結果的前置數據也同樣具有較高的存儲價值,如果僅上傳最后的結果數據,則其他研究人員無法重復進行實驗以驗證實驗結果的有效性,也無法利用已有實驗數據得到更多的科學發現。對于長期受資助的項目,如果科研人員未按研究機構規定定期上傳和管理科學數據,那么造成的損失和后果將更為嚴重。除此之外,一些有價值的科學數據被創建后,可能被研究人員誤認為無須保存導致被刪除等,從而影響后續的科研工作。
科學數據集中存儲后需要對其進行合理、高效的管理,在這一層面可能面臨統一的數據安全分級標準缺失、數據泄漏和數據竊取等數據安全問題。
2.2.1 缺乏統一的數據安全分級標準
不同階段的科學數據的價值和保密程度不同,因此需要根據不同價值和密級制定對應的保密管理和審查策略。在國內,雖然國務院辦公廳發布的《科學數據管理辦法》提出了科學數據要分級分類管理,但目前國內仍然沒有較為統一規范的數據安全分級標準。此外,不同類型科學數據的開放尚未統一參考標準,這就導致各科研機構開放程度差異較大。有的科研機構過于謹慎,封鎖絕大多數科學數據使其難以共享;有的科研機構則對科學數據的重視程度不夠,隨意公開科學數據,導致科研成果被竊取等。即使在科學數據管理實踐發展較好的國家,不同機構的數據安全分級標準也難以統一規范。以美國高校為例,加利福尼亞大學伯克利分校根據數據的敏感性提出了3 級科學數據分級標準,哈佛大學基于其信息安全準則制定了5 級科學數據分級標準[29]。
2.2.2 數據泄漏
數據泄露現象的產生受科學數據利益相關主體多方面主客觀因素的影響。科學數據管理過程中涉及的環節和人員較多,數據泄露風險較大。從科研人員和數據管理人員的角度來說,部分人員數據安全保護意識不強、數據安全級別識別能力不足等都會導致數據泄露。從政府和機構層面來說,現行科學數據的安全等級劃分不夠明確、數據管理系統的安全性能和技術保障能力不足等,都不利于科學數據安全工作的開展。此外,國內法律法規對科學數據泄露和侵權的懲處力度較低,會存在部分科研機構的數據管理人員受到利益誘惑主動將重要的科學數據泄露給其他科研機構的現象。
2.2.3 數據竊取
科學數據被竊取是引發科學數據安全問題的又一關鍵因素,并且這一現象時有發生。如2021年,英國開放大學發現其開放獲取知識庫中的大量博士論文被掛在亞馬遜上售賣,影響較為惡劣。為了保護學生的著作權益,英國開放大學被迫停止了其機構知識庫的開放獲取。涉及國家安全層面的科學數據被竊取問題尤為突出。部分國家為了在國際上獲取更多的話語權,以高科技技術手段大規模竊取、監視他國的重要科學數據,這對構建共建共享、合作共贏的世界數字經濟體系產生了極大的損害。數據竊取造成的數據安全問題雖然對科學數據管理的利益相關者而言屬于不可抗力,也非其主觀意愿,但仍應從技術設備等要素出發對數據安全問題進行排查和反思,以避免數據竊取風險[30]。
科學數據開放共享的最終目的是為了應用,科研人員在實際應用中可能會遇到數據所有權模糊、數據篡改和數據濫用等安全問題。
2.3.1 數據所有權模糊
缺乏明確規范的科學數據產權界定制度是導致數據所有權模糊,進而引發科學數據安全應用問題的關鍵因素之一。如科研人員在獲取科學數據后由于權利邊界的不確定性,可能存在不敢使用或過度使用的現象;當數據的所有權為多個主體時,數據開放帶來的權益分配也可能引發糾紛。因此,在推進科學數據開放共享的進程中,必須要正視數據權益問題,明確數據主權和治權。
2.3.2 數據篡改
信任是開放科學數據的基礎,也是開放科學環境下科學合作的基石。無論是開放前數據的篡改,還是開放后數據應用的篡改,對科學研究的發展都會產生嚴重的影響。科學數據應用階段的數據篡改不僅涉及數據安全問題,還是違反學術誠信和學術道德的表現。如在實際科研過程中,部分科研人員會存在不標明數據來源,將他人的科研成果占為己有,篡奪他人的知識產權的現象;有些科研人員甚至會在論文引用后篡改原始數據,使其強行符合自己的研究結果等。
2.3.3 數據濫用
有一些學科領域和研究課題所涉及的科學數據通常包含了個人和機構等不宜隨意公開應用的數據信息。尤其是在醫藥衛生領域和統計學領域,較多臨床數據和調查數據包含了個人隱私信息,這些數據信息在開放共享后,使用者獲取的門檻和成本降低,容易導致隱私數據的泄漏和濫用。
政府、科研機構及科研人員是科學數據開放共享過程中最為核心的主體,在科學數據的生產、資助、組織、管理、利用過程中扮演著不同的角色。其中,政府是科學數據的宏觀層面的管理者,主要承擔了研究資金資助和政策法律制定的責任。科研機構是中觀層面的管理者,負責制定符合科研誠信和學術道德的科學數據管理規范,管理科研人員受資助項目的實施,提出科學數據向公眾開放的策略,保障開放共享下科學數據的安全。科研人員既是科學數據的生產者和利用者,也是微觀層面的管理者,需要按照規定及時公開計劃內應共享的科學數據,遵守科學數據的管理規范和相關的法律法規。
政府在完善和優化科學數據的安全治理工作中首先應解決我國數據安全頂層設計不完備的問題。雖然目前我國已有包括《科學數據管理辦法》在內的多項數據管理政策,但相關政策缺乏系統性,完備、細致的制度框架還未形成,不能很好地解決當前科學數據所面臨的安全問題。因此,我國政府需持續細化和完善相關制度。
3.1.1 建立健全科學數據的產權制度
針對科學數據所有權模糊的問題,我國尚無明確的法律法規出臺。因此,應在國家層面推進科學數據產權制度的建立,厘清科學數據的所有權邊界,明確科學數據的認定、轉讓、使用規則,規范科學數據各利益相關主體在保護科學數據上所應承擔的責任,健全科學數據知識產權的保護制度。除此之外,對數據竊取、泄漏、濫用等數據侵權問題,除了《數據安全法》中提出的加大懲處力度、提高違法成本、細化懲處機制外,還應加快健全個人信息的授權保護制度,通過強制明示授權許可等方式切實保護用戶的權利。
3.1.2 制定科學數據分級保護制度
《中華人民共和國數據安全法》第三章第十九條提出要對數據實行分級分類保護,但并未制定出詳細的數據分級保護指導標準。因此,我國政府需要細化制定科學數據安全分級管理的具體準則,在鼓勵依法合規使用非敏感科學數據的同時,保護敏感科學數據的安全,避免可開放的不開放及不可開放的被泄漏等情況。在科學數據的分級上,已有部分大學及科研機構進行了實踐。如美國國家航空與宇宙航行局(National Aeronautics and Space Administration,NASA)對地觀測數據信息系統(Earth Observing System Data and Information System,EOS DIS)將科學數據處理層級分為level 0、level 1A、level 1B、level 2、level 3、level 4 共6 個層級以輔助海量科學數據的處理[31]。美國加利福尼亞大學伯克利分校將科學數據劃分為極低(公共信息)、低(非公開、不敏感和去身份的信息)、中(中度敏感的個人可識別信息)、高(非常敏感的個人可識別信息)4 個級別[32],以實現嚴格的科學數據保護。我國政府也應基于現實需要和已有經驗完善科學數據的分級保護制度。
除此之外,科學數據安全分級規則的制定還要考慮學科和行業的特點,數據處理的程度受到數據用途、數據價值及數據采集等多個因素的影響。如果是宇宙理論方面的探索,則需要對儀器產生的異常值、缺失值數據進行加工處理后將其納入分析進程,但如果是探究宇宙生命的可能性,則需要盡可能地保存原始的、全面的、完整的信息。因此,科學數據分級不能一概而論,需要具體問題具體分析。
3.1.3 通過關鍵主體將制度政策落到實處
國內科研資助機構通常是政府實施科研資助與管理等的關鍵主體,在科學數據安全治理方面發揮重要的作用。因此,在科學數據安全政策落實過程中,政府宏觀管理部門應充分發揮所轄機構和組織的主體作用,根據其職能權力賦予相應的職責和任務。同時,相關主體應在國家和政府宏觀政策和法律的指導下,積極制定既符合國家和政府訴求,又能夠保障科研機構、科研人員等其他相關者利益的細則和要求。如科研資助機構可通過制定科學數據管理指南等,強制要求受資助的科研機構和科研人員按照科研項目資助的周期階段,對科學數據進行管理和提交,并將受資助的科研項目的數據安全管理作為項目完成的指標之一進行審核。國家科學數據管理平臺作為數據管理的實際操作者,要從數據管理具體實施機制的制定、技術設施和人員的配置等更加微觀的層面提升系統平臺的數據安全管理能力和數據可重用水平等,以期為中觀和微觀層面科學數據的安全治理提供借鑒和補充。
科研機構作為中觀層面的管理者擔任了承前啟后的責任,既是政府制定相關法律政策的具體實施者,又是科研人員是否履行科學數據安全保護責任的監督者。因此,作為海量科學數據的集中地,科研機構需在精進數據安全保護技術的基礎上,構建全面的數據安全管理機制。
3.2.1 建立科學數據隱私保護機制
科研機構首先應對包含隱私信息的科學數據進行處理,通過數據匿名、限制準入、資格審查等手段對科學數據進行保護。以蘇格蘭縱向研究(The Scottish Longitudinal Study,SLS)[33]對敏感數據的處理為例,SLS 擁有人口普查數據、重大事件數據(出生、婚姻、死亡)、教育數據、衛生數據等信息,用來審視和解決一系列社會經濟問題,是寶貴的社會決策信息來源。為了保護個人隱私和數據安全,SLS 采取了如下措施:一是數據集以匿名形式存在,調查中涉及到的個人會模糊掉姓名和地址;二是數據存儲在有密碼保護的獨立網絡上,用戶只能在特定的受保護位置訪問數據;三是負責維護和督導的理事會審查每一個研究申請,并進行風險評估,不授權任何需要確認個人數據的研究;四是嚴格控制訪問程序,如果科研人員需要遠程分析數據,則由現場相關人員代為運行統計程序。我國科研機構應參考已有成功經驗,依據數據特性完善科學數據的隱私保護機制。
3.2.2 制定科學數據使用管理機制
科學數據格式、標準的不統一對數據的完整性和通用性造成了阻礙,因此需要對科學數據的上傳和引用標準進行規范。在科學數據標準化方面,Open AIRE 為我國提供了很好的參考。Open AIRE 作為歐盟委員會開放政策的基礎支撐機構,為科研人員提供了覆蓋所有科學數據類型的標準指南[34]。在數據引用方面為科學數據制定了唯一的引用標識,使其能夠如其他文獻資源一般自由、規范地流通。我國可參考德、英、澳等國家聯合建立的DataCite 機構的運行程序來構建此類機制。DataCite 等機構專門用于登記科學數據并為其分配永久標識符,使科學數據可作為獨立的、可應用的、唯一的科學對象被使用[35]。
3.2.3 完善科學數據備份容災機制
建立科學數據的備份容災機制是應對科學數據遺失的重要手段。科研機構需采用合適的數據備份介質和策略,以應對供電中斷、硬件崩潰等突發情況。當然這一機制也需要科學數據存繳者的配合,如美國地震科學注冊研究中心(Incorporated Research Institutions for Seismology,IRIS)在其數據提交協議中規定[36],數據提交者必須周期性地將科學數據轉錄到新媒體中,通過對數據的定期管理來保證數據的安全性和永久可用性,維護數據集的多個副本以防止單個數據集的丟失或物理損壞。
3.2.4 強化科學數據追蹤防御機制
開放共享科學數據對當前的信息技術提出挑戰,必須開發滿足共享機密、敏感數據的安全技術來防止意外事故和蓄意攻擊。當前我們不能僅通過對源代碼和安全系統架構保密的方式保障數據安全,還需要開放源代碼等信息,在攻擊者分析漏洞并攻擊后對系統進行更為徹底的測試,這種“開放性最終形成更好的安全性(openness ultimately breeds better security)”的做法可以幫助我們更好地保障數據安全。除了對現有系統的測試,科研機構還應重視數據溯源技術應用,以達到防篡改、防泄露、防攻擊、防病毒的目的。
科研人員作為生產和利用科學數據的重要主體,受到政府和科研機構的雙重管理,是上述政策和機制的踐行者。從這一層面維護科學數據安全,需要科研人員遵守法律和道德的雙層約束。
3.3.1 遵守科學數據管理規范
科研人員作為科學數據的生產者時,一方面要配合科研機構的備份容災機制,按規定程序制定數據管理計劃,定時上傳管理科學數據,做好科研項目全流程的數據記錄及備份,積極履行數據公開和共享的責任,在數據出現突發問題時,及時向負責機構報告并就此緊急事件快速作出反應;另一方面,提交數據時應按照科研機構的統一標準進行上傳,遵守科學數據管理規范,保證數據的可用性和完整性。
3.3.2 增強科研誠信道德意識
科研人員作為科學數據的使用者時,首先要遵守政府制定的各項法律法規,以我國《科學數據管理辦法》和《中華人民共和國數據安全法》為參考,對科學數據的存儲、管理、應用進行謹慎處理,不因經濟利益等做出數據泄漏、篡改、竊取等數據侵權行為,遵守學術道德。當然,在個人數據權益被侵犯時,也應運用法律武器追究侵權行為,維護自己的合法權益。其次要遵守科研機構數據獲取程序,按準入和使用要求合規利用數據,規范科學數據處理行為,促進科學數據的開放共享。
科學數據走向開放共享是大數據時代的主流趨勢,保障這一趨勢下的科學數據安全對降低科研成本、推動學科創新、肅清學術風氣、增強科研實力具有重要意義。本文基于制度、技術、設施、人員等要素對科學數據存儲、管理、應用中可能存在的安全問題進行分析,并從政府、科研機構和人員等利益相關主體的角度提出了開放共享環境下科學數據安全的治理路徑,有一定的指導價值。但本文研究還存在一定的不足,后續將研究和制定更加具體的實施細則,助力中國數據安全戰略的構建和實施。