江慧慧,趙麗梅,2
(1.黑龍江大學信息管理學院,黑龍江 哈爾濱 150080;2.黑龍江大學信息資源管理研究中心,黑龍江 哈爾濱 150080)
科學數據是網絡時代重要的學術資源,也是科技創新和國家發展的重要戰略性資源,具有可傳遞性、可增值性和可共享性,在科學研究中發揮著重要的作用[1]。隨著信息社會的發展,人們越來越關注科學數據的共享,將科學數據進行共享能夠打破數據使用過程中的壁壘,避免對同一數據的多次創建、重復勞動,最大限度發揮數據價值。
為推動數據共享,2014 年中國科學院和國家自然科學基金委員會發表了關于開放獲取的政策聲明,2017 年國家自然科學基金委員會再次發布基礎研究知識庫開放獲取實施細則[2]2。2018年發布的《科學數據管理方法》是第一部關于科學數據管理與共享的法律規范,在制度方面為科學數據的管理安全以及共享提供了保障[3]。盡管上述政策已落實并有所成效,但我國數據共享程度同開放科學先行國家相比仍有一定差距。截至2019年,我國被開放知識庫目錄收錄的開放知識庫為47個,僅為美國的5.2%[4]4。
雖然科學數據共享既能減少科研投入成本,又能推廣研究成果、促進科學進步,是社會發展重要的組成部分,但Spring Nature 2018年發布的《科研人員數據共享實際挑戰白皮書》顯示,學者對于數據共享認同感雖高,共享意愿和行動力卻不足。當前數據共享形勢并不樂觀,僅有一半數據被共享[5]。這不僅與共享社會發展需求相矛盾,也與開放科學時代的研究理念相違背。究其原因,當前數據共享中存在數據安全、隱私泄露等問題使科研人員對于主動共享其科學數據仍心存疑慮。為持續推進科學數據共享,就必須對主體所感知到的科學數據共享障礙進行識別、預判及消解。本文在闡釋科學數據、科學數據共享等核心概念的基礎上,通過分析科學數據共享流程,從為科學數據共享提供基礎設施的技術體系、參與主體的共享意愿、科學數據共享所處情境的管理措施以及法律政策等維度來解析科學數據共享障礙,并系統分析論述科學數據共享障礙的消解措施,為科學數據共享的持續向善提供參考建議。
早在20 世紀末,國外就已經有學者對數據共享中存在的障礙因素展開研究,Barbara Stanleyt和Michael Stanley 從研究人員的視角出發論述了非自愿進行數據共享會產生的負面影響,認為共享活動應基于自愿[6];Youngseek Kim 和Sujin Kim 提出了一種數據共享的復合模型,研究制度、動機和資源因素是如何影響研究人員的數據共享行為[7];Wolfgang Zenk-M?ltgen 等學者通過統計分析得出,作者的態度、社會規范和感知行為控制會影響他們分享數據的意愿[8]。
在國內的相關研究中,劉桂峰等學者運用扎根理論方法,將影響共享的因素歸納為個人、組織、資源、制度與技術五種[9]3;鄭琳通過調研得出,研究人員的背景、所處政策環境、共享所需成本等因素均會影響科研人員的共享意愿[10];何琳等學者利用結構方程模型進行研究,發現重用數據的質量、來源等因素對科研人員數據重用意愿有促進作用[11];劉莉、劉文云分析了數據共享影響因素之間的層級關系,發現信息技術的影響最為深遠[12];盛小平等學者從管理、法律、技術、認知、成本、用戶等方面對數據共享障礙進行歸納,并通過問卷調查進行驗證[13]1-3;孫俐麗、趙乃瑄發現除了共享氛圍、政策等因素外,相關設施、激勵機制及科研人員的感知作用等因素對于數據共享的影響也較大[14]5。
對國內外科學數據共享障礙因素相關研究的分析發現,不同國別、不同學科間數據共享中存在的障礙因素也各有不同,以往研究多采用調研、總結歸納的方式對科學數據共享障礙進行辨析,而科學數據共享的障礙是主體在科學數據共享過程中所感知到的挑戰。因此,以科學數據共享流程為嵌入情境來系統分析科學數據共享的障礙更具客觀性和科學性。
狹義的科學數據是指人類社會活動中經過加工處理而變得有序化并大量積累后而有用的數據結合;廣義的科學數據是指數據、數據生產者、數據生產和開發利用的技術等要素的集合[15]。根據《科學數據管理辦法》的規定,科學數據主要包括在自然科學、工程技術科學等領域,通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據[16]。
科學數據共享能夠使數據資源得到更好的開發和利用,實現社會效益最大化。對于科學數據共享的概念,學界有諸多看法。徐楓認為科學數據共享是運用現代信息技術,使用戶能夠更加便捷地獲取數據,同時通過對數據進行有序管理,為相關用戶群體提供有效服務[17];黃心正認為科學數據共享的本質是推動數據的流動以及資源的合理配置[18];朱雪忠、徐先東認為科學數據共享是通過國家層面將零散的科學數據進行管理整合,使其能夠被有效便捷地獲取[19]。由此可見,科學數據共享是指在一定條件下,將團體或研究者個體所開發或收集整理的科學數據資源,通過信息技術等手段提供給其他人使用的行為。共享途徑主要有四種:(1)作為出版物的補充材料;(2)發布在個人或其他網站上;(3)上傳到數據存儲庫;(4)在期刊上發表[20]。就資源的長期保存、安全性、完整性而言,將數據資源上傳到數據存儲庫中是最為合適的方式[21]。
科學數據共享流程即數據生產者通過一定途徑將數據傳遞給使用者的過程,主要有數據產生、數據收集、數據處理與存儲、數據共享、數據利用、數據利用反饋六個階段[22],如圖1所示。數據生產是共享的起始,這一階段主要依賴于生產者群體,包括個人、團體。在產出眾多數據后,還需進行數據管理,確保數據的質量和規范,使其能夠通過評審進入下一階段。第二階段是數據收集,相關主體需確定收集目標,通過簽訂協議等方式從數據持有者手中獲取數據,采集持有者的信息,并對獲取的數據進行試驗和模擬,按規范創建元數據,這是科學數據共享的基礎。第三階段是數據處理與存儲,主體按不同學科規范對數據主題、類型等進行分析,并使用統一的描述標準對數據進行處理,可操作的實驗數據還需再次核驗,對數據質量嚴格把關;同時還需建立數據存儲規范,使用能夠長期保存數據的存儲介質,并定期檢查。第四階段是數據共享,主體通過標識技術為數據與數據源建立關系,制定數據引用規范,使用戶能夠通過數字對象標識符(DOI)來獲取數據,同時還會提供數據引用格式和訪問地址[23];此外,還需對數據進行分級,針對不同級別數據設置不同的共享程度。第五階段是數據利用,在這一階段,主體可對獲取的相關數據進行深加工,使其能夠成為自身研究所需的數據,也可對數據進行評述,用于教育、學習等目的,進一步挖掘數據的價值。第六階段是數據利用反饋,根據數據的訪問情況、下載量以及評價等,得到數據的反饋信息,用于了解數據共享的效果,以及在利用數據過程中,重新審視數據本身的價值,發現數據存在的問題,將之作為反饋信息融入數據的生產環節,根據反饋信息對數據進行完善,提升數據的質量。

圖1 科學數據共享流程
障礙即阻擋事物前進的阻礙物。科學數據共享障礙是在科學數據共享進程中起消極作用的因素,阻礙共享發展。在數據收集階段,由于缺少統一的數據標準,收集效率難以提高,且當前共享中仍存在著數據安全、權責不明等隱患,使研究人員對于數據共享心存疑慮,共享積極性不高,進而影響數據收集的完備性。在數據處理與存儲階段,需要統一的格式規范,而這正是當前所缺乏的。數據能否被訪問極大影響數據共享的有效性。目前,可訪問平臺也存在著資源少、訪問限制等問題,這直接影響到數據的利用。
技術是影響科學數據共享的硬性因素,是共享過程中不容缺失的一環,包括數據提交、存儲、分享、使用和維護等[13]2。在數據提交階段,由于缺少公開的技術標準,導致數據格式不規范,難以做到精確識別,影響數據采集效率。數據共享平臺是科研工作者存儲數據的主要工具[24]6,也是使用者獲取共享數據的主要渠道,平臺存儲的安全性、數據的可獲取性均會對用戶數據共享的意愿、實質行為以及平臺數據的利用率產生影響。2019年,我國在OpenDOAR 注冊的41 個機構庫中有5個不可訪問,占總量的12%[4]5,可訪問機構庫中資源少、訪問限制等問題也影響了其實際應用率。科學數據資源的使用者主要是科研人員,部分數據擁有者共享數據意愿較強烈,但由于欠缺相關共享知識技能而無法參與共享[24]7。此外,我國科研人員對于機構庫等平臺認知度較高,但參與度不夠,相當一部分人員從未使用[25],這使機構庫的功能難以發揮。在共享平臺進行數據維護時,不能提供有效訪問,難以保障公眾獲取資源的需求[26]。
科研人員是數據共享的執行者,其協作交流的效率直接影響科學數據共享的進程[2]2。大部分科研人員對于數據共享持正面積極態度,認可度較高,但由于政策制度不完善、數據共享安全性保障不足、激勵措施不充分等問題,導致部分科研人員樂于使用他人共享的數據,卻不愿意共享自己擁有的數據,相對于全面開放共享更愿意在自身熟知范圍內進行開放。科學數據的產生通常需要耗費大量的時間和精力,將數據進行共享打破了原有的唯一性,收益不明還可能引起濫用,沒有充分的激勵政策或制度的強制性要求,科研人員很難主動將數據進行共享。大部分科研人員的晉升、嘉獎、名譽等都與研發成果相關,而數據又是研發的基礎,共享使研究人員可能面臨數據被盜用、成果被他人提前公布等風險。因此,大部分科研人員選擇在成果發布或研究完成后公布數據[27]4,競爭環境下共享困難重重。此外,由于學科背景或研究方法不一,共享出的數據可能會被誤讀或誤用,引發對共享者研究成果的爭議。
機構自身特質(如制藥公司等對于其專項經費項目下所產生的數據拒絕共享[27]4)、團隊氛圍、采取的激勵措施等對于科研人員是否選擇共享的影響較大。從眾心理在科研人員數據共享行為中有所表現[14]6,機構對于數據共享的態度很大程度上會影響科研人員共享意愿,當機構整體氛圍偏于開放,大部分人員對于數據持共享態度時,會帶動少部分無意愿或相對保守的人員進行數據共享。反之,大部分人都拒絕分享則會使整個機構處于封閉狀態。機構為推動科研人員共享數據所采取的激勵措施也尤為重要,當共享所獲得的利益更大時,會推動共享行為的產生。反之,則會降低科研人員的共享意愿。當前,我國各科研機構正處于“封閉式”狀態,領導者抑或是科研人員還未形成數據共享、跨機構合作意識,僅有的合作項目也是基于申報要求[28]2,對于數據的流動嚴格管控。再加上以開放形式發表的數據、科研成果得不到學術優先權的認可[4]4,提前共享數據就意味著放棄科研首發權,這使科學數據共享難以被科研人員所接受。此外,科學數據有其時效性,但大部分數據實際發布周期過長,滯后性嚴重,這對于數據的應用和獲取十分不利,對數據本身的有效性也會有所影響。
完善的法律政策不僅能夠對科學數據共享活動起到支持和引導作用,還能保障數據安全,是影響科學數據共享的主要因素之一。如英國的《數據保護法案》、美國的《信息自由法》等[29]均是為管理和推動科學數據共享而產生的。我國在數據共享相關法律政策制定方面還有不足,如對于統一的數據標準、管理流程標準等尚未制訂詳細方案用以規范[2]3。此外,大數據背景下信息技術得到迅速發展,去匿名化等技術使包含敏感信息的數據存在被識別的可能,隱私泄露風險增大。且目前使用的數據安全與隱私保護相關法規大多是沿用過去的[30],對于數據分享者和使用者的權責規定不明確,在當前數據共享過程中極易引發數據安全等問題,甚至面臨法律糾紛。在我國醫學領域中就曾有過對基因數據、遺傳數據的不當共享造成科研機密泄露、危害國家安全[4]5。再者,已有的《保密法》《科技成果轉化法》等條例文件中對于高校產生的科學數據類型是否屬于涉密沒有明確劃分,導致科研人員出于自我保護而不愿將數據進行共享[28]2。
技術設施完善與否直接影響數據共享進程。在數據收集階段應根據不同學科特點,將數據格式和標準進行規范,采取不同的技術設備進行精確識別,提高數據采集效率的同時也保證數據質量。科研人員是共享的主體,平臺建設在推進,科研人員共享和獲取數據的技能素養也要有所提高,科研人員必須掌握相應的共享技術,否則,即使有意愿共享或使用數據也無法真正有效實施[24]7。共享平臺對其操作流程、格式標準等應進行詳細說明,必要時可開展培訓活動,使用戶掌握基本共享技術。此外,還可進行適度宣傳,如在相關領域機構單位內舉辦宣傳活動、發放宣傳使用手冊等,提高科研人員對共享平臺的認知度和利用率,從而推動共享進程。各個平臺也需加強合作,對數據資源進行整合,實現平臺間的資源互借,提高數據資源利用率。
科研人員是科學數據生產和使用的主體,推動科學數據共享離不開科研人員的參與。科研人員數據共享意愿會受到社群的影響,因此可采取“自上而下”“同行先進代表宣傳”[31]等方法,即針對科研人員所屬情境的管理層,由管理層的行為態度影響科研人員共享意愿;提倡共享先行者對數據共享的意義和作用進行宣傳,吸引科研工作者的參與,以此加強科研人員對數據共享重要性及必要性的認識。還應加強對科研人員法律知識的培訓,保護自身產權的同時避免侵權。完善數據共享程序,明確數據產權歸屬,加強對科研人員共享數據的審核,確認在不涉密的前提下進行共享。此外,共享利益包括既得利益和潛在利益,既得利益為共享數據應得到的政策或所屬單位規定的相應程度的補償,潛在利益包括共享帶來的學術關注度等。一方面,機構單位可針對數據的價值制定差異化獎勵,完善激勵制度;另一方面,要提高科研人員對共享潛在利益的感知度,使其明晰共享所能帶來的全部收益,進而提高數據共享意愿。
科研人員的數據共享行為受所屬機構單位的氛圍影響,具有一定的從眾性,因此發揮管理層的引導作用,營造出數據共享的文化氛圍很大程度上能夠促使科研人員共享數據[9]5。機構單位對科學數據共享的激勵制度能夠影響科研人員的利益感知,繼而影響共享行為,而不同的激勵制度對于不同背景的科研人員影響力也有所不同,各機構單位應根據內部人員特點,按需制定多元化激勵策略,也可將數據共享行為納入科研人員的晉升、嘉獎等考核中,以提高科研人員數據共享的積極性。同時,還應保障科研人員的科研首發權,對于科研人員共享出的數據予以學術優先權,以便研究者能夠第一時間將數據投入應用。此外,加強機構間的合作也是推動數據共享的有效途徑[32],各個機構可發揮自身優勢,明確權責,拓寬合作范圍,提升數據整合能力,使數據管理效率得到提高。
科學數據共享活動的開展離不開法律政策的推動和引導。現階段仍存在科研人員不愿或不敢共享數據的現象,更加需要政策的推動。因此,各級政府部門應針對科學數據各個周期制定相應的規范標準,使科學數據在收集、組織、存儲、共享、利用等整個周期中都有法可依。對共享中可能存在的侵權、隱私泄露等問題也需進行明確規定,用以保障科研人員的知識產權以及學術優先權,降低其感知風險,從而增強科研人員的共享意愿。同時,秉承著“誰的數據誰負責”原則,針對共享出的數據建立責任制,對數據的真實性、完整性等提出制度要求[33],避免部分人員為獲取利益而發布虛假數據。對于數據的使用也應制定相應規范,以約束使用者的行為,避免數據被濫用,從而推動數據共享[24]6。此外,數據類型尤其是涉及國家或機構科研機密的數據需要做出明確劃分,以免不慎外傳。
科學數據共享作為一種新的數據再分配模式,雖然是科學共同體內部一直倡導的共益理念和集體行動范式,受到社會廣泛關注,但其運行并非一帆風順,而是面臨諸多障礙。本文基于科學數據共享流程,從技術、意愿、管理以及法律規章等維度對科學數據共享的障礙進行系統分析,從技術設施、科研人員共享意愿、激勵機制以及法律制度等方面提出科學數據共享障礙的消解措施,旨在為科學數據共享的可持續向善提供參考建議。