于成 劉怡彤
摘 要:FAIR原則是數據基礎設施發展到一定程度后產生的開放數據新理念,由可發現性、可獲得性、可互操作和可重用性四個具體原則構成。出版業實踐FAIR原則對于解決全球性問題、提高科研效率、減少科研錯誤、縮小科技鴻溝等具有重要意義。目前,FAIR原則的知曉度有待提高,具體的行動框架有待建立。本文結合我國實際情況,提出可以在三個層面保證FAIR原則的實踐,達成利益平衡:在宏觀層面,需要完善數據出版法規體系;在中觀層面,科研機構、圖書館、資助者和出版商等需要把FAIR原則作為必要的參考原則,幫助或要求研究者開放數據;在微觀層面,研究者需要認識到實踐FAIR原則與聲譽之間的關系,自下而上地提高數據集等數據成果的認可度。
關鍵詞:FAIR原則 數據基礎設施 數據出版 數據集
FAIR原則由四個具體的數據共享原則合成,分別為:可發現性(findability)、可獲得性(accessibility)、互操作性(interoperability)和重復利用(reuse)。該原則可追溯至英國皇家學會(Royal Society)2012年的報告《作為開放事業的科學》(Science as a Open Enterprise),其中指出,僅僅做到數據開放還不夠,“它還必須是可獲得的(accessible)、可評估的(assessable)、可互操作的(interoperable)和可用的(usable)”。這一觀點在“2013 G8科學部長聲明”(2013 G8 Science Ministers’ Statement)中被重新陳述,并為同年歐盟委員會發布的“地平線2020”(Horizon 2020)計劃所采納。與歐委會的計劃相呼應,科學界在2014年洛倫茲會議上提出FAIR原則,后經由科研社群組織FORCE11的討論,FAIR得以公布。[1]在相關學者、協會和國際組織等的倡議和推動下,目前,FAIR原則逐漸成為學術界,尤其是自然科學界開放數據實踐中的重要指導原則。在利益相關者自愿參與并管理下,管理者與研究人員、資助者、政府機構、出版商、數據庫等展開合作,推動FAIR原則的傳播和實踐,共同推動數據民主化,助力全球科技進步,解決全球性問題。
本文在分析FAIR原則在出版業中的應用價值和意義的基礎上,提出從宏觀到微觀層面落實FAIR的行動框架,為后續進一步的應用研究提供參考。
一、FAIR原則的具體內容和在出版業中的實踐
FAIR原則首先要求數據是可發現的(findable)。不論對于人類還是計算機來說,元數據(用于描述數據的數據)和數據都應該是易于發現的,其中元數據必須是機器可讀的(machine-readable)。該原則要求:F1.分配給(元)數據一個全球唯一且持久的標識符;F2.數據由富元數據(rich metadata)描述(見下文R1的定義);F3.元數據清楚且唯一地包含其所描述的數據標識符;F4.(元)數據在可搜索的資源中登記(registered)或索引化(indexed)。在實踐中,國際科技、醫學(STM)出版商通用數據存儲庫中的數據集分配有數據標識符,并實現深度索引化,從而便于用戶通過搜索引擎發現相關數據。
其次,用戶發現數據后,需要知道如何訪問/獲得數據,也就是說數據必須是可訪問的(accessible)。該原則要求:A1.通過使用標準化通信協議的標識符,(元)數據是可檢索的(A1.1協議是開放的、自由和普遍可執行的;A1.2協議允許在必要時進行身份驗證和授權);A2.即使數據不再可用,元數據也可以訪問。根據這一原則,數據存儲庫能夠對數據訪問級別(公開共享或受限共享)進行合理控制,保護數據集所有者的知識產權等相關權利。
再次,數據通常需要與其他數據整合起來,且需要與分析、儲存和處理數據的應用程序或工作流程實現相互操作,也就是說數據應是可互操作的(interoperable)。該原則要求:I1.(元)數據使用一種形式化的、可獲得的、共享的和廣泛適用的語言進行知識再現;I2.(元)數據使用遵循FAIR原則的詞匯;I3.(元)數據包括對其他(元)數據的限定引用(qualified references)。該原則可保證數據集或文章間引用的規范度。
最后,可重用(resuable)。FAIR的最終目標是優化對數據的重新利用(reuse),為實現此目標,需要使元數據和數據得到良好描述(well-described),以便其在不同的情境中被復制和/或組合。該原則要求:R1元(數據)是富描述的(richly described),具有多重準確性和相關屬性。更具體來說:R1.1(元)數據發布時帶有清晰且可獲得的數據使用許可;R1.2(元)數據有詳細出處;R1.3(元)數據符合相關領域社群標準。[2]該原則鼓勵作者提供富描述的信息,提高數據的重用價值,使數據集本身成為一種重要的學術出版物。
FAIR原則的實踐主要涉及三種實體:數據或數字體(digital object)、元數據(關于數字體的信息)和基礎設施(如搜索引擎,F4條目中“可搜索的資源”即基礎設施的組成部分)。可發現性和可獲得性基本上可以在元數據的層面上實現,互操作性和重用需在數據的層面上努力實現。[3]國際STM出版商較早地注意到FAIR原則在數據出版方面的價值,具體體現在數據描述與存儲、數據審查和數據發布與共享等方面;我國的一些出版實踐也運用了FAIR原則,如《中國科學數據》的數據評審指標設計將該原則作為基本指導原則。[4]
我們知道,可發現、可獲得、可互操作與可重用的理念早已有之,那么為什么到2014年才把它們整合起來并付諸實踐呢?最根本的原因很可能是,要實現全球范圍內的數據共享,基本的物質條件是建立通用數據基礎設施,而在此之前尚不具備此條件。早在2000年之前,人們就已開始開發數據基礎設施組件,如數字對象體系結構(Digital Object Architectures,DOA)、系統支持的持久標識符(Persistent Identifiers,PIDs)和語義網(Sematic Web,構建在因特網和萬維網之上的知識再現框架)等,它們確保了數據的互操作性和機器的可讀性。但是從那時起的十幾年間,人們無法建立通用的數據基礎設施,只是各自為政,獨立開發各種方案、語言、軟件和硬件。直到2012年,人們開始討論建設通用數據基礎設施。[5]
出版業只有在具備建設通用數據基礎設施之能力的條件下,才能讓利益相關者真正參與到開放數據出版行動中來,FAIR指導原則才有現實意義。FAIR原則一個重點即強調機器的行動力(machine-actionability,在沒有或非常少的人類干預下,計算機系統發現、獲得、操作和重用數據的能力)。大量研究表明,在缺乏機器行動力的數據設施條件下,學界和業界的數據科學工作者若要定位、訪問并格式化數據以供重用,需要花費70%—80%的時間在無聊的手工作業上,這樣的技術條件無法支撐FAIR原則的實踐。也就是說,只有在人類互聯網(Internet for People)之上建立機器互聯網(Internet for Machines)[6],才能真正建成符合FAIR原則的通用數據基礎設施。我國出版業跟進FAIR原則,能夠提高我國數據出版的技術水平,在數據描述、存儲、審查、發布與共享等方面確立先進地位。
二、全球化背景下出版業倡導FAIR原則的意義
FAIR原則的倡導者認為,在全球化背景下,FAIR原則對于解決全球性問題、促進國際科技進步等方面具有重要意義。第一,全球性問題十分復雜,為了應對全球性挑戰,聯合國發布了一系列公約,如《可持續發展目標》《生物多樣性公約》《植物條約》等,其中的行動議程皆需要多邊和跨學科合作,廣泛地重新利用各種數據(這里指廣義的數據概念,既包括狹義的數據,也包括元數據、軟件、算法等與狹義數據相關的數字物生態系統,本文有時使用廣義概念,有時使用狹義概念,可根據語境判斷,不再另作說明)。[7]國際科技數據委員會、世界數據系統和研究數據聯盟等國際組織皆積極響應,推動數據基礎設施建設,發布開放數據倡議,參與建設國際性的數據管理項目。數據出版作為開放數據的一個重要環節,有義務參與其中,促進有關全球性挑戰問題的跨學科出版和有價值數據的重新利用。
第二,在網絡社會中,人、物及其相互之間的連結正以前所未有的速度產生數據,FAIR原則強調機器的行動力,讓機器從環境中感知數據,通過試錯來學習復雜的、適應性的行為,以完成以前被認為只有人類才能完成的復雜任務。這種思路對科研產生了深刻影響,利用大數據、機器學習等數據驅動的研究方法,可以有效提高科研效率、減少重復勞動、降低科研成本。[8]因此,出版業將這些數據處理為可互操作和可重用的數據向全球開放,對科技進步具有重要意義。另外,數據重用可以對已有的研究進行重新檢驗,有利于糾正出版過程中的錯誤,并防止數據造假等違反科研倫理行為的發生。
第三,出版業參與數據開放有利于減緩科技鴻溝的擴大,使經濟欠發達國家獲得更多的科技發展機會。當然,實現這一點有賴于國際社會的動員和幫助,如國際科技數據委員會與研究數據聯盟組織的培訓工作坊,否則低收入國家有可能因為缺乏數據管理能力,或擔心外國剝削等原因失去開放數據所帶來的發展機會。[9]
鑒于實踐FAIR原則具有重要意義,近幾年來許多組織都發布了包含FAIR原則的倡議,然而,FAIR原則在研究者中的普及度并不高。雖然許多研究者對FAIR原則并不熟悉,但在實際的研究活動中,使用和分享開放數據的行動并不少,一些受訪者表示,他們從未聽說過這些原則,卻經常分享數據。[10]
總之,FAIR原則是新的國際環境和技術條件下科學研究的最基本原則,需要具體的行動框架支撐才能付諸實踐。如何打消研究者的顧慮,促使更多研究者行動起來,是包括我國在內的科學研究界共同面臨的挑戰。我國出版業作為其中的關鍵角色,理應參與其中。
三、我國實踐FAIR原則的行動框架和出版業的角色
本節將結合實證數據、相關文獻和我國的實際情況,為我國實踐FAIR原則提供一個初步的行動框架。
1.宏觀層面:自上而下的法規和計劃
一些國家或地區以法令的形式促進數據開放,如歐盟委員會的提案強制要求研究數據和出版物的開放獲取。另外,一系列國家或地區層面的開放科學計劃將開放數據作為主要內容,如美國的“開放科學構想:實現21世紀學術研究之愿景”、法國的“開放科學國家計劃”、芬蘭的“開放科學研究倡議”以及歐盟的“歐洲開放科學云”等。
我國在國家層面亦完全支持開放數據。2018年3月17日,國務院辦公廳印發《科學數據管理辦法》,第十九條明確規定:“政府預算資金資助形成的科學數據應當按照開放為常態、不開放為例外的原則,由主管部門組織編制科學數據資源目錄,有關目錄和數據應及時接入國家數據共享交換平臺,面向社會和相關部門開放共享,暢通科學數據軍民共享渠道。國家法律法規有特殊規定的除外。”[11]我國的數據基礎設施亦走在世界前列,國外用戶可利用中科院的數據庫展開研究,航天、探月、氣象等科學數據向全球開放。
國家和地區層面的數據開放法規和計劃,對于國家內部和跨國性的大規模科研活動數據共享具有重要的保障作用,但對于個別科研團隊和個體研究者而言,尚缺乏有效的約束力。如在新冠疫情中,有人指責個別科研團隊沒有及早公開數據,導致錯過控制疫情的最佳時機。無論這樣的指責是否成立,在沒發表論文之前就不公開數據的現象都普遍存在。要解決這一問題,一方面要在宏觀政策層面增加針對分享數據者的保護性政策(如涉及公共利益問題的研究,可以在強制研究者不得隱瞞數據的同時,保護研究者對自己數據的優先使用權),另一方還需要更多中觀機構層面和微觀個體層面的機制加以促進。
2.中觀層面:科研機構、圖書館、資助者與出版商的引導機制
在中觀層面,科研機構、資助者、出版商與圖書館是強化數據開放的重要主體,在保護隱私的前提下,需要這些利益相關機構發揮引導作用,要求或幫助研究者開放數據。在科研機構中,首先,科研評價體系往往只注重論文和著作,數據集很可能并不會被視為貢獻,從而影響研究者發表數據集的積極性。可實際上,數據的獲得本身需要科研人員付出大量勞動,共享后重新組合和被再利用的數據更是凸顯了數據集的科研價值。雖然在目前以及今后的一段時間中,論文和影響因子很可能一直是學術產出最重要的標志,但是我們不能放棄探尋更多元的評價標準和方法,《研究評估宣言》(Delclaration on Research Assessment,簡稱DORA)就呼吁將包括數據集在內的各種形式的研究產出都納入評價指標。將數據集和數據開放作為科研機構評價體系的一部分,應當是各科研機構可以做到的。其次,調查顯示,保守的學術文化會影響研究者共享數據的積極性[12],科研機構理應把建設包括共享數據在內的共享文化作為自身文化建設的重中之重。最后,研究者不愿分享數據的一個原因是,將數據處理為可呈現、可用的形式比較麻煩。國際數據委員會主席蒙斯(Barend Mons)就此指出,數據管理是個專業活兒,像編程一樣難,不能指望所有研究者都掌握,建議大學等科研機構為每20個研究者提供數據管理服務。[13]
科研機構往往配有圖書館,這些高校或機構附屬圖書館可以在開放數據上發揮重要作用。首先,我國圖書館中的工作人員多為信息管理專業出身,有提供專業的數據管理服務能力,可以協助科研人員完成數據處理和分享工作。圖書館可以對工作人員進行體現FAIR原則的數據分享培訓,讓圖書館員和科研人員形成緊密的“數據共同體”。其次,圖書館負有科學傳播的責任和義務。科學傳播一方面包括對科學技術基本知識的傳播,也包括對科學技術事務元層次內容(如科學文化、科學的社會運作)的傳播[14],FAIR原則作為科學文化的一部分,理應包括在內。圖書館可以通過舉辦講座或提供試用數據平臺等形式,宣傳FAIR原則并引導研究者行動起來。最后,實踐FAIR原則可以納入圖書館或相關協會的工作計劃或章程,使工作人員在與數據打交道的過程中,自覺讓數據變得可發現、可獲得、可互操作和可重用。例如,歐洲科研圖書館協會在2017年12月發布了“踐行FAIR原則:圖書館的作用”指導手冊,鼓勵圖書館界廣泛傳播并努力踐行FAIR原則。[15]
資助者是科研人員獲得科研經費的重要渠道,對研究者的成果處理方式擁有重要影響力乃至決定權。2019年的調查顯示,69%的受訪者認為,資助者應將分享研究數據作為授予資助的要求之一;67%的受訪者認為,如果研究人員不愿分享他們的數據,而資助者要求他們這么做,那么資助者就應該扣留他們的資金,或者以其他方式懲罰他們。[16]之所以普遍認為資助者應將分享數據作為授予資助的要求,很可能是因為研究者往往會有數據尋租行為(數據擁有者人為限制數據自由流動,以維護個人或小團體利益),可能會被商業等非科學領域誤用,乃至嚴重損害公共利益。
出版商是學術成果的發表渠道,發表與否,不僅意味著成果是否被科學界乃至全社會認可,也和研究者的職稱、獎金等切身利益相關。如果出版商能在出版環節上加以引導,亦能有效促使研究者遵守FAIR原則。在產品開發上,出版商可以出版專門的數據期刊(data journal),并建設數據庫。根據2018年的調查,對于“你在何處發表數據的問題”,35%的受訪者將數據作為論文附錄發表(2017年數據為34%),18%的受訪者選擇發表在數據期刊上(2017年數據為20%),33%選擇發表于特定數據庫(2017年數據為29%)。[17]可見,開發數據期刊、數據庫等產品,為數據集提供發表渠道,是促使研究者開放數據的有效手段。當然,由于我國的科技期刊出版單位分散在各機構,不像國外出版巨頭那樣實力雄厚,且有刊號等限制,因此很難拓寬發表數據集的渠道。不過,科技期刊完全可以鼓勵投稿文章附有數據,要求發表文章時開放數據,并鼓勵研究者在參考文獻中引用數據集,幫助他們確保數據集標記良好,從而使數據集更易于發現和獲取。有條件的出版社亦可以制定包含FAIR原則的規定,研究數據聯盟(Research Data Alliance)等發布了靈活的規定框架,出版社可在此基礎上進行適當調整。
3.微觀層面:自下而上地提高數據集地位
宏觀、中觀層面的機制設計,需要符合微觀層面的心理動因,才能發揮最大效果。據調查,增加研究影響力、符合公共利益、獲得聲譽、機構的要求等,都是促使研究者分享數據的重要因素,而上文提及的兩個層面,也都旨在符合研究者的動因。實際上,無論出于何種動因,與研究者最直接相關的動因是聲譽,具體表現形式是作品署名、作品的引用量、精神或物質回報等。2019年的調查顯示,只有12%的受訪者感到從分享數據行為中獲得了足夠的聲譽;受訪者認為,提高論文引用量是刺激研究者分享數據的最有效手段,原因顯然是引用量與自身利益直接相關。[18]
那么,數據分享是否能提高論文引用量呢?一項針對PLOS和BMC中的50多萬篇論文的研究顯示,論文如帶有數據可獲得陳述(data availability statements,如鏈接到數據庫的信息),會平均增加25%的引用量。[19]也就是說,分享數據不僅可以使自己的數據集更易于被發現和引用,而且有可能提高自身相關論文被引用率。若科研機構將數據集也納入評價體系,出版商將數據集的發表與研究論文的發表置于同等重要的位置,且研究者自己認識到數據集發表與論文發表一樣可以提高自身學術聲譽,那么研究者顯然會更愿意分享數據。另外,研究者希望自己的數據被重復利用后,能作為論文的共同作者,被問及“如果在隨后的論文中重復使用你的數據并讓你做合著者,這會在多大程度上促使你將數據公開給他人”時,只有8%的人說這不會影響他們的決策。[20]
聲譽顯然不能僅僅用影響因子或論文發表數量來衡量,研究者一方面要認識到分享數據與提高引用量、獲取功名的相關關系,另一方面也要認識到分享數據對于公共利益的重要性,這兩方面都是研究者“數據素養”的重要組成部分,片面地強調哪一方面都不夠公平。當然,在突發性公共衛生事件等危機時期,更應當強調的是價值取向而非功利取向的聲譽觀,否則任何層面的開放數據機制都將失去意義。
研究者自發組建草根性的數據開放社群,自下而上地推動數據集等各種學術成果為機構或出版商所認可,亦是推進數據開放的重要途徑。比如,共享數據平臺FigShare就是草根起家的典型。國家可通過創業政策打造市場化運營的數據數字出版平臺。
四、結語
出版業實踐FAIR原則對于解決國際問題、克服危機、提高國家或地區的科技水平等具有重要意義。通用數據基礎設施是FAIR原則實踐的物質基礎,可發現、可獲得、可互操作和可重用是指導實踐的理念。若要把理念付諸實踐,需要更為具體的行動框架的支持。根據相關的調查和研究,結合我國實際情況,我們認為可以在以下三個層面保證FAIR原則的實踐:在國家層面,需要完善相關法規體系,制定和實施開放數據計劃;在中觀層面,科研機構、圖書館、資助者和出版商等需要把FAIR原則作為必要的參考原則,幫助或要求研究者開放數據;在微觀層面,研究者需要認識到參與實踐FAIR原則可以有助于提高自身聲譽,進而行動起來,自下而上地提高數據集等數據成果的認可度。
出版業作為中觀層面的重要一環,可以通過出版數據期刊,建設包括知識基礎設施層、元數據層、工具層、數據層、資源層在內的數據出版系統,引導作者提供符合FAIR原則的數據等方式,推動FAIR原則的進一步落實。
(作者單位系青島大學文學與新聞傳播學院)