徐菁菁
(浙江大學,浙江 杭州 310058)
近年來,科學數據出版越來越受到研究者的關注。科學數據或研究數據是指產生或收集后有待進一步檢查并作為推理、討論或計算基礎的信息[1]。科研數據的出版是從科學研究的角度,對科學研究的數據進行公開發表及同行評審,并創建永久而標準的數據引用信息,以便被他人發現、引用和再利用[2]。
近年來,政府越來越多地參與到開放數據的建設中。許多國外政府對項目申請者科研全程的數據提出了硬性規定。美國國家科學基金會[3]、美國國家航空航天局(NASA)、英國研究理事會(RCUK)等均有相關規定,要求所有提交的基金申請項目,必須使其科學數據有公開獲取途徑。
數據期刊政策是數據期刊發展的指引方向,主要涉及數據提交、數據描述、數據保存、數據利用等流程[4]。首先,數據期刊一般要求使用指定格式的數據以方便統一管理和引用。在審核階段,需要對其數據進行全方位的評估,同行評審評議是審核數據集非常重要的過程之一。另外,還需針對數據集進行描述,除了論文幾大要素之外,還要附加描述數據采集、處理方法、數據樣本描述、數據質量評估、元數據信息等內容。數據論文通過評審后,將進行發布并確該數據集是可發現和可引用的。
我國數據出版發展雖已取得階段性成果,但與國外相比還處于起步和探索階段。我國大部分期刊都不具有數據出版政策,僅有的政策也多以鼓勵為主,并不強制要求。
科學數據出版模式是推進科學數據共享的必經之路。現有研究者主要是通過科學數據出版的主、客體方式來歸納科學數據出版模式,屬于比較初級的劃分。關于主體與客體的區分,邱春艷[5]認為:科學數據出版的主體主要包含學術出版商、科研機構、數據中心和圖書館等,客體為科學數據、科學數據集以及元數據等。Lawrence等[6]從客體視角,將數據出版劃分為:獨立的數據出版、作為論文輔助資料的數據出版、附錄數據出版、期刊數據檔案出版以及數據論文出版等。
目前科研數據出版服務主要有以下4種數據出版形式:①學科數據儲存庫[7]。②機構存儲庫[8-9]。③數據論文和期刊論文。④機構、個人或第三方網頁出版[10]。
也有學者認為,科學出版的主要目的是方便共享,促進科學發展,所以簡化流程和方法是非常重要的課題。
基于OSF平臺[11]中Meeting板塊,創建一個在線數據存儲庫Data Ark[12],并在其中填充數據集(目前網站中的數據集上傳時間為2018-2019),從而使心理學和精神病學相關的研究團體能夠重復使用并驗證它們。
Micropublication[13]是一個新穎的學術交流平臺,該平臺可以捕獲研究人員的數據,然后通過Micropublication將其直接傳遞到信息資源中。該平臺通過提供快速并且輕量級的出版物,從而激勵作者發布其未發表的觀察結果以及相關的元數據。該平臺每篇文章都經過同行評審并分配了DOI,整理所包含的數據,并在發布后將其存儲在第三方參考數據庫中。
IDR項目的建設由BBSRC資助,這是鄧迪的 OME財團與EMBL-EBI的合作。IDR使一些研究社區可以被搜索、查看、挖掘,可以處理和分析大型、復雜的多維生命科學圖像數據。共享數據可以促進對實驗方法和科學結論的驗證,可以與全球科學界獲得的新數據進行比較,并可以使開發人員使用新的分析和處理工具來重復使用數據[14]。
Psi開放數據是心理學研究協會開放的超心理學和心理學研究數據的開放存儲庫。該存儲庫使用DKAN構建,DKAN是一個開放源代碼開放數據平臺,具有完整的編目、發布和可視化功能。它允許管理員用戶上載研究數據集,并允許任何訪客搜索和下載數據集[15]。
Qresp[16]是一個基于Web的開放源代碼應用程序,可用于管理和探索科學論文中呈現的數據,或者僅用于探索科學論文。它不僅可以用于管理數據,更可以用于數據共享。
Qresp的優點不僅在于促進數據可重復性;還在于它具有以下優點:通過創建論文工作流程,Qresp使作者能夠解釋和公開論文的研究內容。Qresp通過鼓勵使用(重復使用)腳本化程序以減少耗時和錯誤,從而鼓勵從研究項目的早期階段就采用良好的科學實踐操作。Qresp可以成為培養數據管理和共享文化的重要工具。并且Qresp還滿足促進數據挖掘和統計分析/學習的需求。Qresp增加大量數據的可用性,以進行統計學習,從而有助于該領域的擴展和穩健性。此外,這將有助于減少在屬于某個社區或研究小組的研究人員之間共享數據和知識的時間框架,從而提高生產率并最大程度地減少工作和成本的 重復。