隨著科研數據開放共享進程的推進,國際科研基金資助單位、科研機構、期刊出版商等紛紛對科研人員提出科研數據開放存取的相關要求及政策。由于不同學科領域對科研數據具有不同的要求,對科研數據進行學科領域的分析研究,才能更好地提供數據服務[1]。學科領域的科研數據管理政策決定著科研數據管理發展的方向,也是學科館員做好數據管理服務的重要依據。
科研數據倉儲(Data Repositories,DR)作為科研數據存儲、發布、開放共享的重要途徑,備受廣大科研人員的關注。由于生物醫學領域的數據形態多樣[2],不同數據類別的科研數據倉儲有著不同的特點。生物醫學學科領域科研數據倉儲對數據提交、數據管理以及數據使用的政策與要求,是生物醫學學科館員進行數據服務的抓手之一。因此,國內一些學者已經對國外生物醫學領域科研數據倉儲的特點、服務及政策進行了研究。如鄒麗雪等人對國外生命科學領域科研數據倉儲的建設年代、國家、機構、學科領域、開放程度等分布情況進行調研,并探討了美英兩國數據倉儲建設對我國生命科學領域數據管理服務的啟示[3];孫軼楠等人通過對有明確政策聲明的38個國外生命科學領域的數據倉儲的政策聲明進行調研, 提出了生命科學數據倉儲的管理規范框架[4]。
本文對生物醫學領域的科研數據倉儲在數據提交、數據管理和數據使用3方面的政策要求進行調研,以期找到數據管理生命周期的服務切入點,探索生物醫學學科領域的數據服務模式。
本文研究對象主要來源于綜合性的全球研究數據存儲庫注冊庫re3data.org的記錄,截至2018年12月30日,該庫共記錄了3 927個數據倉儲,其中生命科學領域的數據倉儲[5]有1 261個,但只有18個數據倉儲來自中國。考慮到全面性和代表性,筆者又查閱了我國生物醫學領域科學數據共享平臺,對這些數據倉儲進行補充。通過人工閱讀、篩選,最終選取了9個在國內外具有代表性的生物醫學學科科研數據倉儲進行調研分析(表1)。

表1 具有代表性的生物醫學學科科研數據倉儲
由于生物醫學學科數據的多樣性和特殊性, 不同類型的數據倉儲依照其覆蓋的領域對科研人員提交的內容有不同的政策和要求。
2.1.1 對內容的要求
生物醫學學科的數據倉儲通常收錄某個主題的數據,對數據類別有比較詳細的說明。如GenBank,DNA DataBank of Japan(DDBJ)等基因序列數據庫收集所有公開可獲取的DNA序列數據,Worldwide Protein Data Bank(wwPDB)等收集分子結構數據,Gene Expression Omnibus(GEO)、ArrayExpress收集微陣列數據等。
除了對數據類別有要求外,數據倉儲通常還對數據的范圍有所要求。如國家人口與健康科學數據共享平臺中醫藥數據中心要求數據是在各級科技計劃項目實施過程中產生的并能夠驗證中醫藥科學研究得到的或發現的最后研究數據,包括實驗室記錄的經過驗證的原始觀測數據、實驗數據、調查數據、考察數據、統計數據集等,但不包括初步的分析、論文草稿、未來研究計劃等。
2.1.2 對格式的要求
大部分生物醫學學科的數據倉儲都要求按照學科領域的通用格式提交上傳數據。Dryad雖然不限制所提交的數據文件格式,但鼓勵采用現有標準。參與科研數據管理服務的學科館員可以為科研人員提供現有國際或國內通用標準,鼓勵科研人員按標準提交數據。
2.1.3 對數據質量的要求
數據質量是保證數據分析及重復使用的基礎。數據倉儲要求數據提供者保證其提交數據的準確性與可靠性,并認真填寫元數據。參與科研數據管理服務的學科館員可以協助科研人員監督數據的質量及元數據的填寫完成情況。
2.1.4 數據權利的聲明
科研人員向數據倉儲提交數據時,會考慮自己的數據是否可以得到充分的保護及合理的傳播使用。數據倉儲通常會明確聲明數據的著作權以及對數據的處理方式等。如國家人口與健康科學數據共享平臺基礎醫學科學數據中心明確規定,國家和各級政府投資的科技項目所產生的數據屬國家和生產單位共同所有,以公司和個人投資產生的數據屬公司和個人所有,并須保證提交發布的數據不侵犯第三方的權利和利益。
2.1.5 數據的倫理問題
數據倉儲通常會要求提交的數據不能來自違反科學倫理的實驗或者采集。如GenBank 規定涉及人類基因序列的數據不能包括任何個人身份信息。
科學數據倉儲對數據提交者所提交的科學數據進行分類、分級存儲和管理,并確保數據的物理安全。科研人員對提交到數據倉儲的數據也有開放共享、維護的責任。
2.2.1 數據公開發布
提交到科研數據倉儲中的數據通常有3種發布形式:一是完全保密發布,數據僅供自己使用或者課題組內使用;二是部分保密發布,即向數據提交者和部分授權學術同行發布,主要用于學術出版所需的同行評審;三是數據公開發布,任何人都可以使用該數據。參與科研數據管理服務的學科館員應鼓勵科研人員盡快公開發布其數據。
2.2.2 數據標識
生物醫學科研數據倉儲為保證數據未來可被重復使用及引用,會給提交的數據分配標識符,通常是唯一且穩定的編號ID。如GenBank數據庫中使用的GI標識符,NCBI DDBJ EMBL序列的Accession.Version標識符等,Dryad則對提交的數據文件都給予DOI標識。科研人員在將數據用于學術期刊及數據期刊論文發表、注釋及引用自己和他人數據集時,使用數據倉儲分配的編號ID已成為規范。數據期刊指那些致力于發表數據論文的期刊,其重在描述實驗和觀察數據,并有效整合傳統學術論文的內容和結構,力求在最大程度上促進數據重復使用,幫助用戶進行檢索和數據挖掘[6]。
2.2.3 數據維護
生物醫學科研數據倉儲中的數據除了少數提交的是最終版本,多數是長期動態更新的版本,數據隨著時間的變化會不斷增加或修改。數據倉儲通常只顯示最新版本,不同版本采用版本編號標識符區分,如V1、V2、V3等,以保證用戶能同時訪問原始數據文件和修改后的數據文件。數據倉儲要求提交者每次修改或更新數據時需提交配套的說明文件。
對科研數據合理的使用及重復使用能夠挖掘科研數據的潛在價值,是科研數據的增值。
2.3.1 數據訪問
數據倉儲通常要求數據提供者注冊為用戶,以便確認提供者的身份。用戶通常可以上傳、瀏覽、檢索、下載數據集。但有些數據庫為了更好地保護數據提供者的權益,會對不同類型的用戶進行區分,如普通用戶和高級用戶等,也可以由數據提供者分配不同用戶的角色。如北京大學生命科學學院生物信息學中心數據空間建議數據提交者對用戶進行角色區分,主要分為管理者、數據貢獻者、數據維護者、文件下載者和內部成員。管理者(Admin)擁有全部管理權限,尤其是人事管理權限,建議只分配給團隊中極少數最可信的同伴;數據貢獻者(Contributor)有權管理數據文件,但不能修改數據空間或對數據集做整體變更;數據維護者(Curator)有權管理數據空間、數據集和文件;文件下載者(File Downloader)只可以下載數據文件;內部成員(Member)有權查看仍處于未公布狀態的數據空間或數據集等。
2.3.2 數據使用
生物醫學科研數據倉儲普遍支持科研數據的開放共享和傳播,可以自由下載、使用及傳播。但有些數據倉儲要求科研人員注冊為用戶后才能夠上傳或下載科研數據, 另一些數據知識庫則會要求數據使用者支付或分擔一部分的數據倉儲維護費用。
一些數據倉儲考慮到個別數據提供者在提交時的特殊需求,對數據使用做出了限制或寫明要求,如出于項目保護需求(如尚未完成或成果尚未發表)、項目資助者要求(如有可能要求可以瀏覽、下載和利用數據驗證科研成果, 但不允許利用數據形成新的產品)以及商業合同要求(數據集中存在采購得來的授權數據)等情況。考慮各方利益關系人的權益, 數據倉儲可以確定一個合理的時滯期,如 Dryad 規定時滯期為1~10年。
2.3.3 數據引用
如同發表科技文獻引用他人文獻時需注明出處,科研人員使用他人的數據研究產出新的成果時,也要承認數據提供者的科研貢獻,必須注明科研數據的來源。生物醫學領域數據倉儲的數據引用可以用數據倉儲分配的數字資源標識符或者DOI號。如SPD數據庫[7]引用方式為“Chen Y, Zhang Y, Yin Y, Gao G, Li S, Jiang Y, Gu X, Luo J (2005) SPD--a web-based secreted protein database.Nucleic Acids Res 33 Database Issue:D169-173”;炎癥性角膜新生血管老鼠模型的微陣列全基因組基因表達數據集的引用[8]為“doi:10.1038/sdata.2016.103”。
科研數據管理離不開數據存儲,數據倉儲的選擇與使用成為生物醫學科研人員數據共享中必然面對的問題。然而生物醫學數據倉儲種類繁多、政策不一甚至質量參差不齊,給科研人員選擇合適的數據倉儲增加了難度。不同的數據倉儲對內容、格式等的要求沒有統一標準,這也給科研人員的數據管理工作帶來困擾。學科館員應對生物醫學領域重要的數據倉儲進行預先調研,了解其政策與要求,并與生物醫學領域專家進行溝通形成知識資源的互補,然后通過科學數據信息素質培訓為科研人員推薦合適的數據倉儲,并幫助科研人員了解相關科研倉儲的需求,提升其對科研數據共享的認知,使其能夠合理選擇數據共享的方式和途徑。
科研過程中會不斷產生大量的科研數據,提交到科研數據倉儲的數據必須保證其質量。學科館員在嵌入科研過程的服務中,不僅可以對數據產生過程進行監督,也可對數據上傳過程進行監督,如指導元數據的填寫、督促數據集的更新等。學科館員可以為科研人員提供生物醫學領域數據文件命名通用規則、版本控制的工具/系統以及可用的元數據及元數據標準。
關于數據訪問、使用、重建及重復使用,每個數據倉儲都有不同的政策及要求,學科館員可以根據課題的數據倉儲的要求和數據的類型為科研人員提供數據上傳與下載工具、數據評估工具、數據分析工具(如Genomespace、Bioconductor等可視化分析工具等),以及一些數據預處理和通用的數據分析工具等。
值得一提的是,普渡大學圖書館的科研數據服務不僅搭建了科研數據倉儲Purdue University Research Repository(PURR)[9],還在其中嵌入了數據管理計劃服務。因此在科研用戶開始科研立項之初就能幫助其制定資助機構要求的數據管理計劃,提供自我評估工具(DMP Self-Assessment Tool),使用戶了解數據管理計劃中應包含的內容,并提供現成的模板,利用模板可直接創作數據管理計劃放入申請書中。此外,還有學科館員提供在線數據管理咨詢服務,服務內容涵蓋了制定數據管理計劃、組織和管理數據、發現和使用研究數據等方面。
數據倉儲是科研數據管理服務的重點,不僅是科研人員有效保管自己科研活動重要數據的途徑,還是新科學發現的基礎。目前,雖然我國在《科學數據共享工程建設規劃》《科學數據共享條例》《國家科技計劃項目科學數據匯交辦法》和《科學數據分類分級共享及其發布策略》等政策基礎上建立了國家人口與健康科學數據共享平臺,但生物醫學科研數據倉儲的整體建設與英美等國還存在差距,遠遠不能滿足我國生物醫學科研數據的需求。
生物醫學圖書館及學科館員在科研數據服務方面應承擔起更多責任,如建設嵌入科研數據生命周期中的小型或臨時數據倉儲,為科研人員提供數據協作環境等軟硬件設施,并在數據倉儲中提供數據管理的各種相關咨詢服務,使科研人員能夠更好地利用數據倉儲進行科研數據管理與共享。