夏義堃 管茜



摘? ?要:數據是生命科學研究的基礎性資源,研究生命科學數據管理的質量控制對推進科學數據管理和生命科學理論與研究方法創新具有重要的現實意義。基于生命周期理論,通過政策文本分析、案例比較和文獻調研,系統梳理了不同主體在生命科學數據的管理計劃、采集、組織、保存、共享利用不同階段中的質量控制措施提出不同階段生命科學數據質量控制的核心要求,構建了包括基礎層、主體層、流程控制層三個層次的生命科學數據質量控制體系。
關鍵詞:科學數據管理;數據質量;質量控制;數據生命周期;生命科學
Abstract Data is a basic resource in life science research. The research of life science data management of quality control can advance scientific data management, and life science innovation theory and research method has important practical significance. Based on the life cycle theory, through policy text analysis, case comparison and literature research, this paper systematically sorts out the quality control measures of different subjects in different stages of life science data management planning, collection, organization, preservation, sharing and utilization. In this paper, the core requirements of life science data quality control at different stages are put forward, and the life science data quality control system at three levels is constructed, including the basic layer, the main layer and the process control layer.
Key words scientific data management; data quality; quality control; data life cycle; life science
生命科學在20世紀后期出現了飛躍式的發展,以基因測序、基因組學、蛋白質組學和生物信息學為代表的技術加快了生命科學領域數據的產生速度[1],數據的積累與利用已經成為推動生命科學研究不可缺少的組成部分。海量的生命科學數據不僅具有傳統大數據的“4V特征”,還因研究對象、存儲結構、參數標準、應用場景等多元性而格外復雜,同時,人體受試樣本的隱私保護、動物樣本實驗的倫理約束等進一步增添了數據管理的難度。
如何對體量巨大、增長迅速、多源異構且隱私倫理屬性突出的生命科學數據進行有效地質量控制與開發管理,既是當前科學數據管理工作亟待突破和解決的重要問題,也是生命科學研究創新的前期條件。本文基于數據生命周期理論,著重分析了生命科學數據質量控制的主體行為與基本做法,構建了質量控制的主體行為與基本做法,構建了包括基礎層、主體層和流程控制層在內的生命科學數據質量控制體系,以期為我國生物科學數據質量控制提供借鑒參考。
1? ?研究回顧與問題的提出
1.1? ? 生命科學數據質量研究綜述
近年來,生命科學進入“大數據”時代,生命科學領域研究結論的可靠性常被質疑,數據的再利用性以及實驗的可再現性接連出現問題,并引發國內外學者的關注,相關研究主要集中在以下幾個方面:
(1)生命科學數據質量內涵及評估指標體系研究。生命科學數據質量是一個多維度概念,可理解為多個質量特征的集合,并受到學科、數據類型和應用目的等影響。除遵循國際通用的FAIR原則外,Flatley和Stead[2]從一致性、正確性和完整性角度討論了臨床記錄數據質量的概念;Weiskopf和Weng[3]將合理性和通用性視為質量考察維度;Kahn等[4]構建了針對電子健康記錄臨床研究數據的質量評價模型,主要指標有準確性、可信性、客觀性、及時性和數據量的合理性;Chen等[5]從數據本身、數據使用和數據收集3個角度描述數據質量評價模型,用以評估公共衛生領域相關數據。
(2)生命科學數據質量問題的表現及成因研究。生命科學數據質量問題的表現是多方面的,有學者站在數據內容和表現形式多樣性角度,提出數據的不一致、不準確、不完整或過時滯后等問題[6-8],其中數據格式和元數據不一致問題尤為突出[9],而標準、格式不統一直接損害數據互操作性、完整性和可追溯性等[10],造成數據冗余。數據利用中的可再現性問題再利用問題也是學者們關注的焦點,究其原因,有學者認為是選擇和實驗偏差以及研究不當導致,如實驗室記錄錯誤,無效試劑,忽略數據中心等都會導致數據的不可復制、不可重用[11-12]。
(3)生命科學數據質量控制的方法研究。數據質量標準的建構被視為解決生命科學數據問題的有效方法,如使用統一標識符和注釋來增強數據的可查找性,使用通用交換格式如SBML(系統生物學標記語言)來增強數據互操作性,使用描述元數據來增強可重復性[13-14],Taylor等[15]提出應遵循MIBBI(生物和生物醫學調查的最低信息)標準倡議;一些學者從出版視角探討數據質量監管方法,如Arturo 等[12]認為期刊應撤回不符合數據標準的文章;劉穎和王旋[16]分析了NATURE出版集團等醫學數據質量監管措施;還有學者從數據平臺管理視角展開研究,Chen等[17]提出加強記錄上傳、序列去重、序列分析、文本數據分析、記錄關聯、數據描述等在內的生命科學數據認證過程管理,Heimo[18]認為生物庫必須確保樣本和數據的質量、利用道德和法律合規性,并建立高效透明的訪問管理。
1.2? ? 基于生命周期的生命科學數據質量控制的內涵
FAIR原則是國際公認的科學數據管理基本準則,要求數據應滿足可發現、可訪問、可互操作和可再利用4個要求,并對唯一永久標識符、描述元數據、詞匯表、通信協議、使用許可等進行了細化要求。在FAIR原則基礎上,有關生命科學數據管理的不同主體基于數據內容、形式和效用提出了生命科學數據的完整性、真實性、安全性、增值性等質量要求(見表1)。然而,單一、靜態的數據難以創造價值,數據的流動與全流程管理蘊含了巨大的數據效應,生命科學數據管理應把握其生命周期規律。通過代表性科學數據生命周期管理模型的梳理發現,生物科學數據生命周期有五個核心階段,即數據管理計劃—數據采集—數據組織—數據保存—數據共享利用(見表2)。不同階段的數據質量管理要求在目標、標準與方法、行為等方面各有側重,既需要從采集和組織的源頭確保數據產生的質量和價值,也需要在保存和開放過程中對數據質量進行檢測和驗證,同時還需在共享利用中規范引導其數據行為,保證數據的再利用性與可再現性。
2? ?生命科學數據生命周期各階段質量控制過程分析
2.1? ? 數據管理計劃的制定
數據管理計劃是保證數據質量的根本文件[24],生命科學數據管理計劃階段的質量控制責任是對整個生命周期如何管理數據、保障數據質量進行宏觀規劃,聚焦點集中在數據管理主體責任、數據計劃篇幅以及計劃內容、更新與教育培訓、資金保障等方面(見表3)。
在英美發達國家,數據管理計劃不僅是科研項目申報的必要組成部分,也是科研設計與研究實施的具體規劃與后續科研過程的重要指導,并成為評估科研項目是否資助以及結題驗收的重要考察指標。英國生物技術與生物科學研究理事會要求項目資助的申請必須提交詳實的數據管理計劃,項目審查人員和專家委員會或評估小組將對申請者數據管理計劃的可行性、科學性進行評估;美國國家科學基金會生物科學理事會既要求項目申報時提交數據管理計劃,還要求所有在研項目對數據管理計劃執行情況進行年度和終期報告,如數據采集加工等具體進展以及數據標準、存儲和共享利用情況,以便檢查監控。
從資助方數據管理制度以及大學等研究機構數據管理文件來看,數據質量控制的考察點主要表現在對數據管理計劃形式要件與實質要件的規范性、完整性、準確性審查上。一方面,均對數據管理的基本框架與內容進行了規范。如英國生物技術與生物科學研究理事會規定申請方提交的數據管理計劃應當包括數據范圍和數據類型、標準和元數據、與公共資料庫中其他可用數據的關系、數據共享的方法、專有數據、時間節點、最終數據集的格式和再利用方式等;另一方面,數據管理計劃的完整性與準確性也是各方評估檢查的重點。除完成通用要求,實現數據管理計劃編制與項目研究總體框架、流程設計的緊密結合外,其完整性還體現在針對受試者隱私保護、動物倫理、實驗安全、知識產權等問題的描述與說明中。按照美國國家科學基金會生物科學理事會的要求,所有涉及人類受試者的資助項目,申請者都需要提交數據和安全監管計劃(DSMP),并接受數據與安全監管委員會的指導和檢查(DSMB)[25]。準確性要求不僅體現在對流程設計和內容描述的清晰易讀與準確適用、對數據管理制度的準確把握與恰當回應上,還體現在對實驗數據記錄和原始記錄保存等操作要求的規范上。美國國立衛生研究院針對美國國家科學基金會資助項目,制定了專門的《科學記錄保管指南》,要求科研過程中產生的各類記錄應易讀、清晰、及時、全面、完整、安全、有備份且組織良好[26]。為增加研究人員數據管理計劃制定的易操作性,一些資助方和研究機構還提供了數據管理計劃撰寫模板、內容清單、工具、培訓等。如奧地利科學基金會開發了數據管理計劃的撰寫模板,冷泉港實驗室提供了數據管理計劃指南和工具平臺用來協助創建數據管理計劃。
數據管理是有成本的,資金保障性是數據質量控制的前提基礎。目前,不同機構對數據管理的成本分擔持有不同的意見,美國國立衛生研究院更關注資金的合理使用,明確規定研究經費不適用于不生成科學數據的研究和其他活動,包括培訓、基礎設施開發。而貝爾法斯特女王大學則主張研究人員應盡可能尋求從項目資助方獲取直接的數據管理經費支持。
2.2? ? 數據采集
生命科學數據采集包括數據生成和數據提交,涉及到作為數據生成者的研究人員及其機構和作為數據接收方的資助機構、出版商和數據平臺,是數據質量控制的關鍵和基礎。盡管公開可用的數據和完整的數據文檔有助于計算的可重復性,但生命科學數據的可復制性、可再利用性受制于多種因素。“以微陣列數據為例,數據的質量取決于生成它們的生物學和實驗條件以及處理數據的計算程序[37]”,因而,數據采集階段的質量要求不僅僅是將實驗室記錄材料簡單地數字化、數據化,還需要創建一套復雜的、可擴展的數據質量管理體系,如標準化詞匯、數據注釋與數據格式等。其中,保證數據的完整性、準確性、相關性、客觀性和可靠性是這一階段的核心(見表4),主要通過數據采集范圍、采集標準的確定以及數據審查等關鍵環節來進行數據質量控制。
英國生態學會指出:“數據采集過程中的質量控制很重要,因為通常只有一次機會從給定的情況收集數據。”[38]這一環節質量控制的重點是數據采集方式、記錄標準以及記錄管理的規范性,需要解決的主要問題包括數據生成的邏輯問題、數據描述標準與格式(預先應設計模板、規定描述要素,如主題、實驗細節、測試描述、控制條件、測試結果、結果說明等)、數據庫結構設計以進行數據或數據文件的組織、使用代碼-編碼為變量分配數值以便統計分析等。同時,數據生成后的標識、描述和記錄保存等還必須符合倫理與隱私保護等相關要求,美國國立衛生研究院規定,臨床數據的采集應承擔患者隱私和保密的額外責任,主要研究人員對于臨床研究數據和記錄的生成、保管負有最終責任。
制定數據標準、開發標準化的詞匯和本體是這一階段各方生命科學數據質量控制的主要手段。與資助方和研究人員及其研究機構相比,出版商的數據采集標準更為詳細,尤其關注圖表數據的采集質量。英國生物技術與生物科學研究理事會要求利用現有標準的同時鼓勵學術社區制定目前尚不存在或未被廣泛接受的標準,并為此類活動提供資助。Nature系列期刊在其編輯政策中指出圖像必須正確標識原始數據并符合學術社區標準,F1000Research規定所有圖像,無論是作為數字提交還是作為數據上傳,都不得操縱,以免讀者被誤導。
數據審查是最為重要的數據內容質量前端控制措施,越來越多的資助機構和期刊出版商要求保存與提交文章或研究項目相關的整個數據集。絕大多數期刊出版商通過作者自查、編輯篩查、同行評審或者數據審查小組來實現對論文數據的質量審查,部分出版商采用了更為具體的反剽竊和預防數據偽造的舉措。如Nature不僅嚴格作者自查、同行評審在內的審查流程,還要求作者必須提供支撐數據,并就實驗及分析涉及所有細節進行條件和場景說明,確保數據、材料和代碼能夠準確反映原始內容,同行專家將在通訊評審中審查相關數據。此外,Nature還規定對數據進行評議的編委小組里必須包括至少一名數據標準審核專家,對作者提交數據的質量與可重用性進行評估,確保實驗數據的嚴謹性與描述的完整性;Science指出文章的通訊作者必須檢查其小組產生的原始數據;F1000Research指出編輯團隊將使用 Adobe Photoshop 和美國研究誠信辦公室開發的法醫圖像分析軟件對隨機選擇的數字和數據進行檢查。
倉儲或存儲平臺十分重視生命科學數據采集流程的操作規范(見表5)。一方面,倡導數據開放,要求研究人員明確數據類型與提交標準,不斷提升數據透明度和可訪問性;另一方面,開展提交數據的自動檢測或人工檢測,以保障數據可用。如NCBI的GenBank是國際核苷酸序列數據庫協作的一部分,為強化數據質量審查,其提交材料必須包括有關源生物體的信息和提交者提供的注釋,并針對細菌基因組、高通量基因組等不同數據類型制定了詳細的提交指南,所有提交材料由工作人員檢查處理,確保無誤后才能進入數據庫存儲。
2.3? ? 數據組織
這一階段的主要任務是通過良好的數據組織、結構化、命名和版本控制與數據標注,使之易于共享利用。由于數據的可解釋性和可信賴性是影響生命科學數據利用的重要因素,這一階段數據質量控制的側重點集中在數據標識的規范性、標準化、有效性、可理解性等方面,并強調運用元數據、唯一永久標識符和刪除更新的規范化操作等關鍵程序來控制數據質量(見表6)。
強化數據描述過程的質量控制是必不可少的重要環節。其中,元數據管理是重中之重,除文獻信息管理的通用功能外,生命科學領域的元數據管理通過樣本數據集的創建者、時間、位置、機構、上下文、譜系關系及遷移等信息描述,還有助于在龐雜分散的數據資源體系內建立數據關聯、實現生命科學數據的語義檢索和知識挖掘、方便用戶對實驗數據的復制和再利用進行追蹤溯源。元數據質量控制的核心在于結合生命科學數據開發利用特點,從項目、數據等層面將元數據管理嵌入到生命科學數據應用系統/平臺的研發、運營等業務流程,如直接融入開發編碼、系統測試、版本控制等業務環節。由于生命科學數據種類繁多,異質性突出,不同類型的數據屬性、名稱缺乏規范,需要創建生物醫學字典、定義最小核心元數據元素集等來實現數據描述的標準化,“學科領域內部也需要定義一套通用的病毒數據開放元數據標準以支持研究人員的跨庫數據處理與交互[49]”。如冷泉港實驗室綜合利用數據字典、文件統一命名等方式來描述數據,要求所有文件應統一命名并遵循文件命名公約(FNC),還為每個數據文件/數據集創建讀取文件以列出鏈接和描述特定文件夾中的所有文件;墨爾本大學要求以院系為單位建立研究數據登記表,登記表包含數據和記錄的描述、相關研究人員和項目的名稱、數據的位置(數字和模擬)、訪問限制以及遷移、保留和處置期等信息;PLoS數據政策規定投稿人必須提交論文結論所需相關數據集及其元數據和方法,以便人們可以檢索或利用軟件系統來定位和掌握原始數據的生成背景與特征。
為滿足數據內容的互操作性要求,項目資助方、期刊以及研究機構等均支持采用數字對象標識符系統(DOIs)和其他數據標識符來實現數據定位和管理,以保證數據利用的統一性和被引的科學性。維康基金會鼓勵研究人員對其數據和軟件輸出使用數字對象標識符系統或其他永久標識符;Science系列期刊規定所有數據、程序代碼和其他方法必須使用數字對象標識符系統;在數據內容的及時性要求上,對于數據的修改、更新、刪除等操作,普遍要求遵循政策規定和業務程序,強調獲準更改后方可執行,以保證及時更新與降低風險的雙重目的。F1000Research規定數據版本一旦發布,便可在 F1000Research 網站上永久找到,不能更改或撤回,但作者可通過發布新版本來修改和更新文章。
2.4? ? 數據保存
生命科學數據保存需要解決的基本問題包括哪些數據需要解決的基本問題包括哪些數據需要保存、誰負責保存以及如何保存等,所關注的主要環節涉及到數據保存形式、保存位置、保存格式、保留期限以及數據備份等,并要求實現數據保存的規范性、持久性、可遷移性、可恢復性和安全性的質量要求(見表7)。
(1)數據保存范圍上,既包括存儲要求的原始數據集和經過處理加工的數據集,也包括實驗協議或實驗流程、生物樣本、元數據和其他支持材料,但不包括初步分析、論文草稿等。如加拿大基因組提出生物試劑如獨特菌株應存入ATCC等資料庫。
(2)數據保存格式上,除部分數據平臺的專有數據格式要求外,普遍強調通用的、非專有格式保存。如冷泉港實驗室(CSH)規定以非專有格式存儲數據,并根據數據類型給文本文件、數據庫、統計數據、食品和圖片文件規定了具體格式(如文本以.doc,.docx保存);Science系列期刊規定圖表數據要以標準機器可讀格式存檔(如csv、tsv、json 或 xml),F1000Research則規定應以CSV或TAB格式存入,如果圖表數據包含可變標簽、代碼標簽或定義的缺失值,則應將其存入 SAV、SAS 或 POR 格式。
(3)數據保存位置上,多數主體支持將數據保存在公開可用數據庫中,可以是機構數據庫也可以是學科主題數據庫,鼓勵將數據存儲在re3data.org和FAIRsharing.org的注冊數據庫中(見表8),或根據數據類型選擇同行認可的相應數據庫(見表9)。Nature系列期刊規定作者必須將特定數據集提交至學術社群認可的公共數據倉儲或平臺,如蛋白質序列保存至Uniprot數據平臺,并提供了一系列被認可及推薦的數據存儲平臺供作者選擇。
(4)在研究人員的數據保留期限上,英國生物技術與生物科學研究理事會和奧地利科學基金會規定項目結束后至少可以保存10年,貝爾法斯特女王大學和墨爾本大學規定至少保留5年,美國國立衛生研究院規定數據研究項目結束后最少保存3年。
(5)數據備份要求上,大多機構強調通過數據異地、異質備份來應對潛在數據風險,以支持數據恢復。如冷泉港實驗室規定建立3個備份,分別保存在本地、外部硬盤、云端,并要求定期檢查備份數據;加拿大基因組規定建立1個異地異質備份;美國國家科學基金會生物科學理事會則會通過PAGES系統在異地備份。
2.5? ? 數據共享利用
科學數據共享是確保生物科學領域研究透明且可復制的主要要素,同時也是防范學術欺詐和傳播錯誤結果的有效監管方式,主要通過訪問權限、知識產權許可和引用規范等關鍵環節的質量控制來保障數據的開放性、規范性、可訪問性、可引用性、合法性和隱私性等要求(見表10),從而促進更廣泛的數據利用。
在數據訪問權限設置方面,一方面強調對隱私保護、動物倫理、商業秘密等信息法規制度的遵守;另一方面鼓勵生命科學數據應在最大限度內開放,不能公開的數據需說明原因和獲取條件。如Nature系列期刊的出版條件之一是作者必須促使相關研究材料、數據、程序代碼及實驗作業等準確迅速且不帶有不合理限制條件的供讀者瀏覽查閱,手稿必須提供數據可用性聲明,聲明應包含支持論文研究結論的所有數據信息,如作者需對所提供材料或信息帶有一定限制,則必須在提交時向編輯說明,并在論文中公開原因,涉及個人隱私或生物安全性的數據,必須在論文中注明數據獲取的條件及限制。
在數據許可協議以及引用規范的設置方面,主要通過知識共享許可(CC BY),允許用戶不受限制地使用、分發和復制數據,前提是原始數據能夠被正確引用,力求實現數據開放與利益相關方合法權益保護的雙贏。如美國國家科學基金會生物科學理事會規定引用應注明作者、發行或引用日期,使用唯一、可解析和持久標識符(如數字對象標識符)或者統一資源定位符(URL)進行引用;Science系列期刊要求遵循其引用格式規范,所有數據、程序代碼和其他方法必須使用數字對象標識符、日志引文或其他持久標識符進行恰當引用。
3? ?研究結論與對策建議
數字化時代的生命科學屬于數據密集型學科,“21世紀生物學面臨的最重大挑戰來自于數據類型的多樣性、復雜性以及生物學層次結構和用戶數據獲取利用的多元化[51]”。完善的數據質量控制體系有助于強化數據生命周期內各環節的管理(見圖1)。從要素構成與功能運行的系統性管理角度出發,生命科學數據質量控制體系的建立應聚焦主體層、流程控制層和基礎層,核心是遵循生命科學學術研究規律,從學科屬性與學術倫理的角度探索其數據管理特征,并將各方參與主體、各種數據管理制度標準、各數據流程關鍵環節以及數據基礎設施與支撐資源等協同整合成為數據質量控制體系的有機整體,進而掌握不同階段數據質量控制的基本要求(見表11),實現生命科學數據質量控制體系運行效益的最大化。為此,需要重點把握和處理好以下問題:
(1)總結生命科學數據管理特質與內涵。無論是數據來源與形式,還是數據產生條件與應用場景,生命科學數據資源的采集、存儲、開發均對技術、管理、倫理、制度、標準、流程以及人員素質等提出了特定的要求,客觀上也需要數據質量控制的方式、內容與生命科學項目研究、數據流程及運行規律相匹配。
(2)優化主體協作機制。生命科學數據管理涉及主體眾多,不同主體對于數據采集、加工、存儲、共享的條件要求與目標預期各不相同,其數據質量控制體系應結合數據管理應用場景,有效匹配資助方、研究人員及其機構、期刊出版方等不同主體數據質量控制的需求,加強不同主體間質量控制的業務銜接,不斷調整與優化數據質量控制體系。
(3)強化流程質量控制力度。從數據管理計劃編制到計劃執行過程中的數據采集、組織、保存與共享等不同階段,生命科學數據質量控制的重心、方法、要求與標準各有差異,既要關注數據內容層面的價值性維度,如數據自身的完整性、準確性、可靠性等要求,也要關注標準方法、數據加工處理技術等操作層面的工具性維度,如采用元數據的質量控制方法將各類數據的特征、關系、語義等進行規范化描述,從而形成連續性的數據質量監管框架。
(4)完善數據質量控制的基礎保障。標準化的數據規范以及穩定、安全、便捷的數據平臺/倉儲等基礎設施,均需要充分的人、財、物等基礎保障,特別是工作人員的數據意識、數據技能直接影響到生命科學數據管理成效,既需要全方位的資源投入與健全的數據制度,也需要強化研究人員等責任主體數據行為的養成性指導。
參考文獻:
[1]? 陳鵬.生命科學信息的公共獲取[J].中華醫學圖書情報雜志,2014,1(1):12.
[2]? Flatley B P,Stead W W.Assessing data quality:from concordance, through correctness and completeness,to valid manipulatable representations.[J].Journal of the American Medical Informatics Association Jamia,2000,7(1):106.
[3]? Weiskopf N G,Weng C.Methods and dimensions of electronic health record data quality assessment:enabling reuse for clinical research[J].Journal of the American Medical Informatics Association:JAMIA,2013,20(1):44-51.
[4]? KAHN M G,RAEBEL M A,GLANZ J M,et al.A pragmatic framework for single-site and multisite data quality assessment in electronic health record-based clinical research[J].Medical care,2012,50(7):S21-S29.
[5]? CHEN H,HAILEY D,WANG N,et al.A review of data quality assessment methods for public health informati on systems[J].Informational journal of environmental research and public health,2014,11(5):5170-5207.
[6]? Borisas B,Ramona B,Benoit B,et al.Minimizing proteome redundancy in the UniProt Knowledgebase[EB/OL].[2020-12-26].https://academic.oup.com/database/article/doi/10.1093/database/baw139/2742069#.
[7]? Nellore A,Jaffe A E,Fortin J P,et al.Human splicing diversity and the extent of unannotated splice junctions across human RNA-seq samples on the Sequence Read Archive[J].Genome Biology,2016,17(1):266.
[8]? Huntley R P,Sitnikov D,Orlic-Milacic M,et al.Guidelines for the functional annotation of microRNAs using the Gene Ontology[J].Rna-a Publication of the Rna Society,2016,22(5):667.
[9]? Etriks.Browse the eTRIKS recommended standards from Biosharing[EB/OL].[2021-03-07].https://www.etriks.org/standards-starter-pack/.
[10]? Mark D,McDowall,Midori A,et al.PomBase 2015: updates to the fission yeast database[J].Nucleic acids research,2015,43(Database issue):D656-61.
[11]? Casadevall A,Steen R G,Fang F C .Sources of error in the retracted scientific literature[J].Faseb Journal Official Publication of the Federation of American Societies for Experimental Biology,2014,28(9):3847.
[12]? Arturo,Casadevall,Lee,et al.A Framework for Improving the Quality of Research in the Biological Sciences.[J].mBio,2016,7(4):e01256-16.
[13]? Ulrike,Wittig,Maja,et al.Data management and data enrichment for systems biology projects[J].Journal of biotechnology,2017,261(11):229-237.
[14]? Hucka M.Systems Biology Markup Language(SBML)[J].Encyclopedia of Systems Biology,2013:2057-2063.
[15]? Taylor C F,Field D,Sansone S A,et al.Promoting coherent minimum reporting guidelines for biological and biomedical investigations:the MIBBI project[J].Nature Biotechnology,2008,26(8):889-896.
[16]? 劉穎,王旋.醫學領域國際學術期刊數據出版政策分析[J].中國科技期刊研究,2017,28(8):685-689.
[17]? Chen Q,Britto R,Erill I,et al.Quality Matters:Biocuration Experts on the Impact of Duplication and Other Data Quality Issues in Biological Databases[J].Genomics Proteomics & Bioinformatics,2020,18(2):91-103.
[18]? Heimo Müller,Dagher G,Loibner M,et al.Biobanks for life sciences and personalized medicine: importance of standardization,biosafety,biosecurity,and data management[J].Current Opinion in Biotechnology,2020(65):45-51.
[19]? simonhodson.I2S2:Infrastructure for integration in structural sciences[J].Jisc,2009.
[20]? Crowston K,Qin J.A capability maturity model for scientific data management[J].Proceedings of the American Society for Information Science and Technology,2010,47(1):1-2.
[21]? Michener W K,Jones M B.Ecoinformatics:Supporting Ecology as a Data-Intensive Science[J].Trends in Ecology & Evolution,2012,27(2):85-93.
[22]? Griffin P C,Khadake J,Lemay K S,et al.Best practice data life cycle approaches for the life sciences[J].F1000research,2017(6):1618.
[23]? Research Data Management at CSHL[EB/OL].[2021-02-15].https://cshl.libguides.com/c.php?g=696335&p=8032145.
[24]? 江洪,王春曉.基于科學數據生命周期管理階段的科學數據質量評價體系構建研究[J].圖書情報工作,2020,64(10):19-27.
[25]? Data & Safety Monitoring Plans[EB/OL].[2021-03-15].https://www.niddk.nih.gov/research-funding/human-subjects-research/policies-clinical-researchers/data-safety-monitoring-plans.
[26]? National Institutes of Health Office of the Director.Guidelines for SCIENTIFIC RECORD KEEPING in the Intramural Research Program at the NIH[EB/OL].[2021-02-15].https://oir.nih.gov/sites/default/files/uploads/sourcebook/documents/ethical_conduct/guidelines-scientific_recordkeeping.pdf.
[27]? Proposal & Award Policies & Procedures Guide[EB/OL].[2021-02-15].https://www.nsf.gov/pubs/policydocs/pappg20_
1/index.jsp.
[28]? Directorate for Biological Sciences[EB/OL].[2021-02-15].https://www.nsf.gov/bio/pubs/BIODMP_Guidance.pdf.
[29]? Pubilic Access to results of NSF-Funded research[EB/OL].[2021-02-15].https://www.nsf.gov/news/special_reports/public_access/index.jsp.
[30]? Final NIH Policy for Data Management and Sharing[EB/OL].[2021-02-15].https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html.
[31]? How to complete an outputs management plan[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/how-complete-outputs-management-plan#contact-us-dd23.
[32]? BBSRC DATA SHARING POLICY[EB/OL].[2021-02-15].https://bbsrc.ukri.org/documents/data-sharing-policy-pdf/.
[33]? Research Data Management[EB/OL].[2021-02-15].https://www.fwf.ac.at/en/research-funding/open-access-policy/research-data-management.
[34]? Genome Canada Data Release and Sharing Policies[EB/OL].[2021-02-15].https://www.genomecanada.ca/sites/default/files/publications/gcdatasharingpolicies16-09-23.pdf.
[35]? Research Data Management Policy[EB/OL].[2021-02-15].https://www.qub.ac.uk/home/Filestore/Filetoupload,910267,en.pdf.
[36]? Management of Research Data and Records Policy(MPF1242)[EB/OL].[2021-02-15].https://policy.unimelb.edu.au/MPF
1242.
[37]? Sparks R,Lau W W,Tsang J S .Expanding the Immunology Toolbox: Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.
[38]? British Ecological Society·A Guide to Data Management in Ecology and Evolution[EB/OL].[2021-03-15].https://www.britishecologicalsociety.org/wp-content/uploads/2016/04/Guide-to-Data-Management.pdf.
[39]? Open access policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/open-access-guidance/open-access-policy.
[40]? data,software and materials management and sharing policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/data-software-materials-management-and-sharing-policy.
[41]? Editorial policies[EB/OL].[2021-02-15].https://www.nature.com/nature-research/editorial-policies.
[42]? Editorial policies[EB/OL].[2021-02-15].https://www.sciencemag.org/authors/science-journals-editorial-policies.
[43]? Data Availability[EB/OL].[2021-02-15].https://journals.plos.org/plosone/s/data-availability.
[44]? Data Guideliness[EB/OL].[2021-02-15].https://f1000research.com/for-authors/data-guidelines#hosting.
[45]? European Molecular Biology Laboratory-European Bioinformatics Institute[EB/OL].[2021-02-16].https://www.ebi.ac.uk/.
[46]? The GenBank Submissions Handbook[EB/OL].[2021-03-07].https://www.ncbi.nlm.nih.gov/books/NBK51157/.
[47]? Introduction to PDB Data[EB/OL].[2021-02-16].http://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/introduction.
[48]? Neuroimaging Informatics Tools and Resources Clearinghouse[EB/OL].[2021-02-16].https://www.nitrc.org/.
[49]? 儲節旺,林浩煒.典型生物醫學元數據功能比較研究與啟示[J].現代情報,2021,41(1):4-12,31.
[50]? 孫軼楠,顧立平,宋秀芳,等.學科數據知識庫的政策調研與分析——以生命科學領域為例[J].現代圖書情報技術,2015,31(12):13-20.
[51]? Wooley J ,Lin H S .Catalyzing Inquiry at the Interface of Computing and Biology[M].national academies press,2005:35.
作者簡介:夏義堃,女,武漢大學信息資源研究中心教授,研究方向:政府數據治理;管茜,女,武漢大學信息管理學院碩士研究生。