999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

典型生物醫學元數據功能比較研究與啟示

2021-01-15 13:17:40儲節旺林浩煒
現代情報 2021年1期

儲節旺 林浩煒

收稿日期:2020-08-21

基金項目:國家社會科學一般項目“大數據環境下突發事件應急管理情報能力建設研究”(項目編號:16BTQ066)。

作者簡介:儲節旺(1969-),男,館長,教授,博士生導師,研究方向:知識管理。林浩煒(1996-),男,碩士研究生,研究方向:知識管理。

摘 要:[目的/意義]旨在深化對國內生物醫學數據庫的元數據研究,提高國內生物醫學數據開放水平。[方法/過程]本文基于基因組學研究人員的元數據功能需求,歸納出結構需求、內容需求、關聯需求和使用需求4個維度,提出生物醫學元數據功能需求維度模型。通過引入內容結構視圖作為分析元數據結構的模型,對國內外生物醫學數據庫的元數據方案進行比較研究。[結果/結論]國內生物醫學數據庫可以從數據結構優化、數據質量控制、豐富研究條目和分類匯總鏈接4個方面推動數據開放的水平。

關鍵詞:生物醫學數據;數據開放;元數據;功能需求模型

DOI:10.3969/j.issn.1008-0821.2021.01.001

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821(2021)01-0004-09

Comparative Studies and Implications of Typical

Biomedical Metadata Functions

Chu Jiewang Lin Haowei

(School of Management,Anhui University,Hefei 230601,China)

Abstract:[Purpose/Significance]This paper aims to make further research on the metadata of domestic biomedical databases and improve the quality of domestic biomedical data opening.[Method/Process]Based on the metadata function requirements of genomics researchers,this paper summarized the four aspects of structure requirements,content requirements,linkage requirements and application requirements,and proposed the SCLA functional requirements dimension model of biomedical metadata.By introducing content structure view as a model for analyzing metadata structure,this paper made a comparative study on the metadata schemes of biomedical databases at home and abroad.[Results/Conclusion]domestic biomedical databases can promote the level of data openness from four aspects:optimization of data structure,data quality control,enrichment of research items and links of subgroups and summaries.

Key words:biomedical data;data opening;metadata;functional requirements model

隨著超高通量測序方法在基因學研究領域的應用,研究人員能夠更快地獲取生物樣本的基因組序列數據,大量的原始測序數據被保存到公共數據庫中,科研人員獲取開放數據和展開研究活動要求相關數據的每條序列記錄都可以鏈接到已測序樣本的元數據[1]。生物醫學數據庫中開放數據的元數據可以描述樣本數據集的創建者、時間、位置、機構、上下文、族系等信息,對于查找、檢索和重用上傳到公共數據庫中科學實驗結果報告十分重要,當用戶查找的科學數據未附帶或附帶質量較差的元數據時,對實驗數據進行索引和利用的軟件系統可能無法定位和返回原本符合給定搜索條件的搜索結果[2]。

有關生物醫學數據元數據質量的文獻指出許多開放生物醫學數據存在元數據標準和規范的問題。美國聯邦政府開發的HealthData.gov由于缺乏一致的數據存儲和檢索標準,會阻礙研究人員使用數據進行學術研究[3]。Rafael S Gonalves等[1]比較研究了美國國家生物信息中心(National Center for Biotechnology Information,NCBI)管理的BioSample和歐洲生物信息學研究所(European Bioinformatics Institute,EBI)管理的BioSamples兩個生物醫學數據庫,發現存在多數元數據字段名稱和內容未標準化且無法控制的情況,可能會阻止相關數據集的搜索和重用。導致元數據質量下降的原因在于過多使用非結構化文本描述開放生物醫學數據,而很少使用標準化的受控術語和學科領域中的本體論概念來控制元數據條目的名稱和填充內容[4]。有效的解決途徑是選擇合適的標準構建元數據[1,3],使每個元數據條目的填充內容準確統一且遵守相應規范,即使自由擴展文本也可以使用受控術語來描述[5]。

元數據標準的選擇最終會影響元數據方案的結構,編寫元數據結構的標準是否合適取決于數據使用利益相關者的需求[6]。有關生物醫學元數據標準的研究表明,元數據標準的設計基于滿足特定的數據庫數據管理和用戶科研活動的功能需求。國際上現有的元數據標準如任何基因序列最小信息的最低信息標準(Minimum Information About Any(x)Sequence,MIxS)通過引入特定的“環境軟件包”實現提高跨庫收集的信息的質量、可訪問性和實用性的目的[7],人類病原體/載體基因組序列的標準化元數據基于美國國立過敏和傳染病研究所(National Institute of Allergy and Infectious Diseases,NIAID)的GSCID/BRC項目和樣本應用標準,使研究人員能夠清晰地識別相關的基因組序列并進行比較性的基因組分析[1]。國內生物醫學元數據標準的研究包括結合生命周期理論的植物學基因表達實驗元數據模型[8]和五維度的我國人類基因數據庫元數據規范[9],前者旨在完整描述科學實驗相關信息,支持不同類型科學實驗數據的語義化關聯,后者則是為了提供數據采集和存儲的技術標準。有關生物醫學元數據標準的研究都體現出功能需求的導向,但是這些文章并沒有討論元數據標準被應用于不同的具體數據庫后產生的差異。服務不同數據庫和研究人員的元數據標準所側重的功能需求不同,使用通用的元數據標準如都柏林核心元素集(Dublin Core Element Set,DC)可以在整體上設立數據標準框架,但用戶在上傳研究數據后,需要額外的人工操作或使用更好的基礎結構來確保多個字段名稱的有效填充以保證元數據質量[2],因此需要結合具體的生物醫學數據庫對元數據標準的功能需求進行整理和比較研究。

本文根據生物醫學管理人員對基因組數據元數據的6項功能需求,歸納每項需求所涵蓋的要素特點,提出生物醫學數據元數據功能需求比較的4個維度:結構需求、內容需求、關聯需求和使用需求。引用內容結構視圖作為元數據結構需求的比較模型,并應用于選擇的國內外生物醫學數據庫的元數據方案比較,旨在深化國內生物醫學數據庫的元數據研究建設,提高國內生物醫學數據開放的質量水平。

1 生物醫學元數據功能需求

Mark D Wilkinson等[6]提出了科學數據管理的公平(FAIR,Findability,Accessibility,Interoperability,Reusability)數據原則,在對科學數據進行管理時關注所有的利益相關者的需求以提高數據質量,如研究人員希望能夠共享、重用彼此的研究數據和分析報告;提供數據分析和處理服務的技術供應者希望實現軟件工具和工作流程的重復使用;資助機構更加關注長期數據管理。思考用戶的使用需求可以用來指導開放數據庫的元數據設計。Jian Qin等[10]對元數據的功能需求進行了調查,將Willis等確定的22項科學數據元數據功能需求總結為基因組學研究人員的6項元數據功能需求,按需求程度從高到低分為可移植性(Portability)、可重用性(Reusability)、可操作性(Manipulability)、充分性(Sufficiency)、互操作性(Interoperability)和模塊性(Modularity),并以關鍵詞描述需求內容[7,11]。

元數據功能需求因素的某些方面在設置元數據時會產生重疊,如可移植性和可重用性本質上是從不同角度考察元數據條目的結構,可操作性和互操作性實際都是在考察元數據結構設置對研究人員數據處理的影響,這使其作為比較標準不具有明顯的區分度。有關生物醫學元數據質量研究的文章通常定義各種指標來評價元數據質量,如完整性、準確性、一致性[3]或完整性、準確性、出處[2]這樣的衡量標準,這為設計元數據功能需求的比較維度提供了思路。本文嘗試從元數據功能需求指標中提取關鍵描述字段,將指向相近的字段相結合歸納生物醫學數據庫元數據比較的主要方向,包括:結構(Structure)需求、內容(Content)需求、關聯(Linkage)需求、使用(Application)需求,并命名為SCLA維度模型,如圖1所示。

1.1 結構維度:結構簡便,兼容通用

元數據結構應該層次分明、結構清晰,使用簡練有區分度的語言以保證用戶能利用最少的關鍵詞定位到所需信息,便于目標數據上傳發布和查詢獲取;整套元數據方案的建立需要成熟的架構技術和操作系統,保證通過穩定的檢索渠道訪問數據庫。元數據結構設計需要基于通用的元數據標準以支持與其它數據庫的協同操作。一些基因組學社區沒有設計與全球共享有關的元數據[10],許多專業數據庫元數據標準的特有結構,如MIxS具有很強的獨特性難以兼容其它數據庫的數據內容。許多通用數據庫包含了許多不同類別、樣本容量小的重要數據集,這些數據集由于數據類型各異通常不會使用統一的描述限定[6],使得研究人員存在較低集約化程度下的數據可重用性問題。

1.2 內容維度:內容全面,按需調整

生物醫學數據的質量關系到研究人員數據利用。科學數據質量得到控制,可以提高科學數據的可重用性,節約科研人員在數據清洗過程中的時間與精力[12]。數據庫為支持標準化數據結構使用統一的受控詞匯描述樣本信息,元數據方案可以提供用以注釋海量數據集中的非結構化信息的條目幫助研究人員多方位獲取樣本相關信息。此外,生物醫學元數據方案及其內容應該根據生物特性和研究人員的數據使用需要及時調整,提供數據上傳者可自定的元數據拓展包以保證元數據標準的可擴展和數據庫的可持續[11],使數據庫數據能夠適應知識更新迭代。

1.3 關聯維度:相關聚合,共享交互

元數據功能需求指標中多次提到需求元數據方案提供關聯信息的鏈接,幫助用戶全面掌握目標數據。鏈接是元數據條目的一部分,屬于數據內容需求的范疇,但由于數據鏈接的指向受數據內容的不同而表現出不同的類型,因而單獨作為一個比較研究的維度。這些以鏈接形式存在元數據內容可以簡化數據結構,支持研究人員橫向比較、驗證數據的需求,促進跨庫內容的共享與交互。完整的數據鏈接網絡可以匯集包括數據庫、軟件工具、培訓資料、云儲存和超級計算機在內的研究資源,支持研究人員在更大范圍內查找和共享數據。以臨床病例報告(Clinical Case Reports,CCR)為例,臨床病例報告經常能夠捕捉到不常見的癥狀和疾病[14],但這些寶貴數據來源可能會受宿主所在國家的法律和法規約束,無法獲得離開所在管轄范圍的許可。歐洲生命科學數據研究基礎設施(The European Research Infrastructure for Life Science Data,ELIXIR)通過加強聯合歐洲的基因組表型檔案資源訪問節點,可以在確保符合國家法規的前提下快速共享2019新型冠狀病毒的臨床宿主數據[13]。

此外,元數據條目的設置要根據數據庫類型提供必要的數據引用鏈接以支持數據源的可追蹤性,提供數據關聯內容鏈接簡化數據檢索的流程,提供數據包和模板下載鏈接實現元數據內容的可移植性。

1.4 使用維度:分析處理,更新重用

元數據條目的設置應該支持研究人員對元數據內容地處理和分析。從數據庫提取下載的資源是否可操作對整個數據管理過程至關重要,這關系到研究人員能否根據實驗需要比較不同方案的數據,并驗證相關的元數據因素。專業庫使用的元數據方案要能夠滿足研究人員的使用需要,并能根據用戶需要不斷更新完善。同時,數據庫也可以通過工具包的形式提供開放獲取的生物計算資源和基礎研究架構[13],從而支持研究人員在云基礎架構上部署可重用的生物醫學數據計算分析。

2 基于SCLA維度模型的生物醫學數據元數據功能需求比較

2.1 基本情況

本文選擇了5個國外病毒數據庫和2個國內病毒數據庫的元數據應用內容結構視圖進行比較分析,7個數據庫的基本情況,如表1所示。

2.2 比較分析

2.2.1 結構維度

不同元數據標準的側重點不同,所采用的描述字段不同,元數據的結構和內容存在差異。比較病毒數據的元數據標準需要引用一定的參考標準,朱玲[15]在文章中引入了一種內容結構視圖用于比較跨學科領域的研究數據的元數據標準。內容結構視圖分為識別元數據模塊(Identity Metadata)、語義元數據模塊(Semantic Metadata)、科研活動上下文(Scientific Context)、時間元數據(Temporal Metadata)和地理空間元數據(Geospatial Metadata)5個方面,前3個為主要模塊,分別提供識別數據集實體信息和相互關系、學科分類和跨領域鏈接、確定數據集操作流程的功能,如表2所示。

BioSample和GenBank都是由NCBI維護的生物醫學數據庫,元數據標準在內容結構視圖上均未對語義元數據和時空元數據有集中描述,在科研活動上下文模塊分別使用了7個描述字段,強調對滿足數據研究需求的關聯信息的描述。BioSample元數據的主體部分是樣本的屬性信息,還包括樣本的基本標識符、生物體分類、樣本描述屬性包、上傳者相關信息和外部定位鏈接URL等,屬性部分元數據的類型不固定,受上傳者選擇的樣本描述屬性包決定;GenBank相比BioSample更加重視對識別元數據的使用,其每一條由序列和注釋組成記錄都分配有一個唯一的標識符,稱為登錄號。登錄號在記錄的整個生命周期中保持不變,不受序列或注釋更改的影響。版本復合標識符由主要登錄號和記錄中序列數據的數字版本號組成,基因序列的每個版本都分配有一個唯一的NCBI標識符,稱為GI號,每個GI號對應一個唯一的版本標識符。當對GenBank數據庫中的序列進行修改會向更新后的序列分配新的GI號,并增加版本標識符的版本擴展名以保證檢索記錄始終處于最新版本。

ICTVdb不同于一般的生物病毒基因庫,它是病毒分類學國際委員會管理的數據庫,提供對每個物種示例性病毒的信息。ICTV關注的是病毒分類群的名稱和命名,即物種、屬、科等,因此在內容結構視圖上強調對分類信息的限定,使用了16個語義元數據條目,沒有使用過多的識別元數據,僅包括示例病毒的GenBank和RefSeq登錄號,以及屬于某個物種的病毒的隔離名和通用名。

ViPR使用GSCID-BRC元數據標準,該標準的特點在于元數據構成的層次結構分明,由5個主要方面和12個數據字段組成的樹狀分支網絡,每個子元素字段之間都有明顯的區分度。ViPR提供了來自GenBank的識別數據、注釋和序列查詢鏈接,元數據開發小組不斷推出新的版本對該標準進行完善,使ViPR的元數據內容實現與其他兼容GSCID-BRC元數據標準的數據庫網站的內容鏈接。

VIPERdb是基于MySQL開源數據庫管理系統的關系數據庫,使用開放源代碼OpenMMS Toolkit將mmCIF格式生物分子結構數據轉換為多種數據格式[16]。VIPERdb包含了約180個mmCIF詞典中定義的分類表,表列對應字典數據項,并提供從結晶參數到二級結構的內容和拓展信息。

國家生物信息中心的2019新型冠狀病毒信息庫(以下簡稱CNCB2019新冠病毒庫)元數據標準在內容結構視圖上的主體部分集中在上下文模塊,還使用了5個元數據條目對數據采集發布的時間、空間信息進行了限定。雖然沒有使用統一的元數據標準方案,但使用“序列完整度”和“質量評估”這樣的元數據條目對基因組序列數據的元數據質量提出了需求。

PHDA是國家人口健康科學數據中心管理的醫學數據庫集合中心,存儲了大量的生物學和醫學領域的數據庫和數據記錄,如蝙蝠相關病毒數據庫、嚙齒類相關病毒數據庫、冠狀病毒傳染病本體等。子數據庫不是單純的樣本數據集合,提供了詳細的元數據條目幫助研究人員掌握子數據庫和樣本數據的相關信息。PHDA的子數據庫使用了醫藥衛生科學數據共享元數據標準,元數據方案采用二級元數據條目,將樣本數據清晰地劃分為基本信息、描述信息和聯系信息等部分,根據數據集和子數據庫的對象引出下級詳細的元數據內容。用戶可以通過一級元數據條目準確定位目標的識別元數據、分類描述信息、相關責任方聯系信息以及具體的目標序列數據。

經過上述運用內容結構視圖對7個數據庫元數據標準結構的比較可以發現,數據庫的元數據標準在內容結構視圖上主要集中在科研活動上下文模塊,會根據數據庫的類型特點而有所側重,如GenBank要求對每條序列內容、注釋和版本的標識,重視使用識別元數據條目;ICTVdb關注病毒分類相關信息的描述,強調語義元數據模塊。此外,國內生物醫學數據庫相比國外更加重視元數據對樣本時間和空間信息的描述。

2.2.2 內容維度

GenBank、BioSample、ViPR和PHDA都提供了記錄樣本非結構化信息的自由文本編輯條目,CNCB2019新冠病毒庫僅提供了樣本數據的注釋統計數。GenBank允許上傳者修改序列數據和注釋,同時鼓勵用戶通過NCBI的數據上傳網站向GenBank報告數據庫發布數據的滯后和可能的數據錯誤與內容遺漏。BioSample在確定樣本屬性之后為上傳者提供了一個可選的自由文本字段以存儲有關樣本的非結構化信息,這種結構化信息加非結構化信息的樣本數據收錄方式能夠確保樣本信息的完整性,滿足不同用戶的數據獲取需求。ViPR基因組序列和變異信息引用了GenBank的數據信息,設置了GenBank定義和GenBank注釋。PHDA子數據庫,以蝙蝠相關病毒數據庫為例,在數據描述信息元數據條目說明了蝙蝠相關病毒研究的重要性、數據庫元數據條目、數據庫功能用途和數據更新特點,主要介紹數據庫的基本情況,并未描述具體樣本數據。

ICTVdb收錄的物種示例病毒數據來源于ICTV發布的在線報告,報告中提供每種物種的示例性病毒權威列表和VMR電子表格,電子表格收錄了包括尚未在ICTV報告章節中描述的病毒種類的示例并基于新的信息發布進行更新糾正。

VIPERdb沒有提供非結構化文本編輯的元數據條目,研究人員可以對衣殼結構進行簡單的修改以確保關聯結構之間的一致性,并在聯機補充數據中加以詳細說明。

BioSample鼓勵上傳者使用結構化和一致的屬性名稱和值,其上傳門戶網站還為上傳用戶提供包含許多常見的BioSample數據類型的專用屬性包(Specialized Packages)和用于自定義描述屬性的泛用屬性包(Generic Packages)。每種專用屬性包都包含一整套描述樣本的相關屬性,用戶可以使用屬性包中的受控詞匯以結構化的方式來描述樣本信息,推進元數據的標準化。GenBank序列記錄的登錄號是每條序列的主要標識符,不會因序列記錄的更新修改而產生改變,使用登錄號檢索GenBank記錄會得到序列的最新版本。如果序列記錄被更新修改,通過登錄號所獲取的序列數據可能與以前文章中所使用的序列數據不同。

2.2.3 關聯維度

BioSample將樣本元數據鏈接到跨多個檔案數據庫的相應實驗數據,使得樣本描述支持跨數據庫查詢,同時樣本數據中也提供了指向其他檔案中的相關記錄的鏈接,如參考生物樣本(Reference BioSample)作為映射NCBI檔案數據的樞紐可以幫助用戶快速找到從給定樣本派生的多種數據集和項目。此外,BioSample還與GenBank和BioProjec等外部數據庫相互鏈接,幫助導航查找派生數據和相關數據。

GenBank是國際核苷酸序列數據庫合作組織(the International Nucleotide Sequence Database Collaboration,INSDC)的合作伙伴,元數據條目中的登錄號作為唯一應用標識符在3個協作數據庫GenBank、日本DNA數據庫DDBJ和歐洲分子生物學實驗室核苷酸序列數據庫(the European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL-Bank)之間共享,并且每天與歐洲核苷酸檔案庫(ENA)、EMBL-Bank和DDBJ交換數據,以確保全球范圍內統一全面的序列信息覆蓋。此外,GenBank的序列記錄存在指向BioSample數據庫的鏈接,提供諸如全基因組關聯研究、高通量測序等序列數據測量研究中使用的生物材料的其他信息。GenBank還鼓勵用戶在引用數據庫信息時使用登錄號,幫助定位相關信息和延伸信息。

ViPR使用了GenBank的數據鏈接,基因序列數據的元數據條目提供了GenBank序列記錄的登錄號和樣本的定義、注釋和宿主,研究人員可以直接使用登錄號鏈接跳轉至GenBank數據庫獲取序列記錄的詳細信息。

VIPERdb的元數據條目相比VIPER增加了結構坐標和相關信息的鏈接,除了豐富的有關病毒衣殼的語義元數據,如科、屬、T指數外,還包括指向ICTVdb的相關分類單元、PubMed的參考文獻和一些相關的晶體學信息等。用戶可以通過鏈接從GenBank、ICTVdb、PDB等不同類型的數據庫獲取補全關聯信息,實現對需求病毒衣殼數據的全面挖掘,在不同類型的派生數據之間交叉引用。

CNCB2019新型冠狀病毒信息庫用于信息分析所用的全基因組序列來自CNGBdb、GenBank、全球共享流感數據倡議組織(Global Initiative on Sharing All Influenza Data,GISAID)和基因組倉庫(Genome Warehouse,GWH)數據庫[17],除GISAID數據庫的序列信息由于使用權限原因無法提供下載,其他數據庫來源的基因組序列均可通過數據來源元數據模塊提供的鏈接進行選定或批量獲取下載。CNCB新冠病毒庫還提供了冠狀病毒序列、基因組變異、臨床信息和文獻情報的拓展信息資源服務,用戶可以通過數據庫中的鏈接進入NGDC的基因組倉庫獲取冠狀病毒科的病毒序列相關研究信息。

PHDA的子數據庫提供了當前版本數據庫來源的鏈接。用戶可以從“附件”和“數據”條目下載數據包和字典模板,對于缺乏實體數據的特殊數據庫可以在“數據說明”條目發出實體數據的申請。

2.2.4 使用維度

GenBank、ViPR和CNCB2019新冠病毒庫支持用戶對數據庫數據執行基本的基本局部比對搜索工具(Basic Local Alignment Search Tool,BLAST)序列相似性搜索。GenBank使用全面的、基于核苷酸序列的分類方法和鏈接到相關序列數據的分類法瀏覽器,新物種的序列上傳至數據庫后需要咨詢NCBI分類法小組以解決有關命名和分類的問題后再將序列條目公開,避免對數據庫索引造成干擾。用于區分樣本序列數據類別的元數據能夠幫助用戶對GenBank數據進行BLAST比對,在數據庫序列之間進行類比研究[11];ViPR支持研究人員使用自己提供或從ViPR中選擇的序列數據與ViPR數據庫中選定的序列集合或用戶創建的數據集進行對比,運行BLAST后會輸出每條序列完整的識別元數據內容、標準比值、期望值、方法、統一性和陽性值;CNCB新冠病毒庫側重于對2019新型冠狀病毒序列的橫向研究,在元數據條目中序列號和相關ID可以提供每條序列唯一的識別信息,序列完整度和序列長度、質量信息鼓勵上傳完整的序列數據以支持病毒序列數據的對比研究和對原始序列的驗證,每條序列數據都記錄有采樣時間地點和樣本提交的時間和單位,支持最多10個基因組序列之間的BLAST比對和74個國家2019新型冠狀病毒序列數統計和增長趨勢研究。研究人員還可以利用數據庫提供的變異注釋和變異鑒定兩種在線工具,將測序原始數據與新冠病毒基因組進行序列比對,檢測樣本中含有的新冠病毒序列,分析測序數據對新冠病毒基因組的覆蓋度、測序深度、錯誤率等信息。

病毒數據庫所提供的使用程序和工具服務基于數據庫的元數據結構和研究需要,VIPERdb的語言編寫程序提供了一個將PDB坐標轉化為VIPER坐標的腳本,可以自動確定將衣殼信息定向為VIPER方向所需的轉換矩陣,并將其存儲在數據庫中[16];PHDA數據倉儲匯總子數據庫的數據鏈接,對數據跨庫研究的需要更多依賴數據庫提供的功能服務。

3 對我國生物醫學元數據建設的啟示和建議

本文在比較分析國內外生物醫學元數據方案標準和功能需求的基礎上,從數據結構需求、數據內容需求、數據研究需求和數據鏈接需求4個維度對比了國內外生物醫學數據庫的元數據方案。結合國內病毒數據庫元數據方案的不足,基于基因組學研究人員的元數據功能需求對國內提升病毒數據開放水平提出建議。

3.1 優化數據結構,推動標準化研究

國內生物醫學數據庫為了方便實現與外部關聯資源的鏈接,使用的元數據方案來源于多個學科的數據結構和標準,具有很好的兼容性。這種兼容的元數據方案能夠幫助通用數據庫存儲各種格式的數據類型,但是缺乏對數據的有效描述和限定,導致數據庫內部數據呈現多樣化,集成程度不斷降低,研究人員的數據發現和使用會更加困難。對于生物醫學領域的病毒數據庫這類定位重要數字對象或數據使用用途的專用數據庫,需要結合對象的數據特點和研究用途設置元數據標準,如ICTVdb的元數據方案強調對病毒的語義元數據模塊的設置,并根據知識更新和數字對象的變化及時調整元數據標準以提高元數據內容的質量。

為滿足數據處理最低需要,國際基因組學領域已經定義了一套最小的核心元數據元素集。學科領域內部也需要定義一套通用的病毒數據開放元數據標準以支持研究人員的跨庫數據處理與交互。

3.2 控制數據質量,促進數據共享重用

元數據對數據質量表現為準確性、完整性等,對數據質量的控制呈現為保持數據結構一致和可獲取性。國內病毒數據庫用于控制數據質量的元數據條目指向不一,PHDA的元數據條目“數據大小”“數據記錄數”“數據格式”側重于對數據集的體量和格式標準的控制,CNCB2019新冠病毒數據庫使用的“序列完整度”和“質量評估”側重于對數據集結構和內容標準的控制。標準之間難以橫向比較,可以建立一套通用的最小核心標準評價數據質量。標準內容應該確保支持不同生物主體和數據庫類型的數據質量控制需要,并根據具體需求特點拓展標準條目。

此外,元數據內容的質量控制一方面受數據庫元數據條目在數據上傳時對數據的限定;另一方面還依靠用戶的使用反饋。可以學習國外病毒數據庫,如BioSample,采用的“結構化標準+非結構化注釋模塊”的方式,利用受控語言統一樣本數據結構,結合非結構化詞語描述補充樣本數據的拓展、修正信息。

數據質量良莠不齊是影響數據共享和研究人員數據重用行為的重要因素,病毒數據的質量關系到研究成果的質量,數據質量越高,研究人員的感知有用性越大,越有可能實現數據重用行為。

3.3 分類匯總鏈接,構建關聯數據網絡

CNCB2019新冠病毒庫和PHDA數據倉儲相比較國外生物醫學數據庫使用了豐富的關聯派生信息的鏈接,鏈接指向不局限于單純關聯派生數據,還提供了完整的數據來源索引、數據下載和數據處理工具。跨庫鏈接集合構成了全面的學科研究數據內容,國內病毒數據庫可以嘗試將指向、用途類似的鏈接進行歸類整合,建立關聯數據集之間網絡圖。所形成的鏈接集合可以直觀地呈現某項數據的全部關聯內容以及所關聯內容的其他關聯信息,幫助研究人員發現諸如流行病起源與未來爆發風險的潛在數據聯系[13],建立新的關聯數據鏈接以加強對病毒數據的數據關系研究。

3.4 豐富研究條目,滿足多樣化需求

CNCB2019新冠病毒庫支持對病毒序列的橫向對比研究和對原始測序數據的數據驗證,能夠滿足研究人員對元數據條目可操作性的要求。數據庫提供了完整的基因組序列數據用于比較研究,但涉及數據對比研究的元數據條目較少且大多使用受控詞匯作為元數據內容。對比VIPERdb有關序列對比研究的條目“解析度”“基因組”“T指數”“子單元數”“凈表面電荷”“外部SASA”“半徑”“直徑”“球形體積”,CNCB2019新冠病毒庫只有“序列完整度”“序列長度”和“序列質量”3個元數據條目,且除“序列長度”使用實際測得數據以外均使用結構化受控詞匯填充內容,對于實際對比研究所能獲得結論十分有限。國內病毒數據庫需要根據研究人員的數據研究需求編制新的元數據方案版本,支持研究人員多樣化的數據研究需求。

參考文獻

[1]Dugan V G,Emrich S J,Giraldo-Calderón G I,et al.Standardized Metadata for Human Pathogen/Vector Genomic Sequences[J/OL].https://doi.org/10.1371/journal.pone.0099979,2020-05-01.

[2]Goncalves R S,Musen M A.The Variable Quality of Metadata About Biological Samples Used in Biomedical Experiments[J/OL].https://doi.org/10.1038/sdata.2019.21,2020-05-01.

[3]Marc D T,Beattie J,Herasevich V,et al.Assessing Metadata Quality of a Federally Sponsored Health Data Repository[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5333273,2020-05-20.

[4]Shah N H,Jonquet C,Chiang A P,et al.Ontology-driven Indexing of Public Datasets for Translational Bioinformatics[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2646250.

[5]Jones P,Cté R G,Cho S Y,et al.PRIDE:New Developments and New Datasets[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238846,2020-05-20.

主站蜘蛛池模板: 日韩精品无码一级毛片免费| 欧美亚洲一二三区| 欧洲在线免费视频| a色毛片免费视频| 国产精品yjizz视频网一二区| 天堂网亚洲综合在线| 亚洲欧美激情另类| 97色伦色在线综合视频| 亚洲天堂首页| 色婷婷视频在线| 波多野结衣一二三| 亚洲成a人片在线观看88| 国产高颜值露脸在线观看| 国产流白浆视频| 亚洲天堂视频在线免费观看| 97在线国产视频| 色综合激情网| 亚洲一区毛片| 色综合激情网| 爱做久久久久久| 色婷婷丁香| 无码一区中文字幕| 在线精品自拍| 色噜噜在线观看| 手机成人午夜在线视频| 国产欧美日韩一区二区视频在线| 丰满的少妇人妻无码区| 国产亚洲视频免费播放| 夜色爽爽影院18禁妓女影院| 99精品欧美一区| 国产欧美日韩91| 欧美亚洲国产视频| 国产精品视频白浆免费视频| 欧美精品在线免费| 亚洲国产精品不卡在线| 亚洲高清日韩heyzo| 日韩 欧美 小说 综合网 另类| 久久久久久高潮白浆| 国产精品久久久久久久久kt| 日本成人精品视频| 久久黄色一级视频| 999精品在线视频| 国产黄网站在线观看| 亚洲第一色视频| 国产综合日韩另类一区二区| 国产美女91呻吟求| 国产黑丝一区| 精品一区二区三区中文字幕| 国产在线精品香蕉麻豆| 91在线日韩在线播放| 伊人色在线视频| 日韩毛片在线播放| 亚洲欧美成aⅴ人在线观看 | 亚洲天堂网视频| 国产精品久久久久久久久| 99这里只有精品6| 黄色在线网| 久久久久亚洲精品成人网| 国产chinese男男gay视频网| 国产无码性爱一区二区三区| 欧美a在线看| 亚欧成人无码AV在线播放| 日韩免费成人| 亚洲黄色激情网站| 国产欧美成人不卡视频| 99热国产这里只有精品9九| 国产日韩精品欧美一区灰| 亚洲第一中文字幕| 一区二区三区国产精品视频| 日本一区中文字幕最新在线| 日韩在线播放欧美字幕| 日本黄色a视频| 久草视频福利在线观看 | 精品三级在线| 免费va国产在线观看| 亚洲Va中文字幕久久一区| 午夜国产精品视频黄| 国产制服丝袜91在线| 在线五月婷婷| 欧美激情,国产精品| 国产精品专区第1页| 91在线丝袜|