999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

NIH生物醫學數據共享倉儲分析

2017-03-22 01:22:18,,
中華醫學圖書情報雜志 2017年10期
關鍵詞:規范內容用戶

,, ,

[作者單位]中國醫學科學院醫學信息研究所,北京 100005

科學數據的快速增長為科學研究和發展帶來了巨大挑戰和機會,對數據重要價值的認知促使各資助機構、科研院所等爭先制定相關數據政策,促進數據倉儲更有效地利用和共享科學數據。數據倉儲(Data Repository,DR)的宗旨是在科學研究領域內,促進數據轉化為知識和再利用。數據倉儲的建設需要完成數據的收繳、數據的質量控制、數據組織與長期存儲、數據內容的描述,并提供檢索、查詢、調用等服務[1]。

國內已有相關文獻分析了生命科學領域科研數據倉儲的建設年代、學科領域等分布情況,從宏觀角度分析了代表性數據倉儲。本文則聚焦數據倉儲建設,擬以數據上傳、下載、管理、訪問等方面為切入點,系統梳理和深入探索美國國立衛生研究院(National Institutes of Health,NIH)生物醫學共享數據倉儲中典型倉儲的建設模式,全面了解數據倉儲的建設情況,為我國生物醫學科學數據共享倉儲的建設提供可資借鑒的參考。

1 NIH生物醫學數據共享倉儲概述

NIH以列表形式,匯集了73個生物數據共享倉儲,提供數據存儲和共享服務,促進數據復用。該倉儲涵蓋癌癥、生物納米技術樣本、多肽、眼部等多個領域。本文根據數據倉儲權威性、領域影響力、應用廣泛性和規范性等方面的特點,確保倉儲中涵蓋內容格式單一型倉儲及內容格式集成型倉儲,涵蓋前沿的基因、蛋白、腫瘤領域及傳統的生物、技術、模型、臨床等領域,并根據對數據管理模式及流程的調研,篩選具有代表性,詳盡、規范及自身特性鮮明的倉儲,最終遴選出Protein Data Bank (PDB)、PubChem、GenBank、TCIH、FlyBase、CaNanolab、iDash、Uniprot、dbGaP、Clinicaltrials.gov等10個典型的數據共享倉儲進行研究。

癌癥影像檔案庫TCIA[2]為公眾提供大量去識別化的醫學癌癥影像的檔案資料[3]。FlyBase[4]是一個果蠅染色體和基因的數據庫,包括蛋白質組數據、微數列等[5];caNanoLab[6]是旨在促進全球生物醫學納米技術研究社區的信息共享,以促進并驗證生物醫學中的納米技術的用途[7];iDash[8]提供數據倉儲、開源軟件、架構、模型、算法等資源[9];Uniprot[10]旨在為科學界提供一個全面、高質量和能夠自有獲取的蛋白質序列和功能信息資源[11];蛋白質數據庫(PDB)[12]是關于大型生物分子的3D結構信息的單一全球信息庫[13];基因型和表型數據庫(dbGaP)[14]是精選和發布由調查基因型和表型間相互作用的研究所產生的信息的數據倉庫[15];PubChem[16]提供關于小分子的生物活性的信息[17];ClinicalTrials.gov提供患者及其家屬、醫療專家、科研人員和公眾的研究數據的入口[18];GenBank[19]是基因序列數據庫,旨在提供和鼓勵科學界獲得最新和全面的DNA序列信息[20]。

2 數據共享倉儲分析

NIH數據倉儲中心提供了所有倉儲的情況。本文圍繞數據管理系統機制,提出分析框架,從數據提交、數據管理、數據檢索、數據訪問、數據下載、數據引用等層面對這些數據倉儲進行深入分析。

2.1 數據提交規范各異

數據提交細化為數據內容、格式規范、提交流程、質量規定、審核流程和上傳方式6個方面。

數據內容方面,各倉儲內容橫跨癌癥影像、表型、基因組、序列、生物大分子結構、生物表達信息、健康相關信息、序列信息等。按照涉及領域劃分,iDash、dbGaP、GenBank、FlyBase屬基因領域,ClinicalTrials.gov、iDash屬健康領域,UniProt、PDB屬蛋白領域,PubChem屬化合物領域,TCIA屬腫瘤領域;按數據類型劃分,ClinicalTrials.gov、TCIA均屬于數據類型和內容單一型倉儲,FlyBase、UniProt、PDB、PubChem屬于內容單一的數據類型豐富的倉儲,iDash則是在內容上較為豐富的集成型倉儲。格式規范方面,多數倉儲沒有明確限制數據格式,也有給出建議格式的,如UniProt建議使用UniProtKB/Swiss-Prot格式,GenBank、PubChem給出了通用的格式;TCIA由于主要收集影像資料,格式主要為DICOM;PDB則對于提交的不同類型規定了不同的格式。就某一領域,數據的某種格式很可能是通用的,如基因領域,通用格式是FASTA。質量規定方面,60%的倉儲,如caNanoLab等采用人工審核,其中,ClinicalTrials.gov會為用戶提供審查標準供用戶自行檢查,再由審核人員控制;20%的倉儲考慮加入自動審核,如dbGaP自動完成針對數據格式、元數據核對等一系列質量審核。提交流程方面,多數倉儲仍然采用傳統的提交數據、審核、通過后發布的模式設計流程,并加入與自身倉儲特性結合的環節。以僅將原數據發布作為目標的機構為例,TCIA通過人員和軟件的共同協作實現提交;iDash則需要用戶先簽訂一份提交協議,包括內容和法律條款等,而后提交數據;UniProt、dbGaP、PubChem、ClinicalTrials.gov要求用戶注冊并填報所需元數據項(表1)。數據審核方面,除dbGaP倉儲采用自動審核的方式外,其余均為人工審核。值得一提的是,PubChem審核數據更新情況時,采用半人工半自動的方式。數據上傳方面,多數倉儲使用最基本的附件上傳方式,其余上傳方式包括批量上傳、FTP上傳等,部分倉儲實現了工具上傳,如TCIA、GenBank分別使用CTP(臨床試驗處理器)及Sequin程序等工具上傳。其中CTP可以在數據提交前根據DICOM標準對數據執行去識別的工作,Sequin用于在MAC、PC和UNIX平臺通過FTP指導提交過程,ClinicalTrials.gov則直接輸入數據元素。

表1 數據共享倉儲數據提交規范

2.2 數據管理規范

數據管理細化為內容管理、數據管理和版本管理3個方面。

數據共享倉儲數據管理規范情況見表2。

表2 數據共享倉儲數據管理規范

內容方面,TCIA、FlyBase、caNanolab較為單一,如FlyBase主要涉及果蠅資源,aNanolab主要涉及納米技術;其余倉儲數據類型相對豐富,如iDash是生物醫學異構數據的集合庫,PubChem集成了物質信息、化合物信息和生物活性等方面的信息數據。就內容所屬領域來說,UniProt、PDB、dbGaP、GenBank均包含基因組或蛋白質序列的內容,其細化研究領域各有專攻,如PDB對生物體、蛋白質、結構測定等更為關注,dbGaP主要研究個體水平的基因數據匯編,UniProt專攻蛋白質序列記錄及分析等,GenBank則含有更多表達序列標簽和基因組序列的信息。

數據管理方面,80%的倉儲將數據發布后,會為用戶提供相對統一的元數據項;對于倉儲中包含多種類型數據的情況,會區別對待,如caNanolab,協議和樣品需提供的元數據項是不相同的。另外20%的倉儲可能由于內容的不同,如FlyBase中每種報告可能含有不同的元數據描述項,iDash數據以社區形式存放,相關說明由數據上傳者提供,所以元數據項無法統一。

版本管理方面,FlyBase等4個倉儲提供數據版本發布及管理功能,dbGaP設置文件格式版本、匯編版本、阻止發布版本等版本管理模塊;數據更新頻率方面,多數倉儲保持每日到數月更新一次的頻率。

2.3 數據訪問

6個倉儲可無限制訪問和下載,部分設置權限。如dbGaP出于保護研究參與人員的意愿和隱私考慮,設置訪問權限,并采取其他數據安全措施;TCIA中部分數據集需特定權限;caNanolab 、iDash 、PubChem 部分開放。6個倉儲提供了詳細的數據量數據。TCIA絕大部分數據集無需登錄即可下載;caNanolab 則是由數據提交人或審核人決定該數據是否公開;iDash倉儲中因包含很多安全、保密的數據庫,故其部分數據集設有權限限制,用戶需要首先加入數據社區,才能訪問該社區內的資源(表3)。

2.4 數據檢索規范

各倉儲均提供多種檢索方式,包括簡單檢索、高級檢索與關聯檢索,部分倉儲已經將檢索工具投入使用。80%的倉儲實現了高級檢索,如PDB列出了包括機體、X射線分辨率、發布日期、酶分類、蛋白質對稱性等檢索類別,提供基于關鍵詞、結構注釋、所有實驗類別等方面的篩選條件;ClinicalTrials.gov提供研究類型、研究結果、所屬單位、年齡、性別、定向搜索等檢索條件。40%的倉儲提供了檢索工具,如FlyBase提供的檢索工具QueryBuilder允許用戶使用模板查詢、導入保存的查詢或者構建新查詢,自動創建與查詢匹配的記錄交叉引用的記錄集,從單個頁面提供到倉儲中所有相關記錄的鏈接;UniProt提供的檢索工具BLAST可以查找序列之間的局部相似性區域并推測序列之間的功能及進化關系,GenBank提供的基本局部比對搜索工具BLAST等[21]和PubChem提供的基于結構相似度的物質聚類工具、識別結構活性關系并檢查化合物的靶選擇性和特異性的工具、支持快速搜索和檢索單個生物測定記錄的測試結果的工具以及用于檢查和比較多個生物測試中的生物學結果的工具等(表3)。

2.5 數據下載規范

各倉儲下載方式包括鏈接直接下載、FTP下載、API下載、批量下載等。多數倉儲提供直接下載和FTP下載,ClinicalTrials.gov只提供在線搜索查看。其中有些倉儲是以某個數據版本打包下載的,如Uniprot;也有以提供數據資源列表方式支持下載的,如TCIA。權限方面,4個倉儲提供公開的數據集服務,4個倉儲部分數據提供公開服務,2個倉儲需要相關訪問權限。其中,dbGaP則需要申請訪問權限并符合相關政策,GenBank則做出了關于數據權限的說明。格式方面,除了TCIA格式較為單一外,其余倉儲多含有通用格式及其他格式,具體信息參見表4。

2.6 數據引用規范

70%的倉儲提供用戶引用時的推薦格式,其中caNanolab還針對普通引用、已發布的數據引用和未發布的數據引用做出區分。個別倉儲未標明引用樣例格式,但給出了相關要求,包括dbGaP遵循DUC協議,ClinicalTrials.gov給出了引用時需標明的幾點要求,iDash需要發表引用聲明。引用協議方面,各倉儲均根據自身情況引用了相關協議,如TCIA從促進數據共享與復用的強烈意愿為出發點,使用CC BY 3.0的引用協議。該協議標明用戶可以自由共享或演繹,但必須署名,提供許可協議鏈接,如有修改需標明。iDash由于包含較多保密數據,因此要求用戶遵循HIPAA法案。HIPAA法案(健康保險攜帶與責任法案)在衛生信息化環境下如何保護個人隱私的問題上開展了較為深入的探索[22]。UniProt要求遵循Creative Commons Attribution-NoDerivs協議[23]。該協議允許用戶共享,前提是用戶必須給出適當的信用值,提供許可鏈接,并指明是否進行了更改;如果對內容進行各種形式的重構,則不能分發結果。PDB以數據共享為出發點,數據完全開放[24],部分內容遵循CC-BY-4.0協議。該協議旨在無限制地允許用戶進行共享和重構,用戶同樣需要遵循相關條件。其余數據倉儲需遵循NIH相應管理政策。數據共享倉儲下載與引用規范見表4。

表3 數據共享倉儲數據訪問與檢索規范

表4 數據共享倉儲數據下載與引用規范

(續表4)

3 結語

NIH生物醫學數據共享倉儲的如下特點值得我們參考和借鑒。

數據提交方面,根據領域給出元數據內容要求,不限制數據格式。在附件上傳的基礎上,設計及應用了上傳工具便于用戶上傳數據。為更好地進行數據核驗,保留對數據資源人工審核質量的模式,個別倉儲對半人工半自動或自動質量審核模式進行了探索。另外,在數據提交的過程中,iDash強調法律權益及版權方面的問題,因此事先擬定了要簽署的協議,值得借鑒。

數據管理方面,各倉儲內容不同,但均盡可能收集詳細全面的元數據,并總結和發布相對統一的元數據項,同時提供數據的分析統計。倉儲具有較好的版本管理規范,并定期對數據進行更新與檢查。

數據服務方面,多數檢索提供簡單檢索和高級檢索,積極開展個性化檢索工具的嘗試與應用。倉儲提供多種下載方式和數據格式,對于需要引用數據的用戶,提供多種引用規范格式或樣例,或做出聲明,制定符合自身倉儲特點的引用規范,并采用符合自身倉儲特點、與行業標準、國家標準與政策相符合的數據引用協議(如CC協議)。

由于時間與精力限制,本文未對NIH生物醫學數據共享倉儲下的所有倉儲進行全面調研,但通過對典型倉儲進行分析比較及特點總結,希望能夠為我國開展生物醫學數據共享倉儲建設提供一定的經驗和啟示。

猜你喜歡
規范內容用戶
來稿規范
來稿規范
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
PDCA法在除顫儀規范操作中的應用
來稿規范
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 午夜免费视频网站| 色综合激情网| 中文字幕人成人乱码亚洲电影| 欧美三级视频在线播放| 日本欧美在线观看| 久久久久夜色精品波多野结衣| 国产极品美女在线观看| 四虎在线观看视频高清无码 | 亚洲va欧美va国产综合下载| 亚洲第一国产综合| 91久久性奴调教国产免费| 精品一区二区无码av| 日韩成人在线视频| 国产一在线观看| 亚洲综合在线最大成人| 亚洲男人天堂2020| 国产福利小视频高清在线观看| 视频二区中文无码| 无码专区国产精品第一页| 亚洲精品色AV无码看| 日本91在线| 91毛片网| 91福利免费| 国产亚洲欧美另类一区二区| 呦系列视频一区二区三区| 国产91丝袜在线播放动漫| 国产精品女主播| 大乳丰满人妻中文字幕日本| 国产精品思思热在线| 久久精品嫩草研究院| 国内黄色精品| 日本免费高清一区| 伊人大杳蕉中文无码| 欧美三级日韩三级| 亚洲第一极品精品无码| 亚洲a级毛片| 国产欧美视频一区二区三区| 国产一级视频在线观看网站| 成人一级免费视频| 国产自无码视频在线观看| 久久综合色天堂av| 色综合久久久久8天国| 亚洲欧美天堂网| AV片亚洲国产男人的天堂| 欧美午夜视频在线| 国产精品无码作爱| 天堂在线www网亚洲| 丝袜国产一区| 亚洲成人免费看| 91综合色区亚洲熟妇p| 亚洲欧美综合另类图片小说区| 综合网久久| 国产成人三级| 国产精品嫩草影院av| 国产亚洲精久久久久久久91| 2018日日摸夜夜添狠狠躁| h网站在线播放| 九九这里只有精品视频| 亚洲无线一二三四区男男| 久久黄色影院| 色悠久久久| 高清视频一区| 国产精品亚洲五月天高清| 18禁色诱爆乳网站| 日本久久网站| 久久人妻系列无码一区| 亚洲国产天堂久久综合| 婷婷色中文| 黄色在线不卡| 国产极品美女在线| 无码久看视频| 国产欧美视频一区二区三区| 波多野结衣二区| 在线看AV天堂| 国产欧美视频一区二区三区| 国产成人精品亚洲77美色| 91亚洲视频下载| 中文字幕人成乱码熟女免费| 91久久性奴调教国产免费| 激情爆乳一区二区| 亚洲国产第一区二区香蕉| 亚洲无码久久久久|