999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全球研究數(shù)據(jù)注冊(cè)倉(cāng)儲(chǔ)Re3data.org的醫(yī)學(xué)科學(xué)數(shù)據(jù)

2018-03-22 01:15:22
關(guān)鍵詞:科學(xué)建設(shè)

吳思竹,李贊梅,崔佳偉,修曉蕾,錢 慶

隨著數(shù)據(jù)密集型科學(xué)時(shí)代的到來,數(shù)據(jù)增長(zhǎng)迅速,各國(guó)均意識(shí)到數(shù)據(jù)的重要性,將大數(shù)據(jù)提升到戰(zhàn)略層面,數(shù)據(jù)已成為科技發(fā)展和科技競(jìng)爭(zhēng)的重要戰(zhàn)略資產(chǎn)。數(shù)據(jù)倉(cāng)儲(chǔ)是對(duì)外服務(wù)的平臺(tái),它不僅是數(shù)據(jù)存儲(chǔ)的倉(cāng)庫(kù),還提供管理、服務(wù)。Re3data.org(Registry of Research Data Repositories)是綜合性的全球研究數(shù)據(jù)存儲(chǔ)注冊(cè)倉(cāng)儲(chǔ),面向研究者、資助機(jī)構(gòu)、出版者和學(xué)術(shù)機(jī)構(gòu)呈現(xiàn)永久保存與訪問的數(shù)據(jù)集,致力于推動(dòng)研究數(shù)據(jù)的共享傳播、提高數(shù)據(jù)的可見性、促進(jìn)數(shù)據(jù)的訪問和復(fù)用。

Re3data.org由德國(guó)研究基金(Deutsche Forschungsgemeinschaft,DFG)資助,德國(guó)洪堡大學(xué)的柏林圖書館與信息科學(xué)學(xué)院、德國(guó)地理科學(xué)研究中心、卡爾斯魯厄理工學(xué)院共同參與建設(shè),于2012年上線,2014年3月與科學(xué)數(shù)據(jù)目錄倉(cāng)儲(chǔ)Databib合并,并由DataCite統(tǒng)一接管[1]。為促進(jìn)注冊(cè)管理機(jī)構(gòu)的可持續(xù)發(fā)展,Re3data作為一項(xiàng)數(shù)據(jù)倉(cāng)儲(chǔ)注冊(cè)服務(wù)于2016年被納入DataCite[2]。它不僅是歐洲委員會(huì)、國(guó)家科學(xué)基金會(huì)等資助機(jī)構(gòu)在其數(shù)據(jù)管理和共享相關(guān)的指導(dǎo)方針和政策中積極推薦使用的倉(cāng)儲(chǔ),也是《自然》科學(xué)數(shù)據(jù)、PLoS ONE和英國(guó)皇家學(xué)會(huì)等出版社和期刊推薦作者查找、保存和發(fā)布數(shù)據(jù)的倉(cāng)儲(chǔ)平臺(tái)。大量數(shù)據(jù)建設(shè)或持有者不斷向Re3data.org注冊(cè)倉(cāng)儲(chǔ)數(shù)據(jù),其匯集的倉(cāng)儲(chǔ)資源已成一定規(guī)模,截至2018年8月收錄了2 150個(gè)數(shù)據(jù)倉(cāng)儲(chǔ),其中包括大量的醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)。通過系統(tǒng)分析,能夠在一定程度上反映和總結(jié)全球醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的現(xiàn)狀、經(jīng)驗(yàn)與不足,為我國(guó)解決醫(yī)學(xué)科學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)研究和實(shí)踐中面臨的基礎(chǔ)技術(shù)、共享政策、數(shù)據(jù)權(quán)益、標(biāo)準(zhǔn)規(guī)范等方面的問題提供參考和借鑒。

雖然全球已建立了很多數(shù)據(jù)倉(cāng)儲(chǔ),如Dryad、DataMed、NIH公共數(shù)據(jù)倉(cāng)儲(chǔ)等均收錄大量醫(yī)學(xué)領(lǐng)域數(shù)據(jù)資源,但只囊括了部分資源,提供的數(shù)據(jù)統(tǒng)計(jì)功能多針對(duì)自身收集的數(shù)據(jù)情況,不足以反映領(lǐng)域整體數(shù)據(jù)的匯聚、建設(shè)及管理等情況。目前,還沒有能夠全面揭示各國(guó)醫(yī)學(xué)科學(xué)數(shù)據(jù)開放共享程度的網(wǎng)站或系統(tǒng)。Re3data.org面向全球提供科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的注冊(cè),收錄了較廣泛的數(shù)據(jù)倉(cāng)儲(chǔ),能夠在一定程度上反映全球科學(xué)數(shù)據(jù)的開放情況。其網(wǎng)站雖然也提供收錄倉(cāng)儲(chǔ)數(shù)據(jù)的統(tǒng)計(jì)分析,但是以全部數(shù)據(jù)為對(duì)象,分析粒度較粗,不能按領(lǐng)域等進(jìn)行靈活數(shù)據(jù)遴選和細(xì)粒度分析,在分析方法和數(shù)據(jù)呈現(xiàn)方面也相對(duì)簡(jiǎn)單。因此,研究者結(jié)合不同研究需求和目標(biāo),基于Re3data收錄的科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)據(jù)開展分析和研究工作。如鄒麗雪等側(cè)重分析生命科學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的年代、國(guó)家、機(jī)構(gòu)、學(xué)科領(lǐng)域、開放程度等分布情況,并選取6個(gè)典型的數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行特點(diǎn)分析[3];王輝等從Re3data元數(shù)據(jù)中遴選14個(gè)指標(biāo),對(duì)1 848個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的責(zé)任機(jī)構(gòu)進(jìn)行定量分析,并通過獨(dú)立樣本t檢驗(yàn)方法分析比較了不同學(xué)科的倉(cāng)儲(chǔ)數(shù)據(jù)內(nèi)容、服務(wù)類型、數(shù)據(jù)訪問與上傳等方面的差異[4];張莎莎利用Re3data數(shù)據(jù)分析了英國(guó)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)情況[5];夏姚璜對(duì)比了中國(guó)和美國(guó)的數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)特點(diǎn)[6];曾麗瑩等對(duì)211所高校科學(xué)數(shù)據(jù)知識(shí)倉(cāng)儲(chǔ)的分布特點(diǎn)、資源數(shù)量和數(shù)據(jù)管理方式等進(jìn)行了分析,闡述了對(duì)高校科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的啟示[7];Kindling M.提出對(duì)2015年Re3data收錄的全部數(shù)據(jù)進(jìn)行多維度分析,對(duì)倉(cāng)儲(chǔ)的可見性和功能性提出了建議[8]。我們主要利用統(tǒng)計(jì)分析、共現(xiàn)分析和社會(huì)網(wǎng)絡(luò)分析等方法,并結(jié)合可視化圖表針對(duì)Re3data.org中收錄的醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的分布、使用的特殊元數(shù)據(jù)標(biāo)準(zhǔn)、政策、許可等情況進(jìn)行分析。

1 數(shù)據(jù)與方法

1.1 主要方法

Re3data.org使用Re3data Metadata Schema 4.0從多維度描述科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)和收錄數(shù)據(jù)的基本信息和屬性特征,并提供應(yīng)用程序編程接口(Application Programming Interface,API)數(shù)據(jù)訪問接口。本文主要通過編寫Java程序調(diào)用API數(shù)據(jù)接口,用可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML)格式的倉(cāng)儲(chǔ)描述元數(shù)據(jù)的采集。通過編寫XML數(shù)據(jù)解析和數(shù)據(jù)清洗程序進(jìn)行預(yù)處理,利用UCNET等工具及統(tǒng)計(jì)方法、共現(xiàn)分析和社會(huì)網(wǎng)絡(luò)分析等方法,結(jié)合可視化圖表對(duì)Re3data.org中收錄的醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的分布、資源內(nèi)容、建設(shè)模式和服務(wù)模式等進(jìn)行量化分析,并基于此展開探討和總結(jié)。

1.2 數(shù)據(jù)選取

本文數(shù)據(jù)采集時(shí)間為2017年8月。Re3data.org是綜合性數(shù)據(jù)倉(cāng)儲(chǔ),使用德國(guó)研究基金提出的DGA分類進(jìn)行數(shù)據(jù)組織,將收錄的注冊(cè)數(shù)據(jù)倉(cāng)儲(chǔ)分為4個(gè)一級(jí)類目、14個(gè)二級(jí)類目。涉及到醫(yī)學(xué)領(lǐng)域的大類是Life Sciences,類目下包括Biology和Medicine 2個(gè)二級(jí)類目。其中,Biology類目包括Basic Biological and Medical、Plant Sciences和Zoology 3個(gè)三級(jí)類目,該類目下注冊(cè)了978個(gè)數(shù)據(jù)倉(cāng)儲(chǔ);Medicine類目包括Microbiology、Virology and Immunology,Medicine,Neurosciences 3個(gè)三級(jí)類目,該類目下注冊(cè)了470個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)。兩個(gè)一級(jí)類目下的內(nèi)容有重疊,一個(gè)倉(cāng)儲(chǔ)可能會(huì)被分配到多個(gè)類目下,如Ensembl Metazoa既屬于Biology也屬于Medicine類目。本文主要聚焦醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),因此保留Medicine分類下的全部數(shù)據(jù)倉(cāng)儲(chǔ)的同時(shí)也納入了Biology三級(jí)類目Basic Biological and Medical下的數(shù)據(jù)倉(cāng)儲(chǔ)。由此,共獲得871個(gè)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ),去重后最終得到637個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)的注冊(cè)數(shù)據(jù)用于本文研究。

2 結(jié)果與分析

2.1 醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)分布

2.1.1 時(shí)間分布

醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)創(chuàng)建時(shí)間在1905-2017年之間(圖1),如圖1所示,收錄醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的幾個(gè)高峰是在1992年、2000年、2003年、2006年、2008年和2011年。

圖1 醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)創(chuàng)建時(shí)間分布

1982-1984年間,歐洲分子生物學(xué)實(shí)驗(yàn)室-DNA(The European Molecular Biology Laboratory-DNA,EMBL-DNA)、GeneBank、日本DNA數(shù)據(jù)庫(kù)(DNA Data Bank of Japan,DDBJ)先后建立,共同組成全球性的國(guó)際DNA數(shù)據(jù)庫(kù),每天實(shí)時(shí)進(jìn)行數(shù)據(jù)和信息交換。同時(shí)建立了在線人類孟德爾遺傳數(shù)據(jù)庫(kù)(Online Mendelian Inheritance in Man,OMIM)、Database of Sequence Tagged Sites等數(shù)據(jù)倉(cāng)儲(chǔ)。

1990年人類基因組計(jì)劃啟動(dòng)。1996年,百慕大原則(Bermuda Principles)發(fā)布,要求將達(dá)到一定規(guī)模的基因組序列整合提交到特定公共數(shù)據(jù)庫(kù),進(jìn)一步促進(jìn)了基因組數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)。在這一階段,Nucleic Acid Database(NDB)、UniProtKB/Swiss-Prot、癌癥基因組解剖數(shù)據(jù)項(xiàng)目倉(cāng)儲(chǔ)等相繼建立。

2000-2007年,以高通量為特點(diǎn)的第二代測(cè)序技術(shù)快速發(fā)展。2000年,Ensembl計(jì)劃建立了Bacteria、Fungi、Genomes等系列數(shù)據(jù)庫(kù),推動(dòng)基因組自動(dòng)注釋,并將注釋與其他有用的生物數(shù)據(jù)整合和共享;2002年建立了UniProtKB、Wellcome Images和European Variation Archive;2003年,柏林會(huì)議發(fā)布《關(guān)于自然科學(xué)與人文科學(xué)知識(shí)的開放存取柏林宣言》;2006年,經(jīng)濟(jì)合作與發(fā)展組織(Organization for Economic Co-operation and Development,OECD)頒布《關(guān)于公共資金資助的研究數(shù)據(jù)獲取的原則與指南》,極大地促進(jìn)了數(shù)據(jù)開放獲取,各國(guó)和組織機(jī)構(gòu)積極開展開放數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè);NCBI建立了HomoloGene、Nucleotide、PopSet、Protein、Influenza Virus Resource和Protein Clusters系列數(shù)據(jù)庫(kù);美國(guó)國(guó)立癌癥研究所(National Cancer Institute,NCI)和美國(guó)國(guó)立人類基因組研究所(National Human Genome Research Institute,NHGRI)聯(lián)合啟動(dòng)了腫瘤基因組圖譜(Cancer Genome Projects,TCGA),并建立了腫瘤基因組圖譜數(shù)據(jù)門戶(Cancer Genome Atlas Data Portal)。

2008-2011年,第三代測(cè)序技術(shù)在測(cè)序通量、時(shí)間和成本等方面都有了極大改善和提高。大量基因組項(xiàng)目如英國(guó)的“千人基因組計(jì)劃”和歐洲的“創(chuàng)新藥物計(jì)劃”(二期)等陸續(xù)啟動(dòng)并建立了相應(yīng)的千人基因組計(jì)劃倉(cāng)儲(chǔ)和Open Phacts倉(cāng)儲(chǔ)等。2009年,《開放透明政府備忘錄》《開放數(shù)據(jù)聲明》《開放數(shù)據(jù)憲章》等重要文件的簽署也推動(dòng)了開放數(shù)據(jù)運(yùn)動(dòng)在全球范圍內(nèi)的興起和迅速發(fā)展。各國(guó)政府機(jī)構(gòu)、國(guó)際機(jī)構(gòu)和非營(yíng)利組織積極組織建設(shè)開放共享數(shù)據(jù)倉(cāng)儲(chǔ),搭建了DRYAD、DATA.GOV.UK、NCBI Virus Variation、NCBI dbGaP和組學(xué)原始數(shù)據(jù)歸檔庫(kù)(Genome Sequence Archive,GSA)等倉(cāng)儲(chǔ),用于促進(jìn)數(shù)據(jù)共享和利用。

2.1.2 國(guó)家分布

數(shù)據(jù)驅(qū)動(dòng)科技創(chuàng)新發(fā)展已經(jīng)成為世界共識(shí),各國(guó)積極進(jìn)行數(shù)據(jù)資源創(chuàng)造、規(guī)劃和積累,促進(jìn)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)和大數(shù)據(jù)研究應(yīng)用。醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)涉及全世界五大洲36個(gè)國(guó)家(圖2)。

其中,美國(guó)在醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)方面實(shí)力雄厚,共參與了346個(gè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè),所占比例超過50%,并且獨(dú)立建設(shè)倉(cāng)儲(chǔ)數(shù)量達(dá)241個(gè);英國(guó)參與建設(shè)數(shù)據(jù)倉(cāng)儲(chǔ)139個(gè),位居第二(22%),獨(dú)立建設(shè)倉(cāng)儲(chǔ)41個(gè);德國(guó)參與建設(shè)數(shù)據(jù)倉(cāng)儲(chǔ)71個(gè)(11%),獨(dú)立建設(shè)倉(cāng)儲(chǔ)45個(gè);歐盟參與數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)58個(gè)(9.11%);中國(guó)雖然也積極開展數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)工作,但建設(shè)成果在國(guó)際數(shù)據(jù)倉(cāng)儲(chǔ)庫(kù)Re3data中注冊(cè)的數(shù)量不多,共有參建倉(cāng)儲(chǔ)17個(gè)(含港、臺(tái)地區(qū))。

圖2 Re3data各國(guó)家建設(shè)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)數(shù)量比

醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的多國(guó)合作網(wǎng)絡(luò)如圖3所示。其中,每個(gè)國(guó)家可能有多個(gè)機(jī)構(gòu)參與同一倉(cāng)儲(chǔ)建設(shè)。本文中每個(gè)國(guó)家在合作倉(cāng)儲(chǔ)建設(shè)中只計(jì)算了1次。美國(guó)、英國(guó)和國(guó)際組織在多方合作倉(cāng)儲(chǔ)建設(shè)方面表現(xiàn)最為突出,而美國(guó)、英國(guó)和歐盟則構(gòu)筑了數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)合作的核心三角,合作密切,共同建立了Ensembl的系列倉(cāng)儲(chǔ)。這三者之間,英國(guó)與歐盟、美國(guó)與英國(guó)之間的合作更為緊密,英、美兩國(guó)共同參與建設(shè)了如GenBank、1000 Genomes和WormBase等多個(gè)倉(cāng)儲(chǔ)。國(guó)際組織和美國(guó)、德國(guó)與歐盟、瑞士和英國(guó)也有密切合作。

亞洲國(guó)家中,中國(guó)、日本和韓國(guó)與國(guó)際組織、歐盟及美國(guó)有部分合作。歐洲國(guó)家在醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)中參與度最高,參與數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的國(guó)家達(dá)20個(gè),占?xì)W洲國(guó)家數(shù)量的43%。美洲國(guó)家在醫(yī)學(xué)數(shù)據(jù)管理和共享倉(cāng)儲(chǔ)研究和建設(shè)上的實(shí)力和優(yōu)勢(shì)最強(qiáng),雖然只有3個(gè),但美國(guó)和加拿大在數(shù)據(jù)倉(cāng)儲(chǔ)合作建設(shè)和獨(dú)立建設(shè)的數(shù)量和應(yīng)用方面均處于引領(lǐng)地位。其他洲的國(guó)家參與情況是,亞洲國(guó)家7個(gè),非洲國(guó)家3個(gè),大洋洲國(guó)家2個(gè)。

圖3 各國(guó)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)合作網(wǎng)絡(luò)

2.1.3 機(jī)構(gòu)分布

參與醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu),主要以非營(yíng)利性機(jī)構(gòu)為主,也包括部分營(yíng)利性機(jī)構(gòu)。非營(yíng)利性機(jī)構(gòu)包括政府機(jī)構(gòu)、公益性團(tuán)體組織(基金、協(xié)會(huì))、教育機(jī)構(gòu)(大學(xué)、研究所、圖書館、出版社等),營(yíng)利性機(jī)構(gòu)主要是公司企業(yè)。各國(guó)均有不同類型機(jī)構(gòu)參與到醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè),其中美國(guó)參與建設(shè)的機(jī)構(gòu)居首位(有300余家),英國(guó)其次(有100余家)。各國(guó)主要機(jī)構(gòu)和其建設(shè)的代表性倉(cāng)儲(chǔ)如表1所示。

各國(guó)均對(duì)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)支持力度較大(圖4)。從政府機(jī)構(gòu)的多方、多種形式的參與程度可以看出各國(guó)對(duì)科學(xué)數(shù)據(jù)資源匯聚和利用的重視程度。以美國(guó)為例,美國(guó)衛(wèi)生和人類服務(wù)部、美國(guó)農(nóng)業(yè)部和美國(guó)能源部均參與其中,尤其是美國(guó)衛(wèi)生和人類服務(wù)部下屬的國(guó)立衛(wèi)生研究院、國(guó)家生物技術(shù)信息中心等15個(gè)機(jī)構(gòu)參與倉(cāng)儲(chǔ)建設(shè)。由圖4可以看出,在各機(jī)構(gòu)合作中,美國(guó)的政府機(jī)構(gòu)、研究所和基金會(huì)占據(jù)合作核心位置,廣泛組織和參與倉(cāng)儲(chǔ)建設(shè)合作。其中,美國(guó)國(guó)家衛(wèi)生研究院最為突出,除了與醫(yī)學(xué)研究委員會(huì)、國(guó)家綜合醫(yī)學(xué)研究所、國(guó)家科學(xué)基金會(huì)、比爾和梅琳達(dá)·蓋茨基金會(huì)等美國(guó)國(guó)內(nèi)機(jī)構(gòu)緊密合作外,也與歐洲生物信息學(xué)研究所、英國(guó)威康信托基金會(huì)、英國(guó)生物技術(shù)和生物科學(xué)研究委員會(huì)、瑞士生物信息學(xué)研究所和加拿大衛(wèi)生研究院等密切合作。

表1 各國(guó)主要參與醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu)

圖4 各國(guó)參與醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu)合作情況

2.2 資源內(nèi)容

2.2.1 類型和規(guī)模

Re3data根據(jù)parse.insight調(diào)查結(jié)果將各倉(cāng)儲(chǔ)中收錄的數(shù)據(jù)類型歸納為15類,其中457個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)記錄了收錄數(shù)據(jù)內(nèi)容類型信息[9]。本文對(duì)收錄各數(shù)據(jù)類型的倉(cāng)儲(chǔ)數(shù)量進(jìn)行統(tǒng)計(jì)(表2)。

表2 收錄不同數(shù)據(jù)類型的倉(cāng)儲(chǔ)占比

醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)中,收錄科學(xué)和統(tǒng)計(jì)數(shù)據(jù)的最多,達(dá)325個(gè)(占51%);收錄標(biāo)準(zhǔn)辦公文檔、純文本、原始數(shù)據(jù)和結(jié)構(gòu)化圖形、圖像數(shù)據(jù)的超過30%;收錄2種以上類型數(shù)據(jù)的超過64%。其中,大多倉(cāng)儲(chǔ)(57%)都收錄了3~6種數(shù)據(jù)類型,如European Genome-phenome Archive、dbGaP和PhysioBank等;有倉(cāng)儲(chǔ)收錄數(shù)據(jù)類型多達(dá)十二、三種,如Canadensys repository、Open Phacts、heiDATA等。 Re3data也記錄了部分?jǐn)?shù)據(jù)倉(cāng)儲(chǔ)的數(shù)據(jù)規(guī)模,但由于收錄數(shù)據(jù)類型和格式豐富,描述方式不統(tǒng)一,難以統(tǒng)計(jì)。倉(cāng)儲(chǔ)收錄數(shù)據(jù)規(guī)模的描述,有的以記錄條數(shù)記錄,如UniProtKB包括547 964條手工注釋和審核的記錄和92 124 243條自動(dòng)注釋和沒有審核的記錄;有的以研究個(gè)數(shù)記錄,如ClinicalTrials.gov包括237 639個(gè)研究;有的以收錄內(nèi)容數(shù)量記錄,如GenBank包括228 719 437 638個(gè)堿基和199 341 377個(gè)序列;有的按圖片個(gè)數(shù)記錄,如Wellcome Images,包括超過40 000張圖片。雖然對(duì)倉(cāng)儲(chǔ)規(guī)模、收錄數(shù)據(jù)的描述方式和統(tǒng)計(jì)數(shù)量不是實(shí)時(shí)更新,但對(duì)幫助用戶發(fā)現(xiàn)和了解所需數(shù)據(jù)倉(cāng)儲(chǔ)收錄內(nèi)容有一定的參考作用。

2.2.2 內(nèi)容和質(zhì)控

Re3data提供了對(duì)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的關(guān)鍵詞和描述摘要。為了更全面地揭示倉(cāng)儲(chǔ)收錄內(nèi)容,本文通過對(duì)關(guān)鍵詞和從描述摘要中提取的詞進(jìn)行處理和詞頻統(tǒng)計(jì),繪制了詞匯立方云圖進(jìn)行對(duì)比(圖5)。

圖5 數(shù)據(jù)倉(cāng)儲(chǔ)收錄內(nèi)容的關(guān)鍵詞和摘要詞云圖

圖5-1為關(guān)鍵詞云圖,圖5-2為摘要詞云圖,圖中詞的大小表示詞頻強(qiáng)度,每個(gè)立方云圖以3面27個(gè)方塊展示排序結(jié)果。關(guān)鍵詞云圖可以看出醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的收錄內(nèi)容,包括蛋白、基因、疾病、細(xì)胞、藥物、序列等數(shù)據(jù),來源對(duì)象有小鼠、人類、植物、果蠅、酵母和其他物種,對(duì)數(shù)據(jù)內(nèi)容描述得較為細(xì)致;摘要詞云圖來自對(duì)倉(cāng)儲(chǔ)較為全面的描述,除了揭示收錄的數(shù)據(jù)內(nèi)容以外,還揭示了數(shù)據(jù)相關(guān)來源或應(yīng)用是來自或用于研究、實(shí)驗(yàn)、調(diào)查、項(xiàng)目等。倉(cāng)儲(chǔ)收錄的數(shù)據(jù)類型包括圖像、報(bào)告、文獻(xiàn)、圖譜、標(biāo)準(zhǔn)等,倉(cāng)儲(chǔ)建設(shè)方式有平臺(tái)、網(wǎng)站、數(shù)據(jù)庫(kù)、工具、在線門戶等,倉(cāng)儲(chǔ)或數(shù)據(jù)的處理和管理環(huán)節(jié)包括標(biāo)識(shí)、注冊(cè)、提交、處理、注釋、訪問、檢索、分析、可視化、審編、發(fā)現(xiàn)、共享和服務(wù)等。數(shù)據(jù)評(píng)估包括評(píng)議、效果、質(zhì)量等。

Re3data沒有詳細(xì)記錄各倉(cāng)儲(chǔ)數(shù)據(jù)質(zhì)量控制的具體標(biāo)準(zhǔn)和流程,但記錄了是否提供了數(shù)據(jù)質(zhì)控功能。其中,64.36%的醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)重視收錄數(shù)據(jù)質(zhì)量,提供質(zhì)控功能,33.59%未知是否提供質(zhì)控,2.05%未提供質(zhì)控。

2.3 建設(shè)模式

2.3.1 平臺(tái)技術(shù)

在Re3data中,標(biāo)明底層支撐技術(shù)的倉(cāng)儲(chǔ)數(shù)量不多,僅有181個(gè)。其中,38個(gè)倉(cāng)儲(chǔ)建設(shè)使用MySQL數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)和管理,其他數(shù)據(jù)倉(cāng)儲(chǔ)則使用商業(yè)軟件或開源軟件進(jìn)行本地化建設(shè)。倉(cāng)儲(chǔ)建設(shè)使用了7種軟件,包括DSpace、CKAN、Dataverse、Fedora和Eprints等開源軟件、非開源軟件Digital Commons和商業(yè)軟件Nesstar。DSpace、Eprint、Fedora和Digital Commons在機(jī)構(gòu)知識(shí)庫(kù)建設(shè)中應(yīng)用廣泛,常被用于包括文獻(xiàn)、數(shù)據(jù)等在內(nèi)的機(jī)構(gòu)知識(shí)成果管理、發(fā)布、學(xué)術(shù)工作和影響力展示,注冊(cè)的倉(cāng)儲(chǔ)中,有10個(gè)倉(cāng)儲(chǔ)使用其建設(shè),如DRYAD、WormBase使用了DSpace。Fedora因其功能全面性也被用于電子資源(包括數(shù)據(jù)資源)的長(zhǎng)期保存,Columbia University Academic Commons 等4個(gè)倉(cāng)儲(chǔ)是基于其建設(shè)的。CKAN目前廣泛被作為開放政府?dāng)?shù)據(jù)平臺(tái)的底層支撐,用于數(shù)據(jù)發(fā)布、查找和利用,有9個(gè)倉(cāng)儲(chǔ)是基于其建設(shè)的,影響力較大的有英國(guó)的Data.gov.uk、澳大利亞的Data.gov.au。Dataverse是由哈佛大學(xué)開發(fā)維護(hù)的用于共享、保存、引用、探索和研究分析的數(shù)據(jù)倉(cāng)儲(chǔ)軟件,使用Dataverse的醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)有9個(gè)。除此之外,5個(gè)倉(cāng)儲(chǔ)是使用Nesstar建設(shè)的,主要用于處理調(diào)查數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、多維表和文本資源。

2.3.2 標(biāo)準(zhǔn)規(guī)范

2.3.2.1 唯一標(biāo)識(shí)符

Re3data收錄的醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)主要使用5種通用唯一標(biāo)識(shí)符用于數(shù)據(jù)資源檢索、管理和定位,包括國(guó)際數(shù)字對(duì)象標(biāo)識(shí)符基金會(huì)(International DOI Foundation,IDF)管理的數(shù)字對(duì)象標(biāo)識(shí)符(Digital Object Identifier,DOI)、美國(guó)國(guó)家研究創(chuàng)新機(jī)構(gòu)(Corporationfor National Research Initiatives,CNRI)設(shè)計(jì)的句柄(Handles,HDL)、美國(guó)國(guó)家研究創(chuàng)新機(jī)構(gòu)(Corporationfor National Research Initiatives,CNRI)提出的永久唯一資源定位符(Persistent Uniform Resource Locator,PURL)、美國(guó)國(guó)家醫(yī)學(xué)圖書館設(shè)計(jì)的檔案資源主鍵(Archival Resource Key,ARK)和國(guó)際電信聯(lián)盟提出的唯一資源名稱(Uniform Resource Name,URN)。

其中,DOI是應(yīng)用最廣泛的唯一標(biāo)識(shí)符,有97個(gè)倉(cāng)儲(chǔ)使用;其次是HDL,有16個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)使用;PURL、ARK和URN分別有7個(gè)、5個(gè)和4個(gè)倉(cāng)儲(chǔ)使用。其他倉(cāng)儲(chǔ)未明確標(biāo)注所使用的標(biāo)識(shí)符或是否使用自定義標(biāo)識(shí)符。

2.3.2.2 元數(shù)據(jù)標(biāo)準(zhǔn)

Re3data收集的標(biāo)注了使用元數(shù)據(jù)標(biāo)準(zhǔn)的醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)僅有106個(gè),提及的元數(shù)據(jù)標(biāo)準(zhǔn)有16個(gè),它們多為國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)和項(xiàng)目標(biāo)準(zhǔn),在數(shù)據(jù)倉(cāng)儲(chǔ)中數(shù)據(jù)的檢索、定位、管理、互操作和共享等方面發(fā)揮重要作用。其中通用標(biāo)準(zhǔn)有6個(gè)、生物領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)6個(gè)、地理領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)2個(gè)和氣象領(lǐng)域數(shù)據(jù)標(biāo)準(zhǔn)2個(gè)。倉(cāng)儲(chǔ)中應(yīng)用較多的不是醫(yī)學(xué)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn),而是通用元數(shù)據(jù)標(biāo)準(zhǔn),包括DDI(Data Documentation Initiative)、DC(Dublin Core)和DataCite元數(shù)據(jù)標(biāo)準(zhǔn);其次是生物醫(yī)學(xué)領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)DwC(Darwin Core)、ISA-Tab(Investigation Study Assay Tabular)和MIBBI(Minimum Information for Biological and Biomedical Investigations)、Genome Metadata。

此外,隨著數(shù)據(jù)語(yǔ)義化的發(fā)展,醫(yī)學(xué)數(shù)據(jù)語(yǔ)義化標(biāo)準(zhǔn)RDF Data Cub也開始應(yīng)用于倉(cāng)儲(chǔ)數(shù)據(jù)資源描述框架(Resource Description Framework,RDF)格式描述存儲(chǔ)和下載,如UniProtKB的所有的文件都支持RDF格式下載。醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)使用的16個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)如表3所示。

表3 醫(yī)學(xué)領(lǐng)域數(shù)據(jù)倉(cāng)儲(chǔ)使用的16個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)

2.4 服務(wù)模式

2.4.1 數(shù)據(jù)訪問

數(shù)據(jù)訪問和使用是醫(yī)學(xué)科學(xué)數(shù)據(jù)共享倉(cāng)儲(chǔ)建設(shè)的重要目標(biāo)。Re3data提供注冊(cè)倉(cāng)儲(chǔ)和數(shù)據(jù)2個(gè)層次的訪問級(jí)別和條件信息。

Re3data將數(shù)據(jù)倉(cāng)儲(chǔ)層面的訪問級(jí)別劃分為開放、限制、關(guān)閉3類,開放是指用戶可以無障礙訪問數(shù)據(jù)倉(cāng)儲(chǔ),限制是指外部用戶能夠通過滿足一定條件訪問數(shù)據(jù)倉(cāng)儲(chǔ),關(guān)閉是指外部用戶無法訪問數(shù)據(jù)倉(cāng)儲(chǔ),訪問限制指需通過成為數(shù)據(jù)倉(cāng)儲(chǔ)機(jī)構(gòu)成員、系統(tǒng)注冊(cè)用戶或付費(fèi)等方式方可獲得倉(cāng)儲(chǔ)訪問的許可。目前,支持對(duì)外開放訪問的數(shù)據(jù)倉(cāng)儲(chǔ)有598個(gè)(80%),限制訪問的有34個(gè),關(guān)閉的有5個(gè)。

倉(cāng)儲(chǔ)層面訪問開放并不意味著數(shù)據(jù)層面也對(duì)外開放。各倉(cāng)儲(chǔ)根據(jù)數(shù)據(jù)的重要性及使用范圍設(shè)置多種訪問級(jí)別,保障數(shù)據(jù)所有者、管理者和使用者的權(quán)益。本文中各倉(cāng)儲(chǔ)數(shù)據(jù)層面的訪問級(jí)別分為開放、限制、關(guān)閉和禁止4種。禁止是指數(shù)據(jù)集開放或受限訪問,發(fā)布數(shù)據(jù)之前用戶無法訪問。如CancerData.org、ArrayExpress和PharmGKB數(shù)據(jù)倉(cāng)儲(chǔ)訪問都是開放的但在數(shù)據(jù)訪問層面,CancerData.org包括開放、限制和關(guān)閉的數(shù)據(jù),ArrayExpress包括開放、限制和禁止的數(shù)據(jù),PharmGKB包括開放和限制的數(shù)據(jù)。各倉(cāng)儲(chǔ)數(shù)據(jù)層面的訪問級(jí)別設(shè)置的多種情況見圖6。

圖6 倉(cāng)儲(chǔ)數(shù)據(jù)層面的訪問級(jí)別

近50%的倉(cāng)儲(chǔ)數(shù)據(jù)訪問是完全開放的,126個(gè)倉(cāng)儲(chǔ)既有開放數(shù)據(jù)也有限制性數(shù)據(jù)。限制的數(shù)據(jù)訪問要滿足一定條件,如用戶需要注冊(cè)、填寫必要的數(shù)據(jù)使用說明或付費(fèi)。

2.4.2 政策及許可

544個(gè)醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)通過制定和采取不同政策,保障其管理和運(yùn)維。經(jīng)歸納,25個(gè)倉(cāng)儲(chǔ)注冊(cè)了4個(gè)及以上的政策,221個(gè)倉(cāng)儲(chǔ)注冊(cè)了2個(gè)及以上的政策。政策類型主要包括數(shù)據(jù)發(fā)布政策、數(shù)據(jù)提交政策、數(shù)據(jù)使用政策、數(shù)據(jù)管理政策、數(shù)據(jù)許可政策、隱私政策、數(shù)據(jù)安全和質(zhì)量政策、版權(quán)政策、標(biāo)識(shí)符政策、數(shù)據(jù)共享政策。與政策相關(guān)的還有服務(wù)提供原則、數(shù)據(jù)轉(zhuǎn)換許可、分類規(guī)則等。以注冊(cè)最多政策的Edinburgh DataShare倉(cāng)儲(chǔ)為例,注冊(cè)的政策包括提交政策、內(nèi)容政策、服務(wù)政策、存儲(chǔ)許可、數(shù)據(jù)和元數(shù)據(jù)政策和長(zhǎng)期保存政策等7項(xiàng)數(shù)據(jù)政策。不同倉(cāng)儲(chǔ)應(yīng)根據(jù)自身需要和特點(diǎn)制定政策。還有一些公用性政策,如NIH的公共訪問政策、IMEx(International Machine Tools Expo)審編規(guī)則、TCGA 工具使用條款等也在多個(gè)倉(cāng)儲(chǔ)中使用。

除數(shù)據(jù)政策,醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)也提供必要的數(shù)據(jù)許可,保障其用戶的權(quán)益和數(shù)據(jù)創(chuàng)作者及持有者的權(quán)益。Re3data中主要記錄了數(shù)據(jù)倉(cāng)儲(chǔ)訪問許可、數(shù)據(jù)上傳許可和數(shù)據(jù)訪問許可。

數(shù)據(jù)訪問許可相對(duì)統(tǒng)一,現(xiàn)有倉(cāng)儲(chǔ)多應(yīng)用公認(rèn)的開放許可或開源軟件的許可(表4)。

表4 倉(cāng)儲(chǔ)訪問許可和數(shù)據(jù)訪問許可的倉(cāng)儲(chǔ)數(shù)

數(shù)據(jù)訪問許可有8類,應(yīng)用最多的是Copyrights、Creative Commons(CC)、Public Domain。數(shù)據(jù)倉(cāng)儲(chǔ)訪問的許可包括7類,應(yīng)用最多的是Copyrights、CC和Apache License 2.0;數(shù)據(jù)上傳許可因不同數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)目標(biāo)、應(yīng)用范圍不同,在數(shù)據(jù)內(nèi)容、格式、數(shù)據(jù)量、上傳途徑等方面有較大差別,比較分散,共有143個(gè),包括各倉(cāng)儲(chǔ)數(shù)據(jù)提交的方法、工具指南、注意條款、許可協(xié)議等,如IMEx數(shù)據(jù)提交指南(IMEx data submission)、TCAG工具使用條款(TCAG Facilities Terms and Conditions)、GenBank流感病毒序列提交指南(Submitting Influenza Virus Sequences to GenBank)等。其中也包括CC0、CC、Apache License 2.0、OGL和Public Domain等通用許可。

2.4.3 數(shù)據(jù)接口

除了數(shù)據(jù)的在線瀏覽和下載外,通過API接口提供計(jì)算機(jī)數(shù)據(jù)訪問也是很多數(shù)據(jù)倉(cāng)儲(chǔ)提供數(shù)據(jù)應(yīng)用的重要途徑。本文中共有292個(gè)醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)提供了數(shù)據(jù)交互接口信息,其中有8種數(shù)據(jù)接口方式:文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)、表述性狀態(tài)傳遞(Representational State Transfer,REST)、簡(jiǎn)單對(duì)象訪問協(xié)議(Simple Object Access Protocol,SOAP)、元數(shù)據(jù)收割協(xié)議(Open Archives Initiative Protocol for Metadata Harvesting,OAI-PMH)、SPARQL(SPARQL Protocol and RDF Query Language)、網(wǎng)絡(luò)通用數(shù)據(jù)格式(Network Common Data Form,NetCDF)、SWORD和OpenDAP。不同數(shù)據(jù)接口方式在數(shù)據(jù)傳輸性能、數(shù)據(jù)體量及安全性等方面有一定差別。其中,32%的倉(cāng)儲(chǔ)提供基于FTP的數(shù)據(jù)交互方式,該方式適于傳輸大規(guī)模數(shù)據(jù),數(shù)據(jù)傳輸過程安全性較高,但傳輸需約定數(shù)據(jù)格式;24%的倉(cāng)儲(chǔ)提供基于REST方式,其數(shù)據(jù)傳輸效率高且簡(jiǎn)單易用,適于對(duì)安全要求不高的應(yīng)用,NCBI和EBI構(gòu)建的很多倉(cāng)儲(chǔ)都采用了這兩種數(shù)據(jù)交互接口方式,還有部分采用了SOAP方式,用于在分布式環(huán)境中交換輕量級(jí)的數(shù)據(jù)信息。提供元數(shù)據(jù)收割和下載的倉(cāng)儲(chǔ)通常提供OAI-PMH的接口方式。

SWORD主要被用在Dataverse軟件支持的倉(cāng)儲(chǔ)中用于數(shù)據(jù)交互,是針對(duì)存儲(chǔ)庫(kù)的輕量級(jí)數(shù)據(jù)傳輸協(xié)議。而開展RDF數(shù)據(jù)建設(shè)的倉(cāng)儲(chǔ),如BioPortal,支持SPRQL數(shù)據(jù)查詢。不少倉(cāng)儲(chǔ)提供多種接口方式,有11個(gè)倉(cāng)儲(chǔ)提供3種接口方式進(jìn)行數(shù)據(jù)調(diào)用,有50個(gè)倉(cāng)儲(chǔ)提供2種不同的接口方式供用戶根據(jù)自己的需求選擇使用。

3 討論

通過對(duì)Re3data收錄醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的系統(tǒng)分析,希望能通過多維分析視角,歸納總結(jié)全球范圍醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)和發(fā)展的特點(diǎn)和經(jīng)驗(yàn)。

3.1 歐美國(guó)家占據(jù)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的高地

無論是在國(guó)際層面還是國(guó)家層面,醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)均受到高度重視,各國(guó)積極發(fā)布國(guó)家級(jí)數(shù)據(jù)政策及戰(zhàn)略,并且相繼啟動(dòng)開放數(shù)據(jù)研究計(jì)劃促進(jìn)開展數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)實(shí)踐,致力于破除“數(shù)據(jù)孤島”,推進(jìn)科學(xué)數(shù)據(jù)資源匯聚和共享,推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的科技創(chuàng)新,提升科技競(jìng)爭(zhēng)能力。其中,歐美發(fā)達(dá)國(guó)家持續(xù)推動(dòng)數(shù)據(jù)倉(cāng)儲(chǔ)發(fā)展和建設(shè),處于領(lǐng)跑地位。英國(guó)和德國(guó)在自建倉(cāng)儲(chǔ)數(shù)量方面僅次于美國(guó),加拿大、瑞士等國(guó)積極參與數(shù)據(jù)倉(cāng)儲(chǔ)合作建設(shè)。相比美洲和歐洲國(guó)家而言,亞洲國(guó)家在全球科研倉(cāng)儲(chǔ)中注冊(cè)的倉(cāng)儲(chǔ)數(shù)量不多,在國(guó)際合作的倉(cāng)儲(chǔ)建設(shè)中參與能力和可見度還有待提升。

3.2 多方合作共促數(shù)據(jù)開放共享

學(xué)科和機(jī)構(gòu)類型數(shù)據(jù)倉(cāng)儲(chǔ)是醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的主要類型,開展倉(cāng)儲(chǔ)建設(shè)的機(jī)構(gòu)以非營(yíng)利性機(jī)構(gòu)為主,包括大量政府機(jī)構(gòu)、公益組織和高校研究團(tuán)體,進(jìn)行倉(cāng)儲(chǔ)功能建設(shè)、技術(shù)支撐、制度建立、標(biāo)準(zhǔn)制定、運(yùn)行維護(hù)和宣傳推廣。

在科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)中,多家機(jī)構(gòu)打破國(guó)家、地域、區(qū)域、機(jī)構(gòu)限制和突破技術(shù)、資源等瓶頸形成跨國(guó)家、跨區(qū)域、跨機(jī)構(gòu)的合作,不僅擴(kuò)大了醫(yī)學(xué)科學(xué)數(shù)據(jù)資源來源,也擴(kuò)展和提高了數(shù)據(jù)流動(dòng)、共享的空間和效率。

3.3 開源技術(shù)降低倉(cāng)儲(chǔ)搭建門檻

基礎(chǔ)平臺(tái)和關(guān)鍵技術(shù)是支撐醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)發(fā)展的重要基石,但從Re3data的注冊(cè)填報(bào)數(shù)據(jù)對(duì)其收錄的數(shù)據(jù)倉(cāng)儲(chǔ)的基礎(chǔ)支撐技術(shù)的揭示并不完整,明確填寫了底層技術(shù)的倉(cāng)儲(chǔ)數(shù)量不多。現(xiàn)有數(shù)據(jù)顯示,較多采用自建開發(fā)方式建立,也有不少利用成熟開源軟件進(jìn)行科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)的建設(shè)。應(yīng)用的開源軟件均具有一定的版本更新和技術(shù)升級(jí)能力,在資源內(nèi)容管理方面具有相對(duì)廣泛的應(yīng)用。開源軟件結(jié)合本地化改造可以節(jié)約技術(shù)開發(fā)成本,加快和促進(jìn)數(shù)據(jù)共享與開放的進(jìn)程,在一定程度上降低醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)的技術(shù)難度。

3.4 標(biāo)準(zhǔn)規(guī)范建設(shè)保障倉(cāng)儲(chǔ)運(yùn)管

在醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)運(yùn)行管理過程中,唯一標(biāo)識(shí)和元數(shù)據(jù)標(biāo)準(zhǔn)被用于資源識(shí)別和定位,規(guī)范數(shù)據(jù)管理流程和用于統(tǒng)一檢索與數(shù)據(jù)交換。本文中醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)使用的唯一標(biāo)識(shí)符除主要是倉(cāng)儲(chǔ)自定義的唯一標(biāo)識(shí)外,多使用DOI、HDL等通用標(biāo)識(shí)提高數(shù)據(jù)的可管理性和互操作性。在元數(shù)據(jù)標(biāo)準(zhǔn)方面,應(yīng)用到的元數(shù)據(jù)標(biāo)準(zhǔn)具有一定共性,涉及多類國(guó)際或國(guó)家級(jí)標(biāo)準(zhǔn),不僅涵蓋通用標(biāo)準(zhǔn),還包括多種特定領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)。此外,一些數(shù)據(jù)倉(cāng)儲(chǔ)開展底層數(shù)據(jù)語(yǔ)義化建設(shè),使用了W3C推薦的兩種語(yǔ)義數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)建設(shè)和管理流程。

3.5 數(shù)據(jù)分級(jí)共享提供接口支持

由于醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)存儲(chǔ)的數(shù)據(jù)類型多樣,可用性、隱私性、價(jià)值程度不一,數(shù)據(jù)倉(cāng)儲(chǔ)通過設(shè)置多種數(shù)據(jù)訪問級(jí)別和訪問限制條件控制用戶訪問,包括開放、限制、關(guān)閉、禁止等多種級(jí)別保護(hù)數(shù)據(jù)創(chuàng)建者、管理者和使用者的權(quán)益。此外,醫(yī)學(xué)科學(xué)數(shù)據(jù)服務(wù)中,如序列、影像等數(shù)據(jù)體量較大,數(shù)據(jù)交互多采用FTP、REST接口支持?jǐn)?shù)據(jù)傳輸和調(diào)用。現(xiàn)有數(shù)據(jù)倉(cāng)儲(chǔ)提供不止一種調(diào)用方式滿足機(jī)器調(diào)用和讀取,有助于數(shù)據(jù)的共享和利用。

3.6 采用政策許可保障多方權(quán)益

醫(yī)學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)機(jī)構(gòu)和倉(cāng)儲(chǔ)制定數(shù)據(jù)相關(guān)政策和指南引導(dǎo)用戶進(jìn)行醫(yī)學(xué)數(shù)據(jù)提交、管理和存儲(chǔ)。政策內(nèi)容涉及數(shù)據(jù)提交、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)共享、數(shù)據(jù)使用等多個(gè)環(huán)節(jié)。從收集的數(shù)據(jù)來看,各倉(cāng)儲(chǔ)制定或使用的數(shù)據(jù)政策和指南偏個(gè)性化,主要根據(jù)各倉(cāng)儲(chǔ)存儲(chǔ)數(shù)據(jù)特點(diǎn)和流程,通用的政策或指南不多。在數(shù)據(jù)使用許可方面,通用的許可類型較集中為CC0、CC、Copyrights等。通過數(shù)據(jù)許可可以指導(dǎo)用戶結(jié)合需求有效使用倉(cāng)儲(chǔ)數(shù)據(jù)和了解數(shù)據(jù)使用中可能遇到的知識(shí)產(chǎn)權(quán)和隱私問題。

4 結(jié)語(yǔ)

本文仍存在一些不足,如在處理倉(cāng)儲(chǔ)所屬機(jī)構(gòu)數(shù)據(jù)時(shí),由于數(shù)據(jù)采用不同語(yǔ)言填寫,在數(shù)據(jù)處理時(shí),對(duì)德語(yǔ)的翻譯不是非常準(zhǔn)確。在處理醫(yī)學(xué)科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)建設(shè)機(jī)構(gòu)名稱歸一時(shí),由于涉及各國(guó)機(jī)構(gòu)較多,僅按名稱進(jìn)行了歸并,未對(duì)機(jī)構(gòu)層級(jí)進(jìn)行關(guān)聯(lián)歸并處理,因此在各國(guó)機(jī)構(gòu)數(shù)量統(tǒng)計(jì)時(shí)僅統(tǒng)計(jì)到百位和十位的數(shù)字。下一步將結(jié)合分析結(jié)果和經(jīng)驗(yàn)總結(jié),優(yōu)化和完善倉(cāng)儲(chǔ)建設(shè)和功能。

猜你喜歡
科學(xué)建設(shè)
自貿(mào)區(qū)建設(shè)再出發(fā)
點(diǎn)擊科學(xué)
點(diǎn)擊科學(xué)
科學(xué)大爆炸
基于IUV的4G承載網(wǎng)的模擬建設(shè)
電子制作(2018年14期)2018-08-21 01:38:28
《人大建設(shè)》伴我成長(zhǎng)
保障房建設(shè)更快了
民生周刊(2017年19期)2017-10-25 10:29:03
科學(xué)
科學(xué)拔牙
努力建設(shè)統(tǒng)一戰(zhàn)線學(xué)
主站蜘蛛池模板: 久久久91人妻无码精品蜜桃HD| 精品福利视频网| 自偷自拍三级全三级视频| 亚洲欧美日韩精品专区| 8090午夜无码专区| 成年免费在线观看| 国产电话自拍伊人| 日本伊人色综合网| 鲁鲁鲁爽爽爽在线视频观看| 国产精品无码制服丝袜| 伊人久久大香线蕉综合影视| 宅男噜噜噜66国产在线观看| 久久久精品国产SM调教网站| 免费在线色| 欧洲av毛片| 激情无码视频在线看| 亚洲中久无码永久在线观看软件| 韩日无码在线不卡| 亚洲国产天堂久久综合226114| 成人第一页| 老色鬼久久亚洲AV综合| 久久精品人人做人人综合试看| 久久免费看片| 人禽伦免费交视频网页播放| 国产激爽爽爽大片在线观看| 国产极品粉嫩小泬免费看| 麻豆精选在线| a在线亚洲男人的天堂试看| 国产主播在线一区| 亚洲伊人久久精品影院| 国产高清无码第一十页在线观看| 国产国语一级毛片| 日韩一级毛一欧美一国产| 国产黄色视频综合| 亚洲中文字幕97久久精品少妇| 91福利在线看| 国产精品久久久久久久久kt| 色网站在线视频| 国产成人禁片在线观看| 天堂成人在线| 天天激情综合| 国产激情国语对白普通话| 亚洲福利视频一区二区| 免费观看无遮挡www的小视频| 国产精品亚洲va在线观看| 久久不卡国产精品无码| 国产幂在线无码精品| 国产欧美日韩18| 91九色视频网| 国产精品一区在线麻豆| 日本国产精品| 九九视频免费在线观看| 免费一级毛片完整版在线看| 动漫精品中文字幕无码| 伊人久久婷婷| 国产女人综合久久精品视| 四虎影视无码永久免费观看| 欧美精品二区| 亚洲一区精品视频在线| 国产小视频网站| 不卡的在线视频免费观看| 青青青草国产| 久久精品国产精品青草app| 99无码熟妇丰满人妻啪啪 | 久久99国产乱子伦精品免| 久久天天躁狠狠躁夜夜躁| 人妻中文字幕无码久久一区| 久久黄色一级片| 91年精品国产福利线观看久久 | 欧美日韩另类国产| 欧美亚洲一区二区三区导航 | 国产精品亚洲精品爽爽| 97在线视频免费观看| 国产精品成人AⅤ在线一二三四| 国产免费一级精品视频 | 国产成人一区| 欧美、日韩、国产综合一区| 国产麻豆永久视频| 婷婷六月综合网| 国产黄网永久免费| 精品成人免费自拍视频| 亚洲Va中文字幕久久一区|