999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

精準醫學研究相關信息資源的發現與匯聚

2017-03-21 08:44:02
中華醫學圖書情報雜志 2017年11期
關鍵詞:數據庫科學資源

, , , ,

精準醫學研究從疾病預防、診斷、治療等方面改變傳統醫學的研究模式,基因組學、藥物組學、轉錄組、蛋白質組等各類數據也隨著各項精準醫學研究的開展和推進逐漸豐富。發現與匯聚精準醫學信息資源,探討適合的知識服務模式與結構,實現已有資源、成果的有效存儲、流通和再利用,滿足醫生、科研人員、產業發展等多方面的需求,是精準醫學研究的重要組成部分。

繼2015年美國提出精準醫學研究計劃和英國持續投入資金推動其“10萬人基因組計劃”后,我國于 2016年公布了“精準醫學”相關的重大科研計劃和政策舉措,并將其列為國家重點研發計劃之一。

本文圍繞國家科技創新和醫藥衛生事業發展的需求,借助數據倉儲、數據過濾與解析等異構資源整合技術,開展精準醫學相關資源的采集、存儲、加工、組織與分析。圍繞國際精準醫學計劃,發現精準醫學領域科學數據,整合其前沿資訊、研究進展、企業動態等,為醫藥衛生領域科研人員提供集成性、綜合性、有效性和多元化的[1]數據資源和科研支撐與知識服務,促進科技創新和健康產業發展。

1 精準醫學相關信息資源的發現

本文重點對美國和英國的精準醫學項目產生的精準醫學科學數據進行掃描。

1.1 精準醫學研究計劃及其相關資訊資源

1.1.1 美國All of Us /Precision Medicine Initiative

2015年1月30日,美國政府宣布了其精準醫學計劃(Precision Medicine Initiative,PMI)[2],即通過分析100萬名志愿者的基因信息,更好地了解疾病形成機理,為開發相應藥物、實現“個性化醫療”“個性化用藥”奠定基礎。

2015年9月,美國國立衛生研究院(National Institutes of Health,NIH)組織專家成立了精準醫學專業咨詢委員會,并對精準醫學計劃的實施進行了詳細解讀[3]。

2016年,美國聯邦政府從財政預算中為精準醫學計劃劃撥2.15億美元經費。2017年2月,NIH將項目名稱改名為“All of Us”[4],同時撥出500萬美元用于社區和衛生保健部門招募志愿者,以準確、全面地繪制美國人群基因地圖。該項目的資源類型有公告/報告、新聞、會議、研究進展等,每日更新。

1.1.2 英國Precision Medicine Catapult

2012年末,英國啟動10萬人基因組計劃(The 100,000 Genomes Project)(https://www.genomicsengland.co.uk/the-100000-genomes-project/),計劃于2017年前對包含癌癥和罕見病在內的10萬人進行基因組測序,使英國的生命科學研究處于全球現代醫學的前沿。

2015年4月,由英國技術戰略委員會(Innovate UK)資助的Precision Medicine Catapult (PMC)項目啟動,該項目旨在連接政府、企業、研究機構以及領域學者,共同發展英國精準醫學研究,推動精準醫學相關產業的發展。該項目的資源類型有新聞、博客,每日更新。

1.2 精準醫學科學數據

精準醫學領域涉及的數據類型眾多,疾病、藥物、基因、通路等均屬于精準醫學領域范疇。為了更好地實現資源掃描和精準醫學異構數據整合,為精準醫學知識服務奠定基礎,本文調研了DrugBank、CTD、TTD等幾個有代表性的精準醫學數據庫。

1.2.1 DrugBank

DrugBank(https://www.DrugBank.ca/)是2006年加拿大衛生研究院(Canadian Institutes of Health Research)、阿爾伯塔省創新健康研究計劃(Alberta Innovates -Health Solutions)和代謝組學創新中心(The Metabolomics Innovation Centre,TMIC)共同資助創建的。數據庫整合了藥物的化學結構、藥理作用、作用蛋白靶點、作用的生理通路、藥物間相互作用等信息,包含了6 432類藥物、2 350類靶標物質及它們之間12 715條相互作用關系的信息。

1.2.2 CTD

CTD(Comparative Toxicogenomics Database,http://ctdbase.org/)是2002年由北卡州立大學(North Carolina State University,NCSU)開發的,主要描述化合物、基因、疾病及其相互關系,同時還包涵了基因本體(Gene Ontology,GO)、通路和暴露組等相關內容。

1.2.3 TTD

TTD(Therapeutic Target Database,http://bidd.nus.edu.sg/BIDD-Databases/TTD/TTD.asp)是2002年新加坡國立大學(National University of Singapore)生物信息學和藥物創新團隊(Bioinformatics and Drug Design Group)創建的,提供已知或正在探索的可用作治療的蛋白質靶點和核苷酸靶點的信息及其對應的靶疾病、靶通路和相應的藥物/配體信息,同時包括這些靶點在其他數據庫中的相關鏈接,如靶點的功能、序列、3D結構、配體結合性質、酶的命名以及相關文獻等信息的鏈接。

1.2.4 Pathway Commons

Pathway Commons(http://www.pathwaycommons.org)是由多倫多大學(University of Toronto)創建的,并與計算生物信息中心(cBio Center for Information Biology)、哈佛醫學院(Harvard Medical School)、俄勒岡健康與科學大學(Oregon Health & Science University)共同參與維護。該數據庫整合了來自22個數據資源的化學通路信息,包括生物體內一系列生物化學分子(如基因,基因產物以及化合物等)通過各種生化級聯反應來完成某一具體的生物學過程所涉及的蛋白質、DNA、RNA、生物小分子等多種物質。數據庫收錄了4.2萬條通路信息,135萬條相互作用關系[5]。

1.2.5 COSMIC

COSMIC(Catalogue of somatic mutations in cancer,COSMIC,http://cancer.sanger.ac.uk/cosmic)是創建于2004年的人類癌癥相關體細胞突變數據庫,是世界上最大的癌癥體細胞突變數據庫,由Wellcome Trust Sanger Institute開發和維護。該數據庫收錄專家審編數據和全基因組數據,截至2016年9月,數據庫收錄了123萬腫瘤樣本、2.8萬全基因組數據、400萬突變數據等[6]。

2 精準醫學信息資源匯聚與整合

精準醫學知識服務是在資源掃描的基礎上,完成資源的采集、分析和重組,幫助用戶獲取多來源的領域知識,更有效地支持相關工作人員的知識應用和知識創新。為了實現不同系統間的信息資源共享,需要整合各種分布雜亂的資源。實現信息資源整合的關鍵在于遵循標準化的規范體系[7]。根據上文對精準醫學資訊和科學數據的掃描,我們構建了統一的元數據標準,將多來源的異構數據存儲到本地,并以知識服務的形式提供資源的共享和再利用。精準醫學異構資源發現與整合的方案見圖1。

2.1 資源發現與采集

對美國All of Us計劃和英國Precision Medicine Catapult進行精準醫學資源掃描,發現了精準醫學領域的研究進展、項目動態、會議報道、人員招募等資訊類數據。這兩個項目資源類型及分布見表1。同時整合了國際先進的精準醫學科學數據集,數據內容涵蓋藥物、疾病、基因、通路等多種類型,為用戶提供精準醫學科學數據服務。數據采集情況見表2。

2.2 元數據標準描述

針對資訊類和科學數據兩類資源的特性,分別設計了通用的資源元數據標準(表3、表4),為實現異構精準醫學資源的整合奠定基礎。為了優化用戶對資源的檢索,系統利用MeSH醫學主題詞表對所有資源進行了知識標注,支持用戶根據自己的需要選擇搜索路徑,同時為實現資源間的語義關聯做好鋪墊。

表1 美英兩國精準醫學資源類型及采集數量

表2 精準醫學科學數據采集

表3 資訊類數據的元數據標準

表4 科學數據的元數據標準

2.3 資源解析與整合

常見的異構資源整合方式包括模式集成和數據復制。模式集成是指在數字資源整合過程中將來源于不同數據庫的數據視圖集成為全局模式,以幫助用戶無限制地訪問各數據庫的數字資源[8];數據復制則是通過對各數據庫的異構數據進行數字資源的整合,為用戶提供一站式服務,滿足用戶的信息需求,提升用戶瀏覽和獲取信息資源的體驗[9],其代表技術是數據倉庫技術(Extract-Transform-Load,ETL)。比較以上兩種模式的特點,數據復制能夠將異構數據本地化,為用戶提供集成化的數據服務,用戶只需要進行一次身份驗證便可以無障礙地檢索和獲取眾多數據庫中的資源[9],可大大提升訪問效率和用戶體驗。

在資源分類和對應元數據標準的基礎上,本文采用了數據復制的異構資源整合方式,以滿足用戶對數據集成服務的需求。對于資訊類數據,通過網絡爬蟲工具對資源相關內容的文章列表頁面進行爬取、解析,獲得文章內容頁面的URL列表;然后對文章內容頁面進行爬取,通過正則表達式工具解析頁面內容,根據設計的元數據標準獲取相應字段項的內容,存儲到本地數據庫中;最終獲取項目的實施方案、最新動態、研究進展及報告等類型資源。對于資源本身帶有的附件如PDF等,我們將其下載到本地,通過唯一ID關聯到資源本身,再呈現在知識服務系統中。對于可開放獲取的精準醫學科學數據,根據藥物、基因、疾病等類型分別下載,然后依據科學數據元數據標準解析出相關數據項和對數據集的MeSH主題歸類進行標注。

在此基礎上,繼續開展數據過濾、解析及整合工作。采用數據倉庫技術(Extract-Transform-Load,ETL),完成對精準醫學異構數據的提取、數據類型與正規性檢查、數據的清洗、數據的解析和準備[10]等工作。根據兩類資源元數據標準,規范數據格式,實現異構數據之間的轉換,最終加載到精準醫學數據倉庫中。借助數據整合系統的反饋層,完成對數據整合流程的反饋控制、資源調度和系統優化,不斷增強數據整合層的運行效率。同時設計基礎管理模塊,對用戶日志、數據訪問以及系統使用過程中的緩存和異常等問題進行管理。

3 精準醫學知識服務及資源利用效果評估

隨著互聯網、云計算等信息技術的快速發展,醫學知識服務已從傳統的文獻檢索向圍繞數據資源、科學數據等展開的新型知識服務模式轉變。在知識服務模式轉變的初期,產生并積累了大量的醫學數據資源,形成了諸如DrugBank、OMIM、Disease Ontology等一系列的醫學數據庫。這些資源的結構、存儲方式、組織方式、管理方式等各不相同,并且處于分散和無序的狀態,利用效率不高[11]。通過信息整合,將原本分散、異構和分布的資源組織成一個整體,才能支撐知識服務的開展。由此可見,資源的匯聚與整合在知識服務中起著極為重要的作用。

為了促進知識共享,國內外醫學情報機構積極探索醫學領域集成化的知識服務。高東平等構建的重大疾病臨床樣本生命組學數據庫,集成不同來源、不同尺度、不同維度、不同粒度、不同質量的臨床數據和組學數據,實現了臨床樣本生命組學大數據共享與利用服務[12];林煒煒等在采集醫院阿爾茲海默癥病理基本信息、臨床信息、影像信息等的基礎上,連接生物標本組學(基因組學、代謝組學、表觀遺傳組學等)數據庫,構建了醫療數據及生物樣本數據平臺、隨訪數據平臺及健康數據平臺[13];Linda Huang等人設計并構建了癌癥基因組學的Precision Medicine Knowledge Base(PMKB),對COSMIC數據庫中的癌癥相關基因變異和注釋信息進行結構化整合,并允許用戶對知識庫的條目進行編輯[14]。綜上所述,目前國內外對醫學領域的數據共享和知識服務還僅限于科學數據的集成服務,圍繞科學數據并繼續整合相應領域的前沿資訊、最新研究進展、科學文獻等的服務還相對較少。

本文在設計完成精準醫學資訊和科學數據元數據標準的基礎上,圍繞領域熱點構建了精準醫學專題知識服務。通過對美英等國精準醫學資源的掃描,獲取國外精準醫學領域的前沿資訊、研究報告、最新研究進展,實現信息匯聚;基于DrugBank、CTD、TTD等發布的數據資源,實現對疾病、藥物、基因等知識的提取,完成數據資源的采集、整合、存儲、加工,并對外提供科學數據的公開瀏覽和下載;匯集華大基因、諾禾致源等國內精準醫學相關的企業動態,實現全面的精準醫學知識服務。

該項知識服務已經在中國工程科技知識中心醫藥衛生專業知識服務系統中上線并投入使用。通過對平臺訪問日志進行后分析發現,自精準醫學專題知識服務模塊上線以后,有20%的用戶關注并瀏覽過該模塊相關內容。用戶較為關注(訪問次數較多)的內容包括前沿資訊中關于政府推動精準醫學研究的相關舉措、精準醫學研究重點研發計劃的實施和推動過程,科學數據中DrugBank、CTD相應的數據集,下載量約為3人次/天。此外,有8%的用戶在訪問并下載了科學數據之后,繼續在最新研究進展中查詢利用科學數據開展的相關精準醫學科學研究。精準醫學專題知識服務面向精準醫學領域科技人員,提供多維度的科研支撐服務,為領域決策者制定精準醫學研究的宏觀策略提供全面、開放、智能的知識資源和戰略決策服務。該服務匯聚、整合精準醫學領域的前沿資訊、研究進展、科學數據、企業動態等資源,提供精準醫學資源的集成化服務,不但可以滿足用戶對精準醫學相關資訊獲取、信息查詢和數據下載的一站式集成式服務需求,還能提高用戶工作效率。

4 結論與展望

本文掃描與匯聚精準醫學領域數據資源,借助數據倉儲、數據過濾與解析等技術,設計了異構資源發現與整合框架,可實現不同來源、不同類型數據之間的整合與共享,構建不同類型科學數據的知識服務,為精準醫學領域相關人員提供最新資訊、研究報告、會議動態、科學數據等數據資源和多維度的科研支撐服務。

為了進一步達到輔助知識創新的目的,下一步我們將圍繞精準醫學的資源主題開展關聯數據、語義技術等技術的應用與深入探索,從語義層面上實現信息資源的組織和聚合[15],構建一個資源組織和深度聚合的整體框架體系,實現真正意義上的從資源發現到知識發現[16]。具體工作包括開展精準醫學科學數據與科技文獻及中國工程科技知識中心醫藥衛生知識服務系統中其他領域各類異構資源的深度關聯,構建領域知識圖譜,開展對已有資源和數據的深度標注,提升資源的揭示粒度,為平臺的知識發現關聯提供技術支持。

猜你喜歡
數據庫科學資源
基礎教育資源展示
一樣的資源,不一樣的收獲
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
數據庫
財經(2017年2期)2017-03-10 14:35:35
科學
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 国产主播在线一区| 九九九九热精品视频| 91色国产在线| 午夜电影在线观看国产1区| 热99精品视频| 永久免费精品视频| 久久毛片网| 国产又粗又猛又爽视频| 亚洲高清中文字幕| 成人免费视频一区二区三区 | 情侣午夜国产在线一区无码| 人妻无码中文字幕一区二区三区| 亚洲黄色激情网站| 黄色网站不卡无码| 国产成人1024精品下载| 国产精品免费电影| 青青操国产| 免费看的一级毛片| 国产靠逼视频| 日韩av手机在线| 狠狠干欧美| 国产精品亚洲专区一区| 婷婷成人综合| 毛片手机在线看| 欧美一区日韩一区中文字幕页| 青草视频久久| 久久综合结合久久狠狠狠97色| 91成人试看福利体验区| 澳门av无码| 熟女成人国产精品视频| 国产成人免费手机在线观看视频| 日韩欧美国产成人| h视频在线播放| 亚洲国产精品一区二区高清无码久久 | 久久香蕉国产线看精品| 又大又硬又爽免费视频| 老司机午夜精品视频你懂的| 亚洲视频四区| 成年人福利视频| 国模沟沟一区二区三区| 欧美日韩国产精品综合 | 亚洲中文精品人人永久免费| 久久黄色一级片| 精品福利视频网| 99久久精品国产自免费| 国产欧美中文字幕| 香蕉伊思人视频| 欧美成在线视频| 国产成人亚洲无吗淙合青草| 五月激激激综合网色播免费| AV熟女乱| 国产视频大全| 久久精品无码一区二区国产区| 国产精品亚洲αv天堂无码| 在线看片中文字幕| 狠狠色狠狠色综合久久第一次| 亚洲中文字幕23页在线| 一级爆乳无码av| 中文字幕无码中文字幕有码在线| 99国产在线视频| a色毛片免费视频| 国产色伊人| 欧美成人综合在线| m男亚洲一区中文字幕| 久久五月天国产自| 国产成人综合欧美精品久久| 波多野衣结在线精品二区| 这里只有精品免费视频| 欧美亚洲国产精品第一页| 亚洲无码视频一区二区三区| 在线观看视频一区二区| 亚洲一级毛片免费看| 国产在线视频自拍| 全部免费特黄特色大片视频| 欧美综合区自拍亚洲综合绿色| 57pao国产成视频免费播放| 亚洲精品日产AⅤ| 国产精品视频观看裸模| 亚洲国产高清精品线久久| 精久久久久无码区中文字幕| 在线观看免费国产| 亚洲人成亚洲精品|