, , , ,
精準醫學研究從疾病預防、診斷、治療等方面改變傳統醫學的研究模式,基因組學、藥物組學、轉錄組、蛋白質組等各類數據也隨著各項精準醫學研究的開展和推進逐漸豐富。發現與匯聚精準醫學信息資源,探討適合的知識服務模式與結構,實現已有資源、成果的有效存儲、流通和再利用,滿足醫生、科研人員、產業發展等多方面的需求,是精準醫學研究的重要組成部分。
繼2015年美國提出精準醫學研究計劃和英國持續投入資金推動其“10萬人基因組計劃”后,我國于 2016年公布了“精準醫學”相關的重大科研計劃和政策舉措,并將其列為國家重點研發計劃之一。
本文圍繞國家科技創新和醫藥衛生事業發展的需求,借助數據倉儲、數據過濾與解析等異構資源整合技術,開展精準醫學相關資源的采集、存儲、加工、組織與分析。圍繞國際精準醫學計劃,發現精準醫學領域科學數據,整合其前沿資訊、研究進展、企業動態等,為醫藥衛生領域科研人員提供集成性、綜合性、有效性和多元化的[1]數據資源和科研支撐與知識服務,促進科技創新和健康產業發展。
本文重點對美國和英國的精準醫學項目產生的精準醫學科學數據進行掃描。
1.1.1 美國All of Us /Precision Medicine Initiative
2015年1月30日,美國政府宣布了其精準醫學計劃(Precision Medicine Initiative,PMI)[2],即通過分析100萬名志愿者的基因信息,更好地了解疾病形成機理,為開發相應藥物、實現“個性化醫療”“個性化用藥”奠定基礎。
2015年9月,美國國立衛生研究院(National Institutes of Health,NIH)組織專家成立了精準醫學專業咨詢委員會,并對精準醫學計劃的實施進行了詳細解讀[3]。
2016年,美國聯邦政府從財政預算中為精準醫學計劃劃撥2.15億美元經費。2017年2月,NIH將項目名稱改名為“All of Us”[4],同時撥出500萬美元用于社區和衛生保健部門招募志愿者,以準確、全面地繪制美國人群基因地圖。該項目的資源類型有公告/報告、新聞、會議、研究進展等,每日更新。
1.1.2 英國Precision Medicine Catapult
2012年末,英國啟動10萬人基因組計劃(The 100,000 Genomes Project)(https://www.genomicsengland.co.uk/the-100000-genomes-project/),計劃于2017年前對包含癌癥和罕見病在內的10萬人進行基因組測序,使英國的生命科學研究處于全球現代醫學的前沿。
2015年4月,由英國技術戰略委員會(Innovate UK)資助的Precision Medicine Catapult (PMC)項目啟動,該項目旨在連接政府、企業、研究機構以及領域學者,共同發展英國精準醫學研究,推動精準醫學相關產業的發展。該項目的資源類型有新聞、博客,每日更新。
精準醫學領域涉及的數據類型眾多,疾病、藥物、基因、通路等均屬于精準醫學領域范疇。為了更好地實現資源掃描和精準醫學異構數據整合,為精準醫學知識服務奠定基礎,本文調研了DrugBank、CTD、TTD等幾個有代表性的精準醫學數據庫。
1.2.1 DrugBank
DrugBank(https://www.DrugBank.ca/)是2006年加拿大衛生研究院(Canadian Institutes of Health Research)、阿爾伯塔省創新健康研究計劃(Alberta Innovates -Health Solutions)和代謝組學創新中心(The Metabolomics Innovation Centre,TMIC)共同資助創建的。數據庫整合了藥物的化學結構、藥理作用、作用蛋白靶點、作用的生理通路、藥物間相互作用等信息,包含了6 432類藥物、2 350類靶標物質及它們之間12 715條相互作用關系的信息。
1.2.2 CTD
CTD(Comparative Toxicogenomics Database,http://ctdbase.org/)是2002年由北卡州立大學(North Carolina State University,NCSU)開發的,主要描述化合物、基因、疾病及其相互關系,同時還包涵了基因本體(Gene Ontology,GO)、通路和暴露組等相關內容。
1.2.3 TTD
TTD(Therapeutic Target Database,http://bidd.nus.edu.sg/BIDD-Databases/TTD/TTD.asp)是2002年新加坡國立大學(National University of Singapore)生物信息學和藥物創新團隊(Bioinformatics and Drug Design Group)創建的,提供已知或正在探索的可用作治療的蛋白質靶點和核苷酸靶點的信息及其對應的靶疾病、靶通路和相應的藥物/配體信息,同時包括這些靶點在其他數據庫中的相關鏈接,如靶點的功能、序列、3D結構、配體結合性質、酶的命名以及相關文獻等信息的鏈接。
1.2.4 Pathway Commons
Pathway Commons(http://www.pathwaycommons.org)是由多倫多大學(University of Toronto)創建的,并與計算生物信息中心(cBio Center for Information Biology)、哈佛醫學院(Harvard Medical School)、俄勒岡健康與科學大學(Oregon Health & Science University)共同參與維護。該數據庫整合了來自22個數據資源的化學通路信息,包括生物體內一系列生物化學分子(如基因,基因產物以及化合物等)通過各種生化級聯反應來完成某一具體的生物學過程所涉及的蛋白質、DNA、RNA、生物小分子等多種物質。數據庫收錄了4.2萬條通路信息,135萬條相互作用關系[5]。
1.2.5 COSMIC
COSMIC(Catalogue of somatic mutations in cancer,COSMIC,http://cancer.sanger.ac.uk/cosmic)是創建于2004年的人類癌癥相關體細胞突變數據庫,是世界上最大的癌癥體細胞突變數據庫,由Wellcome Trust Sanger Institute開發和維護。該數據庫收錄專家審編數據和全基因組數據,截至2016年9月,數據庫收錄了123萬腫瘤樣本、2.8萬全基因組數據、400萬突變數據等[6]。
精準醫學知識服務是在資源掃描的基礎上,完成資源的采集、分析和重組,幫助用戶獲取多來源的領域知識,更有效地支持相關工作人員的知識應用和知識創新。為了實現不同系統間的信息資源共享,需要整合各種分布雜亂的資源。實現信息資源整合的關鍵在于遵循標準化的規范體系[7]。根據上文對精準醫學資訊和科學數據的掃描,我們構建了統一的元數據標準,將多來源的異構數據存儲到本地,并以知識服務的形式提供資源的共享和再利用。精準醫學異構資源發現與整合的方案見圖1。
對美國All of Us計劃和英國Precision Medicine Catapult進行精準醫學資源掃描,發現了精準醫學領域的研究進展、項目動態、會議報道、人員招募等資訊類數據。這兩個項目資源類型及分布見表1。同時整合了國際先進的精準醫學科學數據集,數據內容涵蓋藥物、疾病、基因、通路等多種類型,為用戶提供精準醫學科學數據服務。數據采集情況見表2。
針對資訊類和科學數據兩類資源的特性,分別設計了通用的資源元數據標準(表3、表4),為實現異構精準醫學資源的整合奠定基礎。為了優化用戶對資源的檢索,系統利用MeSH醫學主題詞表對所有資源進行了知識標注,支持用戶根據自己的需要選擇搜索路徑,同時為實現資源間的語義關聯做好鋪墊。

表1 美英兩國精準醫學資源類型及采集數量

表2 精準醫學科學數據采集

表3 資訊類數據的元數據標準

表4 科學數據的元數據標準
常見的異構資源整合方式包括模式集成和數據復制。模式集成是指在數字資源整合過程中將來源于不同數據庫的數據視圖集成為全局模式,以幫助用戶無限制地訪問各數據庫的數字資源[8];數據復制則是通過對各數據庫的異構數據進行數字資源的整合,為用戶提供一站式服務,滿足用戶的信息需求,提升用戶瀏覽和獲取信息資源的體驗[9],其代表技術是數據倉庫技術(Extract-Transform-Load,ETL)。比較以上兩種模式的特點,數據復制能夠將異構數據本地化,為用戶提供集成化的數據服務,用戶只需要進行一次身份驗證便可以無障礙地檢索和獲取眾多數據庫中的資源[9],可大大提升訪問效率和用戶體驗。
在資源分類和對應元數據標準的基礎上,本文采用了數據復制的異構資源整合方式,以滿足用戶對數據集成服務的需求。對于資訊類數據,通過網絡爬蟲工具對資源相關內容的文章列表頁面進行爬取、解析,獲得文章內容頁面的URL列表;然后對文章內容頁面進行爬取,通過正則表達式工具解析頁面內容,根據設計的元數據標準獲取相應字段項的內容,存儲到本地數據庫中;最終獲取項目的實施方案、最新動態、研究進展及報告等類型資源。對于資源本身帶有的附件如PDF等,我們將其下載到本地,通過唯一ID關聯到資源本身,再呈現在知識服務系統中。對于可開放獲取的精準醫學科學數據,根據藥物、基因、疾病等類型分別下載,然后依據科學數據元數據標準解析出相關數據項和對數據集的MeSH主題歸類進行標注。
在此基礎上,繼續開展數據過濾、解析及整合工作。采用數據倉庫技術(Extract-Transform-Load,ETL),完成對精準醫學異構數據的提取、數據類型與正規性檢查、數據的清洗、數據的解析和準備[10]等工作。根據兩類資源元數據標準,規范數據格式,實現異構數據之間的轉換,最終加載到精準醫學數據倉庫中。借助數據整合系統的反饋層,完成對數據整合流程的反饋控制、資源調度和系統優化,不斷增強數據整合層的運行效率。同時設計基礎管理模塊,對用戶日志、數據訪問以及系統使用過程中的緩存和異常等問題進行管理。
隨著互聯網、云計算等信息技術的快速發展,醫學知識服務已從傳統的文獻檢索向圍繞數據資源、科學數據等展開的新型知識服務模式轉變。在知識服務模式轉變的初期,產生并積累了大量的醫學數據資源,形成了諸如DrugBank、OMIM、Disease Ontology等一系列的醫學數據庫。這些資源的結構、存儲方式、組織方式、管理方式等各不相同,并且處于分散和無序的狀態,利用效率不高[11]。通過信息整合,將原本分散、異構和分布的資源組織成一個整體,才能支撐知識服務的開展。由此可見,資源的匯聚與整合在知識服務中起著極為重要的作用。
為了促進知識共享,國內外醫學情報機構積極探索醫學領域集成化的知識服務。高東平等構建的重大疾病臨床樣本生命組學數據庫,集成不同來源、不同尺度、不同維度、不同粒度、不同質量的臨床數據和組學數據,實現了臨床樣本生命組學大數據共享與利用服務[12];林煒煒等在采集醫院阿爾茲海默癥病理基本信息、臨床信息、影像信息等的基礎上,連接生物標本組學(基因組學、代謝組學、表觀遺傳組學等)數據庫,構建了醫療數據及生物樣本數據平臺、隨訪數據平臺及健康數據平臺[13];Linda Huang等人設計并構建了癌癥基因組學的Precision Medicine Knowledge Base(PMKB),對COSMIC數據庫中的癌癥相關基因變異和注釋信息進行結構化整合,并允許用戶對知識庫的條目進行編輯[14]。綜上所述,目前國內外對醫學領域的數據共享和知識服務還僅限于科學數據的集成服務,圍繞科學數據并繼續整合相應領域的前沿資訊、最新研究進展、科學文獻等的服務還相對較少。
本文在設計完成精準醫學資訊和科學數據元數據標準的基礎上,圍繞領域熱點構建了精準醫學專題知識服務。通過對美英等國精準醫學資源的掃描,獲取國外精準醫學領域的前沿資訊、研究報告、最新研究進展,實現信息匯聚;基于DrugBank、CTD、TTD等發布的數據資源,實現對疾病、藥物、基因等知識的提取,完成數據資源的采集、整合、存儲、加工,并對外提供科學數據的公開瀏覽和下載;匯集華大基因、諾禾致源等國內精準醫學相關的企業動態,實現全面的精準醫學知識服務。
該項知識服務已經在中國工程科技知識中心醫藥衛生專業知識服務系統中上線并投入使用。通過對平臺訪問日志進行后分析發現,自精準醫學專題知識服務模塊上線以后,有20%的用戶關注并瀏覽過該模塊相關內容。用戶較為關注(訪問次數較多)的內容包括前沿資訊中關于政府推動精準醫學研究的相關舉措、精準醫學研究重點研發計劃的實施和推動過程,科學數據中DrugBank、CTD相應的數據集,下載量約為3人次/天。此外,有8%的用戶在訪問并下載了科學數據之后,繼續在最新研究進展中查詢利用科學數據開展的相關精準醫學科學研究。精準醫學專題知識服務面向精準醫學領域科技人員,提供多維度的科研支撐服務,為領域決策者制定精準醫學研究的宏觀策略提供全面、開放、智能的知識資源和戰略決策服務。該服務匯聚、整合精準醫學領域的前沿資訊、研究進展、科學數據、企業動態等資源,提供精準醫學資源的集成化服務,不但可以滿足用戶對精準醫學相關資訊獲取、信息查詢和數據下載的一站式集成式服務需求,還能提高用戶工作效率。
本文掃描與匯聚精準醫學領域數據資源,借助數據倉儲、數據過濾與解析等技術,設計了異構資源發現與整合框架,可實現不同來源、不同類型數據之間的整合與共享,構建不同類型科學數據的知識服務,為精準醫學領域相關人員提供最新資訊、研究報告、會議動態、科學數據等數據資源和多維度的科研支撐服務。
為了進一步達到輔助知識創新的目的,下一步我們將圍繞精準醫學的資源主題開展關聯數據、語義技術等技術的應用與深入探索,從語義層面上實現信息資源的組織和聚合[15],構建一個資源組織和深度聚合的整體框架體系,實現真正意義上的從資源發現到知識發現[16]。具體工作包括開展精準醫學科學數據與科技文獻及中國工程科技知識中心醫藥衛生知識服務系統中其他領域各類異構資源的深度關聯,構建領域知識圖譜,開展對已有資源和數據的深度標注,提升資源的揭示粒度,為平臺的知識發現關聯提供技術支持。