,
精準醫學是生物技術、信息技術和多種前沿技術在醫學臨床實踐的交匯融合應用,是醫學科技發展的前沿方向,實施精準醫學已經成為推動全民健康的國家發展戰略。2011年美國國家研究理事會提出“精準醫學”概念,隨著相關技術發展以及對該理念的重視,2015年美國將“精準醫學計劃”提升為國家戰略之一。精準醫學的有效實施不僅可以提高國民健康和醫療水平,也可以更好地優化國家醫療資源分配,同時推動相關學科和技術的快速發展及相關產業的發展,進而產生巨大市場空間。因此,精準醫學研究已經成為各國的科技戰略制高點。2015年,我國科技部召開了“國家精準醫療戰略專家會議”,成立了中國精準醫療戰略專家組,計劃將在2030年前投入600億元,用于我國精準醫學研究。2016年3月,科技部官網公布了《科技部關于發布國家重點研發計劃精準醫學研究等重點專項2016年度項目申報指南的通知》。至此,精準醫療在中國已經上升為“國家戰略”。復旦大學有幸成為精準醫學重點專項中的首席單位。
精準醫學研究集合現代醫學和生物學科技發展的知識與技術,代表現代醫學的發展趨勢以及臨床實踐發展方向。精準醫學的核心思想是通過對大樣本、海量數據進行整合分析,構建能夠揭示個體疾病分子機制的知識網絡,由此針對病人的基因組和其他個體特點進行預防和治療。隨著生物醫學領域研究的飛速發展,生物醫學數據呈指數級增長,導致科研人員和醫生難以從海量生物醫學數據中發現高質量、可用性的知識。
自從人類基因組計劃以來,測序技術和質譜技術等各類組學技術的飛速發展,推動了基因組、轉錄組、表觀遺傳組、蛋白質組和代謝組等海量生命科學組學數據的指數級增長[1-2]。一方面,機器學習和人工智能技術的發展大幅提升了醫學信息學和生物信息學的發展,因此生物醫學數據的應用方式也發生了改變。高通量實驗技術的突破,直接把生物醫學數據從PB(PetaByte)時代推升到多維度數據融合的EB(ExaByte)時代。另一方面,人群隊列研究、分子流行病學研究產生了大量的數據,從分子、細胞、組織、器官、個體等多層面描述的多維度數據,匯總海量真實世界數據(Real World Data)[3-4],這些廣泛的數據構成了復雜的高維度生物醫學大數據。
目前生物醫學數據具有數量巨大、增長迅速、質量控制困難、來源廣泛繁雜、內涵豐富、非標準化、非結構化和數據相對分散等特點,從而導致難以挖掘生物醫學大數據的潛在高價值。面對海量的生物醫學數據,亟需構建精準醫學知識庫,全面獲取各類生物醫學文本信息和組學數據,在標準、統一的語義網絡下,通過挖掘、關聯等技術,從海量信息中高效準確地發現知識,為研究和臨床決策提供充分可靠的依據,最終實現精準預防、精準診斷和精準治療的目標。
因此,構建能夠對海量數據進行分析并提供可靠知識的精準醫學知識庫,成為精準醫學研究和臨床應用發展的關鍵環節。
隨著精準醫學的發展,生物醫學知識庫成為生物醫學領域研究的熱點。美國國立生物醫學中心開發了基于位點變異-基因-疾病的知識庫ClinVar(https://www.ncbi.nlm.nih.gov/clinvar/)[5],歐洲生物信息研究所先后開發了蛋白質相互作用數據庫IntAct(https://www.ebi.ac.uk/intact/)[6]、生物學通路知識庫Reactome (https://reactome.org/)[7]、生物相關的化學實體數據庫ChEBI(https://www.ebi.ac.uk/inc/tool/chebi.html)、生化反應的數學模型數據庫BioModels(http://www.ebi.ac.uk/biomodels-main/)和基因本體數據庫Gene Ontology (http://www.geneontology.org/) 等,西班牙國家生物技術中心開發了以基因為中心、基于PubMed 文獻摘要的在線文本知識挖掘服務平臺 Information Hyperlinked over Proteins(iHOP),并將其用于提供基因間關聯挖掘和分析。與此同時,一些公司也開展了生物醫學知識庫的開發,代表性平臺有GeneGo(https://portal.genego.com/)、IPA(http://www.ipa-world.org/)和Pathway Studio(http://www.pathwaystudio.com/)。它們通過自然語言處理技術從文本中提取信息和知識,同時聘請專業人士進行判讀,保證知識的可靠性。IBM和微軟等公司依托其在人工智能及信息處理技術等方面的強大優勢,研發了醫學知識智能檢索、查詢和相關分析工具,代表性產品有Watson腫瘤治療和臨床應用系統、微軟Microsoft Health系統[8]。 IBM Watson是一種數據分析軟件,可以自動化分析、預測分析和可視化分析,但是需要數據預處理、統計概念理解和領域專業知識[8]。
以上產品或平臺為生物醫學研究和藥物開發提供了高效廣泛的解決方案,覆蓋了從藥物發現到新藥申請,再到臨床試驗和臨床輔助診斷等生物醫學各個方面??偟膩碚f,以基因為中心,描述基因-基因、基因-疾病、基因-位點關聯的知識庫越來越多,其對精準醫學的巨大價值也得到了廣泛的認同。
我國生物醫學知識庫建設也已經起步,主要是基于單一信息來源的醫學知識庫建設。以文獻知識庫為代表的醫學知識庫廣泛服務于臨床研究機構和臨床醫生,如以文獻知識庫為代表的中國生物醫學知識庫 (中國醫學科學院醫學信息研究所)、中國疾病知識總庫CDD(軍事科學院圖書館 )、中國醫院知識總庫CHKD(中國知網)以及臨床診療知識庫(萬方醫學網)[9]?!爸袊t院知識總庫”和“中國疾病知識總庫”是擁有多檢索入口、分組和排序、庫間引文鏈接、知識網絡等功能的全文知識庫[10]?!爸袊膊≈R總庫”,不僅面向臨床醫藥學專業人員,而且兼顧普通大眾;萬方醫學網是完善的臨床診斷的知識庫,提供以疾病、癥狀、檢查、藥品、指南和病例報告為基礎整合的知識點,方便醫生查找相關知識及病例,輔助醫生臨床診斷[10]。以上醫學知識庫為臨床診療和研究提供的知識服務源于可直接利用的知識,但是沒有進行知識識別和知識推理。近年來隨著知識庫構建和知識圖譜技術的發展,各種基于臨床病歷和??茖2≈委煹膶n}知識庫的完善,以及專業醫學知識庫對臨床輔助診斷應用的重要性凸顯,具備知識推理和發現的醫學知識庫成為了研究熱點。
此外,還有一些自主構建的知識庫,如復旦大學和上海生物信息技術研究中心完成的“面向基層醫療基于循證醫學的知識庫系統”、中國人民解放軍軍事醫學研究院構建的肝癌知識庫、浙江大學開發的個性化合理用藥系統和智能診療協議推薦系統等。但是這些知識庫還需要在數據完備、標準共享等方面進行完善,從而與國際接軌。值得注意的是,目前尚無針對中國人群的生物醫學知識庫,也沒有與GeneGo、IPA等比肩的應用平臺,掣肘我國精準醫學發展。為了打破國外生物醫學知識庫的壟斷,更好地為中國精準醫學提供支撐,以復旦大學為首的團隊擬在國家重點研發項目中利用標準的語義網絡,獲取完整全面的精準醫學信息,并運用先進的知識發現技術,構建統一的、開放共享的、高效準確的精準醫學知識庫,從而服務于中國精準醫學。
復旦大學承擔的隸屬于國家重點研發項目的精準醫學項目“疾病研究精準醫學知識庫構建”主要針對精準醫學知識數據量龐大、數據類型復雜、資源分布不均衡、利用程度低下等問題,立足我國多層次的精準醫學知識庫體系和安全穩定可操作的生物醫學大數據共享平臺的建設需求。其主要目標是面向惡性腫瘤、心腦血管疾病等全疾病譜,整合生物醫學本體和多類型醫學文本資源,融合多層次生物信息數據,加工和分析海量異構異源生物醫學本體和生物信息資源,分析生物通路和網絡特征,構建規范化、結構化、自動更新和多維自動化與人工審編的精準醫學知識庫體系,形成對精準醫學研究和臨床應用的關鍵支撐。開發的精準醫學知識庫體系填補了國內空白,打破了國際壟斷,將為針對健康和疾病人群的精準醫學研究和臨床應用提供多層次支撐。
集成深度索引、相關性挖掘、重要性標注、新穎度分析等挖掘工具,集大規模文獻整合分析與知識發現于一體,實現精準醫學知識的抽提、注釋、聚類、關聯及分析,開展基于數據關聯和可視化的精準醫學知識利用技術研究,實現基于生物醫學語義和本體的全文檢索、文本識別、關鍵詞分析等功能。從海量的組學數據和臨床數據出發,對生物醫學知識進行跨庫融合,并通過大數據網絡特征分析技術、模型特征提取技術等生物信息學手段與工具的開發,利用知識圖譜構建與擴展技術的應用,構建“基因-通路-疾病-癥狀-診療-藥物”的精準醫學知識圖譜,形成面向精準醫學的疾病相關生命組學知識庫體系。進一步開發知識網絡和知識圖譜的多維自動注釋流程,建立協同審編平臺,形成精準醫學知識庫。最后,開發可交互、定制、擴展、自動更新的工作流技術體系,在“精準醫學大數據平臺”上實現精準醫學知識庫的檢索、展示、管理與共享,以及面向科研與臨床不同需求的知識庫應用。匯集大規模文本挖掘、疾病相關生命組學、第三方知識庫等證據源形成的知識,構建精準醫學知識整合模型,實現精準醫學知識的自動化注釋,并研究開放式的精準醫學知識人工審編技術,建成多證據源整合的疾病相關精準醫學知識庫體系,開發檢索與展示功能,搭建精準醫學知識庫管理與共享平臺。
構建精準醫學本體和語義網絡,建立精準醫學文本知識網絡。 通過跨庫融合、大數據網絡特征分析、模型特征抽取等手段,整合多種生物信息數據,構建和擴展精準醫學知識圖譜。整合精準醫學知識網絡和知識圖譜,建立面向文本和組學數據自動注釋與融合的流程,基于多維度的證據進行人工審編,形成精準醫學知識庫;對接“精準醫學大數據平臺”,實現個性化檢索、展示和自動更新,支撐面向精準醫學的知識服務。具體研究內容分為以下5部分。
3.3.1 精準醫學本體和語義網絡構建
借鑒 ICD-10、MeSH、UMLS 等生物醫學本體,建成涵蓋組學、疾病、癥狀、藥物等科技詞表和本體的規范精準醫學語義關系,形成標準化、結構化的精準醫學知識模型。設計并建立精準醫學知識組織框架,集多來源醫學知識組織系統為一體的建設方案和技術路線,開展精準醫學領域術語采集,實施精準醫學領域術語遴選與清洗,對遴選的精準醫學領域術語進行評價并進行結構轉化。
開發精準醫學本體協同加工系統,實現多來源的異構異型詞表導入與關聯、詞表和本體的可視化與交互式編輯,研發復雜本體的概念歸并、同義關系相似度計算、不同概念間語義相關度計算和語義推理工具,為構建并維護疾病相關組學本體和語義網絡提供有效工具。開發精準醫學本體和語義網絡共享服務接口,形成標準化、結構化的精準醫學本體元數據集,為知識庫建設提供靈活調用和模塊式集成方式。
3.3.2 精準醫學文本挖掘與知識網絡構建
開展國際公開文獻、專利、臨床試驗、藥品監管等海量多源異構文本資源的采集、加工和規范化研究,建立精準醫學文本資源數據庫,實現全文檢索、關鍵詞分析和自動更新。根據系統構建的精準醫學本體元數據集,定義醫學文本的實體識別與關聯抽取標注規范,開展工具標注與人工修正研究,構建更大規模、更高質量的精準醫學文本訓練語料庫。基于融合詞性信息、生物實體識別文本表示,利用海量的未標注生物醫學文本訓練詞向量,自動學習更抽象更有效的特征,構建高性能的實體識別模型。
利用深度學習的方法和已建成的精準醫學實體關聯語料庫,采取卷積神經網絡進行實體語義關聯抽取。利用相關性挖掘、高維聚類分析和關聯網絡構建技術,實現面向精準醫學的大規模文獻整合分析與知識發現,并應用于惡性腫瘤、心腦血管疾病等全疾病譜。
3.3.3 精準醫學知識圖譜的構建
通過收集、組織、整理與疾病發生、發展、治療和預后相關的基因組學、轉錄組學、表觀遺傳組學、蛋白質組學和代謝組學等多組學數據的國際生物醫學數據庫和來源于大型臨床機構的臨床數據,利用跨庫知識融合技術,初步構建涵蓋“基因-通路-疾病-癥狀-診療-藥物”關聯關系的精準醫學知識圖譜。開展基于知識圖譜的自動化補全技術,填補知識關聯缺失值,完成精準醫學知識圖譜的第一層擴展。針對生物醫學大數據形成的網絡或模型,開發生物信息學算法,利用網絡特征分析、模型特征提取,預測生物醫學大數據的關聯性,完成精準醫學知識圖譜的第二層擴展。開展數億級別的海量知識圖譜查詢和檢索技術研究,構建基于生物信息學的精準醫學知識圖譜,發展生物信息學通路和注釋知識體系,對接搭建的大型開源生物通路數據庫和系統生物學數據分析挖掘平臺。
3.3.4 精準醫學知識自動化注釋與人工審編
開發面向精準醫學知識庫構建的基礎數據接口與ETL 工具集,整合大規模文本挖掘、疾病相關生命組學、第三方知識庫等來源的精準醫學知識,研究基因、蛋白、遺傳變異、疾病、表型、藥物等維度的實體異構知識的數據整合模型,研究不同證據源的精準醫學知識熱度和質量評價算法。開發精準醫學知識自動化注釋軟件,選擇代表性的疾病組織專家進行知識的人工審編,構建小規模、高質量的精準醫學知識庫。
開發開放式的精準醫學社區平臺,構建面向知識發現的全疾病譜精準醫學知識庫,建立多證據源融合的精準醫學知識數據索引,提供基因、蛋白、遺傳變異、疾病、表型和藥物等不同維度的高效檢索和篩選服務,為用戶提供直觀友好和易懂可讀的知識展示。研發基于同質和異質的知識網絡的知識發現方法,支持文本挖掘、生命組學和第三方知識的開放式注釋等證據源的回溯。
3.3.5 精準醫學知識庫管理與共享平臺研發
對接“精準醫學大數據平臺”,研發知識庫信息資源管理系統,實現精準醫學知識庫信息資源的管理和分類展示,為各種知識庫應用提供訪問入口。開發可交互、定制、擴展、更新的工作流技術服務體系,整合項目產出的知識庫工具,實現科研數據的處理、分析以及對接知識庫服務。以基因、蛋白質為核心,研發基于精準醫學知識庫的通路和網絡的結果展示、重要成份標注、功能注釋和精細化作圖等技術。面向醫學基礎研究和臨床實踐需求,開發個性化的知識推送系統和開放性的知識庫應用接口(API)服務,覆蓋典型的精準醫學知識查詢。研究精準醫學知識臨床轉化關鍵技術,在臨床機構建立典型應用示范。
3.4.1 構建復雜生物醫學本體集成與標準化的精準醫學知識模型
利用Protégé 等本體構建工具框架和本體映射技術,集成復雜生物醫學本體對現有的生物醫學領域本體進行規范化,實現多來源詞表的統一存儲與關聯。面向本體中多類概念以及復雜語義關系,采用詞匯級、短語級精準醫學詞匯的映射算法,實現疾病、基因、蛋白質、藥物、環境、通路等術語的概念歸并。
標準化的精準醫學知識模型構建則是通過開發精準醫學概念、屬性、語義關系和唯一標識符控制工具,系統構建并維護疾病相關組學本體和語義網絡。借鑒數據交換、知識表示存儲的國內外行業標準,形成標準化、結構化的精準醫學本體元數據集,實現精準醫學本體和語義網絡共享和接口調用。
3.4.2 構建精準醫學文本實體識別和語義關聯抽取模型
構建生物醫學文本實體識別模型。針對傳統詞袋模型存在的維度高、數據稀疏、忽略詞序信息等問題,提出基于融合詞性信息、生物實體識別文本表示,利用海量的未標注生物醫學文本訓練詞向量,學習詞語間豐富的內部關聯;利用結合狀態轉移概率的雙向長短期記憶LSTM 神經網絡,自動學習更抽象更有效的特征,構建高性能的生物醫學文本實體識別模型。
構建生物醫學文本語義關聯抽取模型。針對現有詞向量大都基于線性詞序的上下文關系,忽略實體關系抽取中重要的句法信息的問題,提出基于句法詞向量的文本表示方法,將其輸入到卷積神經網絡中,通過深度學習模型學習有效的特征,提升實體關系抽取的性能。
3.4.3 構建基于生物信息學的精準醫學知識圖譜
精準醫學知識圖譜的自動化補全研究。依據精準醫學知識圖譜的子結構特征與相關生物醫學資料的關系,利用人工和機器學習兩種方法,基于對應模板提取相應知識點,自動填補知識關聯缺失值,彌補人工構建知識圖譜的局限性。
基于生物信息學的生物數據關聯挖掘研究?;诜诸?、回歸分析、時間序列分析、聚類、關聯分析和序列分析等生物數據挖掘方法,尋找生物組學數據與臨床診斷、疾病分型、預后分析、藥物開發等醫學研究與實踐的關聯關系,并將以上關系以特殊標記屬性值的形式補充在精準醫學知識圖譜中。
構建基于生物信息學的精準醫學知識圖譜。針對生物醫學概念識別的異構特征,如類別相似度、語義相似度和圖結構相似度,歸并分散的知識,增強對生物醫學概念的多層面理解。通過知識的跨庫融合實現從單純的知識庫整合到知識圖譜網絡構建的跳躍。
3.4.4 構建精準醫學知識自動化注釋與人工審編
多證據源的知識整合技術。精準醫學知識來源多樣,既有來自采用大規模自動挖掘得到的基于文本的知識和基于疾病相關生命組學數據挖掘得到的知識,也有來自第三方的經過審編的知識。不同來源的知識可能存在沖突,需要對證據源進行有效的整合。
建立開放式的精準醫學知識審編社區。精準醫學知識可以按照基因、蛋白、疾病等實體來組織,也可以按照文本資源來組織。2個角度的組織方式都支持對知識的評價和糾錯機制,引導外部志愿者改進知識質量。
精準醫學知識庫檢索與展示技術。采用MongoDB 的NoSQL 技術,將不同證據源的知識模型優化為簡單的以鍵值對為核心的分布式結構,并引入高效的非結構化文本資源的搜索引擎Solr,提高數據檢索性能和擴充性能,滿足知識庫檢索和展示的需求。
3.4.5 構建精準醫學知識庫的管理與共享系統
精準醫學知識庫管理共享平臺基礎架構?;陂_源Galaxy 框架進行二次開發構建工作流體系,通過自動化數據處理和人機交互數據處理方式實現數據庫更新。
精準醫學知識分析和精細作圖體系構建。借鑒Reactome 等在知識分析和精細作圖體系方面的優勢,對標GeneGo/IPA,搭建對通路信息進行分析和可視化的工作平臺。
精準醫學知識庫推送和應用接口(API)的開發和應用示范。針對典型精準醫學知識需求,利用WebService 開發以JSON/XML 等標準發布數據的應用接口(API),并基于此建立個性化、智能化的知識訂閱和自動推送機制,支撐精準醫學臨床決策支持并開展精準醫學知識庫臨床評測。
本項目預期建成面向疾病研究的精準醫學知識庫體系。該體系具有標準規范、開放共享、用戶友好、動態更新等特點,并可作為國家標準來促進疾病精準醫學研究成果的知識管理。在此過程中,將取得 “一個標準”“一個庫”“一個平臺”3大成果。
3.5.1 精準醫學本體和語義表示標準
參照國際上通用的ICD-10 分類法及UMLS、MeSH 等生物醫學主題詞表和本體,建成涵蓋組學、疾病、癥狀、藥物等的科技詞表和本體,構建精準醫學語義網絡和知識模型,形成標準規范、系統全面的精準醫學本體和語義網絡標準。
3.5.2 精準醫學知識庫
根據系統構建的本體和語義網絡,針對海量的多源異構文本和生物信息數據,利用自然語言處理、深層索引、相關性挖掘等技術進行數據整合、關聯抽取,形成“精準醫學文本知識網絡”和“基于生物信息學的精準醫學知識圖譜”。通過自動注釋和審編,并結合重要性標注和新穎性分析,實現文本與組學數據的融合和知識發現,最終形成涵蓋多證據源的,面向惡性腫瘤、代謝系統疾病、呼吸系統疾病、心腦血管疾病、免疫性疾病、神經精神類疾病等疾病的,覆蓋科學研究和臨床應用等需求的,可實現證據分級與回溯功能的精準醫學知識庫。
3.5.3 精準醫學知識庫管理與共享平臺
該平臺將以網站的形式呈現,支持面向精準醫學知識發現的檢索、展示和分析功能(對標GeneGO 和IPA),提供不少于20個用于知識抽提、文本挖掘、信息展示和精細作圖等的軟件工作流技術服務體系,支持面向用戶定制的知識推送,提供面向科研和臨床等多種場景的應用接口。本平臺將部署在“精準醫學大數據平臺”的服務器和云端,穩定支持1000人以上并發使用,且具有自動更新功能。本平臺將通過“精準醫學大數據平臺”向本專項所有項目推廣、開放、共享。
精準醫學知識庫(Precision Medicine knowledgebase application,PMapp)以知識地圖的形式全面整合了45個數據庫(圖1),其主要框架包括基因及其產物、生物信號通路和分子網絡、致病變異以及藥物4個部分(圖2)。
在第一部分中,PMapp收存了20 656個編碼人類基因和38 943個非編碼人類基因,178 562個RNA以及111 716個蛋白質。這些基因及其代謝產物構成了PMapp實體存儲庫的主要部分。至2017年底,第二部分已經集成21個信號通路/網絡數據庫,其中包含13個主要相互作用類別、22種生物效應、28種修飾和1個實驗注釋。
整個常規通路和網絡總共涵蓋31 264個生物實體(節點)和1 804 000個相機作用(邊),包含13種不同的作用關系(表1)。致病變異方面,PMapp收集了5 738 719種致病變異,源自18 022個基因,對應10 725種疾病。
除此之外,9 746種藥物和其對應的78 664個靶標的信息也被收錄在PMapp中,包含561 180個藥物-藥物,1 191個藥物-食物,5 118個藥物-酶,以及1 839種藥物-轉運體等相互作用。PMapp在本體方面實施面向精準醫學的重大疾病本體體系結構、知識表示模型和精準醫學術語庫的構建。精準醫學詞匯規模達到300萬,整合了57部生物醫學領域詞表、術語3 879 621個、概念1 052 512個。完成精準醫學本體的語義概念映射,精準醫學本體覆蓋2個重大疾病領域,本體之間的語義關系包含疾病-基因-藥物。完成精準醫學本體構建,精準醫學本體包括類57 746個、語義關系92 個,涵蓋人類表型、疾病、化學物質與藥物、細胞機制、分子機制、遺傳機制6大醫學領域,完成2~3個重大疾病精準醫學本體建設。

圖1 PMapp完成54個不同領域的數據庫數據收集和整理

圖2 精準醫學知識庫的主要框架

Pathway TypeEdge TypeDirectionalityEdge No.Signaling PathwaySR: Signaling RegulationDirected172 765ER: Expression RegulationDirected122 786CAI: Complex Assembly InteractionUndirected177 227TR: Transport RegulationDirected7 296TRc: Transport Regulation chemicalDirected3 285ca: x chemical affects PDirected469 519RNAi: RNA interferenceDirected317 556TechPPITechPPI: Technical Protein-Protein InteractionUndirected316 437Metabolic Pathwaysp: metabolic reaction sE→pF→Directed14 428sE: metabolic reaction sE→pF→Directed22 480Ep: metabolic reaction sE→pF→Directed21 334EE: metabolic reaction sE→pF→Directed154 975rw: x reacts with yUndirected3 912
目前PMapp網站集成了項目產出的本體和術語資源以及數據庫資源,搭建了精準醫學知識庫檢索網站,可以檢索基因、藥物等主要精準醫學概念。在基因展示頁面中,對基因基本信息、GO 注釋信息、蛋白質結構、蛋白質相互作用、關聯藥物、關聯疾病等分別做了顯示。因此, PMapp是面向科學研究的,可以進行通路/網絡精細做圖、通路分析和智能檢索的系統。
此外,PMapp將無縫銜接本體富集分析等已有的分析工具,對標IPA基本的工作流分析體系,可以實現對組學數據的差異基因分析,并給出火山圖等圖表;也會在系統中整合基因本體、通路本體、疾病本體、Mesh 本體 以及本項目產出的綜合本體等資源數據,對數據進行本體注釋及富集分析,并提供可呈現上下層級關系的本體樹圖形及表格多樣化的結果展示。
針對用戶關注或感興趣的組學數據或基因列表,本系統可為用戶提供一系列的注釋信息,比如本體、分子網絡等。將要實現的本體表格和DAG樹狀結構的展示以及分析功能,對標IPA/GeneGO 的精準醫學知識庫通路分析展示系統的通路展示和分析。通過搜索頁面找到需要的通路,然后通過網絡展示頁面顯示通路分子成份之間的關系,也可以對網絡進行編輯和聚類分析等。
在這個過程中,項目團隊首先針對精準醫學知識庫如PharmGKB 提供了一種新的知識查詢服務。目前最大的問題是現有的標準化知識訪問協議通常都是基于標準術語系統和編碼來檢索的,而目前臨床數據通常不太具備這樣的數據質量。后續需要改進中文術語的標準化編碼查詢服務,以滿足知識精準查詢的需求,實現PMapp雙重角色,即為針對健康和疾病人群的精準醫學研究和臨床應用提供多層次支撐。
實現精準醫學的核心,是結合多維度的臨床、影像和多組學數據,利用深度學習、自然語言處理、多組學整合分析等方法,研發面向疾病風險預測、早期診斷、精準治療、療效評估和預后監控的精準醫療臨床決策支持系統,為精準醫學臨床應用轉化提供有效途徑,從而實現疾病精準預防、精準檢測和精準診療的目標。
通過知識庫的構建和完善,完成多學科協作、貫通診療全過程的精準醫療臨床決策支持系統。該系統具備多模態信息融合、影像組學聯合分析、深度學習決策模型集成、多尺度決策硬件加速和多環節全景式分析等能力,可實現覆蓋多學科及完整就醫閉環流程的精準醫療輔助決策,依托大型綜合性醫院驗證推廣,將明顯提高惡性腫瘤、代謝系統疾病、呼吸系統疾病、心腦血管疾病、免疫性疾病、神經精神類疾病和罕見疾病等重大疾病的醫療水平和防治效益。