999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

癌癥標(biāo)志本體構(gòu)建與應(yīng)用

2023-09-30 11:17:38吳萌康宏宇徐曉巍侯麗李姣

吳萌 康宏宇 徐曉巍 侯麗 李姣

摘要:目的 構(gòu)建一種可溯源的癌癥標(biāo)志知識(shí)本體,支持基因突變、癌癥標(biāo)志和細(xì)胞系等相關(guān)數(shù)據(jù)整合、標(biāo)準(zhǔn)化和關(guān)聯(lián),并基于該本體實(shí)現(xiàn)新知識(shí)發(fā)現(xiàn)。方法 基于“七步法”和現(xiàn)階段本體的構(gòu)建方法,明確癌癥標(biāo)志本體覆蓋范圍、框架結(jié)構(gòu)、可復(fù)用的術(shù)語和新增術(shù)語;以結(jié)直腸癌為例,利用文本挖掘和文本分類技術(shù)對(duì)PubMed文獻(xiàn)中結(jié)直腸癌標(biāo)志相關(guān)知識(shí)進(jìn)行提取,利用癌癥標(biāo)志本體對(duì)提取的知識(shí)進(jìn)行規(guī)范化表達(dá)。結(jié)合癌癥體細(xì)胞突變目錄中已有的癌癥標(biāo)志證據(jù)和進(jìn)一步語義檢索,實(shí)現(xiàn)新知識(shí)的發(fā)現(xiàn)。結(jié)果 最終構(gòu)建癌癥標(biāo)志本體包含類9910個(gè),實(shí)例6138個(gè),實(shí)現(xiàn)2310篇涉及結(jié)直腸癌標(biāo)志文獻(xiàn)摘要和26個(gè)結(jié)直腸癌標(biāo)志相關(guān)證據(jù)的語義表示。與癌癥體細(xì)胞突變目錄數(shù)據(jù)集相比,本研究發(fā)現(xiàn)與結(jié)直腸癌相關(guān)的多個(gè)基因的癌癥標(biāo)志的新證據(jù)。結(jié)論 本研究有助于整合癌癥分子層面的致病機(jī)制,了解基因突變在癌癥發(fā)生過程中的具體作用,實(shí)現(xiàn)癌癥標(biāo)志知識(shí)的快速發(fā)現(xiàn)。

關(guān)鍵詞:結(jié)直腸癌;本體;癌癥標(biāo)志

中圖分類號(hào): R735.3;Q756文獻(xiàn)標(biāo)志碼: A文章編號(hào):1000-503X(2023)04-0618-09

DOI:10.3881/j.issn.1000-503X.15386

Development and Application of Ontology of Cancer Hallmarks

WU Meng,KANG Hongyu,XU Xiaowei,HOU Li,LI Jiao

Center of Medical Information Innovation Research,Institute of Medical Information/Library,

CAMS and PUMC,Beijing 100020,China

Corresponding author:HOU Li Tel:010-52328750,E-mail:hou.li@imicams.ac.cn

ABSTRACT:Objective To develop a traceable cancer hallmark ontology with terminology including gene mutation,cancer hallmark,and cell line for knowledge integration,standardization,correlation,and discovery.Methods The Ontology Development 101 and the current ontology development methods were employed to determine the content coverage,structural layers,reusable terms,and new terms of the cancer hallmark ontology.Taking colorectal cancer as a study case,we extracted the knowledge related with colorectal cancer hallmarks using text mining and text classification technology from PubMed,and then formalized the extracted knowledge into the cancer hallmark ontology.Moreover,we made use of existing cancer hallmark evidence in Catalogue of Somatic Mutations in Cancer and further semantic retrieval to discover new knowledge.Results The established cancer hallmark ontology comprised 9910 classes and 6138 instances,which realized the semantic representation of 2310 article abstracts about colorectal cancer and 26 pieces of evidence about genes and their cancer hallmarks.Compared with the Catalogue of Somatic Mutations in Cancer,new evidence for more genes associated with colorectal cancer hallmarks was found based on cancer hallmark ontology.Conclusion This study is of great significance to the research on the cancer pathogenesis at the molecular level,the revealing of specific roles of genes and mutations in the occurrence of cancer,and the rapid knowledge discovery of cancer hallmarks.

Key words:colorectal cancer;ontology;hallmarks of cancer

Acta Acad Med Sin,2023,45(4):618-626

隨著癌癥靶向治療技術(shù)的發(fā)展和精準(zhǔn)醫(yī)學(xué)概念的提出,越來越多的研究關(guān)注于癌癥發(fā)生的內(nèi)部分子機(jī)制,以及其對(duì)細(xì)胞表型特征變化的影響。其中,癌癥標(biāo)志(hallmarks of cancer,HOC)[1的提出為癌癥發(fā)生過程中細(xì)胞特征的變化提供了重要標(biāo)識(shí)、分類體系和相關(guān)詞匯[2-3。從基本的原理層面捕捉癌癥發(fā)生的復(fù)雜內(nèi)因,為人們理解和探索癌癥的表型與機(jī)制提供了清晰易懂的邏輯框架4。2011年版的癌癥標(biāo)志包含10大類,分別是持續(xù)的增殖信號(hào)、逃避生長抑制、抵抗細(xì)胞死亡、無限復(fù)制、血管新生、侵襲轉(zhuǎn)移、基因組不穩(wěn)定和突變、能量代謝異常、免疫逃逸、促瘤炎癥[5。有相關(guān)研究已將癌癥標(biāo)志作為癌癥研究的重要部分。例如癌癥體細(xì)胞突變目錄(Catalogue of Somatic Mutations in Cancer,COSMIC)推出的癌癥基因普查項(xiàng)目[6利用人工的方式從文獻(xiàn)中進(jìn)行HOC相關(guān)知識(shí)的審編,對(duì)癌癥相關(guān)基因的功能進(jìn)行描述。LnCeCell[7對(duì)競爭性內(nèi)源RNA相關(guān)的HOC進(jìn)行標(biāo)識(shí)。Baker等[8構(gòu)建了HOC語料庫,將HOC的10大標(biāo)志擴(kuò)展為37類,借助文本分類技術(shù)對(duì)1852篇PubMed文獻(xiàn)摘要的句子進(jìn)行分類。并在后續(xù)研究中,提供了HOC自動(dòng)分類工具CHAT[2,以及基于文獻(xiàn)的HOC瀏覽工具LION LBD[9,通過實(shí)體識(shí)別工具PubTator[10識(shí)別基因和疾病等生物醫(yī)學(xué)實(shí)體,展示HOC與基因和疾病的共現(xiàn)關(guān)系。此外,隨著預(yù)訓(xùn)練模型在自然語言處理領(lǐng)域的發(fā)展,一些預(yù)訓(xùn)練模型在HOC語料庫已達(dá)到較好的分類效果,如BioLinkBERT[11、NCBI_BERT[12、PubMedBERT[13等。這些方法為HOC的自動(dòng)審編提供幫助。現(xiàn)階段還缺乏一種系統(tǒng)的、結(jié)構(gòu)化的、機(jī)器可理解的知識(shí)表示框架對(duì)HOC知識(shí)進(jìn)行梳理,對(duì)HOC與其他生物醫(yī)學(xué)實(shí)體之間具體關(guān)聯(lián)進(jìn)行描述。在生物醫(yī)學(xué)領(lǐng)域,本體已經(jīng)成為多源數(shù)據(jù)融合、語義表示、標(biāo)準(zhǔn)化和鏈接的重要技術(shù),廣泛用于表示領(lǐng)域數(shù)據(jù)之間的語義關(guān)聯(lián)[14,為文本挖掘和知識(shí)推理提供助力。因此,本研究以結(jié)直腸癌為例,提出一種可溯源的HOC本體語義表示框架,實(shí)現(xiàn)基因突變、HOC和細(xì)胞系等相關(guān)數(shù)據(jù)整合、標(biāo)準(zhǔn)化和關(guān)聯(lián),并提供相關(guān)文獻(xiàn)來源,將HOC本體與文本挖掘技術(shù)結(jié)合,提供更全面更詳細(xì)的HOC知識(shí),實(shí)現(xiàn)進(jìn)一步的數(shù)據(jù)發(fā)現(xiàn)。

資料和方法

本體構(gòu)建 基于“七步法”[15和現(xiàn)階段本體的構(gòu)建方法16-17,設(shè)計(jì)HOC本體構(gòu)建方法和知識(shí)發(fā)現(xiàn)實(shí)驗(yàn)流程(圖1)。

確定本體范圍:本體是一個(gè)特定領(lǐng)域的模型,為特殊的目的而構(gòu)建。HOC本體構(gòu)建的目的是為基因突變在癌癥發(fā)生過程中的具體作用提供統(tǒng)一的結(jié)構(gòu)化表示和整合方案。在HOC相關(guān)的科學(xué)文獻(xiàn)表述中,研究人員針對(duì)癌癥病患的組織樣本或相關(guān)細(xì)胞系做全面的組學(xué)數(shù)據(jù)分析和癌細(xì)胞特征檢測。探明例如在哪種細(xì)胞系中,發(fā)生了哪些突變從而引起了哪些HOC的變化。其后,通過專家咨詢的方式明確HOC本體需要回答的勝任力問題[18:(1)在某種癌癥中,哪些基因參與了某種癌癥特征的發(fā)生?(2)在某個(gè)癌癥中,某個(gè)基因參與了哪些癌癥特征的發(fā)生?(3)哪些文獻(xiàn)可能表明,某個(gè)突變參與了某個(gè)癌癥特征的發(fā)生?(4)哪些證據(jù)表明,某個(gè)基因與某種癌癥的發(fā)生有關(guān)?(5)哪些證據(jù)表明,某個(gè)細(xì)胞系中發(fā)生了某個(gè)癌癥特征的改變?(6)在某個(gè)癌細(xì)胞系中,哪些基因可能參與了癌癥特征的發(fā)生?

依據(jù)HOC本體的構(gòu)建目標(biāo)、應(yīng)用場景及勝任力問題,本研究最終確定HOC本體的范圍涵蓋癌癥、細(xì)胞系、基因、突變、HOC、文獻(xiàn)、證據(jù)等多種類型生物醫(yī)學(xué)實(shí)體,并定義這些實(shí)體之間的語義關(guān)系(圖2)。利用中間實(shí)體類型證據(jù)和引文,對(duì)多種生物醫(yī)學(xué)實(shí)體進(jìn)行鏈接。引文與HOC和各種生物醫(yī)學(xué)實(shí)體之間的關(guān)系為共現(xiàn)關(guān)系。證據(jù)表示已確認(rèn)的證據(jù)信息,其與HOC和各種生物醫(yī)學(xué)實(shí)體之間的關(guān)系為確定的相關(guān)關(guān)系。此外,一些實(shí)體類型可以復(fù)用已有的本體,在圖2中用曲線表示出子類的關(guān)系。

復(fù)用本體類和公理:隨著語義網(wǎng)技術(shù)的發(fā)展,在生物醫(yī)學(xué)領(lǐng)域,已經(jīng)存在一些被研究人員充分認(rèn)可的本體,復(fù)用或引用已有的本體是生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建的常用方法。在HOC本體的構(gòu)建過程中,選擇OntoFox[19工具復(fù)用相關(guān)本體的術(shù)語、屬性和關(guān)系。OntoFox是密西根大學(xué)何勇群團(tuán)隊(duì)研發(fā)的一款在線的本體術(shù)語提取工具,可以便捷地對(duì)開放生物醫(yī)學(xué)本體倉儲(chǔ)中的本體進(jìn)行獲取和復(fù)用。

Chen等[3發(fā)現(xiàn)基因本體(gene ontology,GO)[20、京都基因和基因組百科全書[21和分子特征數(shù)據(jù)庫22等數(shù)據(jù)庫和本體對(duì)HOC術(shù)語進(jìn)行了標(biāo)準(zhǔn)化描述。參考Chen等[3的研究,HOC相關(guān)術(shù)語主要復(fù)用自GO,盡可能選擇明確表示正負(fù)調(diào)控的GO術(shù)語與HOC建立映射(表1)。基因突變術(shù)語復(fù)用自序列本體(sequence ontology,SO)中的gene(SO_0000704)和sequence_alteration(SO_0001059)。疾病術(shù)語復(fù)用自疾病本體(disease ontology,DO)中的cancer(DOID_162)。細(xì)胞系術(shù)語復(fù)用自細(xì)胞系本體(cell line ontology,CLO)的immortal cell line cell(CLO_0000019)。同時(shí)復(fù)用其上下位術(shù)語、相關(guān)術(shù)語、術(shù)語之間的語義關(guān)系(對(duì)象屬性)和術(shù)語屬性(注釋屬性)(表2)。

本體對(duì)齊:為保障復(fù)用不同本體時(shí)術(shù)語的一致性,本研究選取ROBOT(V1.8.3)[23工具將這4個(gè)本體中抽取的術(shù)語進(jìn)行融合與對(duì)齊。ROBOT的Merge工具可以對(duì)多個(gè)本體進(jìn)行融合,并對(duì)資源標(biāo)識(shí)符相同的術(shù)語進(jìn)行對(duì)齊,包括屬性和關(guān)系。完成融合后,利用ROBOT的Report工具對(duì)融合結(jié)果進(jìn)行進(jìn)一步檢驗(yàn),主要包括:(1)術(shù)語缺少名稱;(2)1個(gè)術(shù)語有多個(gè)不同的名稱、多個(gè)不同的定義;(3)不同的類有相同的名稱、相同的定義等不一致錯(cuò)誤;(4)關(guān)系的名稱相同但含義和用法不同。其后,借助protégé工具和人工方式,對(duì)檢驗(yàn)發(fā)現(xiàn)的不一致問題進(jìn)行修正。人工方式通過兩名相關(guān)領(lǐng)域?qū)<疫M(jìn)行輪流修正校對(duì),保證本體對(duì)齊的準(zhǔn)確性和正確性。

構(gòu)建關(guān)系和屬性:在本體復(fù)用和融合的基礎(chǔ)上,新構(gòu)建癌癥標(biāo)志和證據(jù)等類,包含10個(gè)癌癥標(biāo)志子類,對(duì)其屬性和相關(guān)關(guān)系進(jìn)行豐富,新增語義關(guān)系相關(guān)癌癥標(biāo)志、有引文等12個(gè),標(biāo)題、年份等屬性5個(gè),以上文中確定本體范圍部分的語義模型設(shè)計(jì)為基礎(chǔ),利用protégé本體編輯軟件構(gòu)建新的類和語義關(guān)系。

填充實(shí)例:結(jié)直腸癌作為目前世界上新發(fā)癌癥發(fā)病率第3、死亡率第2的惡性腫瘤,其防治形勢十分嚴(yán)峻[24。本研究以結(jié)直腸癌為實(shí)例,對(duì)構(gòu)建的HOC本體進(jìn)行填充和驗(yàn)證。首先,在生物醫(yī)學(xué)文獻(xiàn)網(wǎng)站PubMed上搜索結(jié)直腸癌和細(xì)胞相關(guān)的文獻(xiàn),檢索語句為“(colorectal cancer[Title/Abstract]) AND (cell[Title/Abstract])”,檢索到1975年1月1日至2022年9月2日發(fā)表的相關(guān)文獻(xiàn)共29 986篇。導(dǎo)出文獻(xiàn)的PMID,利用PubTator[10工具的API,獲取每篇文獻(xiàn)的實(shí)體識(shí)別結(jié)果,包括基因、疾病、化學(xué)藥品、突變、物種和細(xì)胞系。

利用HOC語料庫[8和BioLinkBERT[11模型,對(duì)每篇PubMed文獻(xiàn)的摘要進(jìn)行HOC分類。BioLinkBERT模型是目前已知在HOC數(shù)據(jù)集上分類效果最佳的預(yù)訓(xùn)練模型,其base和large規(guī)模在HOC數(shù)據(jù)集的Micro F1分別達(dá)到84.35%和84.87%。本研究利用其在GitHub網(wǎng)站上共享的預(yù)訓(xùn)練模型和微調(diào)代碼[25,在HOC數(shù)據(jù)集上對(duì)base規(guī)模的BioLinkBERT模型進(jìn)行微調(diào),遵循與其原文相同的微調(diào)方法和評(píng)測指標(biāo)[11,最終Micro F1達(dá)到84.31%。利用微調(diào)后的模型對(duì)29 986篇結(jié)直腸癌相關(guān)的摘要進(jìn)行分類預(yù)測。通過模型預(yù)測,分類結(jié)果中包含10大類HOC的摘要共23 081篇。根據(jù)本研究需求,利用PubTator識(shí)別結(jié)果篩選出包含基因和細(xì)胞系,但不包含化學(xué)藥品的摘要共2355篇,將其作為引文的實(shí)例填充進(jìn)HOC本體中,建立引文與HOC和各種生物醫(yī)學(xué)實(shí)體的共現(xiàn)關(guān)系。此外,利用COSMIC Cancer Gene Census[6中與結(jié)直腸癌相關(guān)的數(shù)據(jù)對(duì)證據(jù)的實(shí)例進(jìn)行構(gòu)建。其提供了多種癌癥相關(guān)的基因和HOC信息,其中與結(jié)直腸癌相關(guān)的基因66個(gè),有HOC信息的基因12個(gè),相關(guān)文獻(xiàn)25篇,證據(jù)26個(gè)(其中1篇文獻(xiàn)有2個(gè)證據(jù))。

基于HOC本體的知識(shí)發(fā)現(xiàn) 基于已構(gòu)建的HOC本體,通過SPARQL多跳查詢,利用已知的HOC證據(jù)可以實(shí)現(xiàn)新證據(jù)和新基因的發(fā)現(xiàn)(圖3)。圖3上半部分表示利用COSMIC中已有結(jié)直腸癌HOC的基因,發(fā)現(xiàn)其新的HOC;下半部分表示利用COSMIC中已有結(jié)直腸癌相關(guān)的基因和HOC,發(fā)現(xiàn)與其共同出現(xiàn)在文獻(xiàn)標(biāo)題中的新基因。由于實(shí)例數(shù)據(jù)量較大,選擇Python的owlready2包,實(shí)現(xiàn)實(shí)例的填充和SPARQL查詢。

新證據(jù)發(fā)現(xiàn):COSMIC對(duì)癌癥相關(guān)的基因和HOC進(jìn)行了人工審編,具有較高的準(zhǔn)確性。以AKT1為例,在COSMIC中,其HOC包括抵抗細(xì)胞死亡(來源文獻(xiàn)PMID:28339062)及侵襲轉(zhuǎn)移(來源文獻(xiàn)PMID:24297510)。在HOC本體中,對(duì)文獻(xiàn)標(biāo)題包含AKT1的文獻(xiàn)和HOC進(jìn)行SPARQL查詢,并對(duì)只包含AKT1的文獻(xiàn)進(jìn)行篩選,其中AKT1在HOC本體中ID為gene_8(圖4)。

新基因發(fā)現(xiàn):在結(jié)直腸癌中,許多基因與經(jīng)典的通路和基因相互調(diào)控,從而引發(fā)HOC的發(fā)生,因此,選擇在文獻(xiàn)標(biāo)題中出現(xiàn)次數(shù)最多的幾個(gè)基因,并找到在文獻(xiàn)標(biāo)題中與這些基因共同出現(xiàn)的其他基因,發(fā)現(xiàn)新的癌癥靶點(diǎn)及相應(yīng)證據(jù),對(duì)基因在文獻(xiàn)標(biāo)題中的出現(xiàn)情況進(jìn)行SPARQL查詢(圖5),對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)(圖6)。

發(fā)現(xiàn)與結(jié)直腸癌相關(guān)并在文獻(xiàn)標(biāo)題中出現(xiàn)的基因共1435個(gè),其中,CTNNB1、AKT1、CD8A為在文獻(xiàn)標(biāo)題中出現(xiàn)數(shù)量最多的3個(gè)基因。結(jié)合COSMIC中這些基因的結(jié)直腸癌標(biāo)志審編結(jié)果數(shù)量,最終選擇CTNNB1(審編HOC證據(jù)為2個(gè))和KRAS(審編HOC證據(jù)為4個(gè))2個(gè)基因,利用SPARQL查詢找到與其共同出現(xiàn)在標(biāo)題中的其他基因,其中CTNNB1在HOC本體的ID為gene_0(圖7)。根據(jù)COSMIC數(shù)據(jù)集已知CTNNB1在結(jié)直腸癌中的HOC為基因組不穩(wěn)定和突變、免疫逃逸。KRAS在結(jié)直腸癌中的HOC為無限復(fù)制、侵襲轉(zhuǎn)移和能量代謝異常。

結(jié)果

本體構(gòu)建結(jié)果 最終構(gòu)建HOC本體包含類9910個(gè),實(shí)例6138個(gè),對(duì)象屬性45個(gè),注釋屬性36個(gè)。其中引文的實(shí)例為2310個(gè),證據(jù)的實(shí)例為26個(gè),序列變異的實(shí)例為116個(gè),基因的實(shí)例為2913個(gè),疾病的實(shí)例為380個(gè),細(xì)胞系的實(shí)例為345個(gè)。例如,利用protégé軟件對(duì)文獻(xiàn)PMID24297510和基于該文獻(xiàn)的證據(jù)進(jìn)行語義表示(圖8)。圖8左半部分表示引文PMID24297510,以及在該引文中出現(xiàn)的HIF1A等基因、出現(xiàn)在標(biāo)題的AKT1基因、HCT116等細(xì)胞系、結(jié)直腸癌等疾病和癌癥標(biāo)志侵襲轉(zhuǎn)移;右半部分表示來源于該引文的證據(jù),即在COSMIC中確定的基因、HOC、疾病和細(xì)胞系等之間的關(guān)聯(lián)。

知識(shí)發(fā)現(xiàn)

新證據(jù)發(fā)現(xiàn):通過SPARQL檢索后,HOC本體中文獻(xiàn)標(biāo)題包含AKT1的文獻(xiàn)和HOC,為持續(xù)的增殖信號(hào)(PMID:18570457、31164794、35860583)、侵襲轉(zhuǎn)移(PMID:24297510、18570457、31164794)。其中,在文獻(xiàn)PMID24297510中AKT1基因的HOC為侵襲轉(zhuǎn)移,與COSMIC中數(shù)據(jù)相符。通過人工審核后,新發(fā)現(xiàn)的證據(jù)包括:在文獻(xiàn)PMID18570457、PMID31164794中AKT1的HOC為侵襲轉(zhuǎn)移。而持續(xù)的增殖信號(hào)相關(guān)的文獻(xiàn)經(jīng)過審核后,未發(fā)現(xiàn)AKT1與其描述相關(guān)。

新基因發(fā)現(xiàn):利用SPARQL查詢找到與CTNNB1和KRAS共同出現(xiàn)在標(biāo)題中的其他基因,并對(duì)結(jié)果進(jìn)行人工審核。最終發(fā)現(xiàn)13個(gè)基因明確與相應(yīng)的HOC相關(guān),可以作為結(jié)直腸癌標(biāo)志的新證據(jù),8個(gè)基因在相關(guān)文獻(xiàn)中未明確表明與相關(guān)HOC有關(guān)(表3)。此外,通過審核PVR(PMID:32727790),發(fā)現(xiàn)KRAS基因新的HOC及證據(jù)為免疫逃逸(PMID:32727790)。而基于KRAS的另外兩個(gè)HOC:無限復(fù)制和能量代謝異常,未發(fā)現(xiàn)新的相關(guān)基因。

討論

本研究提出一種可溯源的HOC本體語義表示框架,有助于整合與分析癌癥分子層面的致病機(jī)制,了解基因突變在癌癥發(fā)生過程中的具體作用,助力癌癥靶向治療的研究。本體評(píng)估主要有基于金標(biāo)準(zhǔn)的評(píng)估、基于應(yīng)用的評(píng)估、數(shù)據(jù)驅(qū)動(dòng)的評(píng)估以及人工評(píng)估4種方式[26。HOC本體的構(gòu)建過程充分借鑒“七步法”的方法體系,通過復(fù)用盡可能滿足專業(yè)性和行業(yè)內(nèi)認(rèn)可的標(biāo)準(zhǔn),并通過一致性檢驗(yàn)及專家進(jìn)一步審核,保證本體的一致性、準(zhǔn)確性和正確性。并在后續(xù)知識(shí)表達(dá)和知識(shí)發(fā)現(xiàn)的具體應(yīng)用中,驗(yàn)證HOC本體的應(yīng)用能力。在HOC術(shù)語構(gòu)建過程中,通過明確HOC術(shù)語與GO術(shù)語的映射關(guān)系對(duì)HOC術(shù)語進(jìn)行擴(kuò)展,有助于進(jìn)一步理解HOC的內(nèi)涵。此外,HOC本體為人和機(jī)器都提供了較強(qiáng)的可解釋性,利用中間節(jié)點(diǎn)引文和證據(jù)有效表達(dá)了摘要和句子中多種實(shí)體共現(xiàn)的情況。與已有HOC相關(guān)工作相比,HOC本體的構(gòu)建過程更節(jié)省人力,利用生物醫(yī)學(xué)實(shí)體識(shí)別工具和文本分類技術(shù)實(shí)現(xiàn)癌癥標(biāo)志知識(shí)的自動(dòng)提取,并通過HOC本體為文獻(xiàn)中的HOC知識(shí)提供結(jié)構(gòu)化的語義表示,其可溯源的框架設(shè)計(jì)為HOC證據(jù)提供了相應(yīng)的文獻(xiàn)來源。基于已構(gòu)建的HOC本體,本研究提出了一種利用SPARQL檢索和已有HOC證據(jù)快速發(fā)現(xiàn)新HOC證據(jù)的方法,為臨床和科研工作提供便捷的服務(wù)。對(duì)知識(shí)發(fā)現(xiàn)結(jié)果進(jìn)行分析顯示,通過初步篩選的幾個(gè)結(jié)直腸癌基因進(jìn)行檢索,與COSMIC數(shù)據(jù)集人工審編結(jié)果相比,發(fā)現(xiàn)新的HOC相關(guān)文獻(xiàn)和基因,證實(shí)HOC本體在知識(shí)發(fā)現(xiàn)方面的有效性。基因和基因之間存在相互調(diào)節(jié)關(guān)系,基因可能不會(huì)直接作用于改變HOC。因此,選擇與已知HOC相關(guān)的基因在標(biāo)題中共現(xiàn)的其他基因,有助于發(fā)現(xiàn)新的基因與HOC。

本研究目前只采用了機(jī)器處理的方式,未對(duì)處理結(jié)果進(jìn)行大批量人工審核,應(yīng)考慮PubTator實(shí)體識(shí)別工具和BioLinkBERT分類模型存在的誤差。后續(xù)將研究人工和機(jī)器結(jié)合的方式對(duì)HOC證據(jù)進(jìn)行進(jìn)一步審核和擴(kuò)充,借鑒證據(jù)本體對(duì)證據(jù)相關(guān)的術(shù)語進(jìn)行標(biāo)準(zhǔn)化,提供更高質(zhì)量的證據(jù)服務(wù)。此外,充分融合生物醫(yī)學(xué)知識(shí)庫中已有的關(guān)聯(lián)關(guān)系如基因-突變、基因-疾病、疾病-細(xì)胞系等,為HOC知識(shí)發(fā)現(xiàn)提供更多的知識(shí)來源,也是本研究后續(xù)探索的研究方向。在證據(jù)來源方面,本研究只納入PubMed文獻(xiàn)中的HOC信息,未納入其他HOC信息來源如臨床試驗(yàn)等。

參 考 文 獻(xiàn)

[1]Hanahan D,Weinberg RA.The hallmarks of cancer[J].Cell,2000,100(1):57-70.DOI:10.1016/S0092-8674(00)81683-9.

[2]Baker S,Ali I,Silins I,et al.Cancer Hallmarks Analytics Tool (CHAT):a text mining approach to organize and evaluate scientific literature on cancer[J].Bioinformatics,2017,33(24):3973-3981.DOI:10.1093/bioinformatics/btx454.

[3]Chen Y,Verbeek FJ,Wolstencroft K.Establishing a consensus for the hallmarks of cancer based on gene ontology and pathway annotations[J].BMC Bioinformatics,2021,22(1):178.DOI:10.1186/s12859-021-04105-8.

[4]陶青,石毓君.解讀癌癥研究的里程碑:Hallmarks of Cancer[J].中國普外基礎(chǔ)與臨床雜志,2022,29(4):431-433.DOI:10.7507/1007-9424.202202033.

[5]Hanahan D,Weinberg RA.Hallmarks of cancer:the next generation[J].Cell,2011,144(5):646-674.DOI:10.1016/j.cell.2011.02.013.

[6]Sondka Z,Bamford S,Cole CG,et al.The COSMIC cancer gene census:describing genetic dysfunction across all human cancers[J].Nat Rev Cancer,2018,18(11):696-705.DOI:10.1038/s41568-018-0060-1.

[7]Wang P,Guo Q,Hao Y,et al.LnCeCell:a comprehensive database of predicted lncRNA-associated ceRNA networks at single-cell resolution[J].Nucleic Acids Res,2021,49(D1):D125-D133.DOI:10.1093/nar/gkaa1017.

[8]Baker S,Silins I,Guo Y,et al.Automatic semantic classification of scientific literature according to the hallmarks of cancer[J].Bioinformatics,2016,32(3):432-440.DOI:10.1093/bioinformatics/btv585.

[9]Pyysalo S,Baker S,Ali I,et al.LION LBD:a literature-based discovery system for cancer biology[J].Bioinformatics,2019,35(9):1553-1561.DOI:10.1093/bioinformatics/bty845.

[10]Wei CH,Allot A,Leaman R,et al.PubTator central:automated concept annotation for biomedical full text articles[J].Nucleic Acids Res,2019,47(W1):W587-W593.DOI:10.1093/nar/gkz389.

[11]Michihiro Y,Jure L,Percy L.LinkBERT pretraining language models with document links[EB/OL].[2022-11-11].https://arxiv.org/abs/2203.15827.

[12]Yifan P,Shankai Y,Zhiyong L.Transfer learning in biomedical natural language processing:an evaluation of BERT and ELMo on ten benchmarking datasets[EB/OL].[2022-11-11].https://arxiv.org/abs/1906.05474.

[13]Yu G,Robert T,Hao C,et al.Domain-specific language model pretraining for biomedical natural language processing[EB/OL].[2022-11-11].https://arxiv.org/abs/2007.15779.

[14]Haendel MA,Chute CG,Robinson PN.Classification,ontology,and precision medicine[J].N Engl J Med,2018,379(15):1452-1462.DOI:10.1056/NEJMra1615014.

[15]Natalya FN,Deborah LM.Ontology development 101:a guide to creating your first ontology[EB/OL].[2022-11-11].http://www.ksl.stanford.edu/people/dlm/papers/ontology-tutorial-noy-mcguinness-abstract.html.

[16]Lee JH,Park HA,Song TM.A determinants-of-fertility ontology for detecting future signals of fertility issues from social media data:development of an ontology[J].J Med Internet Res,2021,23(6):e25028.DOI:10.2196/25028.

[17]Reyes-Pe?a C,Tovar M,Bravo M,et al.An ontology network for diabetes mellitus in Mexico[J].J Biomed Semantics,2021,12(1):19.DOI:10.1186/s13326-021-00252-2.

[18]Bravo M,Hoyos Reyes LF,Reyes-Ortiz JA.Methodology for ontology design and construction[J].Contaduría y Administración,2019,64(4):134.DOI:10.22201/fca.24488410e.2020.2368.

[19]Xiang Z,Courtot M,Brinkman RR,et al.OntoFox:web-based support for ontology reuse[J].BMC Res Notes,2010,3:175.DOI:10.1186/1756-0500-3-175.

[20]The Gene Ontology Consortium.The gene ontology resource:20 years and still GOing strong[J].Nucleic Acids Res,2019,47(D1):D330-D338.DOI:10.1093/nar/gky1055.

[21]Kanehisa M,F(xiàn)urumichi M,Sato Y,et al.KEGG:integrating viruses and cellular organisms[J].Nucleic Acids Res,2021,49(D1):D545-D551.DOI:10.1093/nar/gkaa970.

[22]Liberzon A,Birger C,Thorvaldsdóttir H,et al.The Molecular Signatures Database (MSigDB) hallmark gene set collection[J].Cell Syst,2015,1(6):417-425.DOI:10.1016/j.cels.2015.12.004.

[23]Jackson RC,Balhoff JP,Douglass E,et al.ROBOT:a tool for automating ontology workflows[J].BMC Bioinformatics,2019,20(1):407.DOI:10.1186/s12859-019-3002-3.

[24]Sung H,F(xiàn)erlay J,Siegel RL,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA Cancer J Clin,2021,71(3):209-249.DOI:10.3322/caac.21660.

[25]Michihiro Y,Jure L,Percy L.LinkBERT:a knowledgeable language model pretrained with document links[EB/OL].[2022-11-11].https://github.com/michiyasunaga/LinkBERT.

[26]Brank J,Grobelnik M,Mladenic′ D.A survey of ontology evaluation techniques[EB/OL].[2022-11-11].https://www.researchgate.net/publication/228857266_A_survey_of_ontology_evaluation_techniques.

(收稿日期:2022-11-17)

主站蜘蛛池模板: 国产欧美日韩va| 71pao成人国产永久免费视频| 国内精自视频品线一二区| 国产精品hd在线播放| 91无码人妻精品一区二区蜜桃| 国产麻豆精品久久一二三| 国产成人啪视频一区二区三区| 毛片视频网| 色一情一乱一伦一区二区三区小说| 91丨九色丨首页在线播放| 呦女亚洲一区精品| 午夜精品久久久久久久99热下载| 五月天丁香婷婷综合久久| 国产最新无码专区在线| 国产精品精品视频| 精品免费在线视频| 制服丝袜国产精品| 欧美午夜视频| 久久a级片| 9久久伊人精品综合| 久久伊人色| 久久综合五月婷婷| 男女男精品视频| 久久综合亚洲色一区二区三区| 色综合婷婷| 性色在线视频精品| 亚洲五月激情网| 黄色网址手机国内免费在线观看| 国产精品白浆无码流出在线看| 亚洲成人网在线播放| 一级做a爰片久久免费| 91精品国产福利| 丁香婷婷激情网| 风韵丰满熟妇啪啪区老熟熟女| 国产亚洲精品无码专| 国产亚洲精品自在线| AV网站中文| 亚洲精品成人福利在线电影| 国产欧美视频一区二区三区| 久久久久无码精品| 制服无码网站| 蜜臀AVWWW国产天堂| 欧美专区日韩专区| 欧美一区福利| www.亚洲一区| www.91中文字幕| hezyo加勒比一区二区三区| 精品伊人久久久香线蕉 | 97国产成人无码精品久久久| 欧美日韩国产高清一区二区三区| 亚洲浓毛av| 国产成人亚洲毛片| 爽爽影院十八禁在线观看| 国产亚洲欧美另类一区二区| 黄片一区二区三区| 国产精品亚洲欧美日韩久久| 国产v精品成人免费视频71pao| 成人国产一区二区三区| 人妻一区二区三区无码精品一区| 幺女国产一级毛片| 另类综合视频| 亚洲综合极品香蕉久久网| 在线免费观看AV| 自拍亚洲欧美精品| 伦精品一区二区三区视频| 久久亚洲高清国产| 不卡午夜视频| 在线播放真实国产乱子伦| 国产自无码视频在线观看| 国产区成人精品视频| 91在线激情在线观看| 日韩美一区二区| a免费毛片在线播放| 亚洲无线视频| 97se亚洲| 又爽又大又黄a级毛片在线视频 | 日韩在线观看网站| 26uuu国产精品视频| 色妞永久免费视频| 久热re国产手机在线观看| 国产成人1024精品下载| 99视频在线免费|