呂艷華,趙宏霞,李 琦,梁傲雪,于 琦
山西醫(yī)科大學(xué)管理學(xué)院,山西 030001
自閉癥譜系障礙是由于生物性神經(jīng)系統(tǒng)發(fā)育障礙引起的疾病,主要癥狀有社會(huì)溝通能力障礙、興趣狹窄及重復(fù)行為特征[1]。目前自閉癥的發(fā)病機(jī)制和病因尚未完全明確,且尚無特效藥物,目前臨床治療藥物多為對(duì)癥治療藥物,如抗抑郁藥、抗精神病藥、鎮(zhèn)靜安眠藥,主要針對(duì)自閉癥癥狀的治療藥物僅有10 種[2]。聯(lián)合國(guó)數(shù)據(jù)顯示,截至目前,全球大概有超過7 000 萬人正遭受自閉癥的困擾[3]。面對(duì)龐大的自閉癥患病群體,尋找潛力藥物和特效藥物迫在眉睫。隨著計(jì)算機(jī)技術(shù)的發(fā)展及各種藥物數(shù)據(jù)庫(kù)的建立,基于基因藥物大數(shù)據(jù)的藥物預(yù)測(cè)成為重要的預(yù)測(cè)手段,利用計(jì)算機(jī)技術(shù)可以從現(xiàn)有的海量知識(shí)中進(jìn)行隱性的知識(shí)關(guān)聯(lián),挖掘潛在的關(guān)系信息,為科研人員提供有價(jià)值的線索。本研究運(yùn)用計(jì)算機(jī)技術(shù)抽取自閉癥相關(guān)文獻(xiàn)中的三元組并構(gòu)建自閉癥藥物實(shí)體知識(shí)圖譜,深層次挖掘潛在的信息,發(fā)現(xiàn)自閉癥藥物治療潛力藥物,有助于完善應(yīng)用三元組進(jìn)行知識(shí)發(fā)現(xiàn)的理論,豐富自閉癥藥物治療手段,為藥物治療提供新思路。
藥物知識(shí)發(fā)現(xiàn)是生物醫(yī)學(xué)領(lǐng)域知識(shí)發(fā)現(xiàn)的一個(gè)分支研究,其本質(zhì)是發(fā)現(xiàn)跨領(lǐng)域知識(shí)間隱性關(guān)聯(lián)的特定類型數(shù)據(jù)挖掘應(yīng)用[4]。1986 年,Swanon[5-6]提出了非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)方法,并利用該方法發(fā)現(xiàn)了魚油治療雷諾氏病和鎂治療偏頭痛的科學(xué)假設(shè),且兩個(gè)假設(shè)后來分別被科學(xué)實(shí)驗(yàn)所證實(shí),當(dāng)時(shí)采用的是人工閱讀MedLine 文章標(biāo)題的方法。后來,Swanson[7]開發(fā)出了Arrowsmith,它是一種基于文獻(xiàn)的交互式知識(shí)發(fā)現(xiàn)系統(tǒng),輸入查詢?cè)~查找整個(gè)MedLine 數(shù)據(jù)庫(kù)并收集標(biāo)題或摘要中出現(xiàn)該詞的所有文章。這是基于對(duì)標(biāo)題和短語的共現(xiàn)分析。之后他們采用Arrowsmith 來確定雌激素與阿爾茨海默病之間存在的聯(lián)系,結(jié)果表明雌激素的抗氧化活性可能與阿爾茨海默病有關(guān)[8]。但這種方法仍需要人工設(shè)置停用詞列表,并對(duì)Arrowsmith生成的許多虛假連接進(jìn)行分類。到了21 世紀(jì)初,Hristovski等[9]提出了用于醫(yī)學(xué)領(lǐng)域的交互式發(fā)現(xiàn)支持系統(tǒng)BITOLA,術(shù)語和關(guān)系來自MedLine 數(shù)據(jù)庫(kù)和統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(the Unified Medical Language System,UMLS),這種方法是基于關(guān)聯(lián)規(guī)則來發(fā)現(xiàn)醫(yī)學(xué)術(shù)語之間 的 關(guān) 系。2005 年,Hristovski 等[10]在BITOLA 中 整合了有關(guān)疾病染色體定位以及候選基因染色體定位的知識(shí),使其更適合于發(fā)現(xiàn)疾病的候選基因。與此同時(shí),Weeber 等[11]基于ULMS 開發(fā)了一個(gè)支持工具DAD,使用該系統(tǒng)來尋找藥物沙利度胺的潛在治療作用,結(jié)果顯示沙利度胺可能對(duì)急性胰腺炎、慢性丙型肝炎、幽門螺桿菌引起的胃炎和重癥肌無力有治療作用。但這些研究必須人工審查、閱讀大量的MedLine 引文,而且有大量的虛假關(guān)系需人工分類辨別,無法明確、科學(xué)地解釋發(fā)現(xiàn)的關(guān)系。2006 年,Hristovski 等[12]提出使用語義謂詞來進(jìn)一步完善基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法,初步試驗(yàn)表明這種方法可以發(fā)現(xiàn)以前那些方法無法發(fā)現(xiàn)的新關(guān)聯(lián)。Ahlers 等[13]的研究進(jìn)一步證明,采用語義謂詞進(jìn)行知識(shí)發(fā)現(xiàn)減少了由人工審查的關(guān)系數(shù)量,并且對(duì)發(fā)現(xiàn)的結(jié)果更具解釋力,他們采用這種知識(shí)發(fā)現(xiàn)模式,發(fā)現(xiàn)了5 種在抗精神病藥物和癌癥之間提供聯(lián)系的生物分子:腦源性神經(jīng)營(yíng)養(yǎng)因子、肝臟細(xì)胞色素P4502D6(CYP2D6)、糖皮質(zhì)激素受體、催乳素(PRL)和腫瘤壞死因子(TNF)。可見,藥物知識(shí)發(fā)現(xiàn)經(jīng)歷了從人工閱讀文章標(biāo)題的共現(xiàn)分析到基于關(guān)聯(lián)規(guī)則的分析,再到加入語義謂詞,可見有效結(jié)合語義關(guān)系進(jìn)行實(shí)體識(shí)別是提高藥物知識(shí)發(fā)現(xiàn)效率的趨勢(shì)和關(guān)鍵環(huán)節(jié)。
知識(shí)圖譜本質(zhì)上是一種基于圖的語義網(wǎng)絡(luò),表示不同實(shí)體之間的關(guān)系,通常以三元組“主語-謂語-賓語(subject-predicate-object,SPO)”的形式表示知識(shí)。知識(shí)圖譜具有強(qiáng)大的語義關(guān)聯(lián)能力、信息組織能力和知識(shí)融合能力,可以將實(shí)體及實(shí)體間的關(guān)系屬性進(jìn)行細(xì)粒度的語義表示[14]。首先,它可以兼容實(shí)體間的語義關(guān)系與挖掘的特性,可以根據(jù)實(shí)際情況預(yù)設(shè)語義關(guān)系或?qū)φZ義關(guān)系進(jìn)行篩選,使其更符合實(shí)際研究情況,符合藥物知識(shí)發(fā)現(xiàn)的邏輯[14];其次,將文獻(xiàn)中的語義三元組向ULMS 中規(guī)范化的術(shù)語與語義關(guān)系進(jìn)行映射,具有高標(biāo)準(zhǔn)、高效率與易解釋等優(yōu)點(diǎn)[4];而且可以運(yùn)用復(fù)雜網(wǎng)絡(luò)和圖挖掘算法對(duì)其進(jìn)行挖掘,實(shí)現(xiàn)細(xì)粒度、深層次、隱含的知識(shí)發(fā)現(xiàn)。目前,知識(shí)圖譜在問答系統(tǒng)[15]、推薦系統(tǒng)[16]、機(jī)器翻譯[17]等領(lǐng)域發(fā)揮了重要作用,在金融安全[18]、醫(yī)學(xué)診斷[19]、軍用[20]、電力[21]領(lǐng)域展示出很好的應(yīng)用前景。知識(shí)圖譜在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用主要是用于發(fā)現(xiàn)藥物新的適應(yīng)證,減少藥物不良反應(yīng)等[14,22-24]。
綜上所述,基于三元組構(gòu)建的知識(shí)圖譜在藥物知識(shí)發(fā)現(xiàn)領(lǐng)域的應(yīng)用具有一定的依據(jù),對(duì)藥物再利用、藥物開發(fā)有一定的意義。在以往基于知識(shí)圖譜開展藥物知識(shí)發(fā)現(xiàn)研究的基礎(chǔ)上,本研究在知識(shí)發(fā)現(xiàn)全面性、挖掘方法先進(jìn)性、結(jié)果有效性驗(yàn)證方面進(jìn)行了改進(jìn),使之更適用于藥物知識(shí)發(fā)現(xiàn)。首先,知識(shí)發(fā)現(xiàn)更全面,除共現(xiàn)關(guān)系外,采用Neo4j 數(shù)據(jù)庫(kù)描述實(shí)體間的關(guān)系,定義了實(shí)體間復(fù)雜的語義關(guān)系,并從語義層面深入分析了實(shí)體間的語義關(guān)系及其涵義;其次,挖掘方法更先進(jìn),采用了基于語義的路徑分析方法,并在路徑分析中增加了靶點(diǎn)與靶點(diǎn)之間的關(guān)系,更符合藥物知識(shí)發(fā)現(xiàn)邏輯;最后,采用臨床實(shí)驗(yàn)數(shù)據(jù)庫(kù)(https://clinicaltrials.gov)對(duì)結(jié)果進(jìn)行有效性驗(yàn)證。
本研究使用SemRep、Metamap 工具從自閉癥相關(guān)文獻(xiàn)中識(shí)別自閉癥相關(guān)實(shí)體、屬性、語義關(guān)系,抽取三元組并對(duì)三元組清洗、歸類后儲(chǔ)存在Neo4j 圖數(shù)據(jù)庫(kù)中,采用路徑發(fā)現(xiàn)深入挖掘自閉癥重要藥物和潛力藥物。
本研究所需的實(shí)體、屬性及語義關(guān)系數(shù)據(jù)均來自PubMed 數(shù)據(jù)庫(kù)。檢索詞為“autism spectrum disorder”[MeSH],檢 索 時(shí) 限 為 建 庫(kù) 至2023 年2 月1 日,共 下 載40 662 條題錄數(shù)據(jù)。
采用基于ULMS 的工具SemRep、Metamap 進(jìn)行自然語言處理和術(shù)語映射,對(duì)獲取的文獻(xiàn)記錄進(jìn)行處理,對(duì)實(shí)體、語義關(guān)系、屬性等信息進(jìn)行抽取,獲得實(shí)體在ULMS 超級(jí)詞表中的相應(yīng)概念及概念間的語義類型和語義關(guān)系。SemRep、Matamap 可自動(dòng)執(zhí)行分詞、語義分析、短語映射、語義謂詞歸一化、語義約束等操作。
基于40 662 條題錄數(shù)據(jù),共抽取到224 675 條SPO,結(jié)合Fiszman 等[25-26]提出的SPO 清洗原則和相關(guān)學(xué)者的研究,制定清洗流程:1)否定謂詞在本研究沒有意義,對(duì)否定謂詞進(jìn)行剔除。如NEG_ADMINISTERED_TO,NEG_AFFECTS,NEG_ASSOCIATED_WITH,NEG_CAUSES,NEG_AUGMENTS 等。2)考慮到每篇文獻(xiàn)的貢獻(xiàn)相同,對(duì)SPO 進(jìn)行合并,同1 篇文獻(xiàn)中重復(fù)出現(xiàn)的SPO 只計(jì)1 次。3)出現(xiàn)頻次太低的SPO 無統(tǒng)計(jì)意義,選擇出現(xiàn)頻次≥3 次的SPO。4)結(jié)合專業(yè)知識(shí),篩選與本研究相關(guān)的有關(guān)疾病、靶點(diǎn)、藥物實(shí)體SPO,具體語義類型見表1。在數(shù)據(jù)存儲(chǔ)前對(duì)三元組進(jìn)行清洗、歸類后人工復(fù)審、專家復(fù)審。篩選后共獲得6 883 條SPO,再經(jīng)過人工復(fù)審、專家復(fù)審后得到5 140 條。

表1 實(shí)體類別-語義類型對(duì)照
使用Neo4j 數(shù)據(jù)庫(kù)進(jìn)行知識(shí)存儲(chǔ)。Neo4j 數(shù)據(jù)庫(kù)是一種高性能的圖數(shù)據(jù)庫(kù),可對(duì)數(shù)據(jù)進(jìn)行創(chuàng)建、查詢、更新、刪除等操作,且操作靈活方便。本研究中將自閉癥相關(guān)藥物實(shí)體作為節(jié)點(diǎn),標(biāo)簽表示實(shí)體屬性,實(shí)體間的關(guān)系作為邊,以三元組的形式構(gòu)建實(shí)體與實(shí)體間的關(guān)系。
采用路徑發(fā)現(xiàn)進(jìn)行知識(shí)發(fā)現(xiàn)。通過定義實(shí)體屬性和關(guān)系構(gòu)建推理規(guī)則,根據(jù)節(jié)點(diǎn)數(shù)量可產(chǎn)生不同長(zhǎng)度的路徑;預(yù)定義開始實(shí)體和語義關(guān)系,設(shè)定路徑長(zhǎng)度,到達(dá)藥物節(jié)點(diǎn),實(shí)現(xiàn)藥物預(yù)測(cè)。此知識(shí)發(fā)現(xiàn)模式與Swanson 經(jīng)典的ABC 發(fā)現(xiàn)模式一致,即如果AB 之間有直接關(guān)聯(lián),BC 之間有直接關(guān)聯(lián),那么AC 之間就被認(rèn)為有隱含關(guān)聯(lián)。本研究在前期學(xué)者研究的基礎(chǔ)上,加入靶點(diǎn)與靶點(diǎn)之間的關(guān)聯(lián),有研究顯示靶點(diǎn)之間的共現(xiàn)同樣具有生物學(xué)意義,他們之間的共現(xiàn)關(guān)系有助于挖掘更深層次的生物學(xué)信息[27]。
本研究獲得的SPO 語義三元組包括了1 262 個(gè)頭實(shí)體、687 個(gè)尾實(shí)體、18 種實(shí)體關(guān)系。將每種實(shí)體和實(shí)體關(guān)系的頻次作為屬性加入圖譜中,用于藥物預(yù)測(cè)。實(shí)體間的語義關(guān)系見表2。

表2 自閉癥文獻(xiàn)三元組實(shí)體間的語義關(guān)系
在Neo4j 數(shù)據(jù)庫(kù)中使用Cypher 語句設(shè)定搜索條件,以疾病作為頭節(jié)點(diǎn),基因或靶標(biāo)作為中間節(jié)點(diǎn),藥物為尾節(jié)點(diǎn)。根據(jù)實(shí)際情況選擇以下4 種實(shí)體作為路徑發(fā)現(xiàn)的疾病起點(diǎn):C0004352 Autistic Disorder,C0524528 Pervasive Development Disorder,C1510586 Autism Spectrum Disorders/Autism Spectrum Disorder、C0236792 Asperger Syndrome。藥物知識(shí)發(fā)現(xiàn)路徑所依據(jù)的語義關(guān)系見圖1。

圖1 路徑中實(shí)體間的語義關(guān)系
基于上述“疾病-靶點(diǎn)-藥物”語義關(guān)系,本研究共采用3 條路徑進(jìn)行藥物知識(shí)發(fā)現(xiàn)。1)路徑1:基于“疾病-靶標(biāo)-藥物”路徑的知識(shí)發(fā)現(xiàn)。以自閉癥相關(guān)疾病實(shí)體為起點(diǎn),靶標(biāo)作為中間節(jié)點(diǎn),藥物作為尾節(jié)點(diǎn),設(shè)定疾病靶標(biāo)、靶標(biāo)藥物之間的語義關(guān)系,進(jìn)行藥物知識(shí)發(fā)現(xiàn)。設(shè)定語句為match(p1:lable {tag: 'disease'})-[r1]-(p2: lable {tag: 'target'}) - [r2] - (p3: lable{tag: 'drug'})WHERE p1.id IN ["C1510586", "C0004352","C0524528","C0236792"]。測(cè)算結(jié)果見表3、圖2。2)路徑2:基于“疾病-靶標(biāo)-靶標(biāo)-藥物”路徑的知識(shí)發(fā)現(xiàn)。以自閉癥相關(guān)疾病實(shí)體為起點(diǎn),考慮到靶點(diǎn)之間的相互作用,將2 個(gè)靶標(biāo)作為中間節(jié)點(diǎn),藥物作為尾節(jié)點(diǎn),設(shè)定疾病與靶標(biāo)、靶標(biāo)與靶標(biāo)、靶標(biāo)與藥物之間的語義關(guān)系,進(jìn)行藥物知識(shí)發(fā)現(xiàn)。設(shè)定語句為match(p1:lable{tag: 'disease'})-[r1]-(p2:lable {tag:'target'})-[r2]-(p3:lable{tag:'target'})-[r3]-(p4:lable{tag:'drug'}) WHERE p1.id IN["C1510586","C0004352","C0524528","C0236792"],r 為實(shí)體間的語義關(guān)系。測(cè)算結(jié)果見表3、圖2。3)路徑3:根據(jù)設(shè)定藥物、基因或靶標(biāo)、疾病之間的語義關(guān)系進(jìn)行知識(shí)發(fā)現(xiàn)。用單點(diǎn)起源路徑(single source shortest path)算法,以自閉癥相關(guān)疾病作為起點(diǎn),到達(dá)圖中其他所有藥物實(shí)體的最短路徑。基于語義路徑1,發(fā)現(xiàn)了5 種自閉癥潛在藥物;基于語義路徑2,發(fā)現(xiàn)了6 種藥物;基于語義路徑3,發(fā)現(xiàn)了30 種藥物。見表3。
本研究對(duì)基于3 條“疾病-靶點(diǎn)-藥物”語義路徑發(fā)現(xiàn)41 種自閉癥藥物,刪除重復(fù)項(xiàng)后共得到32 種藥物,其中5 種藥物(褪黑素、丙戊酸、阿立哌唑、加蘭他敏、利培酮)目前已是Drugbank 中被批準(zhǔn)通用的自閉癥治療藥物,其余27 種藥物可視為本研究基于語義路徑方法測(cè)算得出的潛力藥物(見表4)。

表4 基于“疾病-靶點(diǎn)-藥物”語義路徑的27 種自閉癥潛力藥物
根據(jù)藥物的解剖學(xué)、治療學(xué)及化學(xué)分類系統(tǒng)(ATC)藥物分類,本研究預(yù)測(cè)的潛力藥物主要分布在以下類別:5 種屬于神經(jīng)系統(tǒng)精神安定藥、7 種屬于精神興奮藥,3 種屬于消化道及代謝藥物,1 種屬于呼吸系統(tǒng)藥物(見表5)。與已批準(zhǔn)自閉癥治療藥物的ATC分類基本趨同。

表5 27 種潛力藥物在ATC 藥物分類及所屬類別
采用臨床實(shí)驗(yàn)數(shù)據(jù)(https://clinicaltrials.gov)對(duì)研究結(jié)果中除了Drugbank 數(shù)據(jù)庫(kù)中已批準(zhǔn)的治療自閉癥藥物aripiprazole(阿立哌唑)、melatonin(褪黑素)、valproic acid(丙戊酸)、galantamine(加蘭他敏)、利培酮(risperidone)外的27 種潛力藥物進(jìn)行結(jié)果驗(yàn)證。
催產(chǎn)素、哌醋甲酯、氟西汀在2017 年英國(guó)精神藥理學(xué)會(huì)發(fā)布的“Autism spectrum disorder:consensus guidelines on assessment,treatment and research from the British Association for Psychopharmacology”臨 床指南中被自閉癥的臨床治療用藥收錄;納曲酮在2016年蘇格蘭校際指南網(wǎng)絡(luò)公布的“Assessment,diagnosis and interventions for autism spectrum disorders”臨床指南中自閉癥臨床治療信息收錄;哌醋甲酯、氟西汀、氟哌啶醇、奧氮平、丁螺環(huán)酮在2020 年美國(guó)兒科學(xué)會(huì)“Identification, evaluation, and management of children with autism spectrum disorder”臨床報(bào)告中的自閉癥臨床治療信息收錄;促胰液素、鎂在2007 年蘇格蘭校際指南網(wǎng)絡(luò)公布的“Assessment,diagnosis and interventions for autism spectrum disorders”自閉癥藥物治療信息收錄。作用癥狀見表6。可見,在27 種潛力藥物中,已有9種藥物在臨床中被用于自閉癥及其相關(guān)癥狀的治療,這在一定程度上體現(xiàn)出本研究所采用藥物發(fā)現(xiàn)方法的有效性和準(zhǔn)確性,同時(shí)也說明基于語義路徑發(fā)現(xiàn)的其他藥物對(duì)于自閉癥治療研究具有較高的可參考價(jià)值。

表6 9 種潛力藥物在臨床診療指南中的作用癥狀
在27 種預(yù)測(cè)藥物中,除了上述9 種藥物外,另有10 種藥物均有學(xué)者正在研究他們與自閉癥治療的關(guān)系及作用,并提供了大量的臨床實(shí)驗(yàn)證據(jù),進(jìn)一步表明這些藥物可能為自閉癥治療研究具有較大潛力的藥物,研究人員可重點(diǎn)關(guān)注。見表7。

表7 19 種潛力藥物在臨床實(shí)驗(yàn)數(shù)據(jù)庫(kù)中的驗(yàn)證結(jié)果
預(yù)測(cè)的結(jié)果中除上述可以在臨床實(shí)驗(yàn)數(shù)據(jù)庫(kù)中驗(yàn)證的藥物外,clomipramine(氯米帕明)、ergocalciferol(麥角鈣化醇)、nitric oxide(一氧化氮)、resveratrol(白藜蘆醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(對(duì)乙酰氨基酚)、huperzine B(石杉?jí)A乙)尚未查到其與自閉癥治療的臨床實(shí)驗(yàn)數(shù)據(jù)。在PubMed 中查詢文獻(xiàn)發(fā)現(xiàn),藥物clomipramine(氯米帕明)、nitric oxide(一氧化氮)、resveratrol(白藜蘆醇)、dopamine hydrochloride(多巴胺)、loxapine(洛沙平)、acetaminophen(對(duì)乙酰氨基酚)在預(yù)測(cè)結(jié)果中出現(xiàn),用于少數(shù)或者個(gè)別病例臨床使用或動(dòng)物實(shí)驗(yàn),尚未進(jìn)入臨床實(shí)驗(yàn)。ergocalciferol(麥角鈣化醇)、huperzine B(石杉?jí)A乙)在預(yù)測(cè)結(jié)果中出現(xiàn),在PubMed 中未查到文獻(xiàn)其與自閉癥的關(guān)系,可能屬于未知關(guān)聯(lián)藥物,可進(jìn)一步進(jìn)行理論研究或?qū)嶒?yàn)探究其與自閉癥潛在的關(guān)系,驗(yàn)證其是否可用于自閉癥的治療。
本研究獲得自閉癥藥物相關(guān)三元組5 140 條,實(shí)體1 949 種,實(shí)體關(guān)系18 種,構(gòu)建了自閉癥藥物知識(shí)圖譜,定義了自閉癥藥物實(shí)體間的語義關(guān)系,并分析了實(shí)體間的語義關(guān)系及語義涵義。采用路徑分析的知識(shí)發(fā)現(xiàn)方法,通過3 種路徑“疾病-靶標(biāo)-藥物”“疾病-靶標(biāo)-靶標(biāo)-藥物”、單點(diǎn)起源路徑進(jìn)行藥物知識(shí)發(fā)現(xiàn),發(fā)現(xiàn)藥物32 種;篩選出自閉癥潛力藥物27 種,采用臨床實(shí)驗(yàn)數(shù)據(jù)庫(kù)(https://clinicaltrials.gov)對(duì)預(yù)測(cè)的藥物結(jié)果進(jìn)行驗(yàn)證分析,驗(yàn)證了19 種藥物正處于臨床研究中,進(jìn)一步驗(yàn)證了本研究方法的有效性。基于以上研究結(jié)果和驗(yàn)證分析,認(rèn)為本研究方法可為藥物重定位提供一定的理論基礎(chǔ),可以為傳統(tǒng)藥物發(fā)現(xiàn)提供新的思路,為以后的臨床實(shí)驗(yàn)和研究提供決策支持。