

















收稿日期:2022-04-27;修回日期:2022-06-20" 基金項(xiàng)目:河北省自然科學(xué)基金資助項(xiàng)目(F2021205014,F(xiàn)2019205303);河北省高等學(xué)校科學(xué)技術(shù)研究項(xiàng)目(ZD2022139);中央引導(dǎo)地方科技發(fā)展資金資助項(xiàng)目(226Z1808G);河北省歸國(guó)人才資助項(xiàng)目(C20200340);河北師大重點(diǎn)項(xiàng)目(L2019Z10)
作者簡(jiǎn)介:王靜紅(1967-),女(通信作者),河北石家莊人,教授,碩導(dǎo),博士,主要研究方向?yàn)槿斯ぶ悄堋⒛J阶R(shí)別、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘(wangjinghong@126.com);張戴鵬(1996-),男,河北邢臺(tái)人,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘.
摘 要:
目前的ADMET分類方法在對(duì)具有多特征性和特征關(guān)聯(lián)性的化合物數(shù)據(jù)進(jìn)行ADMET分類時(shí)存在不足。而且,對(duì)ADMET分類結(jié)果不具備可解釋性。針對(duì)上述問(wèn)題,提出一種融合膠囊網(wǎng)絡(luò)的分類模型(CapsMC)。CapsMC模型首先提出一種feature-to-image圖像轉(zhuǎn)換算法。使用該算法將特征之間的關(guān)聯(lián)關(guān)系和依賴關(guān)系作為考量納入到分類依據(jù)中,實(shí)現(xiàn)特征的多層次提取。其次,探索膠囊網(wǎng)絡(luò)的高級(jí)應(yīng)用,提出一種認(rèn)知推理機(jī)制。使用該機(jī)制對(duì)特征進(jìn)行認(rèn)知推理,實(shí)現(xiàn)ADMET的可解釋性分類。模型在五種ADMET數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,CapsMC模型可以高效實(shí)現(xiàn)ADMET的可解釋性分類。
關(guān)鍵詞:ADMET;圖像轉(zhuǎn)換;膠囊網(wǎng)絡(luò);認(rèn)知推理機(jī)制;可解釋性分類
中圖分類號(hào):TP311"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2022)12-007-3574-08
doi:"" 10.19734/j.issn.1001-3695.2022.04.0200
Classification model based on capsule network
Wang Jinghonga,b,c, Zhang Daipenga
(a.College of Computer amp; Cyber Security, b.Hebei Provincial Engineering Research Center for Supply Chain Big Data Analytics amp; Security, c.Hebei Key Laboratory of Network amp; Information Security, Hebei Normal University, Shijiazhuang 050024, China)
Abstract:
The current ADMET classification methods have shortcomings in classifying the ADMET of compounds data with multiple characteristics and feature correlation. Moreover, the classification results of ADMET are not explainable. To solve these problems, this paper proposed a classification model based on capsule network (CapsMC). CapsMC model first proposed the Feature-to-Image algorithm. It used this algorithm to consider the correlation and dependence between features into the classification basis, and realized the multi-level extraction of features. Second, it explored the advanced application of capsule network, and designed a cognitive reasoning mechanism. It used this mechanism to carry out cognitive reasoning on features, and realized explainable classification of ADMET. Experimental results on five ADMET datasets show that CapsMC can achieve the explainable classification of ADMET well.
Key words:ADMET; feature-to-image; capsule network; cognitive reasoning mechanism; explainable classification
0 序言
一個(gè)化合物要想成為候選藥物則要衡量其藥代動(dòng)力學(xué)性質(zhì)和安全性,合稱為ADMET(absorption吸收、distribution分布、metabolism代謝、excretion排泄、toxicity毒性)[1]。發(fā)現(xiàn)和優(yōu)化具有理想ADMET性質(zhì)的治療藥物是藥物研發(fā)的重點(diǎn)。在過(guò)去的數(shù)十年中,高達(dá)50%的臨床實(shí)驗(yàn)失敗歸因于ADMET性能的不足[2]。傳統(tǒng)的候選藥物篩選依賴于人的經(jīng)驗(yàn),不能保證對(duì)候選藥物檢測(cè)的有效性和準(zhǔn)確性,無(wú)法快速準(zhǔn)確地找到合適的候選藥物。最近幾年,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的快速發(fā)展使其在醫(yī)學(xué)領(lǐng)域受到了廣泛的關(guān)注,其在候選藥物篩選、預(yù)測(cè)檢驗(yàn)結(jié)果以及緊急實(shí)時(shí)決策等方面表現(xiàn)尤為突出[3~5]。
近些年來(lái),眾多研究提出不同的分類方法對(duì)候選藥物的ADMET性質(zhì)進(jìn)行類別預(yù)測(cè)。目前ADMET性質(zhì)的分類方法主要包括基于機(jī)器學(xué)習(xí)的ADMET性質(zhì)分類方法和基于深度學(xué)習(xí)的ADMET性質(zhì)分類方法。
基于機(jī)器學(xué)習(xí)的ADMET分類方法雖然可以實(shí)現(xiàn)候選藥物的ADMET性質(zhì)的分類預(yù)測(cè),但是在面臨大型多特征的結(jié)構(gòu)化數(shù)據(jù)時(shí)就無(wú)法很好地完成分類任務(wù),存在表現(xiàn)能力不足的問(wèn)題。同時(shí),這些方法沒(méi)有考慮特征之間相互關(guān)聯(lián)和相互依賴的特性對(duì)分類結(jié)果的影響,例如在使用決策樹(shù)進(jìn)行預(yù)測(cè)時(shí),只考慮了以某一個(gè)特征展開(kāi)特征選擇,而不會(huì)考慮某一特征和另一特征的依賴是否會(huì)提高分類結(jié)果、某一特征與另一特征的關(guān)聯(lián)是否會(huì)提升分類性能等。
基于深度學(xué)習(xí)的ADMET分類方法在ADMET性質(zhì)預(yù)測(cè)的可解釋方面亟待解決。盡管基于深度學(xué)習(xí)的ADMET分類方法在ADMET性質(zhì)預(yù)測(cè)方面取得了一些成果,但仍存在一定的局限性。這些方法具有平移對(duì)稱性的優(yōu)勢(shì),但它們的信息處理機(jī)制不能解決ADMET性質(zhì)預(yù)測(cè)的一些問(wèn)題。ADMET性質(zhì)預(yù)測(cè)的特點(diǎn)是具有空間層次和特征的相對(duì)對(duì)稱性,這些方法在獲得其空間層次和特征的相對(duì)對(duì)稱性方面存在不足,而空間層次和特征的相對(duì)對(duì)稱性是可解釋分類的關(guān)鍵,這就為ADMET性質(zhì)分類結(jié)果的可解釋帶來(lái)了很大的挑戰(zhàn)。
針對(duì)以上ADMET性質(zhì)分類方法中存在的問(wèn)題,本文提出一種融合膠囊網(wǎng)絡(luò)的分類(classification model based on capsule network,CapsMC)模型。本文的主要貢獻(xiàn)如下:
a)針對(duì)處理多特征的關(guān)聯(lián)性和依賴性強(qiáng)的結(jié)構(gòu)化數(shù)據(jù)問(wèn)題,本文提出feature-to-image(F2I)模型,將特征之間的關(guān)聯(lián)性和相互依賴性作為考量納入到分類依據(jù)中,使得實(shí)驗(yàn)結(jié)果更加真實(shí)有效。
b)針對(duì)ADMET性質(zhì)的可解釋預(yù)測(cè),本文提出一種認(rèn)知推理機(jī)制,對(duì)特征進(jìn)行認(rèn)知推理,實(shí)現(xiàn)ADMET的可解釋分類。同時(shí)本文給出了認(rèn)知推理機(jī)制的推導(dǎo)過(guò)程和適用于該機(jī)制下?lián)p失函數(shù)的推導(dǎo)過(guò)程。
c)大量實(shí)驗(yàn)證明,在預(yù)測(cè)ADMET性質(zhì)時(shí),CapsMC模型在復(fù)雜的多特征數(shù)據(jù)集中表現(xiàn)優(yōu)秀。
1 相關(guān)工作
1.1 基于機(jī)器學(xué)習(xí)的ADMET分類方法
基于機(jī)器學(xué)習(xí)的ADMET分類方法是將ADMET性質(zhì)和分子特征聯(lián)系起來(lái),并為不同范圍的分子結(jié)構(gòu)和機(jī)制建立復(fù)雜的定量結(jié)構(gòu)—性質(zhì)關(guān)系(QSAR),在預(yù)測(cè)ADMET性質(zhì)方面展現(xiàn)很好的潛力[6,7]。近些年,隨著機(jī)器學(xué)習(xí)的發(fā)展,研究者通過(guò)改進(jìn)機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)一步覆蓋多種ADMET性質(zhì),特別是在預(yù)測(cè)吸收、排泄、分布等性質(zhì)方面[8~11]。總體來(lái)看,機(jī)器學(xué)習(xí)模型就是建立QSAR關(guān)系,然后實(shí)現(xiàn)性質(zhì)的類別預(yù)測(cè)。最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型是邏輯回歸(logistic regression,LR)模型,該模型假設(shè)待預(yù)測(cè)的ADMET性質(zhì)線性依賴于化合物的特征,然而非線性模型通常可以獲得較好的性能[12]。K近鄰模型(K nearest neighbor,KNN)是一種用于模式識(shí)別的非線性方法,是用于ADMET基準(zhǔn)測(cè)試的一種標(biāo)準(zhǔn)的、經(jīng)典的、眾所周知的技術(shù)[13]。文獻(xiàn)[14]研究了基于KNN的QSAR模型的代謝穩(wěn)定性。文獻(xiàn)[15]提出一種基于樸素貝葉斯(naive Bayesian,NB)的模型來(lái)預(yù)測(cè)小鼠肝臟微粒體(MLM)的穩(wěn)定性。最常用的非線性分類模型是決策樹(shù)(decision tree,DT),DT的優(yōu)點(diǎn)在于能夠可視化其預(yù)測(cè)的過(guò)程。DT通過(guò)建立一組或者多組IF-ELSE-THEN規(guī)則實(shí)現(xiàn)性質(zhì)分類。然而,當(dāng)數(shù)據(jù)面臨類別數(shù)量不均衡的數(shù)據(jù)以及稀疏數(shù)據(jù)時(shí)會(huì)出現(xiàn)信息增益偏向于多數(shù)量的特征,從而不能很好地實(shí)現(xiàn)分類效果。支持向量機(jī)(support vector machine,SVM)很好地克服了這一問(wèn)題。SVM通過(guò)找尋類別劃分超平面,實(shí)現(xiàn)對(duì)類別的預(yù)測(cè)。文獻(xiàn)[16]基于SVM研究了血腦屏障的穿透性,并使用包括活性化合物和非活性分子的訓(xùn)練集進(jìn)行驗(yàn)證。結(jié)論得出,該模型的平均準(zhǔn)確率為81.5%。文獻(xiàn)[17]使用SVM、KNN、概率神經(jīng)網(wǎng)絡(luò)、最小二乘法和Fisher線性判別分析(LDA)來(lái)預(yù)測(cè)ADMET特性,結(jié)果顯示,SVM的預(yù)測(cè)性能最好。文獻(xiàn)[18]使用隨機(jī)森林(random forest,RF)對(duì)BBB滲透率的準(zhǔn)確性和P-糖蛋白的性質(zhì)預(yù)測(cè),準(zhǔn)確率達(dá)到80%。此外,XGBoost在生物和化學(xué)的回歸和分類任務(wù)中效果顯著[19,20]。
1.2 基于深度學(xué)習(xí)的ADMET分類方法
基于深度學(xué)習(xí)的ADMET分類方法已顯示出從更復(fù)雜的數(shù)據(jù)中學(xué)習(xí)特征的能力[21]。深度學(xué)習(xí)已經(jīng)在藥物檢測(cè)和篩選中得到相應(yīng)的應(yīng)用,最廣泛使用的深度學(xué)習(xí)模型是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。文獻(xiàn)[22]提出了AtomNet模型,它是第一個(gè)基于結(jié)構(gòu)的CNN模型,用于預(yù)測(cè)特定受體的化學(xué)配體,取得了比經(jīng)典對(duì)接方法更好的性能。Chen等人[23]建立了一個(gè)基于CNN的Chemception模型。它使用二維分子圖像來(lái)預(yù)測(cè)化學(xué)特性。最近。文獻(xiàn)[24]使用分子圖像作為CNN的輸入,構(gòu)建了一個(gè)分子毒性分類模型,并取得了良好的效果。文獻(xiàn)[25]也使用基于分子二維圖像的CNN方法構(gòu)建了一個(gè)ADMET特性的預(yù)測(cè)模型,并取得了與現(xiàn)有機(jī)器學(xué)習(xí)模型相當(dāng)?shù)男阅堋?015年,文獻(xiàn)[26]提出一種在分子指紋圖上做卷積的網(wǎng)絡(luò),開(kāi)創(chuàng)使用圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)分析化學(xué)和生物分子信息的先河。GNN是直接利用原始分子的圖形結(jié)構(gòu)表示作為輸入數(shù)據(jù),其中原子表示為節(jié)點(diǎn),鍵表示為圖形的邊[27]。文獻(xiàn)[28]提出一種圖卷積網(wǎng)絡(luò)實(shí)現(xiàn)ADMET屬性進(jìn)行建模;文獻(xiàn)[29]證明使用多任務(wù)圖卷積方法預(yù)測(cè)ADMET性質(zhì)是一種極具競(jìng)爭(zhēng)力的選擇;文獻(xiàn)[30]將圖卷積應(yīng)用于顯式分子表示,高效地實(shí)現(xiàn)了ADMET性質(zhì)的類別預(yù)測(cè)。多任務(wù)圖注意模型(multi-task graph attention,MGA)[31]是一種充分利用現(xiàn)有毒性數(shù)據(jù)的新方法,它可以同時(shí)學(xué)習(xí)回歸和分類任務(wù)進(jìn)行毒性預(yù)測(cè)。該方法是ADMETlab 2.0[31]在線ADMET性質(zhì)檢測(cè)平臺(tái)的核心組件。ADMETlab 2.0是目前最好的ADMET性質(zhì)檢測(cè)平臺(tái),它提供了全面、準(zhǔn)確、高效和用戶友好的ADMET評(píng)估服務(wù)[31]。
1.3 基于膠囊網(wǎng)絡(luò)的ADMET分類方法
根據(jù)本文對(duì)文獻(xiàn)的調(diào)查研究,目前還沒(méi)有基于膠囊網(wǎng)絡(luò)的ADMET性質(zhì)分類模型。本文擬結(jié)合Hinton等人[32]提出的膠囊網(wǎng)絡(luò)(capsule network,CapsNet)實(shí)現(xiàn)ADMET高級(jí)特征的提取和ADMET性質(zhì)的可解釋性預(yù)測(cè)。CapsNet用膠囊代替?zhèn)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)中的標(biāo)量神經(jīng)元,膠囊是等變的,每一個(gè)膠囊由一個(gè)向量組成,每一個(gè)神經(jīng)元代表同一特征的不同屬性值[33]。實(shí)現(xiàn)膠囊的一般方法有三種:轉(zhuǎn)換自動(dòng)編碼器[32]、基于動(dòng)態(tài)路由的向量膠囊[34]和基于期望最大化路由的矩陣膠囊[35]。第一個(gè)膠囊網(wǎng)絡(luò)旨在強(qiáng)調(diào)網(wǎng)絡(luò)識(shí)別姿勢(shì)的能力;第二個(gè)膠囊網(wǎng)絡(luò)對(duì)上一個(gè)膠囊進(jìn)行改進(jìn),去除了姿勢(shì)數(shù)據(jù)作為輸入,使用向量表示膠囊;第三個(gè)膠囊與使用向量輸出相反,將膠囊的輸入和輸出表示為矩陣。本文融合第二種方法的原理提出適用于本文問(wèn)題的認(rèn)知推理機(jī)制,并利用此機(jī)制設(shè)計(jì)特征認(rèn)知推理模型,實(shí)現(xiàn)特征推理。特征認(rèn)知推理模型將膠囊視為向量,通過(guò)本文提出的認(rèn)知推理機(jī)制實(shí)現(xiàn)低級(jí)膠囊激活高級(jí)膠囊,低級(jí)膠囊代表低層特征,高級(jí)膠囊代表高層特征,進(jìn)而將特征之間的關(guān)聯(lián)性轉(zhuǎn)換為特征映射,同時(shí)挖掘出其他空間層次的相關(guān)特征信息。將激活的膠囊進(jìn)一步壓縮轉(zhuǎn)換為概率膠囊,實(shí)現(xiàn)ADMET的可解釋預(yù)測(cè)。
2 模型設(shè)計(jì)
CapsMC模型是一種能夠處理大型數(shù)據(jù)集和提取高維特征的模型。該模型能夠?qū)崿F(xiàn)可解釋性分類。CapsMC模型的基本結(jié)構(gòu)如圖1所示。CapsMC模型主要包含三大部分,分別是F2I轉(zhuǎn)換模型、特征提取模型和特征認(rèn)知推理模型。F2I轉(zhuǎn)換模型主要用于將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù);特征提取模型主要用于初步特征提取;特征認(rèn)知推理模型主要用于對(duì)特征提取模型輸出的特征映射量化相關(guān)性,進(jìn)行進(jìn)一步的特征提取、特征組合以及通過(guò)認(rèn)知推理機(jī)制實(shí)現(xiàn)類別可解釋預(yù)測(cè)。
2.1 F2I轉(zhuǎn)換模型
受到Cai等人[36]的啟發(fā),本文提出F2I轉(zhuǎn)換模型。F2I轉(zhuǎn)換模型的核心思想是結(jié)合計(jì)算機(jī)中存儲(chǔ)的RGB圖像的特點(diǎn),將結(jié)構(gòu)化數(shù)據(jù)集中的每一個(gè)表示實(shí)例的特征向量轉(zhuǎn)換為灰度圖像矩陣,然后利用圖像分類的方法對(duì)實(shí)例進(jìn)行分類。
令特征矩陣F(aij)∈Euclid ExtraaBpn×d表示結(jié)構(gòu)化數(shù)據(jù)集,二維矩陣X(sij)∈Euclid ExtraaBpz×z表示灰度圖像矩陣,其中Fi表示第i個(gè)特征向量,d表示特征向量的維度,z表示圖像矩陣存儲(chǔ)特征向量需要的維度,z=2d,aij表示第i個(gè)特征向量的第j個(gè)特征,sij表示圖像的灰度值,則有
X=F2I(Fi,d)(1)
F2I轉(zhuǎn)換模型首先對(duì)特征矩陣F按照特征列進(jìn)行歸一化處理,歸一化函數(shù)定義為
ij=(1-Ij)aij-min(a1j,a2j,…,anj)max(a1j,a2j,…,anj)-min(a1j,a2j,…,anj)+
Ijeaij∑ni=1eaij
i∈(1,2,…,n),j∈(1,2,…,d)(2)
其中:I是歸一化指示函數(shù),當(dāng)特征列不存在負(fù)數(shù)值時(shí)I=0,存在負(fù)數(shù)值時(shí)I=1。
在歸一化后,將歸一化后的值輸入到式(3)中生成z×z的圖像灰度矩陣。進(jìn)一步將圖像灰度矩陣轉(zhuǎn)換為大小是z×z的圖像,如圖2所示。
在轉(zhuǎn)換過(guò)程中,當(dāng)z2gt;d時(shí),需要進(jìn)行缺角填充。缺角填充是指特征向量在轉(zhuǎn)換過(guò)程中,無(wú)法填滿灰度圖像矩陣X,需要對(duì)其沒(méi)有填滿的地方進(jìn)行像素值補(bǔ)充。缺角填充使用特征向量所求的平均值進(jìn)行填充,即
suk=「255×∑dj=1ijd(3)
其中:suk表示圖像灰度矩陣中第u行k列需要填充的值,在填充完成后,即可實(shí)現(xiàn)灰度圖像的轉(zhuǎn)換。
算法1 灰度圖像矩陣轉(zhuǎn)換算法
輸入:特征矩陣行向量Fi(ij)∈Euclid ExtraaBp1×d,特征矩陣維度d。
輸出:灰度圖像矩陣X(sij)∈Euclid ExtraaBpz×z。
a)計(jì)算灰度圖像矩陣的維度z←「2d
b)隨機(jī)初始化圖像灰度矩陣X(sij)∈Euclid ExtraaBpz×z
c)定義計(jì)數(shù)變量b←0
d)for j←1,2,…,z do
e)" for k←1,2,…,z do
f)"""" if b≤d:
g)""""" sjk←|255ib|;
h)""""" b←b+1;
i)"""" else:
j)""""" sjk ← |255∑dp=1ipd|;
h) return X
在算法1中,輸入為特征矩陣行向量Fi(ij)∈Euclid ExtraaBp1×d,特征矩陣維度d,輸出為灰度圖像矩陣X(sij)∈Euclid ExtraaBpz×z,其中ij表示Fi的第j個(gè)元素值,j∈{1,2,…,z},sij表示X的第i行j列的元素值,i,j∈{1,2,…,z}。算法1首先根據(jù)特征矩陣的維度d計(jì)算得出灰度圖像矩陣的維度z,隨后初始化一個(gè)z×z的灰度圖像矩陣X。在準(zhǔn)備工作充足后,開(kāi)始進(jìn)行灰度值填充,灰度值即為經(jīng)過(guò)特征矩陣行向量Fi中的元素值。首先定義一個(gè)計(jì)數(shù)變量b,計(jì)數(shù)變量的值b小于特征維度d,該計(jì)數(shù)變量的作用是Fi的索引值,即ib表示Fi的第b個(gè)值。其次,循環(huán)遍歷灰度圖像矩陣X,將對(duì)應(yīng)的特征行向量的元素值,填入到其中。在填入時(shí),若行向量的已完全填充,但X中的像素未填充完,即z2gt;d時(shí)進(jìn)行缺角填充。最后,將生成的灰度圖像矩陣X輸出,完成灰度圖像矩陣轉(zhuǎn)換。灰度圖像矩陣轉(zhuǎn)換算法的時(shí)間復(fù)雜度是O(n2)。灰度圖像轉(zhuǎn)換只在數(shù)據(jù)預(yù)處理時(shí)處理一次,相對(duì)而言,時(shí)間復(fù)雜度在可接受范圍內(nèi)。該算法將特征的屬性信息進(jìn)行重組實(shí)現(xiàn)相互依賴特征信息的處理,并顯著提高了分類的性能。
2.2 特征提取模型
特征提取模型采用4組卷積層、1組池化層以及2組全連接層,如圖3所示。第1、2組卷積層采用5×5×64的卷積核,使用ReLU函數(shù)作為激活函數(shù);第3、4組卷積層采用3×3×32的卷積核,用ReLU函數(shù)作為激活函數(shù),池化層選用平均池化,用于保存更多的圖像數(shù)據(jù)的背景信息,全連接層用于特征擬合。
卷積層對(duì)F2I模型的特征進(jìn)行提取。設(shè)輸入第l層的特征映射為δli(i=1,2,…,I),輸出的第l+1層特征映射為δl+1j(j=1,2,…,J),輸入的卷積核為Wl+1ji,尺寸為K×K,可得輸出的l+1層特征映射為
δl+1j(x,y)=σ(∑Ii=1 ∑K-1w,hWl+1ji(w,h)*δli(x-w,y-h)+wb)(4)
其中:I為輸入特征映射的深度;J為輸出特征映射的深度;(x,y)為輸出特征映射的第x行第y列特征;(w,h)表述輸入特征映射的第w行第h列的特征;wb為偏置;*為進(jìn)行卷積運(yùn)算;σ(·)為激活函數(shù),本文選用ReLU函數(shù)作為激活函數(shù)。
本文采用平均池化來(lái)最大程度保護(hù)F2I特征圖的背景信息,平均池化的計(jì)算方式如下:
fj(x,y,z)=∑h,w1≤x≤h,1≤y≤wδl+1j(x-h(huán),y-w,z)h+w(5)
其中:(x,y)表示輸出特征映射的第x行第y列特征;z表示特征值;h和w表示空間窗口的寬和高。
全連接層的作用是擬合多層卷積核池化操作后輸出的特征映射,為特征認(rèn)知推理模型輸入做準(zhǔn)備。設(shè)輸入第l層特征映射為yli(i=1,2,…,I),輸出的第l+1特征映射為yl+1j(j=1,2,…,J),加權(quán)權(quán)重為ωl+1ji,偏置為wb,其中σ(·)表示激活函數(shù),n表示神經(jīng)元的個(gè)數(shù),本文選用ReLU函數(shù)作為激活函數(shù),則有
yl+1j=σ∑ni=1ωl+1jiyli+wb(6)
2.3 特征認(rèn)知推理模型
特征認(rèn)知推理模型是用于對(duì)圖像特征的進(jìn)一步提取、特征組合和實(shí)現(xiàn)ADMET性質(zhì)的類別預(yù)測(cè)。膠囊是由一組神經(jīng)元組成,是一個(gè)向量。膠囊的模長(zhǎng)表示預(yù)測(cè)類別的概率,方向代表實(shí)例化參數(shù)。下一層的膠囊通過(guò)認(rèn)知推理機(jī)制實(shí)現(xiàn)對(duì)上一層的膠囊的預(yù)測(cè)。當(dāng)多個(gè)下一層的膠囊對(duì)上一層的膠囊預(yù)測(cè)一致時(shí),上一層的膠囊將被激活,成為激活向量。本文設(shè)計(jì)的膠囊網(wǎng)絡(luò)由卷積層、PrimaryCaps層、DigitCaps層組成,如圖4所示。卷積層采用256個(gè)9×9的卷積核對(duì)特征提取模型輸出的特征映射進(jìn)行特征提取;PrimaryCaps層將32個(gè)6×6×8的膠囊與8×16的權(quán)重矩陣做點(diǎn)積計(jì)算得出C個(gè)16維數(shù)字膠囊,即采用認(rèn)知推理機(jī)制實(shí)現(xiàn)數(shù)字膠囊的生成。DigitCaps層同時(shí)將C個(gè)16維數(shù)字膠囊通過(guò)擠壓函數(shù)輸出C個(gè)類別對(duì)應(yīng)的概率從而完成類別預(yù)測(cè)。認(rèn)知推理機(jī)制的原理及算法描述詳見(jiàn)本文第3章。
3 認(rèn)知推理機(jī)制原理及算法描述
在本文中,認(rèn)知推理機(jī)制用于計(jì)算膠囊的矢量輸出和輸入,認(rèn)知推理機(jī)制的迭代過(guò)程如圖5所示。
3.1 認(rèn)知推理機(jī)制原理及算法描述
認(rèn)知推理機(jī)制通過(guò)投票機(jī)制實(shí)現(xiàn)低級(jí)膠囊激活高級(jí)膠囊的方式找出高層特征和底層特征之間的關(guān)系。認(rèn)知推理機(jī)制的輸入是32組6×6×8的低級(jí)膠囊、迭代次數(shù)r以及膠囊層數(shù)l,用ui表示第l層低級(jí)膠囊的一個(gè)膠囊單元;輸出是C個(gè)類別的概率。認(rèn)知推理機(jī)制首先對(duì)迭代系數(shù)b進(jìn)行初始化,b初始化的值為0。將第l層低級(jí)膠囊u通過(guò)乘以8×16的權(quán)重矩陣W進(jìn)行仿射變換,進(jìn)而得到高級(jí)膠囊,用Wij表示權(quán)重矩陣的一個(gè)元素,用j|i表示得到的高級(jí)膠囊的一個(gè)單元,則j|i=Wijui,則類別概率膠囊vj見(jiàn)式(7),其中squashing是指將膠囊壓縮為一個(gè)在[0,1]的概率的擠壓函數(shù)。
e(j)v=squashing∑ie∑jo=1voo|iev11|i+ev11|i+v22|i+…+e∑jo=1voo|ij|i=
squashing∑ie∑jo=1voWiouiev1Wi1ui+ev1Wi1ui+v2Wi2ui+…+e∑jo=1voWiouiWijui(7)
令
bij=∑jo=1voWioui=v11|i+v22|i+…+vjj|i(8)
將式(8)代入式(7)中可得
vj=squashingexp(bij)∑kexp(bik)j|i(9)
令耦合系數(shù)cij=ebij∑kebik,則數(shù)字膠囊
xj=∑icijj|i=∑iebij∑kebikj|i(10)
從而
vj=squashing(xj)=‖xj‖21+‖xj‖2 xj‖xj‖(11)
認(rèn)知推理機(jī)制將得到的高級(jí)膠囊通過(guò)耦合系數(shù)cij對(duì)其進(jìn)行投票得到c個(gè)16維的數(shù)字膠囊xj,將數(shù)字膠囊xj通過(guò)squashing擠壓函數(shù)壓縮為一個(gè)在[0,1]的類別概率膠囊vj,更新迭代系數(shù)bij,直到達(dá)到迭代次數(shù)r,其中bij=bij+j|ivj,最后對(duì)比各個(gè)類別概率值的大小實(shí)現(xiàn)對(duì)類別的預(yù)測(cè)。
算法2 CapsMC模型認(rèn)知推理機(jī)制迭代過(guò)程
輸入:低級(jí)膠囊u,迭代次數(shù)r,膠囊層數(shù)l,當(dāng)前類別標(biāo)簽j。
輸出:C個(gè)類別的概率膠囊vj。
a)對(duì)第l層低級(jí)膠囊u和第l+1層高級(jí)膠囊
初始化bij←0;
b) for i=1,2,…,len(u) do
c)" j|i←Wijui, xj←∑icijj|i,r←3;
d)" for r iterations do
e)"" cij← ebij∑kebik
f)"" xj←∑icijj|i
g)"" vj←squashing(xj)
h)"" bij←bij+j|ivj
i) return vj
該算法通過(guò)認(rèn)知推理機(jī)制實(shí)現(xiàn)了低級(jí)膠囊到高級(jí)膠囊的認(rèn)知推理,使用擠壓函數(shù)將高級(jí)膠囊轉(zhuǎn)換為概率膠囊,使得ADMET性質(zhì)預(yù)測(cè)結(jié)果具有可解釋性。該算法的復(fù)雜度是O(n),時(shí)間復(fù)雜度的計(jì)算主要來(lái)源于低級(jí)膠囊和高級(jí)膠囊的轉(zhuǎn)換過(guò)程。該算法通過(guò)認(rèn)知推理機(jī)制實(shí)現(xiàn)了特征推理,給每一個(gè)特征計(jì)算一個(gè)概率可能性,使得最終的分類結(jié)果是認(rèn)知的、可解釋的,明顯提升了分類性能。
3.2 模型訓(xùn)練
為使模型訓(xùn)練效果顯著,CapsMC模型的損失函數(shù)采用邊緣損失函數(shù),限制邊緣上界為m+,邊緣下界為m-。
假定CapsMC模型得到的概率樣本為
v1,v2,…,vj,…,vn,vj∈Euclid ExtraaBpc,j=1,2,…,n
其中:vj是c維的概率膠囊,c是類別的個(gè)數(shù),n是樣本數(shù)量。這些概率樣本在c維空間中都是線性可分的,即存在超平面
g(x)=x21+x22+…+x2c=m2(12)
使得概率樣本全部可以沒(méi)有錯(cuò)誤的分開(kāi)。其中xi∈Euclid ExtraaBpc是概率膠囊vj在c維空間向量的坐標(biāo),也是預(yù)測(cè)某類別的概率值,m表示邊界。
設(shè)若概率樣本所預(yù)測(cè)的類別存在,則預(yù)測(cè)的概率樣本值都大于等于m+,若概率樣本所預(yù)測(cè)的類別不存在,則預(yù)測(cè)的概率樣本值都小于等于m-。則決策函數(shù)為
x21+x22+…+x2c≥m+" xi∈Euclid ExtraaBpc
x21+x22+…+x2c≤m-" xi∈Euclid ExtraaBpc(13)
其中:m+是邊緣上界;m-是邊緣下界;c是指預(yù)測(cè)概率的類別。
根據(jù)最小平方誤差準(zhǔn)則,概率樣本到邊緣的最小平方誤差損失是|m-2|g(x)||2。
對(duì)于邊緣下界,計(jì)算概率樣本所預(yù)測(cè)類別不存在的損失為
∑jmin(0,m--2|g(x)|)2
s.t. 2x21+x22+…+x2c-m-≤0" xi∈Euclid ExtraaBpc(14)
等價(jià)于
∑jmax(0,2|g(x)|-m-)2
s.t. 2x21+x22+…+x2c-m-≤0" xi∈Euclid ExtraaBpc(15)
對(duì)于邊緣上界,計(jì)算存在的概率樣本的損失為
∑jmin(0,2|g(x)|-m+)2
s.t. 2x21+x22+…+x2c-m+≥0" xi∈Euclid ExtraaBpc(16)
等價(jià)于
∑jmax(0,m+-2|g(x)|)2
s.t. 2x21+x22+…+x2c-m+≥0" xi∈Euclid ExtraaBpc(17)
對(duì)于所有的概率樣本,所預(yù)測(cè)的類別只存在兩種情況:類別存在和類別不存在,即類別樣本具有互斥性。定義I為分類指示函數(shù),則當(dāng)預(yù)測(cè)的類別存在時(shí)I=1,當(dāng)預(yù)測(cè)的類別不存在時(shí)I=0。則對(duì)于所有概率樣本的損失有
∑jIjmax(0,m+-‖vj‖)2+(1-Ij)max(0,‖vj‖-m-)2(18)
在模型訓(xùn)練過(guò)程中會(huì)出現(xiàn)類別樣本比例失衡的問(wèn)題,因此加入一個(gè)權(quán)重因子,用來(lái)調(diào)整類別存在和類別不存在的比重。最終的損失函數(shù)為
CapsMC_Loss=∑jIjmax(0,m+-‖vj‖)2+
λ(1-Ij)max(0,‖vj‖-m-)2(19)
其中:m+表示邊緣上界;m-表示邊緣下界;vj是概率膠囊,表示輸出屬于某類別的概率,vj表示一個(gè)膠囊的L2范數(shù)。λ是權(quán)重因子,為了減少某類未出現(xiàn)時(shí),就把所有激活的數(shù)字膠囊進(jìn)行壓縮。本文遵循向量膠囊[13]的設(shè)計(jì)參數(shù),選用 λ=0.5,m+=0.9,m-=0.1。
CapsMC模型的一般學(xué)習(xí)過(guò)程如算法3所示。在模型訓(xùn)練過(guò)程中,模型首先通過(guò)F2I轉(zhuǎn)換模型將結(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換為圖像數(shù)據(jù)集,并將數(shù)據(jù)集按照訓(xùn)練集占總體樣本的80%,測(cè)試集占總體樣本的20%的比例對(duì)數(shù)據(jù)集進(jìn)行切分。將切分后的數(shù)據(jù)集輸入到特征提取模型,特征提取模型的輸出即為特征認(rèn)知推理模型的輸入。特征認(rèn)知推理模型輸出每一個(gè)類別的可能概率,通過(guò)對(duì)比概率選擇概率高的作為該類別的預(yù)測(cè)類別,從而實(shí)現(xiàn)類別預(yù)測(cè)。
算法3 CapsMC模型訓(xùn)練過(guò)程算法
輸入:n行d列的數(shù)據(jù)集,訓(xùn)練次數(shù)epochs。
輸出:預(yù)測(cè)的類別。
a)初始化灰度圖像數(shù)據(jù)集 X^
b) for r←1,2,…,n do
c)"" 選取數(shù)據(jù)集的r行,將其通過(guò)F2I模型轉(zhuǎn)換成灰度圖像矩陣X;
d)" 將X添加入 X^;
e) 將X^按照8∶2換分訓(xùn)練集和測(cè)試集;
f) for epoch←1,2,…, epochs do
g)"" 使用訓(xùn)練集訓(xùn)練CapsMC模型;
h)"" 使用CapsMC_Loss計(jì)算模型訓(xùn)練損失,更新模型參數(shù);
i)""" 使用測(cè)試集對(duì)模型進(jìn)行驗(yàn)證;
j) 比較輸出的每種類別的概率,輸出預(yù)測(cè)結(jié)果
4 實(shí)驗(yàn)
本章針對(duì)本文提出的CapsMC模型共進(jìn)行四組實(shí)驗(yàn):第一組實(shí)驗(yàn)是驗(yàn)證CapsMC模型對(duì)ADMET性質(zhì)預(yù)測(cè)的準(zhǔn)確性;第二組實(shí)驗(yàn)是將其與基于機(jī)器學(xué)習(xí)基本算法的方法進(jìn)行對(duì)比,驗(yàn)證CapsMC模型的可靠性;第三組實(shí)驗(yàn)是將其與目前大型公司常用的基于機(jī)器學(xué)習(xí)集成算法的方法進(jìn)行對(duì)比,驗(yàn)證CapsMC模型的先進(jìn)性和有效性;第四組實(shí)驗(yàn)將其與基于深度學(xué)習(xí)的方法進(jìn)行對(duì)比,首先,選用目前最先進(jìn)的深度學(xué)習(xí)模型MGA模型進(jìn)行對(duì)比,驗(yàn)證CapsMC模型的前沿性和高效性;其次,加入本文提出的F2I模型+CNN模型(F2I-CNN)的對(duì)比實(shí)驗(yàn),用來(lái)驗(yàn)證本文提出的F2I模型的有效性和提出的認(rèn)知推理機(jī)制對(duì)實(shí)驗(yàn)結(jié)果的影響。
實(shí)驗(yàn)環(huán)境采用一臺(tái)3.2 GHz、8 GB內(nèi)存和運(yùn)行Python 3.6的NVIDIA GeForce RTX 3060 Laptop GPU的計(jì)算機(jī),對(duì)比算法模型庫(kù)來(lái)源于Scikit-learn。
4.1 數(shù)據(jù)集
本文使用小腸上皮細(xì)胞滲透性(Caco-2)、細(xì)胞色素P450酶(Cytochrome P450,CYP)3A4亞型(CYP3A4)、化合物心臟安全性評(píng)價(jià)(human ether-a-go-go related gene,hERG)、人體口服生物利用度(human oral bioavailability,HOB)和微核實(shí)驗(yàn)(micronucleus,MN)五種ADMET性質(zhì)對(duì)CapsMC模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。具體ADMET性質(zhì)數(shù)據(jù)集如表1所示。
4.2 實(shí)驗(yàn)評(píng)估指標(biāo)與實(shí)驗(yàn)參數(shù)設(shè)置
在醫(yī)學(xué)領(lǐng)域,對(duì)于二分類問(wèn)題通常采用陽(yáng)性(positive)和陰性(negative)代表兩類,陽(yáng)性代表某一癥狀存在陰性表示某一癥狀不存在。對(duì)于一個(gè)樣本的類別只有兩種可能陽(yáng)性或陰性,因此可得決策結(jié)果有真正例TP、假正例FP、真負(fù)例TN、假負(fù)例FN四種。為更加全面地評(píng)估模型,本實(shí)驗(yàn)選用查準(zhǔn)率(precision)、查全率(recall)以及F1值進(jìn)行實(shí)驗(yàn)驗(yàn)證。評(píng)價(jià)指標(biāo)形式化定義如下:
precision=TPTP+FP(20)
recall=TPTP+FN(21)
F1=1121precision+1recall=2TP2TP+FP+FN(22)
除了上述指標(biāo),采用AUC值作為衡量模型的指標(biāo)。AUC值是ROC曲線下方的面積,AUC值通常在0.5~1,值越大說(shuō)明模型相對(duì)越好。
本實(shí)驗(yàn)的參數(shù)設(shè)置為批處理大小為64,迭代次數(shù)epochs為1 000次。本文選用Adam優(yōu)化器優(yōu)化損失函數(shù)。本文采用交叉驗(yàn)證的方法將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于對(duì)模型的訓(xùn)練,測(cè)試集用于對(duì)模型的測(cè)試和驗(yàn)證,訓(xùn)練集和測(cè)試集的比例為8∶2。
4.3 實(shí)驗(yàn)結(jié)果分析
CapsMC模型分別對(duì)五種數(shù)據(jù)集進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程如圖6所示。從圖6中看,對(duì)于準(zhǔn)確率而言,CapsMC模型對(duì)訓(xùn)練集的準(zhǔn)確率達(dá)到了100%,在驗(yàn)證集上的準(zhǔn)確率最高達(dá)到100%;對(duì)于損失而言,CapsMC模型對(duì)所有ADMET性質(zhì)在訓(xùn)練集的損失均接近0,對(duì)Caco-2、CYP3A4、hERG、MN四種性質(zhì)在驗(yàn)證集的損失小于0.1,對(duì)HOB性質(zhì)在驗(yàn)證集上的損失小于0.2。綜合來(lái)看,CapsMC模型在訓(xùn)練時(shí)的精確度和損失不存在梯度消失和梯度爆炸現(xiàn)象,具有快速收斂性和快速穩(wěn)定性。
計(jì)算加權(quán)后的precision、recall、F1值以及AUC值,得到實(shí)驗(yàn)評(píng)估結(jié)果如表2所列。
五種ADMET性質(zhì)使用CapsMC模型不同評(píng)價(jià)指標(biāo)的統(tǒng)計(jì)如圖7所示。從圖7中能夠得出,CapsMC模型對(duì)四種ADMET性質(zhì)的預(yù)測(cè)準(zhǔn)確率在四種評(píng)價(jià)指標(biāo)上達(dá)到90%以上,五種類別的平均預(yù)測(cè)準(zhǔn)確度在三種評(píng)價(jià)指標(biāo)上達(dá)到了90%以上。CapsMC模型對(duì)Caco-2、CYP3A4、hERG、HOB、MN五種性質(zhì)類別預(yù)測(cè)的F1平均值、precision平均值、recall平均值均達(dá)到90%以上。其中,CapsMC模型對(duì)CYP3A4預(yù)測(cè)的查準(zhǔn)率最高,達(dá)到95.16%。CapsMC模型對(duì)五種ADMET性質(zhì)類別預(yù)測(cè)的AUC值最高達(dá)0.93,平均值接近0.90。
4.4 對(duì)比實(shí)驗(yàn)
為了展示模型的性能,實(shí)驗(yàn)設(shè)置為三組對(duì)照組:基于機(jī)器學(xué)習(xí)基本算法的ADMET性質(zhì)分類方法、基于機(jī)器學(xué)習(xí)集成算法的ADMET性質(zhì)分類方法和基于深度學(xué)習(xí)的ADMET分類方法。對(duì)比實(shí)驗(yàn)結(jié)果選用了F1值、precision、recall、AUC值四種評(píng)估指標(biāo)進(jìn)行對(duì)比。
4.4.1 基于機(jī)器學(xué)習(xí)基本算法的ADMET性質(zhì)分類方法的對(duì)比實(shí)驗(yàn)
基于機(jī)器學(xué)習(xí)基本算法的ADMET性質(zhì)分類方法將CapsMC模型DT模型、SVM模型、KNN模型、LR模型、FDA模型、NB模型六種基本算法進(jìn)行了實(shí)驗(yàn)對(duì)比。對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表3所列。在表3~5中使用F表示F1值,使用P表示precision值、使用R表示recall值,使用A表示AUC值。
表3表明,從每個(gè)模型在各個(gè)數(shù)據(jù)集上的表現(xiàn)來(lái)看,在對(duì)Caco-2的預(yù)測(cè)的評(píng)價(jià)指標(biāo)中,模型的四種評(píng)價(jià)指標(biāo)均高于其他六種機(jī)器學(xué)習(xí)分類模型約4%,相應(yīng)的對(duì)CYP3A4的預(yù)測(cè)的機(jī)器學(xué)習(xí)分類模型三種評(píng)價(jià)指標(biāo)均高于約3%,AUC值高約5%;相應(yīng)的對(duì)hERG預(yù)測(cè)的機(jī)器學(xué)習(xí)分類模型四種評(píng)價(jià)指標(biāo)均高于約1%;相應(yīng)的對(duì)HOB的預(yù)測(cè)的機(jī)器學(xué)習(xí)分類模型三種評(píng)價(jià)指標(biāo)均高于約1%,召回率CapsMC模型低于LDA分類模型約1%。相應(yīng)的對(duì)MN預(yù)測(cè)的機(jī)器學(xué)習(xí)分類模型三種指標(biāo)均高于約3%,AUC值高于約6%。各個(gè)模型下的五種ADMET性質(zhì)的準(zhǔn)確率對(duì)比結(jié)果如圖8所示。圖8表明,CapsMC模型的預(yù)測(cè)結(jié)果更加準(zhǔn)確,更加接近真實(shí)的數(shù)據(jù)分類。
從五類ADMET性質(zhì)的四種評(píng)估指標(biāo)平均值來(lái)看,與其他六種機(jī)器學(xué)習(xí)基本模型相比,CapsMC模型在四種評(píng)價(jià)指標(biāo)上高約3%。五類ADMET性質(zhì)的四種評(píng)估指標(biāo)的平均值統(tǒng)計(jì)如圖9所示。
從圖9中能夠直觀地觀察得出,CapsMC模型與其他六種模型相比,CapsMC模型具有更高的準(zhǔn)確率,具有最好的性能。
4.4.2 基于機(jī)器學(xué)習(xí)集成的ADMET性質(zhì)分類方法對(duì)比實(shí)驗(yàn)
基于機(jī)器學(xué)習(xí)集成算法的ADMET性質(zhì)分類方法選用了目前大型藥物公司常用的ADMET性質(zhì)檢測(cè)模型RF模型和XGBoost模型進(jìn)行對(duì)比。對(duì)比實(shí)驗(yàn)結(jié)果如表4所示。
表4表明,在Caco-2數(shù)據(jù)集預(yù)測(cè)上CapsMC模型比其他兩種模型的各個(gè)評(píng)價(jià)指標(biāo)高約1%;在CYP3A4數(shù)據(jù)集上,其比RF模型在各個(gè)指標(biāo)上高約1%,和XGBoost模型的各個(gè)指標(biāo)基本持平;在hERG數(shù)據(jù)集上恰恰相反,其比XGBoost模型各個(gè)指標(biāo)高約1%,和RF模型的各個(gè)指標(biāo)基本持平;在HOB數(shù)據(jù)集上,其比RF模型的三個(gè)指標(biāo)高約2%,比XGBoost模型的三個(gè)指標(biāo)高約1%,AUC值高約3%;在MN數(shù)據(jù)集上,其比RF模型在三個(gè)指標(biāo)上高約2%,在準(zhǔn)確率指標(biāo)上僅僅低了0.8%,比XGBoost模型在三個(gè)指標(biāo)上高約3%,AUC值高約6%。兩個(gè)模型的準(zhǔn)確率比較如圖10所示。圖10表明,CapsMC模型在ADMET性質(zhì)預(yù)測(cè)上更具有優(yōu)勢(shì)。
從五種數(shù)據(jù)集對(duì)比的平均值來(lái)看,與其他兩種集成算法相比,CapsMC模型在三種指標(biāo)上高約1%,在AUC指標(biāo)上比RF模型高約1%,比XGBoost模型高約2%。與集成算法對(duì)比的四種評(píng)估指標(biāo)的平均值統(tǒng)計(jì)如圖11所示。從圖11中能夠直觀地觀察得出,CapsMC模型具有更高的評(píng)估指標(biāo),具有最好的性能。
4.4.3 基于深度學(xué)習(xí)的ADMET分類方法對(duì)比實(shí)驗(yàn)
基于深度學(xué)習(xí)的ADMET性質(zhì)方法選用了最先進(jìn)的MGA模型和本文提出的F2I模型+CNN模型(F2I-CNN)進(jìn)行對(duì)比。對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。
表5表明,在Caco-2數(shù)據(jù)集上,CapsMC模型比其他兩種模型在三種評(píng)價(jià)指標(biāo)上高2%,比MGA模型的AUC值高6%,比F2I-CNN的AUC值高2%;在CYP3A4數(shù)據(jù)集上,比其他兩種模型在三種指標(biāo)上高約2%;在hERG數(shù)據(jù)集上,比MGA模型高約4%,比F2I-CNN模型高約2%;在HOB數(shù)據(jù)集上,CapsMC模型與MGA模型、F2I-CNN模型的三種評(píng)價(jià)指標(biāo)大致相同,但其比這兩種模型的AUC值分別高出約8%、5%;在MN數(shù)據(jù)集上,CapsMC模型比MGA模型在三種指標(biāo)上高出約5%,比F2I-CNN模型高出約2%。兩種模型的實(shí)驗(yàn)準(zhǔn)確率對(duì)比如圖12所示。圖12表明,與MGA模型相比,CapsMC模型明顯具有更高的準(zhǔn)確率,表現(xiàn)性能最好,印證了CapsMC模型的先進(jìn)性。與F2I-CNN模型對(duì)比,CapsMC模型具有更好的準(zhǔn)確率。F2I-CNN模型于MGA模型的性能幾乎接近,而且在某些指標(biāo)上還高于MGA模型,這說(shuō)明本文提出的F2I模型在處理多特征和關(guān)聯(lián)性強(qiáng)的結(jié)構(gòu)化數(shù)據(jù)時(shí)具有較好的性能,能夠準(zhǔn)確高效地完成特征重組,同時(shí)也說(shuō)明本文提出的認(rèn)知推理機(jī)制大大提高了ADMET性質(zhì)的分類的準(zhǔn)確率,高效地完成了可解釋分類任務(wù)。
從五種數(shù)據(jù)集的平均值來(lái)看,CapsMC模型比MGA模型、F2I-CNN模型在三種評(píng)價(jià)指標(biāo)上高約2%,另外其在AUC值上比這兩種模型分別高約5%、3%。F2I-CNN和先進(jìn)的MGA模型在三個(gè)指標(biāo)上幾乎相同,其中AUC值比其高2%。與深度學(xué)習(xí)算法對(duì)比的四種評(píng)估指標(biāo)平均值對(duì)比實(shí)驗(yàn)結(jié)果如圖13所示。圖13表明,CapsMC模型在四種指標(biāo)上均高于其他兩種模型,同時(shí),F(xiàn)2I-CNN在三個(gè)指標(biāo)上比MGA模型高,再一次證明本文提出的F2I模型的有效性和提出的認(rèn)知推理機(jī)制的先進(jìn)性。
5 結(jié)束語(yǔ)
本文提出的CapsMC模型較好地實(shí)現(xiàn)了對(duì)化合物ADMET性質(zhì)的預(yù)測(cè)。CapsMC模型首先使用提出的F2I轉(zhuǎn)換模型將結(jié)構(gòu)化數(shù)據(jù)中每一個(gè)實(shí)例的特征向量轉(zhuǎn)換為灰度圖像矩陣,通過(guò)像素點(diǎn)重組,為處理多特征和關(guān)聯(lián)性強(qiáng)的結(jié)構(gòu)化數(shù)據(jù)提供新思路。其次,CapsMC模型使用提出的認(rèn)知推理機(jī)制對(duì)特征進(jìn)行認(rèn)知推理,實(shí)現(xiàn)類別的可解釋預(yù)測(cè)。
CapsMC模型在Caco-2、CYP3A4、hERG、HOB、MN五種性質(zhì)類別預(yù)測(cè)進(jìn)行了驗(yàn)證,其在F1值、precision值、recall值均達(dá)到90%以上。其中,CapsMC模型對(duì)CYP3A4預(yù)測(cè)的precision最高,達(dá)到95.16%。CapsMC模型對(duì)五種ADMET性質(zhì)類別預(yù)測(cè)的AUC值最高達(dá)0.93,平均值接近0.90。此外通過(guò)與三組對(duì)照實(shí)驗(yàn)對(duì)比表明,CapsMC模型具有更高的準(zhǔn)確率和顯著的分類性能。其中在F2I-CNN模型的對(duì)照實(shí)驗(yàn)中,F(xiàn)2I-CNN模型與最先進(jìn)的MGA模型的性能及其近似,與其相比在Caco-2、hERG、HOB、MN四種數(shù)據(jù)集上的AUC值具有較大差距,F(xiàn)2I-CNN模型具有更好的性能,其他指標(biāo)中也有高于MGA模型的值。這說(shuō)明提出的F2I圖像轉(zhuǎn)換模型將特征之間的關(guān)聯(lián)性和相互依賴特性作為考量納入到分類依據(jù)的有效性和先進(jìn)性。F2I-CNN模型與本文提出的CapsMC模型對(duì)比表明,CapsMC模型的準(zhǔn)確率和性能遠(yuǎn)遠(yuǎn)高于F2I-CNN模型,進(jìn)一步說(shuō)明本文提出認(rèn)知推理機(jī)制的有效性和先進(jìn)性。
同時(shí),本研究存在一定的缺陷。首先面對(duì)特征數(shù)據(jù)量較小的數(shù)據(jù)集時(shí),F(xiàn)2I轉(zhuǎn)換模塊轉(zhuǎn)換成非常小的圖片使得模型的分類效果大大降低,但相反的是對(duì)于特征數(shù)量巨大的數(shù)據(jù)集將表現(xiàn)出優(yōu)秀的性能和效果,未來(lái)考慮通過(guò)組合算法或引入特征縮放算法的方式解決該問(wèn)題。其次,在進(jìn)行缺角填充時(shí),當(dāng)出現(xiàn)缺角嚴(yán)重時(shí)就會(huì)出現(xiàn)特征消失的問(wèn)題,但是大多數(shù)的情況下,不存在缺角嚴(yán)重的情況。未來(lái)考慮通過(guò)引入注意力機(jī)制消除特征消失的問(wèn)題,從而使模型的魯棒性更加強(qiáng)壯。
最后,在醫(yī)藥領(lǐng)域,候選藥物預(yù)測(cè)存在大量的多模態(tài)數(shù)據(jù),不僅是單純的指標(biāo)性質(zhì)的數(shù)據(jù),還存在文本、圖像等數(shù)據(jù),這給研究帶來(lái)了挑戰(zhàn),這也將是未來(lái)藥物預(yù)測(cè)研究的重點(diǎn)方向。
參考文獻(xiàn):
[1]Rashid M. Design,synthesis and ADMET prediction of bis-benzimi-dazole as anticancer agent [J]. Bioorganic Chemistry,2020,96(C): 103576.
[2]Feinberg E N,Joshi E,Pande V S,et al. Improvement in ADMET prediction with multitask deep featurization [J]. Journal of Medicinal Chemistry,2020,63(16): 8835-8848.
[3]Asri H,Mousannif H,Al Moatassime H,et al. Using machine learning algorithms for breast cancer risk prediction and diagnosis [J]. Procedia Computer Science,2016,83(C): 1064-1069.
[4]顧耀文,張博文,鄭思,等. 基于圖注意力網(wǎng)絡(luò)的藥物ADMET分類預(yù)測(cè)模型構(gòu)建方法 [J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(8): 76-85. (Gu Yaowen,Zhang Bowen,Zheng Si,et al. Predicting drug ADMET properties based on graph attention network [J]. Data Analysis and Knowledge Discovery,2021,5(8): 76-85.)
[5]Aslan M F,Clik Y,Sabanci K,et al. Breast cancer diagnosis by different machine learning methods using blood analysis data [J]. International Journal of Intelligent Systems and Applications in Engineering,2018,6(4): 289-293.
[6]Ferreira L L G,Andricopulo A D. ADMET modeling approaches in drug discovery[J]. Drug Discovery Today,2019,24(5): 1157-1165.
[7]Sasahara K,Shibata M,Sasabe H,et al. Feature importance of machine learning prediction models shows structurally active part and important physicochemical features in drug design [J]. Drug Metabolism and Pharmacokinetics,2021,39: 100401.
[8]Schneider P,Walters W P,Plowright A T,et al. Rethinking drug design in the artificial intelligence era [J]. Nature Reviews Drug Discovery,2020,19(5): 353-364.
[9]Kumar K,Chupakhin V,Vos A,et al. Development and implementation of an enterprise-wide predictive model for early absorption,distribution,metabolism and excretion properties [J]. Future Medicinal Chemistry,2021,13(19): 1639-1654.
[10]呂軍蘋,周璐,石東旭,等. 基于計(jì)算機(jī)模擬的馬齒莧抗炎活性成分篩選 [J]. 中國(guó)新藥雜志,2022,31(4): 369-375. (Lyu Junping,Zhou Lu,Shi Dongxu,et al. In silico study of the anti-inflammatory activity of Portulaca oleracea L. ingredients [J]. Chinese Journal of New Drugs,2022,31(4): 369-375.)
[11]De Moura E P,F(xiàn)ernandes N D,Monteiro A F M,et al. Machine lear-ning,molecular modeling,and QSAR studies on natural products against Alzheimer’s disease [J]. Current Medicinal Chemistry,2021,28(38): 7808-7829.
[12]Bannigan P,Aldeghi M,Bao Z,et al. Machine learning directed drug formulation development [J]. Advanced Drug Delivery Reviews,2021,175: 113806.
[13]Racz A,Bajusz D,Miranda-Quintana R A,et al. Machine learning models for classification tasks related to drug safety [J]. Molecular Diversity,2021,25(3): 1-16.
[14]Ekins S,Puhl A C,Zorn K M,et al. Exploiting machine learning for end-to-end drug discovery and development [J]. Nature Materials,2019,18(5): 435-441.
[15]Shou W Z. Current status and future directions of high-throughput ADME screening in drug discovery [J]. Journal of Pharmaceutical Analysis,2020,10(3): 201-208.
[16]Vatansever S,Schlessinger A,Wacker D,et al. Artificial intelligence and machine learning-aided drug discovery in central nervous system diseases: state-of-the-arts and future directions [J]. Medicinal Research Reviews,2020,41(3): 1427-1473.
[17]Nayarisseri A,Khandelwal R,Tanwar P,et al. Artificial intelligence,big data and machine learning approaches in precision medicine amp; drug discovery[J]. Current Drug Targets,2021,22(6):631-655.
[18]Ai Haixin,Wu Xuewei,Zhang Li,et al. QSAR modelling study of the bioconcentration factor and toxicity of organic compounds to aquatic organisms using machine learning and ensemble methods [J]. Ecotoxicology and Environmental Safety,2019,179: 71-78.
[19]Chen Cheng,Zhang Qingmei,Yu Bin,et al. Improving protein-protein interactions prediction accuracy using XGBoost feature selection and stacked ensemble classifier [J]. Computers in Biology and Medicine,2020,123: 103899.
[20]Deng Daiguo,Chen Xiaowei,Zhang Ruochi,et al. XGraphBoost: extracting graph neural network-based features for a better prediction of molecular properties [J]. Journal of Chemical Information and Modeling,2021,61(6): 2697-2705.
[21]Kumar A,Kini S G,Rathi E. A recent appraisal of artificial intelligence and in silico ADMET prediction in the early stages of drug discovery [J]. Mini Reviews in Medicinal Chemistry,2021,21(18): 2788-2800.
[22]Wallach I,Dzamba M,Heifets A. AtomNet: a deep convolutional neural network for bioactivity prediction in structure-based drug discovery [J]. Mathematische Zeitschrift,2015,47(1): 34-46.
[23]Chen Hongming,Engkvist O,Wang Yinhai,et al. The rise of deep learning in drug discovery [J]. Drug Discovery Today,2018,23(6): 1241-1250.
[24]Kearnes S,Mccloskey K,Berndl M,et al. Molecular graph convolutions: moving beyond fingerprints [J]. Journal of Computer-Aided Molecular Design,2016,30(8): 595-608.
[25]Shi Tingting,Yang Yingwu,Huang Shuheng,et al. Molecular image-based convolutional neural network for the prediction of ADMET pro-perties [J]. Chemometrics and Intelligent Laboratory Systems,2019,194: 103853.
[26]Duvenaud D K,Maclaurin D,Iparraguirre J,et al. Convolutional networks on graphs for learning molecular fingerprints [J]. Advances in Neural Information Processing Systems,2015,28: 2224-232.
[27]Gilmer J,Schoenholz S S,Riley P F,et al. Neural message passing for quantum chemistry [C]// Proc of the 34th International Conference on Machine Learning. 2017: 1263-1272.
[28]St John P C,Guan Yanfei,Kim Y,et al. Prediction of organic homolytic bond dissociation enthalpies at near chemical accuracy with sub-second computational cost [J]. Nature Communications,2020,11(1): 1-12.
[29]Montanari F,Kuhnke L,Laak A T,et al. Modeling physico-chemical ADMET endpoints with multitask graph convolutional networks [J]. Molecules,2019,25(1): 44.
[30]Feinberg E N,Joshi E,Pande V S,et al. Improvement in ADMET prediction with multitask deep featurization [J]. Journal of Medicinal Chemistry,2020,63(16): 8835-8848.
[31]Xiong Guoli,Wu Zhenxing,Yi Jiacai,et al. ADMETlab 2. 0: an integrated online platform for accurate and comprehensive predictions of ADMET properties [J]. Nucleic Acids Research,2021,49(W1): 5-14.
[32]Hinton G E,Krizhevsky A,Wang S D. Transforming auto-encoders [C]// Proc of the 21st International Conference on Artificial Neural Networks. Berlin: Springer,2011: 44-51.
[33]Patrick M K,Adekoya A F,Mighty A A,et al. Capsule networks-a survey [J]. Journal of King Saud University-Computer and Information Sciences,2022,34(1): 1295-1310.
[34]Sabour S,F(xiàn)rosst N,Hinton G E. Dynamic routing between capsules [C]// Proc of the 30th Annual Conference on Neural Information Processing Systems. Cambridge: MIT Press,2017: 3856-3866.
[35]Khan A,Sohail A,Zahoora U,et al. A survey of the recent architectures of deep convolutional neural networks [J]. Artificial Intelligence Review,2020,53(8): 5455-5516.
[36]Cai Biao,Wang Yanpeng,Zeng Lina,et al. Edge classification based on convolutional neural networks for community detection in complex network [J]. Physica A: Statistical Mechanics and Its Applications,2020,556: 124826.