999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多層注意力和消息傳遞網絡的藥物相互作用預測方法

2024-01-09 13:56:26饒曉潔孟獻兵陳俊龍
自動化學報 2023年12期
關鍵詞:特征信息方法

饒曉潔 張 通 ,2 孟獻兵 陳俊龍 , 2

藥物相互作用(Drug-drug interaction,DDI)針對的是兩種或兩種以上藥物進行混合時,某些藥物的性能受到其他藥物的影響,而發生協同或拮抗作用[1-2].DDI 引發的藥物副作用可能會降低藥物療效,誘發不良反應,甚至影響到患者的身體健康.由于傳統基于實驗的方法進行DDI 預測存在成本高、檢測周期長等問題[3-4],近年來,基于計算機輔助的計算方法日益得到廣泛應用[2,5].通過傳統的機器學習和深度學習等計算機輔助計算方法從已有藥物相互作用數據中學習建立模型并實現DDI 預測,可以大大提高DDI 預測任務的效率[3].因此,研究基于計算機輔助的DDI 預測方法具有重要的理論和應用價值.

DDI 預測任務主要包括對藥物分子式進行量化并提取其特征,以及選擇合適的模型預測DDI[6-7].不同于一般的結構化數據,藥物分子具有確定的分子結構及其生物化學性質.因此,解決DDI 預測問題的關鍵是學習藥物分子結構及其特征信息,并建立預測模型.目前,已有大量DDI 預測任務相關研究成果,其中涉及的方法可以概括為基于傳統機器學習的方法和基于深度學習的方法[1,8-9].

在現有DDI 預測方法中,利用藥物的生化特征信息,包括藥物靶點、酶、藥物轉運體及蛋白質等相關信息構建模型并預測DDI,是一種有效的研究思路[2,10-11].這類方法通過充分利用藥物相關聯的生化特征信息可以提高DDI 預測的精度,不過也存在一些局限性[3],比如此類生化特征信息的獲取成本較高[6].如何在沒有這些生化特征信息的前提下提高DDI 預測的精度,是值得深入研究的問題.此外,由于DDI 預測任務涉及多個藥物分子,且不同藥物分子內部又具有不同的原子信息,因此有必要深入挖掘藥物分子內不同原子和不同藥物分子之間的相關關系,并研究通過融合原子和分子等不同層次的特征信息,提高DDI 預測準確率.

針對上述問題,本文提出一種基于多層次注意力機制和消息傳遞神經網絡的藥物相互作用預測方法.為了充分挖掘藥物的分子結構信息,本文從藥物分子內不同原子和不同藥物分子之間兩個層面研究DDI 預測方法.通過基于注意力機制的消息傳遞神經網絡學習藥物分子內包含不同原子和化學鍵的圖結構特征,并結合基于多頭注意力機制的神經網絡提取不同藥物分子間相關關系的特征信息,實現從藥物分子內和分子間兩個不同層次進行藥物分子特征提取,從而完成DDI 預測任務.

本文主要貢獻是同時從原子和分子層面設計基于注意力機制的特征學習策略,提出基于多層次注意力機制和消息傳遞神經網絡的DDI 預測方法.主要創新點包括兩個方面: 一方面,通過考慮不同原子及其相關聯化學鍵的不同相互作用信息,設計基于分子質心的位置編碼策略,提出基于注意力機制和消息傳遞神經網絡的原子特征網絡;另一方面,通過考慮分子之間的不同相互作用關系,提出基于注意力機制和密集連接結構的分子特征網絡.具體來說,相比直接在分子層面學習不同藥物分子相互作用關系的方法[10,12],本文方法選擇同時從原子和分子層面學習預測DDI.考慮到不同藥物分子的相互作用關系本質上取決于其內部原子和化學鍵的相互作用,這里首先學習藥物分子內不同原子、化學鍵間的相互作用關系,并通過設計基于分子質心的位置編碼策略,輔助學習藥物分子的圖結構特征表示.這種方法有助于模型學習得到豐富的藥物分子表示,從而更有利于挖掘出不同藥物分子的潛在相互作用關系.雖然已有研究工作也同時從原子和分子層面研究DDI 預測方法,不過這些方法在原子層面只考慮了原子節點特征,并沒有充分利用不同原子相關聯的化學鍵特征[13],無法在原子和分子層面同時提取不同原子及其相關聯化學鍵的不同注意力信息,因此其預測能力也有限.大量對比實驗和消融實驗驗證了本文方法的有效性,以及相比現有方法的優越性.

1 相關工作

基于計算機輔助計算的DDI 預測方法可以概括為基于傳統機器學習的方法和基于深度學習的方法.基于傳統機器學習的方法主要分為3 類,即基于傳統分類器的方法和基于回歸的方法和基于矩陣分解的方法[8,14-15].在基于傳統分類器的方法和基于回歸的方法中,通常會使用相似性度量方法(基于內積或基于余弦值的相似度度量)度量兩種藥物之間的相似度,并通過不同的分類或回歸算法,預測得出不同藥物相互作用的概率[8,14].在基于矩陣分解的方法中,DDI 預測任務可以建模為矩陣補全任務: 將一個含有缺失值的矩陣恢復為一個完全的矩陣,目的是對未觀察到的相互作用進行預測[15].基于傳統機器學習的方法雖然能有效解決DDI 預測任務,但因其提取深層特征的能力有限,也存在一定的局限性,比如在不平衡數據以及大規模數據集上存在表現能力不足的問題[5].此外,這類方法往往直接利用藥物分子的特征信息,而忽略藥物分子內部的原子特征信息,這在一定程度上也會影響DDI預測的效果.

不同于基于傳統機器學習的方法,基于深度學習的DDI 預測方法能夠提取更深層次的特征,在實際應用中,往往可以更好地預測出潛在的DDI.如,Ryu 等[1]提出了一種基于深度學習的DDI 預測模型,通過學習不同藥物的結構相似度信息,實現DDI 預測.Deng 等[10]通過計算藥物結構、基因本體和目標基因這三種相似度信息,結合深度神經網絡,實現藥物分子特征提取,并用于DDI 預測.Lee 等[6]利用每種藥物不同的相似度信息訓練模型,使用自動編碼器和深度前饋網絡實現DDI 預測.這些方法借助深度學習深層特征提取能力[1,6,10,12],雖然也能解決DDI 預測問題,但忽略了藥物基于圖結構的數據本質,實際應用中效果往往有限.

近年來,基于圖結構的深度學習方法相繼提出并成功應用于DDI 預測[5,9].這類方法通過將不同藥物分子作為節點、相互作用關系作為邊,構建藥物分子的圖網絡,從而實現DDI 預測[7,16].如,Liu等[9]使用多模態深度自編碼器,將每個藥物數據源視為一個藥物特征網絡,在每個網絡中利用圖結構的鄰接矩陣做圖嵌入,從多個藥物特征網絡中學習藥物的統一表示,并在此基礎上構建模型,實現DDI 預測.Lin 等[16]設計出一種基于知識圖譜的圖卷積神經網絡,通過學習基于不同藥物分子的知識圖譜,獲取藥物潛在的相互作用關系.Karim 等[7]提出一種DDI 預測模型,通過知識圖譜學習藥物的重要特征,并通過集成卷積神經網絡和長短期記憶遞歸神經網絡進行學習,得到不同藥物的相互作用關系.這類方法雖然考慮了藥物分子的圖結構信息,但也存在一定的局限性.例如,上述方法從藥物分子層面進行特征提取,而忽略了藥物分子內原子層面的特征學習.此外,這些方法并沒有考慮通過區分不同藥物分子或藥物原子的重要性來預測DDI.針對上述問題,本文提出了基于藥物分子內和藥物分子間的多層次注意力機制和特征提取方法.

2 本文方法

本文研究的DDI 預測任務是預測給定藥物分子集合中任意2 個藥物分子的相互作用關系.這里采用簡化分子線性輸入規范(Simplified molecular input line entry specification,SMILES)表示每個藥物分子,并將DDI 任務建模為通過提取SMILES文本序列表示的藥物分子特征預測得出兩種藥物是否存在相互作用的鏈接預測問題.理論上來說,不同藥物是否存在相互作用關系取決于藥物的分子圖結構信息及其相關生化性質.因此,對于基于SMILES文本序列的DDI 預測方法來說,從序列中準確提取藥物分子圖結構信息對提高DDI 預測方法的精度具有十分重要的作用.為此,本文基于Transformer的注意力機制[17]和消息傳遞神經網絡[18],設計基于多層次注意力機制和消息傳遞神經網絡的DDI 預測方法,旨在實現分子圖結構特征提取及DDI 預測.

本文方法整體框架如圖1 所示.首先,從SMILES文本序列中提取藥物分子的圖結構信息,包括原子和化學鍵相關聯的特征[19];然后,在原子特征層面,利用消息傳遞神經網絡,并通過融合Transformer的注意力機制以及本文提出的基于分子質心的位置編碼方法,實現藥物分子內不同原子和化學鍵特征的學習更新;最后,在分子特征層面,進一步利用注意力機制,并通過監督學習和對比學習,挖掘出不同藥物分子的潛在相互作用關系,從而實現任意兩個藥物分子i和j的相互作用預測.

圖1 模型框架圖Fig.1 Framework of the proposed model

2.1 基于注意力機制的消息傳遞原子特征網絡

藥物分子內部由不同原子及原子之間相關聯的化學鍵組成.對于具有圖結構的藥物分子來說,SMILES 這種一維線性的序列表示無法直接反映不同原子和化學鍵在藥物分子圖結構中的相對位置信息.為解決這個問題,并提取藥物分子內不同原子和化學鍵的特征信息,本文建立基于注意力機制的消息傳遞原子特征網絡,學習得到基于圖結構的藥物分子特征表示.

原子特征網絡如圖2 所示.首先,使用藥物原子和化學鍵信息進行節點和邊的特征嵌入,同時設計基于分子質心的位置編碼方法編碼具有圖結構的原子和化學鍵特征信息;然后,利用結合圖結構交互式注意力機制的消息傳遞神經網絡,學習不同節點和邊的特征信息;最后,通過不斷更新迭代模型,得到藥物分子的特征表示.下面具體從兩個方面進行介紹.

圖2 基于注意力機制的消息傳遞原子特征網絡Fig.2 Framework of the message passing atomic feature network base on attention mechanism

2.1.1 基于分子質心的位置編碼

由于藥物分子是不同原子和化學鍵組成的圖結構數據,因此在Transformer 注意力機制中處理時序數據的位置編碼方法不一定適合藥物分子數據.此外,由于表示藥物分子的SMILES 是一維線性化的序列,因此僅僅利用藥物分子SMILES 序列中字符的輸入先后順序作為位置編碼的依據[18]是不合理的.為了有效提取藥物分子中不同原子的位置信息,本文提出一種基于分子質心的位置編碼方法,通過計算原子與分子質心的距離來表示原子之間的相對位置,得到基于該距離的排序結果并用于設計位置編碼.

給定具有n個原子的藥物分子,該分子可表示為有向圖G=(X,E),其中X,E是通過RDKit[19]化學信息庫分別得到的原子和化學鍵的初始特征.X由藥物分子內n個原子組成,表示原子節點i的特征嵌入信息,包括通過RDKit 獲取得到原子的雜化方式、形式電荷、連接數等信息.E代表原子之間相關聯的化學鍵,包括化學鍵的類型、是否為芳香鍵、是否成環等特征信息.euv ∈E ∈表示從原子節點i到節點j的邊特征嵌入信息.fn,fe分別表示節點和邊的特征維度.拓撲連接矩陣ADJ ∈Rn×n由兩個原子之間的最短路徑組成.基于分子質心的位置編碼方法,具體如下:

首先,通過計算分子中n個原子二維坐標vi(i=1,2,3,···,n) 的均值v,得到分子質心的坐標s0;其次,計算每個原子和分子質心之間的歐氏距離di,再按照n個原子與分子質心s0之間的距離值di由近到遠進行排序,得到距離分子質心由近到遠的原子索引;最后,將該原子索引順序作為n個原子的位置編碼,經過詞嵌入得到n個原子的位置編碼posi.基于分子質心位置編碼的原子特征h(xi) 和邊特征h(euv) 表示方法分別為

這種位置編碼方法通過利用分子圖結構的空間信息描述不同原子的相對位置關系,在一定程度上可以改善分子SMILES 序列表示方法僅以SMILES 序列中字符輸入先后順序作為位置編碼的不足,為原子的特征表示學習提供更多的信息.

2.1.2 基于注意力機制的消息傳遞神經網絡

針對傳統消息傳遞神經網絡不能有效區分不同節點和邊的不同作用信息的問題[13],本文借鑒基于圖交互式的消息傳遞神經網絡的思想[18],將藥物分子中不同原子及其相關聯的化學鍵(邊)表示為區分入邊和出邊的有向圖,利用基于Transformer 注意力機制的消息傳遞神經網絡,結合本文提出的基于分子質心的位置編碼策略,計算藥物分子中不同原子和化學鍵之間相互作用的注意力分數,并進行基于圖結構的消息傳遞,不斷學習更新節點和邊的特征,從而得到藥物分子的特征表示.通過將藥物分子表示為有向無環圖,節點和邊的信息只會沿著確定的方向傳遞,不會出現因無向圖中的環路造成節點和邊信息的循環更新問題,從而提高節點和邊信息的學習更新效率.此外,由式(1)和式(2)可知,通過區分入邊和出邊,不同節點及其相關聯的邊將具有不同的信息.此時,通過基于注意力機制的圖結構信息傳遞和更新學習,更容易學習得到不同原子及其相關聯邊的不同作用信息,從而提取到更有效的藥物分子特征表示.

在基本消息傳遞神經網絡中,通常利用鄰接矩陣進行消息的聚合及更新[20].該方式存在只考慮節點特征而忽略邊信息的缺點.同時,在進行消息傳遞時無法自適應調節節點之間信息傳遞權重.為了解決上述問題,本文引入了注意力機制.其中,計算Q,K,V的方式為

為了進一步挖掘圖結構信息,本文將每個分子視為一個有向圖,并將邊分為入邊和出邊兩個類型,利用式(3)求得的Q,K,V矩陣計算相應的消息傳遞分數矩陣Mi和Mo,即

其中,Mi,Mo ∈Rn×n,einsum 為愛因斯坦求和約定,Qi,Ki,Qo,Ko分別表示入邊、出邊相應的矩陣.最終的消息傳遞分數矩陣M為

其中,M∈Rn×n,s oftmax 將數值向量歸一化為概率分布,d iag{Mo}表示只保留矩陣Mo的對角線元素.

考慮到在消息傳遞過程中,不同傳遞深度的消息攜帶的信息不同,為了模擬隨著消息傳遞層數加深而導致的信息量減少的現象,本文引入消息衰減機制[18],并假設距離越遠的兩個原子之間交互分數衰減得越快.帶有衰減機制的消息傳遞矩陣M計算式為

其中,γ為表示衰減程度的參數,ADJ(u,v) 表示原子u和v之間的最短路徑.

經過單層消息傳遞后,得到的節點和邊特征的更新式為

其中,matmul 表示矩陣乘法,⊙表示兩個矩陣對應元素相乘.最后,本文使用平均池化的方式生成原子特征網絡輸出的分子表示,即

其中,Fa是所有分子特征組成的矩陣,Fai是第i個分子的特征表示,Ki表示第i個分子的最大原子數量,h(Xm)k表示經過上述網絡更新后的第m個分子中第k個原子的特征.

2.2 基于多頭注意力機制的分子特征網絡

原子特征網絡只考慮了單個分子內部的結構信息.如果直接基于原子特征網絡輸出的Fa進行DDI預測,將會丟失不同藥物分子之間的交互信息,從而影響最終的DDI 預測結果精度.為了解決這個問題,本文將原子特征網絡輸出的分子表示作為分子特征網絡的輸入,通過設計多頭注意力模塊學習不同藥物分子間的交互信息,并利用學習得到的藥物分子關系更新每個藥物分子的向量表示,最終基于不同藥物分子的特征學習得到DDI 預測的結果.

通過對原子特征網絡輸出的藥物分子特征表示Fa進行線性變換,得到Q′,K′,V′矩陣,并計算多頭注意力,即

為防止網絡層數過深導致的梯度消失,且實現不同層次特征的融合,本文在多層感知機(Multi layer perceptron,MLP)網絡中線性層之間使用密集連接結構,計算最終的輸出: 藥物分子特征表示Fm.具體為

其中,x0是多頭注意力層的輸出,xl表示每個密集連接層的計算式,l ayerl表示第l個線性層,DenseMLPN表示一個具有N層密集連接的MLP 網絡.

其中,E=Fm.

給定藥物分子對i和j,通過式(13)計算得到Sij,再將其經過一個MLP 和sigmoid 函數,得到最終的鏈接預測結果pij.

本文模型的復雜度主要包括原子特征網絡和分子特征網絡以及對比學習這3 部分的計算.在原子特征和分子特征網絡中主要計算量是式(8) 和(12),其相應的計算復雜度都是 O (NBf+Hd),其中,N指數據集中的藥物分子數量,B是藥物分子中的化學鍵數量,H表示能發生相互作用的藥物對數量,f和d分別表示輸入的特征維數和藥物嵌入的特征維數.對比學習部分的計算復雜度是 O (Nk),其中k是正樣本數量.因此,模型復雜度為O(N(Bf+k)+Hd).

2.3 模型的訓練優化

為了提高模型的泛化性能,本文在傳統二元交叉熵損失函數(Binary cross entropy,BCE)Llabel的基礎上,引入2 種無監督損失函數,包括基于自蒸餾的正則化約束Lun和基于對比學習的無監督損失Lc.模型整體的損失函數L為

其中,α和β是對應損失的權重系數.

Llabel使用二元交叉熵損失函數衡量模型的誤差損失,即

其中,Tr表示訓練集的樣本對集合,yij表示樣本對 (i,j) 的真實標簽,rij和pij分別表示原子特征網絡和分子特征網絡輸出的預測結果.

對于基于自蒸餾的正則化約束[21],利用分子特征網絡的輸出對原子特征網絡輸出進行蒸餾學習,進一步提高原子特征網絡輸出特征的質量.這里通過KL 散度(Kullback-Leibler divergence,KL)表示Lun,即

其中,K L(pij ‖rij) 表示兩個概率分布之間的 K L 散度,用來衡量兩個分布之間的分布差異.DTr表示除訓練集之外的樣本對集合.

基于對比學習的無監督損失函數設計思想如下.對于每個藥物分子,選取其在分子特征網絡的輸出特征作為錨點,并將其一階鄰居和非一階鄰居在原子特征網絡的輸出特征分別作為正樣本和負樣本.通過對比損失學習,使得錨點與其正樣本相接近,與其負樣本區分開來.具體為

其中,C(i) 和(i) 分別表示節點i的一階鄰居集合和非一階鄰居集合.?,φ分別定義了原子特征網絡和分子特征網絡的參數,定義了互信息估計器.

由于無法直接優化互信息,本文使用JS 散度(Jensen-shannon divergence,JSD)優化互信息的下界[22].通過最小化對比損失函數Lc,使得互信息最大化,對比損失函數的計算式為

模型訓練過程的偽代碼如算法1 所示.

算法1.端到端的藥物相互作用預測模型

3 實驗結果及分析

為了驗證本文方法的有效性和優越性,我們選擇兩個常用的DDI 數據集,即ZhangDDI[11]和ChCh-Miner[23],進行對比和消融實驗分析.Zhang-DDI 包含548 種藥物和48 548 組藥物相互作用關系數據,ChCh-Miner 包含1 514 種藥物和48 514組藥物相互作用關系數據.評價指標包括ROC(Receiver operating charaeteristic curve)下面積(Area under ROC,AUROC)、PRC (Precision-recall curve)下面積(Area under PRC,AUPRC)和F1 分數(F1-score,F1).

3.1 對比方法介紹及實驗設置

本文選擇13 種具有代表性的DDI 預測方法作為對比方法,分為基于傳統機器學習的DDI 預測方法和基于圖結構的深度學習DDI 預測方法.

基于傳統機器學習的DDI 預測方法包括以下6 種方法: 基于子結構相似性的DDI 預測方法NN(Nearest neighbor)[24];基于標簽傳播的DDI 預測方法,這里包括3 個基于不同相似性的方法(LPSub (Label propagation substructure)、LP-SE(Label propagation side effect)、LP-OSE (Label propagation off-label side effect))[25];基于混合集成模型的DDI 預測方法MF-Ens (Multi-feature ensemble)[11];基于結構相似性輪廓的DDI 預測方法SSP-MLP (Structural similarity profile and multilayer perceptron)[1].

基于圖結構的深度學習DDI 預測方法又分為兩類,即基于分子特征網絡的DDI 預測方法、基于原子特征和分子特征網絡的DDI 預測方法.第一類方法包括以下4 種方法: 基于圖卷積網絡的DDI 預測方法GCN (Graph convolutional network)[26]、基于圖同構網絡的DDI 預測方法GIN (Graph isomorphism network)[27]、基于圖自動編碼器的DDI預測方法Att-auto (Attentive graph autoencoder)[12]、基于圖注意力網絡的DDI 預測方法GAT (Graph attention network)[28].第二類方法包括以下3 種方法: 基于層次圖表示學習的DDI 預測方法SEALCI (Semi-supervised hierarchical graph classification)[29]、基于分子指紋和圖卷積網絡的DDI 預測方法NFP-GCN (Molecular fingerprint graph convolutional network)[30]、基于鍵感知消息傳遞神經網絡和圖卷積網絡的DDI 預測方法MIRACLE (Multiview graph contrastive representation learning)[13].

對于ZhangDDI 和ChCh-Miner 數據集,本文參照文獻[13]的數據劃分方式,所有數據樣本按照4:1 的比例分為訓練集和測試集,并在訓練集中隨機選擇1/4 的樣本作為驗證集.當連續訓練10 輪且模型在驗證集上的最佳精度沒有改變時,模型停止訓練.所有實驗結果都是通過5 次獨立實驗進行統計分析得到.在原子特征網絡中,原子特征維度設置為115,化學鍵特征維度設置為13.在分子特征網絡中,注意力頭數設置為3.目標函數中的系數α和β分別設置為1 和0.8,實驗基于Pytorch 1.6.0.

3.2 對比實驗分析

在ZhangDDI 和ChCh-Miner 兩個數據集上的實驗結果分別如表1 和表2 所示.由表1 可知,相比于12 種對比算法,本文在所有指標上都取得最好結果.與基于鍵感知消息傳遞神經網絡和圖卷積網絡的DDI 預測方法[13]相比,本文方法雖然在AUPRC 指標上取得次優結果,但是在AUROC 和F1 指標上表現更好、更魯棒.由表2 的實驗結果可知,當藥物種類數顯著增加時,本文方法超過了所有對比方法,且優勢更加明顯.

表1 ZhangDDI 數據集上的對比實驗結果Table 1 Comparison experimental results on ZhangDDI dataset

表2 ChCh-Miner 數據集上的對比實驗結果Table 2 Comparison experimental results on ChCh-Miner dataset

1 )與6 種基于傳統機器學習DDI 預測方法相比,本文方法在ZhangDDI 數據集上取得的3 項指標結果至少提高4%,5%,8%.這是由于基于相似性的DDI 預測方法是通過傳統機器學習計算多種藥物特征的相似度從而預測出DDI 結果,而藥物分子往往具有復雜的結構特性,不能簡單地由一種或幾種特征刻畫,且傳統機器學習提取深層特征的能力有限,因此這類方法效果并不好.不同于此類方法,本文方法沒有選擇具體的藥物分子特征,而是通過深度學習方法同時從藥物原子和分子層面學習藥物分子的深層特征.

2 )與4 種基于分子特征網絡的DDI 預測方法相比,本文方法在ZhangDDI 數據集上取得的3 項指標結果至少提高6%,7%,12%,而在ChCh-Miner 數據集上,相應結果至少提高13%,12%,20%.基于分子特征網絡的DDI 預測方法直接從藥物分子層面學習不同藥物分子的相互作用關系,忽略了分子內部的結構特性,算法性能受制于藥物分子特征表示的好壞.而本文方法首先從原子層面學習得到每個藥物分子的特征,然后結合監督學習和對比學習,不斷優化得到的藥物分子特征,并基于這些分子特征學習得到不同藥物分子的相互作用關系,在理論上更具優勢.實驗結果也證明了本文方法的優越性.

3 )與3 種基于原子特征和分子特征網絡的DDI預測方法相比,本文方法除1 個指標取得次優結果外,都能取得最好的結果.雖然這些方法都能從原子和分子層面提取藥物分子特征,但它們都缺乏明確的機制學習原子和化學鍵之間、分子之間的不同注意力信息.例如,基于鍵感知消息傳遞神經網絡和圖卷積網絡的DDI 預測方法 MIRACLE[13],雖然在AUPRC 指標上具有良好的競爭力,但其整體性能不如本文方法.這是因為MIRACLE 只考慮不同原子間的消息傳遞,并沒有考慮邊的特征信息.而本文方法可同時考慮不同原子及其相關邊之間的消息傳遞,且可學習不同原子間的注意力信息.本文方法可以在原子和分子層面同時進行具有不同作用的注意力學習,因此,本文方法在綜合性能表現上更優越.

3.3 消融實驗分析

3.3.1 多層注意力機制的消融實驗

為驗證本文提出的多層次注意力網絡的有效性,我們在兩個數據集上針對基于注意力機制的原子特征網絡和分子特征網絡分別進行消融實驗.

關于原子特征網絡和分子特征網絡的消融實驗結果分別見表3 和表4.實驗結果表明,無論是原子特征網絡,還是分子特征網絡,刪除其注意力機制后,模型性能都會顯著下降.如果缺乏基于注意力機制的原子特征網絡,那么在最終的分子表示中將會丟失分子內部原子和邊的特征信息,而這會直接影響藥物分子的特征質量;同樣,如果沒有基于注意力機制的分子特征網絡,那么將會丟失分子間的相互作用信息,導致模型只會根據兩個獨立的分子特征來進行DDI 預測.根據上述分析,本文提出的基于多層次注意力機制的原子特征和分子特征網絡確實有助于提高藥物分子的特征質量和模型性能.

為進一步驗證本文提出注意力機制的有效性,我們將分子特征網絡經過注意力機制計算得到的分子之間相互作用的注意力分數進行可視化.作為示例說明,這里展示在ZhangDDI 數據集上抽取的一個分子(記為A)和另外542 個分子之間的注意力分數,其中與A 發生相互作用和不發生相互作用的分子各占一半數量.圖3 是分子A 與其他542 個分子之間的注意力分數經過歸一化后的可視化結果,其中,圖3(a)是與A 發生相互作用的藥物分子的注意力分數可視化,圖3(b)是不與A 發生相互作用的藥物分子的注意力分數可視化.經過計算可得,與A 發生相互作用的藥物分子的注意力分數之和占注意力分數總和的56.87%,平均注意力分數是0.21;而不與A 發生相互作用的藥物分子的注意力分數之和則占注意力分數總和的43.13%,平均注意力分數是0.16.即當藥物分子之間存在相互作用時,其注意力分數大于沒有相互作用時的注意力分數.這在一定程度上說明通過本文提出的多層次注意力機制計算得到兩個藥物分子之間的注意力分數越大,則兩個藥物分子發生相互作用的可能性也越大.

圖3 藥物分子之間注意力分數的可視化Fig.3 Visualization of attention scores between drug molecules

3.3.2 位置編碼的消融實驗

為了驗證本文提出的基于分子質心的位置編碼方法的有效性,本節將研究在有無位置編碼和傳統位置編碼條件下模型性能的差別.表5 是在兩個數據集上,本文方法在有無基于分子質心的位置編碼和傳統位置編碼條件下的實驗結果.可以看到,本文提出的位置編碼方法可以顯著提高模型的性能,且使得模型具有更穩定的性能表現.

表5 位置編碼對模型性能影響的對比結果Table 5 Comparison results of the impact of positional encoding on model performance

如果刪去本文提出的位置編碼,在原子特征網絡學習過程中,將有可能丟失原子節點在藥物分子圖結構中的相對位置信息;而采用傳統位置編碼,將使模型僅依賴于各原子節點在SMILES 序列表示中出現的先后順序,進行原子特征學習.正如前面提到,SMILES 序列是分子的一維線性化表示,因此僅依賴SMILES 序列中原子的先后次序進行原子特征學習,無法充分學到分子的圖結構特征信息.

此外,本文提出的位置編碼也有助于提高模型的收斂速度.圖4 是本文方法在有無位置編碼條件下模型性能的收斂曲線,可以清楚地看到,本文提出的位置編碼可以顯著提高模型的收斂速度.

圖4 位置編碼對模型收斂性能的影響Fig.4 The effect of positional encoding on model convergence performance

與無位置編碼的模型相比,本文方法可以在更少的迭代輪數條件下取得更快更好的模型性能.綜合表5 和圖4 可知,實驗結果從側面進一步證明:基于分子質心的位置編碼可以顯著提高藥物分子中不同原子的編碼效率,進而提高模型的收斂速度;同時,通過分子質心引入藥物分子的空間結構信息,有助于模型提取更豐富的藥物分子結構特征,從而進一步提升模型的DDI 預測精度.

綜合上述實驗結果可知,本文提出的多層次注意力機制和基于分子質心的位置編碼方法都是有效且不可或缺,有助于提高藥物分子中不同原子的編碼效率和不同藥物分子相互作用預測的精度.

3.3.3 損失函數的消融實驗

為驗證本文引入的自蒸餾約束項和對比學習損失項的有效性,我們在兩個數據集上分別針對2 項損失函數進行消融實驗,并進一步將對比學習損失項替換為基于互信息的噪聲對比估計模型(Mutual information noise contrastive estimation,infoNCE)[22],檢驗不同對比損失函數對模型性能的影響.此外,我們還改變正負樣本采樣方式,檢驗采樣方式對本文對比學習損失函數的影響.對于每個藥物分子,選取其在分子特征網絡的輸出特征作為錨點.我們這里選擇2 種正負樣本的采樣方式,其中一種是將錨點的一階鄰居和非一階鄰居在原子特征網絡的輸出特征分別作為正樣本和負樣本,即本文實驗采用的方法;另外一種是將錨點的二階鄰居在原子特征網絡的輸出特征作為正樣本,其他節點作為負樣本,進行對比學習.

表6 是不同損失函數對模型性能影響的對比實驗結果.可以看到,無論對于ZhangDDI 還是ChCh-Miner 數據集,在沒有基于自蒸餾的正則化約束項或基于對比學習的損失項時,模型性能都有一定程度的降低,即這2 項損失函數對提高模型的性能都不可或缺.對于2 種正負樣本采樣方式來說,實驗結果表明本文選取的采樣方式更好.這個結果也表明正負樣本采樣方式對模型性能具有一定的影響.對于不同對比學習損失函數來說,在ChCh-Miner數據集上,本文方法與infoNCE 相比,取得次優結果;但是在ZhangDDI 數據集上,本文方法取得最優結果,且相對更穩定.這是因為infoNCE 通過自歸一化重要性采樣來優化互信息的下界,需要相對較多的負樣本;而本文采用的JSD 方法則對負樣本數相對不敏感,性能也相對更穩定.由此可見,不同對比學習損失函數對模型性能具有一定的影響,本文采用的對比學習損失函數具有一定優勢.

表6 損失函數對模型性能影響的對比結果Table 6 Comparison results of the impact of loss function on model performance

3.4 參數敏感性分析

考慮到損失函數會直接影響模型的性能,本節選擇對損失函數中的參數α和β進行敏感性分析.在上述實驗中,α和β分別取值1 和0.8.為分析2個參數的敏感性,α取值范圍為 {0.2,0.4,0.6,0.8,1},β取值范圍為 {0.2,0.4,0.6,0.8,1}.當分析α的敏感性時,β固定,取值為0.8;當分析β的敏感性時,α固定,取值為1.圖5 和圖6 分別是2 個參數在兩個數據集上的實驗結果.可以看到,在兩個數據集上,不同參數α和β的取值對于本文方法在指標AUROC 和AUPRC 上的結果影響相對較小,而在F1 指標上的結果影響相對較大.綜合α和β對模型性能的敏感性分析可知,在α和β分別取值1 和0.8 時,本文方法可以取得最好的實驗結果.

圖5 在ZhangDDI 數據集上不同 α 和 β 取值對模型性能的影響Fig.5 The effects of different α and β on model performance on ZhangDDI dataset

4 總結與展望

針對藥物相互作用預測的應用研究需求和不同藥物分子及其內部不同原子對DDI 預測結果具有不同作用等問題,本文提出一種基于多層次注意力機制和消息傳遞神經網絡的藥物相互作用預測方法.通過設計基于注意力機制的原子特征網絡和分子特征網絡,從兩個不同層次分別學習分子內不同原子和化學鍵以及不同分子間的特征信息,并結合本文提出的基于分子質心的位置編碼,提高藥物分子編碼的效率,從而提高DDI 預測結果的準確性.通過大量對比實驗和消融實驗驗證了本文方法的有效性和優越性.

本文提出的方法雖然可以從原子和分子層面提取藥物分子特征信息,但是利用的僅僅只是包含藥物分子信息的SMILES 序列,并沒有充分利用其他的藥物相關信息.下一步的研究工作可以考慮如何充分利用藥物分子結構式之外的信息,如同時利用藥物分子結構式和包含藥物相互作用關系的文本等多種信息,進一步提高模型預測潛在藥物相互作用關系的能力.

猜你喜歡
特征信息方法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 免费高清a毛片| 国产激情无码一区二区APP| 亚洲热线99精品视频| 国产菊爆视频在线观看| 国产99视频精品免费观看9e| 色天天综合久久久久综合片| 国产高清在线精品一区二区三区| 91在线免费公开视频| 狠狠操夜夜爽| 亚洲天堂首页| 亚洲精品777| 91毛片网| 亚洲精品欧美日本中文字幕| 亚洲人成网线在线播放va| 国产精品所毛片视频| 国产福利微拍精品一区二区| 五月激激激综合网色播免费| 91无码人妻精品一区二区蜜桃| 原味小视频在线www国产| 日本免费福利视频| 亚洲人成日本在线观看| 97国产在线播放| 精品无码一区二区三区电影| 久久这里只有精品国产99| 国产一二三区在线| 成人免费一级片| 91精品小视频| 欧美另类视频一区二区三区| 91久久偷偷做嫩草影院| 亚洲成人精品| 久久久久青草大香线综合精品| 婷婷五月在线| 亚洲综合色区在线播放2019| 国产亚洲美日韩AV中文字幕无码成人| 国产精品美人久久久久久AV| 99青青青精品视频在线| 免费播放毛片| 国产精品99久久久久久董美香| 伊人久久福利中文字幕| 91亚洲国产视频| 亚洲成人播放| 成人va亚洲va欧美天堂| 免费在线观看av| 国产无码网站在线观看| 国产丝袜一区二区三区视频免下载| 成人在线综合| 日韩精品久久无码中文字幕色欲| 欧美午夜精品| 97久久免费视频| 日本成人在线不卡视频| 亚洲v日韩v欧美在线观看| 国产视频自拍一区| 欧美成人综合在线| 欧美yw精品日本国产精品| 国产黑丝视频在线观看| 免费Aⅴ片在线观看蜜芽Tⅴ| 一级毛片在线免费视频| 国产在线欧美| 热久久综合这里只有精品电影| 欧美精品在线免费| 2021天堂在线亚洲精品专区| 在线观看网站国产| 99人体免费视频| 中国国产A一级毛片| 亚洲一欧洲中文字幕在线| 91国语视频| 无码中字出轨中文人妻中文中| 2021亚洲精品不卡a| 97成人在线视频| 免费A级毛片无码免费视频| 国产91线观看| 97视频在线精品国自产拍| 女人18毛片一级毛片在线 | 欧美成人A视频| 亚洲综合第一区| 亚洲精品自产拍在线观看APP| 99在线视频免费| 欧美成人精品一区二区| 亚洲 日韩 激情 无码 中出| 欧美午夜视频在线| 香蕉在线视频网站| 91黄色在线观看|