






摘要:藥物靶標(biāo)親和力預(yù)測(cè)在藥物研發(fā)中扮演著重要的角色。針對(duì)現(xiàn)有預(yù)測(cè)方法大多忽略藥物分子的二維結(jié)構(gòu)信息、缺乏深層表征融合學(xué)習(xí)的問(wèn)題,提出了基于圖卷積和雙線性注意力網(wǎng)絡(luò)的藥物靶標(biāo)親和力預(yù)測(cè)模型(GBN_DTA)。該模型首先基于多層圖卷積神經(jīng)網(wǎng)絡(luò)編碼藥物分子圖,同時(shí)結(jié)合1D-CNN 和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)編碼靶標(biāo)序列;然后使用雙線性注意力網(wǎng)絡(luò)融合編碼后的藥物和靶標(biāo)特征,最終獲得親和力預(yù)測(cè)分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果表明,該模型在DAVIS 和KIBA 數(shù)據(jù)集上的性能均優(yōu)于其他6 種主流方法,有效提升了預(yù)測(cè)準(zhǔn)確率。
關(guān)鍵詞:藥物靶標(biāo)親和力預(yù)測(cè);藥物研發(fā);圖卷積神經(jīng)網(wǎng)絡(luò);雙線性注意力網(wǎng)絡(luò);深層表征融合
中圖分類號(hào):TP183; R91 文獻(xiàn)標(biāo)志碼:A
藥物靶標(biāo)作用關(guān)系預(yù)測(cè)是藥物研發(fā)過(guò)程中至關(guān)重要的一步。在藥物研發(fā)的早期階段,通過(guò)預(yù)測(cè)藥物與靶標(biāo)的相互作用,可以快速篩選出具有潛在治療效果的候選藥物,從而加速整個(gè)研發(fā)進(jìn)程。作為藥物-靶標(biāo)作用關(guān)系中最為關(guān)鍵的因素之一,藥物與靶標(biāo)的親和力大小的預(yù)測(cè),可以幫助研究者更好地了解藥物與靶標(biāo)之間的相互作用機(jī)制,有助于優(yōu)化藥物設(shè)計(jì)和提高藥物的療效。因此,藥物-靶標(biāo)親和力預(yù)測(cè)(Drug-Target Affinity,DTA)已成為當(dāng)今藥物研發(fā)領(lǐng)域中備受關(guān)注的熱點(diǎn)問(wèn)題之一。
對(duì)于已知三維結(jié)構(gòu)的靶標(biāo),可以利用分子對(duì)接模擬來(lái)預(yù)測(cè)藥物和靶標(biāo)間的結(jié)合構(gòu)象和強(qiáng)度。常見(jiàn)的分子對(duì)接軟件包括DOCK[1]、AutoDock[2] 等。然而,分子對(duì)接需要篩選包含數(shù)億小分子的大型數(shù)據(jù)庫(kù)來(lái)進(jìn)行構(gòu)象搜索,整個(gè)計(jì)算過(guò)程非常耗時(shí)。隨著蛋白質(zhì)組學(xué)的發(fā)展,可以通過(guò)高通量測(cè)序技術(shù)快速獲取靶標(biāo)序列,但靶標(biāo)三維結(jié)構(gòu)的獲取仍然存在挑戰(zhàn)。與分子對(duì)接模擬相比,大量的基于靶標(biāo)序列的DTA 預(yù)測(cè)方法不需要三維結(jié)構(gòu),因而獲得了快速的發(fā)展。
基于靶標(biāo)序列的DTA 預(yù)測(cè)方法大多采用基于機(jī)器學(xué)習(xí)的方法。KronRLS 方法[3] 和SimBoost 方法[4]利用傳統(tǒng)機(jī)器學(xué)習(xí)方法取得了較好的親和力預(yù)測(cè)效果。這兩種方法都是使用Smith-Waterman 算法[5] 計(jì)算藥物SMILES 相似度矩陣作為藥物特征表示、Pubchem 結(jié)構(gòu)聚類服務(wù)器(Pubchem Sim)計(jì)算靶標(biāo)序列相似度矩陣作為靶標(biāo)特征表示。KronRLS 模型將藥物和靶標(biāo)特征矩陣的Kronecker 積作為DTA 的預(yù)測(cè)結(jié)果,SimBoost 模型則將藥物-靶標(biāo)特征對(duì)輸入到梯度增強(qiáng)回歸樹(shù)模型中進(jìn)行DTA 預(yù)測(cè)。然而,基于傳統(tǒng)機(jī)器學(xué)習(xí)的算法通常需要高質(zhì)量的輸入特征,并且很難學(xué)習(xí)到復(fù)雜的非線性關(guān)系[6]。
相比傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)模型可以自動(dòng)地學(xué)習(xí)藥物和靶標(biāo)的特征表示,并利用神經(jīng)網(wǎng)絡(luò)的非線性擬合能力來(lái)預(yù)測(cè)藥物靶標(biāo)親和力,在預(yù)測(cè)準(zhǔn)確率和魯棒性方面具有更好的表現(xiàn)。DeepDTA 模型[7] 利用兩個(gè)具有遞增濾波器的1D-CNN 模塊學(xué)習(xí)藥物SMILES 和靶標(biāo)序列的表征,通過(guò)藥物和靶標(biāo)的特征拼接以及多層全連接操作得到藥物-靶標(biāo)對(duì)的結(jié)合親和力。WideDTA 模型[8] 是DeepDTA 的擴(kuò)展,它使用了4 種基于文本的信息源來(lái)預(yù)測(cè)結(jié)合親和力,包括蛋白質(zhì)序列、藥物SMILES、PDM(Protein Domainsand Motifs) 以及LMCS( Ligand Maximum CommonSubstructures)。對(duì)于藥物SMILES 序列的特征編碼,一些模型通過(guò)引入注意力機(jī)制進(jìn)一步提升了藥物的表征能力。MT_DTI 模型[9] 利用多層雙向Transformer[10]編碼藥物SMILES。MATT_DTI 模型[11] 使用基于關(guān)系感知的自注意力網(wǎng)絡(luò)模塊[12] 和多層1D-CNN 模塊組合編碼藥物SMILES。然而,這些DTA 預(yù)測(cè)模型都傾向于編碼藥物和靶標(biāo)的序列特征,忽略了藥物的空間結(jié)構(gòu)信息,并且采用簡(jiǎn)單的拼接操作來(lái)融合藥物和靶標(biāo)編碼后的特征,忽略了藥物-靶標(biāo)之間的局部相互作用。