



摘要:藥物—靶標相互作用預測在藥物發現中起著至關重要的作用,在藥物再利用等領域具有重要意義。但是傳統的生物實驗周期長且成本高,因此基于深度學習的預測方法備受關注。提出一種基于混合編碼—圖神經網絡的藥物靶標相互作用預測框架,對于藥物表示,該框架采用圖神經網絡對藥物分子圖建模。對于靶標表示,使用不同的策略編碼靶標序列信息。在公共數據集上取得較好的實驗結果,表明模型預測藥物靶標相互作用的有效性。
關鍵詞:藥物-靶標相互作用預測;圖神經網絡;深度學習
一、前言
隨著個性化醫療和精準治療的興起,藥物研發在醫學領域占據著越來越重要的地位。然而,藥物開發過程十分耗時且昂貴,一種藥物從研發到上市整個過程平均需要12年的時間,估計成本超過10億美元[1]。新藥開發包括靶標識別,先導化合物發現,臨床前開發和臨床試驗四個步驟,其中,在初始階段藥物和靶標相互作用是藥物開發的重要基礎,也是治療疾病的根本機制。藥物-靶標相互作用(Drug-Target Interaction,DTI)的主要目標是識別可作用于特定靶標的藥物分子。因此,提高預測藥物—靶標相互作用的精確性可以有效縮短新藥研發周期并降低研發成本。藥物靶標相互作用預測通常看作為二元分類或回歸任務,每個藥物靶標對都有一個標簽,表示是否存在相互作用,已知具有相互作用的藥物靶標對作為正樣本,未知的藥物靶標對作為負樣本,利用不同的方法從藥物和蛋白質的數據信息中提取特征,進行學習分類。傳統的DTI預測方法可大致分為基于結構的方法和基于配體的方法[2]。基于結構的方法主要依賴于靶標蛋白質的三維結構信息,能夠提供詳細的藥物分子和靶標蛋白之間的結合模式信息。而基于配體的方法不依賴于蛋白質結構信息,是基于相似性原理進行預測DTI,但該方法對于缺乏足夠配體數據的情況下預測結果較差。為克服這些局限性,研究人員將機器學習方法應用于藥物發現的研究中,基于機器學習的方法可分為基于傳統機器學習的方法、基于網絡的方法和基于深度學習的方法。基于傳統機器學習的方法采用支持向量機(SVM)、邏輯回歸(LR)和隨機森林(RF)等監督學習方式進行分類預測。基于網絡的方法通過將DTI預測問題表述為異構圖中鏈路預測問題,異構圖中生物實體(如藥物和蛋白質)作為節點,其關聯關系作為邊,將圖轉換到低維向量空間中,使用機器學習或深度學習分類器進行下游預測任務。
藥物和蛋白質數據來源不同,具有不同的語義含義,合適的編碼方式可以充分考慮數據中包含的信息。為有效將這些不同的信息源整合為關鍵的特征向量,本文提出一個新的DTI預測方法,基于混合編碼—圖神經網絡預測藥物—靶標相互作用(簡稱HEGNN-DTI)。該模型利用多編碼策略整合蛋白質數據,不僅包含蛋白質的物理化學性質,還將氨基酸序列的順序信息和相關性考慮在內,從而提供更加全面的序列描述。同時,利用圖神經網絡學習藥物分子圖的結構數據,獲得藥物的特征向量。本研究在公共數據集上將模型HEGNN-DTI與四個基準模型進行比較,結果表明,HEGNN-DTI具有較好的性能。
二、方法
(一)模型概述
圖1是所提出模型HEGNN-DTI的示意圖,該模型包含三個關鍵模塊:藥物表示學習模塊、蛋白質表示學習模塊和藥物—蛋白質相互作用學習模塊。具體來說,HEGNN-DTI模型的輸入包括藥物的SMILES字符串和蛋白質的氨基酸序列。對于藥物分子使用圖卷積網絡提取藥物的特征信息,對于靶標蛋白通過兩種編碼方法轉換為數值向量,使用多層感知機映射到特征空間中。然后,利用得到的特征向量進行內積操作來預測DTI。
(二)藥物表示模塊
(三)蛋白質表示模塊
(四)特征融合和預測模塊
三、實驗結果與分析
(一)數據集來源
實驗中使用的是公共數據集Davis[6],該數據集使用68種激酶抑制劑作為藥物、442種激酶作為靶標,還有30056個相互作用對,該數據集涵蓋了超過80%的人類催化蛋白激酶組。
(二)基準模型
本文采用以下四個方法作為基準模型:
HyperAttentionDTI[7]使用卷積神經網絡從藥物分子的SMILES字符串和蛋白質序列中學習分子和蛋白質表示。然后,采用注意力機制來捕捉分子和蛋白質表示之間的復雜相互作用。
GIFDTI[8]結合卷積神經網絡和transformer設計特征提取器CNNFormer,用于學習序列中的關系。然后,將特征向量分別輸入全局分子特征提取器和分子間相互作用特征提取器中,獲得對應的全局分子特征和分子間相互作用特征。
transformerCPI[9]基于自回歸編碼器—解碼器架構,結合多頭注意力機制進行化合物和蛋白質相互作用預測任務。
GraphormerDTI[10]通過編碼藥物分子的基本結構特征,使用圖變換器神經網絡來構建藥物分子的表示,使用卷積神經網絡學習蛋白質表示,并利用注意力操作來建模分子和蛋白質之間復雜的相互作用。
(三)評價指標
為全面評估模型的性能,本研究使用精確度(Precision)、準確度(Accuracy)、召回率(Recall)、F1分數、曲線下面積(AUC)和精確率—召回率曲線下面積(AUPR)作為評估指標。精確度是模型預測正樣本準確程度的衡量,即預測為正例且實際為正例的樣本數,占所有預測為正例樣本數的比例,越高表明預測精度越高。準確性直觀體現了模型預測正確的整體比例,反映模型總體預測能力。召回率指真實正例被模型成功預測出的比例,體現模型對正例的捕捉能力。F1分數是精確度和召回率的調和平均數,綜合反映二者的平衡。AUC通過計算ROC曲線下的面積,衡量模型在不同分類閾值下區分正負樣本的能力,值越接近于1性能越好。AUPR計算精確率和召回率曲線下面積,在正負樣本不平衡時更能反映模型性能。
(四)對比實驗
為驗證模型HEGNN-DTI的有效性,在Davis數據集上采用十折交叉驗證方法,與四種基于深度學習的方法進行性能比較。在Davis數據集上對各模型進行評估的結果展示在表1,模型HEGNN-DTI在召回率、F1分數和AUPR三個指標上均優于其他基準模型。與獲得次優分數的模型相比,HEGNN-DTI在Recall、F1分數和AUPR方面分別提高了3.91%、0.81%和5.66%。實驗結果表明模型HEGNN-DTI在DTI預測任務中的有效性。
(五)消融實驗
為了進一步深入了解及驗證所提出模型的有效性,在KIBA數據集中進行消融實驗驗證不同靶標特征編碼方法的作用。系統的檢查從模型架構中移除不同特征表示對于預測結果的影響,通過比較改變后的模型與完整模型的性能,評估每種特征表示方法的貢獻。具體來說,將CTD和PAAC兩種蛋白質編碼方式生成的特征分別移除,使用對比實驗中所用到的六個評估指標,全面評估移除后的模型預測能力,定量的確定每種特征表示對模型整體性能的影響。該實驗結果如表2所示,可以清楚地觀察到,當移除其中一種特征,僅保留另一種特征時模型的性能顯著下降。實驗結果表明CTD和PAAC編碼方式的結合在靶標特征提取模塊中起著重要作用,能夠增強模型捕獲蛋白質序列中結構和功能信息的能力。
四、結語
本文提出了一種基于圖神經網絡和混合編碼策略預測藥物靶標相互作用的模型HEGNN-DTI,該模型對于藥物和靶標采用獨立的特征提取框架。對于藥物特征,將原始SMILES序列數據轉換為藥物分子圖,使用多層圖神經網絡進行特征提取。對于靶標特征,該模型結合兩種方式編碼蛋白質的氨基酸序列,將不同的編碼方式結合在一起使用,旨在利用每種編碼方式的特點,從多個角度捕獲靶標序列的復雜特征。在公共數據集上與基線模型的對比實驗結果表明,所提出的模型HEGNN-DTI具有一定的競爭力。
參考文獻
[1]劉曉光,李梅.基于深度學習的藥物—靶標相互作用預測研究綜述[J].智能系統學報,2024,19(03):494-524.
[2]劉潤哲,宋俊科,劉艾林,等.人工智能在基于配體和受體結構的藥物篩選中的應用進展[J].藥學學報,2021,56(08):2136-2145.
[3]Sieg J ,Feldmann W C ,Hemmerich J , et al.MolPipeline: A Python Package for Processing Molecules with RDKit in Scikit-learn[J].Journal of chemical information and modeling,2024.
[4]謝娟英,張建宇.圖卷積神經網絡綜述[J].陜西師范大學學報(自然科學版),2024,52(02):89-101.
[5]Xiao L ,Fuyi L ,Jinxiang C , et al.Large-scale comparative review and assessment of computational methods for anti-cancer peptide identification[J].Briefings in bioinformatics,2020,22(04):bbaa312.
[6]Davis MI, Hunt JP, Herrgard S, et al. Comprehensive analysis of kinase inhibitor selectivity [J].NatBiotechnol, 2011, 29(11):1046–1051.
[7]Qichang Z ,Haochen Z ,Kai Z , et al.HyperAttentionDTI: improving drug-protein interaction prediction by sequence-based deep learning with attention mechanism [J].Bioinformatics ,2021,38(03):655-662.
[8]Qichang Z ,Guihua D ,Haochen Z , et al.GIFDTI: Prediction of drug-target interactions based on global molecular and intermolecular interaction representation learning [J].IEEE/ACM transactions on computational biology and bioinformatics,2023,20(03):1943-1952.
[9]Lifan C ,Xiaoqin T ,Dingyan W , et al.TransformerCPI: Improving compound-protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments [J].Bioinformatics , 2020,36(16):4406-4414.
[10]Gao M ,Zhang D ,Chen Y , et al.GraphormerDTI: A graph transformer-based approach for drug-target interaction prediction[J].Computers in Biology and Medicine,2024 (173) : 108339.
作者單位:延安大學
責任編輯:王穎振 鄭凱津