






收稿日期:2023-08-24
DOI:10.19850/j.cnki.2096-4706.2024.05.035
摘" 要:預測藥物與其靶向蛋白的結合親和力是研發新藥的關鍵步驟。傳統的濕實驗耗時長,成本高。隨著人工智能技術的快速發展,在藥物篩選階段應用深度學習的技術可以大幅度提升研發效率。針對上述問題,提出一種基于卷積神經網絡預測藥物靶點親和力的方法。將蛋白質和小分子的結構特征分別轉換成對應的三維矩陣,送入對應的三維卷積神經網絡中進行訓練,然后再通過若干層全連接神經網絡提取特征值,得到最終的親和力值。實驗結果表明,該模型可有效地預測藥物靶點親和力,具有良好的應用前景。
關鍵詞:人工智能;深度學習;卷積神經網絡;蛋白質結構;藥物靶點親和力預測
中圖分類號:TP39;T18" " 文獻標識碼:A 文章編號:2096-4706(2024)05-0162-05
Prediction of Drug Target Binding Affinity Based on Structural Features
SHAO Yunchang, ZHANG Yuanyuan, JIANG Mingjian
(Qingdao University of Technology, Qingdao" 266520, China)
Abstract: Predicting the binding affinity between drugs and their target proteins is a key steps in developing new drugs. Traditional wet experiments are time-consuming and expensive. With the rapid development of artificial intelligence technology, the application of Deep Learning technology in the drug screening phase has the potential to significantly enhance research and development efficiency. A method for predicting drug target binding affinity based on Convolutional Neural Networks is proposed to address the above issues. The structural features of proteins and small molecules are transformed into corresponding three-dimensional matrices, these matrices are fed into respective three-dimensional Convolutional Neural Networks for training. Then, feature values are extracted through several layers of fully connected neural networks to obtain the final binding affinity value. The experimental results indicate that the model can effectively predict the binding affinity of drug targets and has good application prospects.
Keywords: Artificial Intelligence; Deep Learning; Convolutional Neural Networks; protein structure; prediction of drug target binding affinity
0" 引" 言
一款新藥物的研發需要投入大量的時間、昂貴的成本,且成功概率低。如在美國,新藥的研發大概需要投入26億美元[1],并且需要17年的時間才能獲得美國食品及藥物管理局(FDA)的批準[2,3],因此找到一種新的方式來提升藥物研發的效率成為當前的迫切需求。
藥物靶點的相互作用是一種二元分類的問題,我們認為藥物與靶點連續的親和力的值能夠更加直觀、準確地反映出二者的結合程度,因此預測藥物與靶點的結合親和力是研發新藥的關鍵步驟,將結合親和力強的藥物靶點篩選出來進行濕實驗,可大幅度提升研發效率。借助計算機來預測結合親和力成為當前比較重要的一種方式。傳統的機器學習有RF-Score [4],其構建完全依賴于數據,借助非參數機器學習方法巧妙地規避了對存在問題的建模假設的需求。
隨著進入大數據時代以及計算機算力的高速發展,深度學習在圖像識別、自然語言處理等應用中獲取了巨大成就,越來越多的方法也將藥物靶點親和力預測的問題用深度學習來處理。藥物小分子和蛋白質分別都有兩種特征表達方式,一種是基于序列的特征,一種是基于結構的特征。基于序列特征處理的深度學習方法比較有代表性的是DeepDTA [5]、GraphDTA [6]。DeepDTA將蛋白質序列和小分子的SMILES序列的字符分別用不同的數字表示,經過嵌入層處理后,將小分子、蛋白質分別送入相應的一維卷積神經網絡中訓練,預測親和力值。GraphDTA根據小分子的特性首次將SMILES序列處理成圖的形式,并將小分子圖送入到圖神經網絡中訓練。比起基于序列特性的方法,基于結構特性的方法在預測上往往更加準確。如DeepSite [7]基于蛋白質結構的信息根據距離和體積重疊的方法進行了蛋白質配體結合位點的預測。KDEEP [8]使用DeepSite的思想并結合卷積神經網絡來預測藥物靶點結合親和力。
在本文中,我們提出了一種新穎的基于蛋白質和小分子結構的方法來預測藥物靶點結合親和力。根據蛋白質和小分子的結構文件,分別將其網格化為兩個三維特征矩陣,再分別用兩個三維卷積神經網絡訓練兩個三維特征矩陣,最終得到結合親和力的值。實驗結果表明我們提出的方法是可拓展、可優化的,而且適用于任何已知三維結構的蛋白質和小分子。
1" 處理方法
本節介紹關于蛋白質小分子特征處理方式。根據蛋白質的.pdb文件和小分子的.sdf文件,我們可以獲取到蛋白質和小分子的結構特征信息,初始化分別代表蛋白質和小分子的零矩陣,為了防止坐標越界,蛋白質或小分子零矩陣的大小根據數據集中蛋白質或小分子坐標的最大X軸值、Y軸值、Z軸值和最小X軸值、Y軸值、Z軸值的差值來定,具體內容見小節4.2。通過小節1.1和小節1.2的方法分別將蛋白質和小分子網格化成兩個三維矩陣,具體操作見圖1所示。
1.1" 蛋白質的表征方式
根據蛋白質的.pdb文件,我們使用Biopython獲取蛋白質結構信息。通過Biopython中提供的方法,遍歷蛋白質的所有原子(atom),獲取到每個原子的三維坐標信息、原子類型信息。根據原子的坐標信息,我們獲取到X軸、Y軸以及Z軸的最小值(X,Y,Z),并以此為原點得到蛋白質三維矩陣的坐標。如原子用Biopython中atom.get_coord()方法獲取的坐標為(X1,Y1,Z1),則在我們構建的三維矩陣的坐標為(X1-X,Y1-Y,Z1-Z),遍歷所有的蛋白質原子,得到其在蛋白質三維矩陣中的坐標信息。三維矩陣的值是使用Biopython中的atom.element獲取原子類型,根據原子類型的不同,從1開始賦予不同的值,如{FE:1,NI:2,H:3},以此類推填寫初始化零矩陣的值。我們將得到的三維矩陣的尺寸縮小1 000倍,如若矩陣多個點合成一個,那么矩陣中的數值在縮小的過程中合并相加,得到最終的蛋白質三維矩陣。
1.2" 小分子的表征方式
小分子的處理方式和1.1小節中蛋白質處理的方式大致相同。根據小分子的.sdf文件來獲取小分子結構的坐標信息和類型信息。根據小分子的坐標信息,我們獲取到X軸,Y軸以及Z軸的最小值(X,Y,Z),并以此為原點得到小分子三維矩陣的坐標。如我們獲取的坐標是(X2,Y2,Z2),則小分子的三維矩陣中的坐標是(X2-X,Y2-Y,Z2-Z)。遍歷所有的小分子原子,得到其在小分子三維矩陣中的坐標信息。三維矩陣的值根據原子類型的不同,從1開始賦予不同的值,如{Br:1,F:2,C:3},以此類推填寫初始化零矩陣的值。我們將得到的三維矩陣的尺寸縮小8倍,矩陣中的數值與小節1.1中蛋白質矩陣同樣的處理方式,得到最終的小分子三維矩陣。
2" 神經網絡
小節1中我們介紹了關于結構特征的處理方式,將蛋白質和小分子結構網格化,形成了兩個三維特征矩陣。這一節我們介紹處理兩個三維特征矩陣的神經網絡的結構,以及提取特征的步驟。我們將兩個三維特征矩陣分別送入對應的三維卷積神經網絡中提取特征,將獲得的特征平鋪后分別送入兩個全連接層進一步提取特征,得到兩個分別代表蛋白質和小分子的128維向量,將兩種向量進一步融合為256維的向量,最后經過全連接層得到一維的向量輸出值。2.1和2.2小節詳細介紹三維卷積神經網絡和全連接神經網絡的結構。具體的神經網絡流程如圖2所示。
2.1" 三維卷積神經網絡
首先使用三層三維卷積神經網絡分別卷積蛋白質的三維矩陣和小分子的三維矩陣。每層卷積神經網絡的卷積核大小都是(3,3,3),為了防止矩陣邊緣信息在卷積過程中缺失,每層卷積神經網絡我們都加大小為(2,2,2)的填充(padding),由于神經網絡的輸入是一個蛋白質矩陣或者小分子矩陣,所以第一層的三維卷積神經網絡的輸入通道是1,輸出通道是16;第二層的三維卷積神經網絡的輸入通道是16,輸出通道是32;第三層的三維卷積神經網絡的輸入通道是32,輸出通道是1。為了特征提取更加精準,我們還引入了最大池化層(Maxpooling),池化層的卷積核為(2,2,2)。每層卷積后使用的激活函數是ReLU [9]。
2.2" 全連接層
經過上述的三維卷積層后,我們得到了分別代表蛋白質和小分子特征值,將特征值平鋪后我們將其分別送入兩個三層的全連接層。第一層將輸入的向量變為2 048維度,第二層由2 048維度變為1 024維度,第三層由1 024維度變為128維度。激活函數使用的是ReLU,同時為了防止過擬合,我們還引入了Dropout層。至此我們獲得了分別代表蛋白質和小分子的128維向量。將兩個128維向量融合成一個256維的特征向量送入下一個三層全連接層進行訓練,第一層特征向量由256維變成1 024維度,第二層由1 024維度變成512維度,最后一層得到的輸出是一個一維值,也就是我們所需要的親和力的特征表示。
3" 數據集及衡量標準
這一章節我們介紹實驗所用到的數據集和衡量實驗性能的公式。3.1小節介紹PDBbind數據集[10],3.2小節介紹了本文實驗所使用的數據集劃分,3.3小節介紹我們對于實驗所使用的衡量標準。
3.1" PDBbind數據集的介紹
PDBbind作為一個與蛋白質-配體相互作用相關的數據庫,在測量解離常數(Kd)、抑制常數(Ki)或半濃度(IC50)等物理量以衡量相互作用強度的基礎上,為藥物設計、分子對接、虛擬篩選等計算生物學研究提供了必要的支持。在當前研究中,PDBbind展現出其作為實驗方法測試平臺的卓越選擇。PDBbind數據庫包含三個主要子集:通用集、精煉集和核心集。通用集包含大量蛋白質-配體復合物數據,囊括了多樣性的結構與相互作用模式。該子集廣泛涵蓋多種復合物類型,為研究者提供多樣性數據樣本。精煉集是通用集的子集,經過嚴格篩選以保留高質量數據,其所蘊含的結構與相互作用信息更為可靠。而核心集則是精煉集的更為精選子集,匯聚了代表性的蛋白質-配體復合物數據。這些復合物在結構生物學領域具備顯著的意義,能夠作為研究特定領域問題的基準數據。
3.2" 數據集的劃分
在本文中我們進行的實驗使用到PDBbind2016。在PDBbind2016中精煉集包含4 057組數據,核心集包含290組數據,對于實驗標簽Kd、Ki、IC50,我們都根據Kd的處理方式,如式(1)所示。為了防止過擬合現象,我們要確保在訓練集和測試集中不能出現同一組數據,所以我們將在精煉集出現的核心集的數據全部刪除,得到3 767組數據,將這3 767組數據作為實驗的訓練集,290組數據作為實驗的測試集。
(1)
3.3" 衡量標準
在本文中,我們使用了均方根誤差(RMSE),皮爾森相關系數(R),斯皮爾曼等級相關系數(Rs)來衡量我們的實驗性能。以下是關于各個公式的詳細介紹。
3.3.1" 均方根誤差RMSE
RMSE用于衡量預測模型的性能,因此它的計算涉及預測值與實際觀測值之間的差異,RMSE的數值越小,說明模型的準確率越高。RMSE的計算式如下:
(2)
式中n表示數據點的總數;yi表示實際觀測值; 表示對應的預測值。
3.3.2" 皮爾森相關系數R
皮爾森相關系數R被廣泛應用于衡量兩個連續變量之間線性關系的強度和方向,其取值范圍被限制在-1到1之間。具體而言,當R趨近于1時,暗示著兩變量之間存在著完全正向線性關系,即其中一個變量的增加伴隨著另一個變量的嚴格增加。相反地,當R趨近于-1時,意味著兩個變量之間呈現明顯的負向線性關系,即一個變量的增加伴隨著另一個變量的嚴格減少。然而,當R接近于0時,它表明兩變量之間的線性關系較為弱化,或者還存在其他可能的非線性關系。皮爾森相關系數在分析變量關聯性方面具有突出的價值,幫助研究者洞察變量之間的態勢與相互聯系,從而為更深入的分析提供了基礎。R的計算式如下:
(3)
式中xi和yi分別表示樣板第i個觀測值, 和" 分別表示x和y的均值。
3.3.3" 斯皮爾曼等級相關系數Rs
斯皮爾曼等級相關系數(Rs)是一項重要的統計工具,其用途在于測量兩個變量之間的關聯性。與先前提及的皮爾遜相關系數相異,Rs并不對變量間呈線性關系提出要求,而是以變量的等級或順序數據為基礎進行分析。Rs的取值范圍界定于區間[-1,1]之內。當Rs等于1時,意味著存在著完全正相關關系,即兩變量的秩次排序完全一致;當Rs趨近于0,則意味著變量之間缺乏顯著的秩次關聯性;而當Rs為-1時,則指示出完全負相關,揭示了兩變量秩次排序的完全逆序關系。不容忽視的是,斯皮爾曼等級相關系數不僅適用于分析非線性關系,還對數據集中存在離群值的情形表現出魯棒性。其所具有的尺度不變性使其能夠有效地克服數據尺度變換所引發的問題。如此特性使得Rs在解決無法滿足線性關系假設的問題時效果顯著。綜上所述,斯皮爾曼等級相關系數作為一種統計工具,應用廣泛,主要用于測量變量之間的秩次關聯性。特別是在處理無法滿足線性關系假設的場景下,其優越性愈加顯著。Rs的表示計算公式如下:
(4)
式中di表示每對數據點在兩個變量中的秩次差,n表示樣本數量。
4" 實驗及分析
在小節3中我們介紹了關于本文的實驗用到的數據集和衡量標準,這一節我們運用小節3的內容進行實驗并且詳細介紹實驗的操作步驟。
4.1" 實驗配置及其過程
本實驗基于Ubuntu操作系統,數據集使用PDBbind2016。為了加快訓練速度,我們采用顯卡(GPU)進行訓練。具體的配置如表1所示。
表1" 關于本實驗的各項配置
參數 配置
Epoch 50
訓練批次(Train Batch) 128
測試批次(Test Batch) 128
學習率 0.000 5
優化器(Optimizer) Adam
損失函數 MSELoss
操作系統 Ubuntu
深度學習框架 PyTorch
GPU NVIDIA GeForce RTX 4090
首先我們需要將PDBbind數據集轉換成PyTorch格式。將.pdb文件和.sdf文件所提供的信息創建成分別代表蛋白質和小分子的三維矩陣,并且將蛋白質、小分子矩陣以及所對應的親和力的值以三個一組的形式存儲起來。原始數據集形成PyTorch格式處理過的訓練集和測試集,并保存成兩種文件,將訓練集文件送到神經網絡中訓練50輪,并將得到的模型參數用于測試集文件測試。
按照上述的實驗流程,我們進行一個完整的實驗,實驗中Loss下降的過程如圖3所示。從圖中我們可以看出,橫坐標訓練輪次(Epoch)為50輪,縱坐標Loss的數值隨著Epoch的增加而逐步減小。這表明我們所提出的模型,隨著訓練次數的增加,預測結果與實際結果逐漸接近,可以有效地提升預測的準確率。
圖3" 實驗Loss下降過程圖
4.2" 基于PDBbind2016數據集的實驗
根據PDBbind2016數據集計算蛋白質和小分子的原子分別在X、Y、Z軸上的最大坐標值與最小坐標值的差值,選出數據集中每個維度最大的差值作為初始化零矩陣的對應維度的邊長,并且在最外層加以零填充,我們將蛋白質零矩陣的大小定為(170,170,190),小分子零矩陣的大小定為(30,30,30),縮小后蛋白質和小分子矩陣大小分別為(17,17,19),(15,15,15)。我們根據KDEEP的實驗操作劃分了數據集,并使用KDEEP提供的實驗數據,有4種方法與我們的實驗方法在RMSE、R、Rs的衡量標準上進行對比,分別是KDEEP [8]、RF-Score [4]、X-Score [11]、cyScore [12],對比的詳細結果如表2所示。
表2" 關于在PDBbind2016數據集的性能表現
方法 RMSE R Rs
KDEEP 1.27 0.82 0.82
RF-Score 1.39 0.80 0.80
X-Score 1.71 0.66 0.66
cyScore 4.13 0.65 0.65
本實驗方法 1.62 0.67 0.68
從表2中可以看出我們提出的方法RMSE是1.62,R是0.67,Rs是0.68。在RMSE、R、Rs上的表現都優于傳統的評分方法X-Score,cyScore,這得益于我們的方法通過網格化結構信息,用數字來代替原子類型,能夠更好地表達蛋白質和小分子的特征信息。但是表現性能遜于KDEEP、RF-Score的方法,這可能是由于我們的方法在構建矩陣時,為了防止矩陣的坐標越界,初始化矩陣的每個維度的邊長都和數據集中所有原子矩陣所對應維度的邊長的最大值有關,這使得大部分矩陣的非零數值都集中在三維矩陣的坐標的原點附近,其余部分有大量零值,雖然我們通過縮小矩陣來減小上述情況帶來的負面效果,但是也會伴隨著矩陣像素精度的較少。總之,我們提出的方法在所有方法中屬于中等表現水平,有很大的優化空間。
5" 結" 論
預測藥物靶點親和力是新藥研發的關鍵步驟,本文中我們提出了一種基于結構特征的深度學習方法,通過蛋白質和小分子的原子坐標信息分別網格化成兩個特征矩陣,并根據原子類型的信息賦予矩陣數值。本文在PDBbind數據集上進行了實驗,實驗結果表明我們提出的方法在所有性能上都優于X-Score和cyScore這兩種傳統的函數評分方法,是一項有前景的深度學習方法。
參考文獻:
[1] MULLARD A. New drugs cost US$2.6 billion to develop [J].Nature Reviews Drug Discovery,2014,13(12):877.
[2] ASHBURN T T,THOR K B. Drug Repositioning: Identifying and Developing New Uses for Existing Drugs [J].Nature Reviews Drug Discovery,2004:673-683.
[3] ROSES A D. Pharmacogenetics in Drug Discovery and Development: A Translational Perspective [J].Nature Reviews Drug Discovery,2008(10):807-817.
[4] BALLESTER P J,MITCHELL J B O. A Machine Learning Approach to Predicting Protein-Ligand Binding Affinity with Applications to Molecular Docking [J].Bioinformatics,2010,26(9):1169-1175.
[5] ?ZTüRK H,?ZGüR A,OZKIRIMLI E. DeepDTA: Deep Drug-Target Binding Affinity Prediction [J].Bioinformatics,2018,34(17):i821-i829.
[6] NGUYEN T,LE H,QUINN T P,et al. GraphDTA: Predicting Drug-Target Binding Affinity with Graph Neural Networks [J].Bioinformatics,2021,37(8):1140-1147.
[7] JIMéNEZ J,DOERR S,MARTíNEZ-ROSELL G,et al. DeepSite: Protein-Binding Site Predictor Using 3D-Convolutional Neural Networks [J].Bioinformatics,2017,33(19):3036-3042.
[8] JIMéNEZ J,SKALIC M,MARTINEZ-ROSELL G,et al. KDEEP: Protein-Ligand Absolute Binding Affinity Prediction via 3D-Convolutional Neural Networks [J].Journal of chemical information and modeling,2018,58(2):287-296.
[9] NAIR V,HINTON G E. Rectified Linear Units Improve Restricted Boltzmann Machines [C]//Proceedings of the 27th Interational Conferenice on Machinse Learring,Haifa:[s.n.],2010.
[10] WANG R X,FANG X L,LU Y P,et al. The PDBbind Database: Methodologies and Updates [J].Journal of Medicinal Chemistry,2005,48(12):4111-4119.
[11] WANG R X,LAI L H,WANG S M. Further Development and Validation of Empirical Scoring Functions for Structure-Based Binding Affinity Prediction [J].Journal of Computer-Aided Molecular Design,2002,16(1):11-26.
[12] CAO Y,LI L. Improved Protein-Ligand Binding Affinity Prediction by Using a Curvature-Dependent Surface-Area Model [J].Bioinformatics,2014,30(12):1674-1680.
作者簡介:邵允昶(1999—),男,漢族,山東青島人,碩士研究生在讀,研究方向:基于深度學習的藥物靶點親和力研究;張媛媛(1986—),女,漢族,山東德州人,副教授,博士研究生,研究方向:人工智能在藥物發現中的應用;江明建(1991—),男,漢族,山東青島人,講師,博士研究生,研究方向:基于深度學習的蛋白質組學研究。