張寓 於東軍



摘 要:在生物內部活動中,蛋白質和配體之間的互相作用是非常常見而又重要的一種活動,腺嘌呤核苷三磷酸(ATP)是其中一種非常重要的配體。為了提高預測腺嘌呤核苷三磷酸(ATP)綁定位點的準確率,提出了一種基于一維卷積神經網絡(1DCNN)的方法。首先,以蛋白質的序列信息為基礎,融合位置特異性得分矩陣信息、二級結構信息和水溶性信息,使用隨機下采樣的方法消除數據不平衡的影響,再對缺失的特征進行再編碼補齊,得到訓練特征。訓練一個1DCNN來預測蛋白質ATP綁定位點,優化網絡結構,并且進行實驗來對比所提方法和其他機器學習方法的優劣。實驗結果展示了所提方法的有效性,并且該方法與傳統支持向量機(SVM)相比在AUC指標上有部分的提升。
關鍵詞:蛋白質ATP;卷積神經網絡;數據不平衡問題;分類
中圖分類號:TP391.4
文獻標志碼:A
ProteinATP binding site prediction based on 1Dconvolutional neural network
ZHANG Yu, YU Dongjun*
School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China
Abstract:
Interaction between proteins and ligands is a very common and important activity in the internal activities of organisms. Adenosine TriPhosphate (ATP) is one of the most important ligands. To improve the accuracy of proteinATP (Adenosine TriPhosphate) binding sites, an algorithm was proposed by using One Dimensional Convolutional Neural Network (1DCNN). Firstly, based on the protein sequence information, position specific score matrix information, secondary structure information and water solubility information were combined and random undersampling was used to eliminate the impact of data imbalance. Then, the missing features were completed by recoding. Finally, the training features were obtained. A 1DCNN was trained to predict proteinATP binding sites, the network structure was optimized, and experiments were carried out to compare the proposed method and other machine learning methods. Experimental results show that the proposed method is effective and can achieve better performance on AUC (Area Under Curve) compared to the traditional Support Vector Machine (SVM).
Key words:
proteinATP (Adenosine TriPhosphate); Convolutional Neural Network (CNN);data imbalance problem;classification
0?引言
腺嘌呤核苷三磷酸(Adenosine TriPhosphate, ATP)是大部分生物體力最直接的能量來源,它水解時能釋放出大量的能量,這些能量參與了很多人類的基礎的生命活動, 因此,ATP是人體內極為重要的一種分子[1-2]。蛋白質ATP綁定位點指的是在綁定有ATP的蛋白質的殘基中和ATP配體距離小于一定距離的殘基,如果能夠正確定位蛋白質ATP綁定位點,就能變相地確定ATP分子的位置,這對藥物設計和進一步的生物生命活動研究都有著重大的意義[3-4]。
在傳統的生物學實驗中,通常要通過生物濕實驗來測定蛋白質的ATP綁定位點,但是做生物濕實驗較為耗時而且經濟成本高昂。隨著數字化信息時代的開始,很多的生物信息以數字化的方式得以保存[5],隨后就出現了使用已知的生物信息來預測未知的信息的方法,最開始使用的方法一般是基于模板的匹配算法[6-7],隨著機器學習技術的發展,開始出現使用機器學習來預測未知的綁定位點[8-9]的方法。
在機器學習方法中,有效的特征提取是提高預測性能的關鍵。在蛋白質的特征工程方面,開始只是使用原本的序列信息來預測,后來,蛋白質序列中的一些隱藏的信息被挖掘了出來,例如:位置特異性得分矩陣(Position Specific Score Matrix, PSSM)[10]、二級結構(Secondary Structure, SS)信息、溶液接觸面積(Solvent Accessibility, SA)信息、物理化學屬性[11]、三級結構信息[12-13]等,這些信息也被用于參與預測,而且提高了預測的性能; 然而這些信息很多也是未經過實驗測定的。針對這個問題,后續出現了使用預測器來預測這些隱藏信息,并且把預測結果作為特征參與預測的集成預測器[14-15]。隨著方法的不斷改進,預測的準確率也越來越高。
近幾年來,深度學習技術開始逐漸應用于生物信息學,DeepBind[16]使用了深度卷積神經網絡預測了脫氧核糖核酸(DeoxyriboNucleic Acid, DNA)和核糖核酸(RiboNucleic Acid,RNA)的蛋白質綁定位點。DeepSite[17]直接使用蛋白質的三級結構特征訓練一個深度三維卷積神經網絡,對綁定口袋在蛋白質三維空間中的位置進行預測。隨著這些深度學習的方法的產生,預測的準確率又被提高了一個層次。
本文提出了一種基于一維卷積神經網絡(One Dimensional Convolutional Neural Network, 1DCNN)的方法來預測蛋白質ATP綁定位點,使用蛋白質的序列信息、PSSM矩陣、二級結構特征、溶液接觸面積特征來訓練模型,預測每個殘基是綁定位點的概率。最后和其他使用支持向量機(Support Vector Machine, SVM)的方法進行比較,分析本文方法的優點和缺點。
1?數據集
本文所使用的數據集為論文ATPbind[14]中所使用的數據集,該數據集由429個和ATP綁定的蛋白質鏈構成。該數據集來自2016年5月之前PDB(Protein Data Bank)[18]中的數據,并且使用CDhit[19]軟件將同源性超過40%的蛋白質全部除去。在這429個蛋白質鏈中,將其中388個作為訓練集(PATP388),剩下41個蛋白質鏈作為獨立測試集(PATPTEST)。PATP388包含5-657個ATP綁定位點殘基和142-086個非ATP綁定位點殘基,PATPTEST包含674個ATP綁點位點殘基和14-159個非ATP綁點位點殘基。
2?蛋白質殘基的特征表示
蛋白質的每個殘基都是20種氨基酸脫水縮合后中的一種,一條蛋白質鏈可以簡單表示為一個由20種殘基組成的字符串,但是每條蛋白質鏈中的信息遠多于一個字符串所表達的信息。蛋白質的特征工程問題一直是生物信息學中復雜而又重要的問題。本文選取了幾個常用而又有效的特征,在對其進行一些處理后,作為最終的訓練特征。
2.1?特征選取
本文選用了PSSM特異性得分矩陣、蛋白質二級結構特征、溶液接觸面積作為基本的特征組成成分。
PSSM矩陣可以反映出該蛋白的序列信息和族譜信息。通常使用PSIBLAST[20]程序將待比對蛋白的信息放到SwissProt[21]蛋白質數據庫中搜索并和結果進行比對,最后得到PSSM矩陣。PSSM矩陣是一個N×20的矩陣,N為蛋白質殘基的數量,每個殘基對應著20個元素,這20個元素代表著20種氨基酸的每一種出現的可信度得分。在得到PSSM矩陣后,使用歸一化函數將PSSM矩陣的每個得分進行歸一化處理。歸一化函數如下:
f(x)=x-minmax-min(1)
蛋白質的二級結構(SS)指的是多個殘基在局部所表現出的一種鏈接形狀。蛋白質的二級結構被分為α螺旋(H)、β折疊(E)和無規律的卷曲(C)。本文中用已有的預測器psipred[22]來預測蛋白質的每個殘基屬于某一種二級結構的概率,并把得到的結果作為特征。預測器得到的結果為N×3的矩陣,即每個殘基有3個元素,分別指3種不同二級結構的概率。
蛋白質的溶液接觸面積(SA)是指蛋白質每個殘基可以和水接觸的面積大小,間接反映了這個殘基是否可溶于水。每個殘基對應著三種狀態:易于和水接觸、不易于和水接觸、中性。本文中使用已有的預測器Sann[23]來預測,得到N×3的矩陣,即每個殘基對應3個元素,分別代表3種狀態的概率。
融合以上特征,每個殘基一共有20+3+3=26維的基本向量。然而,一個ATP綁定位點的確定和鄰近的殘基有相互作用的關系,所以,一般使用一個滑動窗口把指定殘基的鄰近殘基也作為特征輸入,針對ATP綁定位點預測問題的滑動窗口大小一般都取17[24],指定殘基的前8個和后8個殘基也都在滑動窗口之內。但是一條蛋白質鏈的前8個殘基和后8個殘基的滑動窗口區域并不存在17個殘基。針對這個問題,本文使用了補位的方法,在頭部和尾部補上缺失的殘基,對于這些補位的殘基,使用了一種類似于onehot編碼的方法。針對選取的3種基本特征,本文在這3個基本特征中每個額外加入一個維度也就變成了21(PSSM)、4(SS)、4(SA),一共29個維度。對于正常的殘基,這3個額外的維度值都為0,而針對補位的殘基,這3個維度值為1而其余的維度值為0。
最后,每個殘基的維度數量就變成了29×17=493個,這493個維度也是作為最終的輸入向量的構成。
2.2?隨機下采樣
由于正負樣本數量極為不平衡,正負類比達到1∶24。這就造成了不平衡問題[25]。如果不對數據進行處理,直接進行訓練,那么分類器將傾向把所有樣本都預測為負類。針對不平衡問題,通常會使用上采樣或者下采樣方法來平衡樣本。文中所使用的是最常用的隨機下采樣,即隨機選取指定數目的負類樣本,使之數目和正類樣本平衡。每次隨機拿取正類樣本數目的負類樣本,和所有正類樣本混合作為一輪神經網絡訓練的訓練樣本。
3?卷積神經網絡模型的構建和訓練
3.1?網絡模型結構
由于蛋白質序列信息是一維信息而且具有局部關聯性,本文使用一維卷積神經網絡作為模型進行訓練。神經網絡的大致結構如圖1所示。神經網絡的輸入是一個17×29的矩陣,即長度為17,深度為29。
網絡的第一層和第二層都為卷積層(Conv Layer),卷積的窗口大小為2,步長為1,第一層卷積核的數量為400,第二層卷積核的數量也為400,所以經過2層卷積之后,輸出的數據的深度就為400。
由于序列所攜帶的信息量比較少,在圖像領域中的卷積神經網絡中常用的池化層在本文中并沒有使用。
第三層為平鋪層(Flatten Layer),用來連接卷積層和全連接層。
第四層和第五層都為全連接層(Dense Layer),第四層的神經元的數量為500,第五層為200。
第六層是帶有丟棄[26](Drop out)的全連接層,隨機丟棄一些輸入來防止神經網絡過擬合,本文中丟棄輸入的概率設為50%。
最后一層為輸出層(Output),神經元的數量為2。這兩個神經元的輸出就分別代表著正類和負類的預測置信度。
在每一層得到輸入計算出結果后,會使用激活函數對結果進行調整。除最后輸出層外,每一層都使用了ELU激活函數。第五層則使用了sigmoid函數。ELU和sigmoid函數如下:
elu(x)=x, x≥0α(exp(x)-1),x<0 (2)
sig(x)=11+e-x(3)
最后對這兩個輸出結果使用Softmax函數,得出正類和負類的預測概率。Softmax函數如下:
σ(z)j=ezj∑Kk=1ezk(4)
本次實驗使用TensorFlow[27]進行神經網絡的構建和訓練,在硬件上使用了兩塊GTX Titan XP,并且使用CUDA(Compute Unified Device Architecture)運算平臺進行加速計算。
為了優化網絡結構,本文還構建了一些不同結構的神經網絡進行對比實驗。文中主要通過改變網絡模型中卷積層的層數和每層卷積層中卷積核的個數來改變結構。層數越多,卷積核數量越多的網絡的學習能力也就越強,但是同時也會導致學習的速度慢、梯度爆炸和梯度消失的情況發生。
3.2?模型訓練
本文將一次隨機下采樣的樣本作為一輪的訓練樣本進行訓練,將每次Softmax函數得到的正類和負類的預測概率和真實類別的交叉熵函數作為損失函數,使用梯度下降法對網絡模型進行優化。交叉熵函數如下:
H(p,q)=∑ip(i)*ln(1/q(i))(5)
其中:p為樣本的真實值; q為樣本的預測值; p(i)、q(i)表示向量p、q的第i個元素。
為了使模型收斂的速度加快,將正負樣本交替輸入進模型進行訓練,每輸入一個殘基的特征就進行一次梯度下降操作,即batch size=1。本文以對獨立測試集預測結果的AUC(Area Under Curve)作為第一評估指標,訓練多輪直至AUC收斂。
4?實驗結果和比較分析
4.1?評判標準
本文涉及的是一個二分類問題,所有樣本只有正類和負類。根據獨立測試集的真實標簽和預測標簽,可以把每個樣本的預測結果分成4種情況:TP(True Positives)、FP(False Positives)、TN(True Negatives)和FN(False Negatives)。
根據這些基礎數據,演化出了特異性(Specificity,Spe)、敏感性(Sensitivity,Sen)、準確性(Accuracy,Acc)、馬修斯相關系數(Matthews Correlation Coefficient,MCC)。由于本文的分類器是軟分類器,即輸出的是屬于正類的概率,必須先確定一個閾值才能確定預測的樣本是正類還是負類,如果得到的正類概率大于閾值那么這個樣本就會被預測為正類; 反之,就會被預測為負類。所以,一個已經被預測好的結果的TP、FP、FN、TN是會隨著閾值而改變的,MCC等數據也會隨之改變。
Spe=TNTN+FP(6)
Sen=TPTP+FN(7)
Acc=TP+TNTP+TN+FP+FN(8)
MCC=
TP*TN-FP*FN(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)(9)
AUC可以更加穩定地去描述一個預測結果的好壞,將閾值從0到100%遍歷,根據TP/TP+FN(縱坐標)和FP/FP+TN(橫坐標),畫出ROC(Receiver Operating Characteristic)曲線,AUC為ROC曲線下與坐標軸圍成的面積,而這個值是不需要一個確定的閾值的。
由于本文所涉及的問題是個樣本不平衡問題,如果使用Acc作為衡量標準是無法判別預測器好壞的,因為即使把所有類都預測為多數類,Acc也能達到很高的數值, 所以,一般用AUC指標作為分類器的評判標準。
4.2?實驗結果
本文將隨機下采樣后得到的一組數據作為一輪訓練的所需數據。針對每種結構不同的神經網絡,會動態調正學習速率,并且讓其訓練多輪。在每輪訓練結束后,使用獨立測試集對當前的網絡進行一次測試。前170輪次在獨立測試集上的結果如圖2所示。
可以看出,大概第50輪次訓練開始,AUC指數就已經收斂并且趨向于穩定。但是,從40輪開始,MCC卻以非常慢的速度上升,而且60輪往后的MCC表現得非常不穩定。隨著損失的不斷減小,AUC和MCC并沒有出現下降的趨勢,說明并沒有發生過擬合的現象。
可以得出,卷積神經網絡模型在本文的問題中對AUC指標的優化是非常有效的,但是對MCC指標的優化卻有所不足,而且從50輪開始,AUC數值基本穩定,但是MCC卻緩慢提高。MCC指標優化緩慢的問題有可能和本文神經網絡所使用的交叉熵損失函數核梯度下降的優化方法有關。
將這種方法在獨立測試集上,和其他方法進行比較,結果如表3所示。
從表3可以看出:雖然Acc并不是特別優秀,不及ATPseq的99.27%,但也達到了一般預測器96%的水平;而本文所提出的方法較于其他方法在AUC上有不少提升,比最好的ATPseq也要高出0.4個百分點,達到了88.2%。這可能就是神經網絡著重于AUC的優化才導致了這一結果。
5?討論
5.1?一維卷積神經網絡還是二維卷積神經網絡
二維卷積神經網絡目前被廣泛應用于圖像領域,而且取得了很好的成果。然而,在本文所討論的問題中,我們認為并沒有必要使用二維卷積神經網絡。
本文所使用的序列信息是一個一維的信息,雖然產生的PSSM、SS、SA矩陣看似是個二維的信息,但是本文中只有殘基之間是有順序關系的,也就是矩陣中的各個橫列是順序關系的。而矩陣中的縱列只是殘基在各個指標上的得分,各個指標之間并沒有明顯的順序關系。
本文使用了規模大體一致的一維卷積神經網絡(1DCNN)和二維卷積神經網絡(Two Dimensional Convolutional Neural Network, 2DCNN)進行訓練,并且對比了它們的訓練過程中在獨立測試集上的結果,如圖3所示。
一維卷積網絡使用的是2層卷積層、400卷積核的結構。二維卷積網絡的卷積窗口大小為2×2,因此卷積窗口的數量就變多了。為了保證網絡大小規模的平等性,所以削減了卷積核的數目,為2層卷積層、20個卷積核的結構。
通過實驗可以看出,在40輪訓練前,二維網絡的AUC收斂地稍微快一些。在40輪訓練后,兩個網絡在AUC指標上基本就沒有什么明顯的差距,而且一維的網絡比二維的網絡更為穩定。因此,針對序列信息的預測方面,二維卷積網絡和一維卷積網絡并沒有明顯的差距。
5.2?深度卷積神經網絡還是普通卷積神經網絡
一般來說,深度神經網絡的學習能力和泛化能力都強于淺層的神經網絡,但是針對本文中的序列信息來說,淺層的神經網絡已經足夠學習到里面的規律。在DNA蛋白質綁定位點的預測問題上,有學者使用了只有1層卷積層的卷積神經網絡[30],就完成了對綁點位點較好的預測。
為此,本文使用了3折交叉驗證比較了不同規格的卷積神經網絡,其結果如圖4所示(1layer_400表示1層卷積層400卷積核)。
可以看出,2層400卷積核的神經網絡模型已經有很好的學習能力和學習速率,較深網絡可能出現了梯度爆炸的問題導致收斂困難,而且在卷積神經網絡的深度和神經元數量達到一定規模時,再增加深度或者神經元數量并不會對最終結果產生很大的改變。
6?結語
本文主要研究了蛋白質ATP綁定位點的預測問題,使用了蛋白質的特異性得分矩陣、二級結構、溶液接觸面積的融合特征,基于一維卷積神經網絡的算法,并且采用隨機下采樣解決了不平衡問題,完成了對蛋白質ATP綁定位點的較好的預測,并且在獨立測試集上得到了驗證。
參考文獻 (References)
[1]GAO M, SKOLNICK J. The distribution of ligandbinding pockets around proteinprotein interfaces suggests a general mechanism for pocket formation[J]. Proceedings of the National Academy of Sciences of the United States of America, 2012, 109(10): 3784-3789.
[2]TURTON D A, SENN H M, HARWOOD T, et al. Terahertz underdamped vibrational motion governs proteinligand binding in solution [EB/OL]. [2018-11-20].http://europacat.co.uk/staff/wynne/pubs/r/2014NatCommproteins.pdf.
[3]SIRIMULLA S,BAILEY J B, VEGESNA R,et al. Halogen interactions in proteinligand complexes: implications of halogen bonding for rational drug design [J]. Journal of Chemical Information and Modeling, 2013, 53(11): 2781-2791.
[4]AMARI S, AIZAWA M, ZHANG J, et al. VISCANA: visualized cluster analysis of proteinligand interaction based on the ab initio fragment molecular orbital method for virtual ligand screening[J]. Journal of Chemical Information and Modeling, 2006, 46(1): 221-230.
[5]BILOFSKY H S,BURKS C. The GenBank genetic sequence data bank[J]. Nucleic Acids Research, 1988, 16(5): 1861-1863.
[6]LEVITT D G, BANASZAK L J. POCKET: a computer graphics method for identifying and displaying protein cavities and their surrounding amino acids[J]. Journal of Molecular Graphics, 1992, 10(4): 229-234.
[7]LASKOWSKI R A. SURFNET: a program for visualizing molecular surfaces, cavities, and intermolecular interactions[J]. Journal of Molecular Graphics, 1995, 13(5): 323-330.
[8]CHEN K, MIZIANTY M J, KURGAN L. ATPsite: sequencebased prediction of ATPbinding residues[J]. Proteome Science, 2011, 9(S1): S4.
[9]石大宏. 基于序列的蛋白質—核苷酸綁定位點預測研究[D]. 南京:南京理工大學, 2015.(SHI D H. Sequential proteinGDP binding residues prediction[D]. Nanjing: Nanjing University of Science and Technology, 2015.)
[10]JONES D T, WARD J J. Prediction of disordered regions in proteins from position specific score matrices[J]. ProteinsStructure Function and Bioinformatics, 2003, 53(S6):573-578.
[11]LAURIE A T R, JACKSON R M. QSiteFinder: an energybased method for the prediction of proteinligand binding sites [J]. Bioinformatics, 2005, 21(9): 1908-1916.
[12]ZHANG Y, SKOLNICK J. TMalign: a protein structure alignment algorithm based on the TMscore[J]. Nucleic Acids Research, 2005, 33(7): 2302-2309.
[13]楊驥.基于序列與結構特征結合的蛋白質與DNA綁定位點預測[J]. 計算機與現代化, 2016(1):20-25.(YANG J. Prediction of DNAprotein binding sites based on combining sequence with structure information[J]. Computer and Modernization, 2016(1):20-25.)
[14]於東軍,胡俊,於鉉.基于查詢驅動的蛋白質配體綁定位點預測方法: 201310573950.9[P]. 2014-03-05.(YU D J,HU J,YU X. Prediction of proteinligand binding sites based on querydriven: 201310573950.9[P]. 2014-03-05.)
[15]HU J, LI Y, ZHANG Y, et al. ATPbind: accurate proteinATP binding site prediction by combining sequenceprofiling and structurebased comparisons[J]. Journal of Chemical Information and Modeling, 2018, 58(2): 501-510.
[16]ALIPANAHI B, DELONG A, WEIRAUCH M T, et al. Predicting the sequence specificities of DNA and RNAbinding proteins by deep learning [J]. Nature Biotechnology, 2015, 33(8): 831-838.
[17]JIMENEZ J, DOERR S, MARTINEZROSELL G, et al. DeepSite: proteinbinding site predictor using 3Dconvolutional neural networks [J]. Bioinformatics, 2017, 33(19): 3036-3042.
[18]DESHPANDE N, ADDESS K J, BLUHM W F, et al. The RCSB protein data bank: a redesigned query system and relational database based on the mmCIF schema[J]. Nucleic Acids Research, 2005, 33(S1): D233-D237.
[19]LI W, GODZIK A. Cdhit: a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics, 2006, 22(13): 1658-1659.
[20]SCHAFFER A A, ARAVIND L, MADDEN T L, et al. Improving the accuracy of PSIBLAST protein database searches with compositionbased statistics and other refinements[J]. Nucleic Acids Research, 2001, 29(14): 2994-3005.
[21]BAIROCH A, APWEILER R. The SWISSPROT protein sequence database and its supplement TrEMBL in 2000[J]. Nucleic Acids Research, 2000, 28(1): 45-48.
[22]JONES D T. Protein secondary structure prediction based on positionspecific scoring matrices[J]. Journal of Molecular Biology, 1999, 292(2): 195-202.
[23]JOO K, LEE S J, LEE J. Sann: solvent accessibility prediction of proteins by nearest neighbor method[J]. Proteins, 2012, 80(7): 1791-1797.
[24]YU D J, HU J, TANG Z M, et al. Improving proteinATP binding residues prediction by boosting SVMs with random undersampling [J]. Neurocomputing, 2013, 104:180-190.
[25]COHEN G, HILARIO M, SAX H, et al. Learning from imbalanced data in surveillance of nosocomial infection [J]. Artificial Intelligence in Medicine, 2006, 37(1): 7-18.
[26]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1):1929-1958.
[27]ABADI M. TensorFlow: learning functions at scale[J]. ACM SIGPLAN Notices, 2016, 51(9): 1.
[28]CHEN K, MIZIANTY M J, KURGAN L. Prediction and analysis of nucleotidebinding residues using sequence and sequencederived structural descriptors [J]. Bioinformatics, 2012, 28(3): 331-341.
[29]YU D J, HU J, HUANG Y, et al. TargetATPsite: a templatefree method for ATPbinding sites prediction with residue evolution image sparse representation and classifier ensemble [J]. Journal of Computational Chemistry, 2013, 34(11): 974-985.
[30]ZENG H, EDWARDS M D, LIU G, et al. Convolutional neural network architectures for predicting DNAprotein binding[J]. Bioinformatics, 2016, 32(12): i121-i127.
This work is partially supported by the National Natural Science Foundation of China (61772273, 61373062).
ZHANG Yu, born in 1995, M. S. candidate. His research interests include bioinformatics computing, pattern recognition.
YU Dongjun, born in 1975, Ph. D., professor. His research interests include bioinformatics computing, machine learning, pattern recognition, intelligence system.