張 蕾,李 征,鄭逢斌,楊 偉
(河南大學 計算機與信息工程學院,河南 開封 475004)
基于深度學習的八類蛋白質二級結構預測算法
張 蕾,李 征,鄭逢斌,楊 偉*
(河南大學 計算機與信息工程學院,河南 開封 475004)
(*通信作者電子郵箱yang0sun@gmail.com)
蛋白質二級結構預測是結構生物學中的一個重要問題。針對八類蛋白質二級結構預測,提出了一種基于遞歸神經網絡和前饋神經網絡的深度學習預測算法。該算法通過雙向遞歸神經網絡建模氨基酸間的局部和長程相互作用,遞歸神經網絡的隱層輸出進一步送入到三層的前饋神經網絡以便進行八類蛋白質二級結構預測。實驗結果表明,提出的算法在CB513數據集上達到了67.9%的Q8預測精度,顯著地優于SSpro8和SC-GSN。
深度學習;遞歸神經網絡;前饋神經網絡;蛋白質二級結構預測
理解蛋白質的氨基酸序列與其結構之間的潛在關系是結構生物信息學中的一個基本問題[1]。蛋白質二級結構是氨基酸殘基在蛋白質多肽鏈中的局部空間構象,其具有8種類型[2],分別是α-螺旋(H)、β-橋(B)、折疊(E)、螺旋-3(G)、螺旋-5(I)、轉角(T)、卷曲(S)和環(L)。每個二級結構類型都是由其所在蛋白質鏈中氨基酸殘基間的局部和長程相互作用共同決定的。蛋白質二級結構預測任務就是把一個由20種氨基酸A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W和Y 組成的氨基酸序列映射為對應的二級結構序列。與蛋白質二級結構預測相關的問題有蛋白質折疊預測[3]和蛋白質三級結構預測。特別地,蛋白質的二級結構預測信息不僅有助于確定蛋白質的三維結構,而且能夠用于蛋白質的功能預測與互作預測[4]。
早期的蛋白質二級結構預測研究主要集中在粗粒度的三類二級結構預測,即把八類二級結構粗略地歸類為螺旋、折疊和卷曲三類, 代表的算法有PHD[5]、PSIPRED[6]和JPred[7]等。相對于三類二級結構預測,細粒度的八類二級結構預測能夠提供更為豐富的信息,并且更具有挑戰性。針對八類蛋白質二級結構預測,文獻[8]基于雙向樸素遞歸神經網絡提出了預測算法SSpro8。考慮到SSpro8不能建模相鄰殘基二級結構類型之間的依賴關系,文獻[9]提出采用條件神經場構建二級結構預測模型。此外,基于結構模板,文獻[10]提出了八類二級結構預測算法C8-SCORPION。通過采用帶卷積的生成隨機網絡(Generative Stochastic Network, GSN),文獻[11]獲得了66.4%的Q8預測精度。
深度學習是一種通過多個非線性處理層來建模數據中抽象信息的機器學習技術。由于深度學習具有較強的建模能力并且能夠基于數據自適應地進行參數學習,因此其已成功地應用于圖像分類[12]、物體檢測[13]、人臉識別[14]、人類行為識別[15]、圖像識別[16]和圖像描述生成[17]等多個領域。為此,本文提出了一種基于深度模型的八類蛋白質二級結構預測算法,并與其他八類蛋白質二級結構算法進行了比較。實驗結果表明,提出的算法能夠獲得較好的預測精度。
為了基于氨基酸序列預測蛋白質二級結構,需要為序列中的每個氨基酸構造數值編碼。當前常用的編碼是正交編碼和位置特異性計分矩陣(Position-Specific Scoring Matrices, PSSM)譜編碼。圖1給出了氨基酸的21位正交編碼。圖中的前20個字母A、C、E、D、G、F、I、H、K、M、L、N、Q、P、S、R、T、W、V和Y是構成蛋白質鏈的基本氨基酸,冒號后面0和1組成的序列是對應的正交編碼。顯然,任意兩個氨基酸編碼向量的內積都為0。除了上述20個字母以外,在蛋白質序列數據庫中額外地引入了字母X表示氨基酸的具體類型未知,這是由于實驗方法有時不能確定一個氨基酸的具體類型。圖1也給出了X對應的21位正交編碼。

圖1 氨基酸的正交編碼Fig. 1 Orthogonal encoding of amino acids
PSSM譜編碼是通過把目標蛋白質鏈與蛋白質序列數據庫中的蛋白質鏈進行多序列比對獲得的。為了生成目標蛋白質鏈的PSSM譜編碼,需要把NCBI nr(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/)數據庫下載到本機。在NCBI nr數據庫中,有基于序列一致性閾值100%、90%和50%分別構造的三種非冗余蛋白質數據庫,本文采用序列一致性為50%的數據庫uniref50.fasta。對于uniref50.fasta,需要首先調用pfilt程序對其蛋白質序列數據進行過濾,以便刪除卷曲-卷曲片段、跨膜區域和低復雜性區域; 然后調用makeblastdb程序對其進行格式化生成便于多序列比對的數據和索引文件。在處理完uniref50.fasta數據庫后,可調用3次迭代的psiblast程序把目標蛋白質鏈的氨基酸序列與數據庫中的蛋白質鏈進行多序列比對。在迭代完成后,psiblast程序會生成目標蛋白質鏈的PSSM譜編碼文件。圖2給出了蛋白質4Y3F的部分氨基酸的PSSM譜編碼。

圖2 蛋白質4Y3F的前26個氨基酸的PSSM譜編碼Fig. 2 PSSM profile encoding of the first 26 amono acid residues of the protein 4Y3F
圖2中,最左邊的數字是氨基酸在蛋白質鏈中的編號,字母表示氨基酸,字母右邊的20個數是對其的數值編碼。比如,對于第12個氨基酸S,圖中虛線長方形中的20個數值組成的向量就是它的PSSM譜編碼。此外,在使用PSSM譜編碼之前,本文進一步采用Sigmoid函數把編碼中的整數值映射到0~1。
蛋白質二級結構預測是氨基酸序列到二級結構序列的映射問題。為了按照序列方式預測蛋白質二級結構,本文通過組合遞歸神經網絡和前饋神經網絡構造深度神經網絡預測模型。圖3給出了具體的深度預測模型。特別地,預測模型的具體數據處理流程如下:首先氨基酸序列中的每個氨基酸通過氨基酸編碼形式化為數值向量送入到遞歸神經網絡——雙向長短時記憶模型(Long Short-Term Memory, LSTM)中,然后組合雙向LSTM的前向和后向隱層輸出送入到前饋神經網絡的輸入層中,最后根據前饋神經網絡輸出層的結果確定預測的蛋白質二級結構序列并輸出。

圖3 蛋白質二級結構的深度預測模型Fig. 3 Deep prediction model of protein secondary structure
對于氨基酸序列,本文采用組合的PSSM譜編碼和21位正交編碼表示氨基酸,因此每個氨基酸可由長度為41的特征向量表示。當用xt表示蛋白質鏈中第t個位置氨基酸的特征向量時,則長度為τ的蛋白質可形式化為序列數據{x1,…,xt,…,xτ}。此外,對應的目標二級結構序列可表示為{y1,…,yt,…,yτ},其中yt是處于第t個位置的二級結構類型的8位正交編碼。

it=σ(Uixt+Viht-1+bi)
ot=σ(Uoxt+Voht-1+bo)
ft=σ(Ufxt+Vfht-1+bf)
gt= Tanh (Ugxt+Vght-1+bg)
st=st-1⊙ft+it⊙gt
ht= Tanh (st)⊙ot
其中:符號⊙表示兩個向量按元素依次相乘,it、ot、ft、gt和st分別是t時刻的輸入網關向量、輸出網關向量、遺忘網關向量、候選節點向量和內部記憶向量,Ui、Uo、Uf、Ug、Vi、Vo、Vf和Vg是需要學習的權值矩陣,bi、bo、bf和bg是偏置向量。通過引入網關和內部記憶機制,LSTM不僅可以克服消失的梯度問題,而且能夠顯式地建模序列數據之間的長距離依賴關系。特別地,通過學習模型參數,LSTM可以針對不同的任務自適應地學習采用何種記憶機制以便建模序列數據的長距離依賴關系。

當訓練數據包括n個序列對時,深度預測模型的目標損失函數就是n個序列對對應損失函數的均值。通過采用基于時間的反向傳播算法(Back Propagation Through Time, BPTT)最小化深度預測模型的目標函數,可以自適應地學習雙向LSTM和多層感知機的參數。
3.1 數據集
本文采用文獻[11]使用的非冗余蛋白質二級結構數據集PISCES CullPDB訓練深度預測模型,該數據集包含6 128個蛋白質鏈,由PISCES CullPDB服務器按照蛋白質分辨率不大于2.5和蛋白質序列一致性小于30%的約束條件生成。同時,常用的CB513數據集被當作測試集,以便評估提出算法的分類性能。為了消除訓練數據與測試數據之間的序列相似性,本文進一步從PISCES CullPDB數據集中刪除與CB513中的蛋白質鏈存在序列一致性大于25%的蛋白質鏈。通過刪除操作,PISCES CullPDB數據集最后剩下5 534條蛋白質鏈。對于剩下的蛋白質鏈,本文選取5 278個蛋白質鏈作為深度預測模型的訓練數據集,余下的256 條蛋白質鏈作為驗證集。引入驗證集的目的是為了采用早期停止方法防止過訓練,也就是說,當訓練模型在驗證集上的驗證誤差不再降低時停止參數訓練。
3.2 實驗結果與分析
為了進行實驗比較,需要對提出的深度預測模型進行超參數設置。對于雙向LSTM,隱層單元個數設置為96,初始隱層狀態設為零向量。對于多層感知機,兩個隱層節點的個數都設置為192,激活函數采用ReLU,輸出層采用輸出類別為8類的Softmax函數。此外,本文采用帶沖量的隨機梯度下降算法訓練網絡參數,其中沖量系數設為0.9,學習率為0.01,minibatch的大小設置為128,梯度剪切的閾值設置為5。當網絡在驗證集上的預測精度不再增加時停止訓練。
表1給出了本文算法在CB513數據集上的混淆矩陣,其中粗體字標出了8種蛋白質二級結構類型α-螺旋(H)、β-橋(B)、折疊(E)、螺旋-3(G)、螺旋-5(I)、轉角(T)、卷曲(S)和環(L)的預測正確率。從表中可以看出,α-螺旋和折疊正確率最高,分別達到了91.98%和81.92%;β-橋和螺旋-5的正確率最低,分別為1.19%和0%,這主要是由于它們在蛋白質結構數據庫所占的比率極低的緣故。特別地,螺旋-5出現的比率只有0.000 2。因此,八類蛋白質二級結構預測是不平衡分類問題。
表1 本文算法在CB513測試集上的混淆矩陣
%
Tab. 1 Confusion matrix of the proposed algorithm

on the CB513 dataset %
表2給出了本文算法與4種算法SC-GSN(Supervised Convolutional-Generative Stochastic Network)[11]、RaptorX-SS8[9]、SSpro8[8]和LSTM large[18]在CB513數據集上的Q8預測精度。對于所比較的4個算法,SC-GSN采用的是帶卷積的生成隨機網絡,RaptorX-SS8使用的預測模型是條件神經場,SSpro8采用的是雙向樸素遞歸神經網絡,LSTM large使用雙向LSTM。從表中可以看出,本文算法獲得了最高的預測精度,并且明顯地優于SSpro8和SC-GSN。

表2 CB513數據集上的分類性能比較Tab. 2 Performance comparision on the CB513 dataset
針對八類蛋白質二級結構預測,本文通過組合遞歸神經網絡和前饋神經網絡提出了一種新的基于深度學習的預測算法。該方法首先采用雙向 LSTM 模型處理氨基酸序列數據,以便建模氨基酸之間的長距離依賴關系。然后,雙向LSTM的兩個隱層輸出被組合成單個特征向量進一步送入到三層的多層感知機。最后,采用交叉熵作為目標函數以便訓練深度網絡參數。特別地,通過采用遞歸神經網絡,提出的算法能夠直接進行氨基酸序列到蛋白質二級結構序列的預測。CB513數據集上的實驗結果表明,本文算法能夠獲得較好的預測精度,并且明顯地優于SSpro8和SC-GSN。
References)
[1] CHENG J, TEGGE A N, BALDI P. Machine learning methods for protein structure prediction[J]. IEEE Reviews in Biomedical Engineering, 2008, 1: 41-49.
[2] TOUW W G, BAAKMAN C, BLACK J, et al. A series of PDB-related databanks for everyday needs[J]. Nucleic Acids Research, 2015,43(D1): 364-368.
[3] LIN C, ZOU Y, QIN J, et al. Hierarchical classification of protein folds using a novel ensemble classifier[J]. PLOS ONE, 2013, 8(2): e56499.
[4] ROST B. Review: protein secondary structure prediction continues to rise[J]. Journal of Structural Biology, 2001, 134(2): 204-218.
[5] ROST B,SANDER C. Prediction of protein secondary structure at better than 70% accuracy[J]. Journal of Molecular Biology, 1993, 232(2): 584-599.
[6] BUCHAN D W, WARD S, LOBLEY A E, et al. Protein annotation and modelling servers at university college london[J]. Nucleic Acids Research, 2010, 38(Web Server issue): W563-W568.
[7] DROZDETSKIY A, COLE C, PROCTER J, et al. JPred4: a protein secondary structure prediction server[J]. Nucleic Acids Research, 2015, 43(1):389-394.
[8] POLLASTRI G, PRZYBYLSKI D, ROST B, et al. Improving the prediction of protein secondary structure in three and eight classes using recurrent neural networks and profiles[J]. Proteins: Structure, Function, and Bioinformatics, 2002, 47(2): 228-235.
[9] WANG Z, ZHAO F, PENG J, et al. Protein 8-class secondary structure prediction using conditional neural fields[J]. Proteomics, 2011, 11(19): 3786-3792.
[10] YASEEN A,LI Y. Template-based C8-SCORPION: a protein 8-state secondary structure prediction method using structural information and context-based features[J]. BMC Bioinformatics, 2014, 15(8): 1-8.
[11] ZHOU J, TROYANSKAYA O G. Deep supervised and convolutional generative stochastic network for protein secondary structure prediction[EB/OL].[2016-06-20]. https://core.ac.uk/download/pdf/25008331.pdf.
[12] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc, 2012: 1097-1105.
[13] GUPTA S, GIRSHICK R, ARBELEZ P, et al. Learning rich features from RGB-D images for object detection and segmentation[C]// Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 345-360.
[14] 張雯,王文偉. 基于局部二值模式和深度學習的人臉識別[J]. 計算機應用, 2015,35(5): 1474-1478.(ZHANG W, WANG W W. Face recognition based on local binary pattern and deep learning [J]. Journal of Computer Applications, 2015,35(5): 1474-1478.)
[15] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
[16] 康曉東, 王昊, 郭軍, 等. 無監督深度學習彩色圖像識別方法[J]. 計算機應用, 2015,35(9): 2636-2639. (KANG X D, WANG H, GUO J, et al. Unsupervised deep learning method for color image recognition[J]. Journal of Computer Applications, 2015,35(9): 2636-2639.)
[17] KARPATHY A, LI F F. Deep visual-semantic alignments for generating image descriptions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015:3128-3137.
[18] S?NDERBY S K,WINTHER O. Protein secondary structure prediction with long short term memory networks[EB/OL].[2016-06-20]. http://arxiv-web1.library.cornell.edu/pdf/1412.7828.pdf.
This work is partially supported by the National Natural Science Foundation of China (41571417).
ZHANG Lei, born in 1983, M. S., teaching assistant. Her research interests include bioinformatics.
LI Zheng, born in 1985, Ph. D., lecturer. Her research interests include software engineering.
ZHENG Fengbin, born in 1963, Ph. D., professor. His research interests include spatial information processing, natural language processing.
YANG Wei, born in 1983, Ph. D., lecturer. Her research interests include machine learning, deep learning.
Prediction of eight-class protein secondary structure based on deep learning
ZHANG Lei, LI Zheng, ZHENG Fengbin, YANG Wei*
(SchoolofComputerandInformationEngineering,HenanUniversity,KaifengHenan475004,China)
Predicting protein secondary structure is an important issue in structural biology. Aiming at the prediction of eight-class protein secondary structure, a novel deep learning prediction algorithm was proposed by combining recurrent neural network and feed-forward neural network. A bidirectional recurrent neural network was used to model locality and long-range interaction between amino acid residues in protein. In order to predict the eight-class protein secondary structure, the outputs of the hidden layer in the bidirectional recurrent neural network were further fed to the three-layer feed-forward neural network. Experimental results show that the proposed method achieves Q8accuracy of 67.9% on the CB513 dataset, which is significantly better than SSpro8 and SC-GSN (Supervised Convolutional-Generative Stochastic Network).
deep learning; recurrent neural network; feed-forward neural network; protein secondary structure prediction
2016-10-28;
2016-12-02。 基金項目:國家自然科學基金面上項目(41571417)。
張蕾(1983—),女,河南周口人,助教,碩士,主要研究方向:生物信息學; 李征(1985—),女,河南駐馬店人,講師,博士,主要研究方向:軟件工程; 鄭逢斌(1963—),男,河南信陽人,教授,博士,主要研究方向:空間信息處理、自然語言處理; 楊偉(1983—),男,河南信陽人,講師,博士,主要研究方向:機器學習、深度學習。
1001-9081(2017)05-1512-04
10.11772/j.issn.1001-9081.2017.05.1512
TP183
A