范光鵬 孫仁誠 邵峰晶
摘要: 為有效減緩艾滋病毒在人體內的復制速度,本文利用長短時記憶遞歸神經網絡,對HIV1蛋白酶切割位點進行分類預測。使用長短時記憶遞歸神經網絡模型作為主要分類模型,首先對氨基酸分別進行標準正交編碼和TVD編碼,作為分類模型的輸入,模型結果的輸出由1和-1表示,1表示可以被切割,-1表示不能被切割,最后對模型分別進行十折交叉驗證和AUC評估,并以支持向量機模型作為對比模型進行分析。分析結果表明,在正交編碼的條件下,用sigmoid激活函數長短時記憶遞歸神經網絡的分類正確率和AUC值均為最佳,徑向基函數支持向量機略高于線性支持向量機,線性長短時記憶遞歸神經網絡分類正確率最低,有助于HIV1蛋白酶抑制劑的研究。該研究具有一定的實際意義。
關鍵詞: 支持向量機; 長短時記憶遞歸神經網絡; HIV1蛋白酶; 氨基酸
中圖分類號: TP391.4文獻標識碼: A
艾滋病是一種危害極大的傳染病,由感染HIV病毒引起,雖然全世界眾多醫學研究人員付出了巨大的努力,但至今尚未研制出根治艾滋病的特效藥物,也沒有用于預防的有效疫苗。艾滋病已被我國列入乙類法定傳染病,并被列為國境衛生監測傳染病之一。抗擊艾滋病的重要方法之一是阻止艾滋病毒在人體內復制,HIV1蛋白酶能裂解病毒顆粒的蛋白前體,使病毒成熟,形成病毒顆粒,這是艾滋病毒復制前的重要過程。因此,抑制HIV1蛋白酶對多聚蛋白的裂解能有效減緩艾滋病毒的復制速度,對艾滋病的治療有至關重要的作用。研究人員想通過HIV1蛋白酶抑制劑永久占據多聚蛋白的活性位點,阻止HIV1蛋白酶的正常功能,然而HIV1蛋白酶切割氨基酸之間的肽鍵位點在很大程度上是未知的,這為HIV1蛋白酶抑制劑的研究造成了很大的困難。自然界中共有20種氨基酸,HIV1蛋白酶只對八聚蛋白(由8個氨基酸組成的蛋白質)起作用,對HIV1蛋白酶切割八聚蛋白的搜索空間是208,這需要計算機和數據分析方法對可能起作用的八聚蛋白進行預測,其中利用機器學習模型進行分類預測是近年來最常用的方法。T.Rgnvaldsson等人[12]討論了20多年以來解決上述問題的多種方法,總結出解決上述問題需要用非線性模型,并在更多實驗數據的基礎上,利用線性支持向量機(line support vector machines,LSVM)對八聚蛋白進行分類預測,證明線性支持向量機方法比線性方法要好,因此推測線性方法是解決HIV1切割位點預測的主要方法;S.Jaeger等人[3]提出了新的生物物理特征,并融合了神經網絡[45]、支持向量機[67]、決策樹3種分類模型對HIV1蛋白酶切割位點進行預測,經交叉驗證后,組合模型比單一分類器的分類效果更好;G.Kim等人[8]提出一種特征選擇方法,分別利用不同的特征數據輸入到已經訓練完成的多感知機,分別進行計算,從中選出最好的特征輸入。在小的數據集條件下,此方法可以使用較少的特征值,并得出精度較高的預測結果;Li X等人[9]將氨基酸序列映射到核函數當中,并與線性支持向量機一起進行降維處理,用交叉驗證的方法證明此方法比其它方法要好;M.Gk等人[10]采用多種氨基酸編碼方案,并結合線性分類器進行預測,建議利用基于氨基酸特征的正交與泰勒維恩圖結合編碼OETMAP方案,有助于提高分類識別精度;Song J[11]提出了基于多特征的支持向量機回歸預測方法,這種方法對多種蛋白酶切割位點進行預測,其中的特征提取與選擇分別通過雙色貝葉斯方法和基尼得分決定,并證明此模型可行;Niu B等人[12]提出了基于相關特征的子集選擇方法,其結合遺傳算法可以從大量的特征中選擇最優的特征子集,這種方法在交叉驗證中的效果要好于其它方法;T.Rgnvaldsson等人[13]利用支持向量機對多八聚蛋白數據進行預測,指出數據的大小是影響預測模型預測精度的主要因素,對于利用正交編碼的氨基酸數據,線性模型對其分類效果較好,其中線性支持向量機的分類效果最好,其它編碼方法與正交編碼相比并未產生更具優勢的效果。綜上所述,HIV1蛋白酶的切割位點預測主要是通過特征提取和分類模型進行預測,使用較多的是支持向量機模型,很少使用長短時記憶遞歸神經網絡(long shortterm memory,LSTM)[1418]進行分類識別。基于此,本文使用長短時記憶遞歸神經網絡對HIV1蛋白酶切割位點進行預測,進一步探究長短時記憶遞歸神經網絡是否有助于提高HIV1蛋白酶切割位點預測的準確率。
1HIV1蛋白酶切割位點預測分析
HIV1蛋白酶切割位點預測問題為一種分類問題,分類器從大量已知數據中學習特征變量與目標變量之間的數學關系,未知結果的數據通過訓練完成的分類器來預測此數據的目標值。分類器的預測方式為
Pre=f(x1,x2,x3,…,x8)
式中,f()表示分類器;x1,x2,…,x8表示8個氨基酸的數據編碼向量;Pre表示預測值,取值為1或-1,其中,1表示能被切割,-1表示不能被切割。
目前,使用最多的氨基酸編碼方式有如下2種:
1)標準正交編碼(orthonormal encoding,OE)。自然界共有20種氨基酸,每種氨基酸用20位二進制數表示,其中只有一位有效,其值為1,其它位值為0。一個八聚蛋白由8個氨基酸組成,那么八聚蛋白的編碼便是160位的數據向量,所以標準正交編碼是氨基酸序列的排列組合數據。
2)泰勒維恩圖編碼(taylors venndiagram,TVD)。每一個氨基酸的編碼由氨基酸分子的物理化學特性組成,本文選取氨基酸的9種特性編碼,八聚蛋白每個氨基酸的TVD編碼如表1所示。其中,每列的大寫字母表示各種氨基酸,每行代表氨基酸的不同性質。
本文分別使用標準正交編碼和TVD編碼作為分類器的輸入數據,分類器采用長短時記憶遞歸神經網絡模型。長短時記憶遞歸神經網絡模型如圖1所示,與普通神經網絡模型不同的是,長短時記憶遞歸神經網絡的隱含層在第1次計算結束后,隱含層的輸出值會同下次計算的輸入層輸入值一起進入隱含層繼續計算,直到整條序列的最后一個輸入向量計算結束后,隱含層的輸出值會進入輸出層,計算輸出。按時間計算,長短時記憶遞歸神經網絡模型如圖2所示,x1,x2,…,x8分別表示八聚蛋白每個氨基酸的編碼向量,即x1表示第一個氨基酸的向量。x1由輸入層傳播到隱含層,t1時刻在隱含層計算完畢后,其輸出值與x2一起作為t1時刻計算的輸入值,再次在隱含層進行計算,以此類推,直到最后一個氨基酸編碼向量在隱含層計算完畢,傳播至輸出層進行計算,最終輸出層輸出目標值。為防止過擬合,本文在對長短時記憶遞歸神經網絡進行計算時使用了dropout算法[1920],即神經網絡層與層各節點之間的連接以某種概率丟棄。
2評價指標和結果分析
本文數據來自文獻[13]中的Schilling Data和Impens Data,將2個數據集進行融合,對其中的氨基酸分別進行標準正交編碼和TVD編碼,用長短時記憶遞歸神經網絡作為分類器對HIV1蛋白酶切割位點進行預測。將分類的正確率和模型的接收機工作特性曲線下部面積(area under curve of ROC,AUC)作為評價指標,并與支持向量機模型進行對比分析。
支持向量機模型分別采用線性核函數和徑向基核函數,其中,線性核函數支持向量機懲罰因子的取值范圍為[2-5,25],徑向基核函數支持向量機懲罰因子的取值范圍為[1,27]。在懲罰因子取不同值的條件下,線性支持向量機十折交叉驗證如圖3所示。當數據采取標準正交編碼,且C=2-3時,支持向量機正確率取得最優值9289%;當數據采用TVD編碼,且C=2-15時,支持向量機分類正確率取最優值90423%。在懲罰因子取不同值的條件下,徑向基函數支持向量機十折交叉驗證如圖4所示。當數據采取標準正交編碼,且C=23時,支持向量機正確率取最優值92914%;當數據采用TVD編碼,且C=235時,支持向量機分類正確率取最優值91276%。
本文長短時記憶遞歸神經網絡采用隨機梯度下降的方法進行訓練。訓練過程中,為防止過擬合,采用droupout方法,即在每次訓練過程中,神經網絡的隱含層和輸出層之間各節點的連接以一定的概率被丟棄。本文對正交編碼的長短時記憶遞歸神經網絡設置隱含層與輸出層連接被丟棄的概率為25%,訓練時的學習率為003。神經網絡最終的預測識別率除了受訓練迭代次數的影響,還受隱含層神經元節點數量的影響,因此本文正交編碼長短時記憶遞歸神經網絡設置的迭代次數i的取值范圍為[200,800],其中增長步長為100,隱含層的節點數量n的取值范圍為[7,15]。長短時記憶遞歸神經網絡的隱含層外部激活函數分別取Sigmoid函數和線性函數。在正交編碼條件下,Sigmoid長短時記憶遞歸神經網絡十折交叉驗證(OE)結果如表2所示。
達到最優。在此對其訓練數量進行更為精確的訓練,即在神經網絡隱含層節點數量為13的條件下,訓練迭代次數取值范圍為[360,440],增長步長為20。Sigmoid長短時記憶遞歸神經網絡交叉驗證結果如表3所示,由表3可以看出,當迭代次數為420時,長短時記憶遞歸神經網絡正確率為93197 5%,達到最優。
正交編碼條件下,線性長短時記憶遞歸神經網絡十折交叉驗證結果如表4所示。由表4可以看出,在神經網絡隱含層節點為11,訓練迭代次數為300時,長短時記憶遞歸神經網絡分類正確率為91110 8%,達到最優。
對于TVD編碼的長短時記憶遞歸神經網絡隱含層外部激活函數分別采用sigmoid函數和線性函數。Sigmoid函數長短時記憶遞歸神經網絡隱含層節點的數量取值范圍為[8,15],迭代次數取值范圍為[100,600],Dropout丟棄概率為02,訓練學習率為005。Sigmoid長短時記憶遞歸神經網絡交叉驗證結果如表5所示。在TVD編碼的條件下,Sigmoid長短時記憶遞歸神經網絡的隱含層節點數量為14,訓練迭代次數為200時,分類正確率最高為91513 8%。
線性函數長短時記憶遞歸神經網絡隱含層節點的數量取值范圍為[8,15],迭代次數取值范圍為[100,500],dropout丟棄概率為02,訓練學習率為002。線性長短時記憶遞歸神經網絡交叉驗證結果如表6所示,在TVD編碼的條件下,線性長短時記憶遞歸神經網絡的隱含層節點數量為9,訓練迭代次數為400時,分類正確率最高為89523 7%。
由表6可以看出,各分類器在正交編碼條件下的分類正確率均高于在TVD編碼條件下的分類正確率,且在兩種編碼中,Sigmoid長短時記憶遞歸神經網絡的分類正確率最高,徑向基函數支持向量機略高于線性支持向量機,線性長短時記憶遞歸神經網絡分類正確率最低。然而單憑分類的識別率并不能反映分類器的真實分類能力,尤其在正負樣本分布不平衡的條件下。因此,本文選取AUC作為評價指標,AUC是接收機工作特性(receiver operating characteristic curve,ROC)[21]曲線下方的面積,是判斷二分類預測模型優劣的標準,AUC的值越大越好。
編碼條件下,Sigmoid長短時記憶遞歸神經網絡的AUC值均最高,線性支持向量機高于徑向基函數支持向量機,而線性長短時記憶遞歸神經網絡最低。
3結束語
本文通過長短時記憶遞歸神經網絡對HIV1蛋白酶切割位點進行分類預測,與常用的支持向量機模型做對比,結果證明各分類器在OE編碼的條件下分類正確率要好于在TVD編碼條件下的分類正確率,且在OE編碼條件下用Sigmoid長短時記憶遞歸神經網絡進行預測分類的效果最佳,說明Sigmoid長短時記憶遞歸神經網絡有助于提高對HIV1蛋白酶切割位點分類預測的正確率,在HIV1蛋白酶抑制劑研究方面具有重要意義。但是分類器的AUC值并沒有達到較高的數值,還需進一步優化分類模型,提升分類器的性能。
參考文獻:
[1]Rognvaldsson T, You L, Garwicz D. Bioinformatic Approaches for Modeling the Substrate Specificity of HIV1 Protease:An Overview[J]. Expert Review of Molecular Diagnostics, 2007, 7(4): 435451.
[2]Rgnvaldsson T, Etchells T A, You L. How to Find Simple and Accurate Rules for Viral Protease Cleavage Specificities[J]. BMC Bioinformatics, 2009, 10(1): 149.
[3]Jaeger S, Chen S S. Information Fusion for Biological Prediction[J]. Journal of Data Science, 2010, 8(2): 269288.
[4]Simon Haykin. 神經網絡原理[M]. 北京: 機械工業出版社, 2004.
[5]Ito Y. Representation of Functions by Superpositions of a Step or Sigmoid Function and Their Applications to Neural Network Theory[J]. Neural Networks, 1991, 4(3): 385394.
[6]Cortes C, Vpanik V. Support Vector Networks[J]. Machine Learning, 1995, 20(3): 273297.
[7]Williams C K I. Learning with Kernels: SupportVectorMachines, Regularization, Optimization, and Beyond[J]. Publications of the American Statistical Association, 2002, 98(462): 489.
[8]Kim G, Kim Y, Lim H, et al. An MLPBased Feature Subset Selection for HIV1 Protease Cleavage Site Analysis[J]. Artificial Intelligence in Medicine, 2010, 48(2/3): 83.
[9]Li X, Hu H, Shu L. Predicting Human Immunodeficiency Virus Protease Cleavage Sites in Nonlinear Projection Space[J]. Molecular and Cellular Biochemistry, 2010, 339(1/2): 127133.
[10]Gk M, zcerit A T. A New Feature Encoding Scheme for HIV1 Protease Cleavage Site Prediction[J]. Neural Computing and Applications, 2013, 22(7/8): 17571761.
[11]Song J, Tan H, Perry A J, et al. PROSPER: an integrated featurebased tool for predicting Protease Substrate Cleavage Sites[J]. Plos One, 2012, 7(11): e50300.
[12]Niu B, Yuan X C, Roeper P. HIV1 Protease Cleavage Site Prediction Based on Twostage Feature Selection Method[J]. Protein & Peptide Letters, 2013, 20(3): 290298.
[13]Rgnvaldsson T, You L, Garwicz D. State of the Art Prediction of HIV1 Protease Cleavage Sites[J]. Bioinformatics, 2015, 31(8): 12041210.
[14]Hochreiter S, Schmidhuber J. Long ShortTerm Memory[J]. Neural Computation, 1997, 9(8): 17351780.
[15]Gers F A, Schmidhuber J, Cummins F. Learning to Forget: Continual Prediction with LSTM[J]. Neural Computation, 2000, 12(10): 24512471.
[16]Graves A, Schmidhuber J. Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures[J]. Neural Networks, 2005, 18(5): 602610.
[17]Werbos P J. Backpropagation Through Time: What it does and How to do it[J]. Proceedings of the IEEE, 1990, 78(10): 15501560.
[18]Gers F A, Schraudolph N N. Learning Precise Timing with Lstm Recurrent Networks[J]. Journal of Machine Learning Research, 2003, 3(1): 115143.
[19]Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 19291958.
[20]Tobergte D R, Curtis S. Improving. Neural Networks with Dropout[J]. Chemical Information and Modeling, 2013, 9(53): 16891699.
[21]Spackman K A. Signal Detection Theory: Valuable Tools for Evaluating Inductive Learning[J]. International Workshop on Machine Learning, 1989, 283: 160163.
Research on Prediction of HIV1 Protease Cleavage Sites
FAN Guangpeng, SUN Rencheng, SHAO Fengjing
(College of Computer Science and Technology, Qingdao University, Qingdao 266071, China)
Abstract: To effectively reduce the rate of HIV replication in the human body, this article uses the Long ShortTerm Memory to classify HIV1 protease cleavage sites. Using the Long ShortTerm Memory neural network model as the main classification model, the standard orthogonal encoding and TVD encoding of the amino acids are respectively used as the input of the classification model. The output of the model result is represented by 1 and -1, where 1 means that it can be cut, and -1 means that it can not be cut. Long ShortTerm Memory model was subjected to ten fold cross validation and AUC evaluation, and the support vector machine model is used as a comparative model for analysis. The analysis results show that under the condition of orthogonal encoding, the classification accuracy and AUC value of the Long ShortTerm Memory neural network with sigmoid activation function are best. The radial basis function support vector machine is slightly higher than the linear support vector machine. Long ShortTerm Memory neural networks with linear activation function have the lowest classification accuracy, and they are useful for the research of HIV1 protease inhibitors. The research has a certain practical significance.
Key words: support vector machine; long shortterm memory; HIV1 protease; amino acids