(1. 天津科技大學計算機科學與信息工程學院,天津 300222;2. 天津瑞和天孚科技有限公司,天津 300384)
(1. 天津科技大學計算機科學與信息工程學院,天津 300222;2. 天津瑞和天孚科技有限公司,天津 300384)
針對蛋白質相互作用界面中的熱點殘基是局部緊湊地聚集著,而現有的基于機器學習的熱點殘基預測方法僅從目標殘基中提取特征,并沒有考慮目標殘基的局部空間結構信息,以及如何進行特征提取并獲得非冗余的特征子集等問題,為準確識別蛋白質相互作用界面的熱點殘基,提出結合蛋白質相互作用界面殘基的空間鄰近殘基信息提取多類特征,并利用隨機森林來進行特征提取,最后利用支持向量機來預測熱點殘基的方法.計算實驗表明,該預測方法可以有效地用來發現熱點殘基.
蛋白質相互作用界面;熱點;支持向量機;隨機森林
蛋白質經常通過蛋白質間相互作用來行使其功能,例如信號傳導網絡和代謝網絡中的蛋白質復合物,而蛋白質相互作用界面是蛋白質相互作用發生的物理載體.實驗證明蛋白質相互作用界面上殘基的結合能量并不是均勻分布的,而是一些殘基的結合能量較大而且僅占界面殘基的一小部分,這些對于蛋白質結合起關鍵作用的殘基稱為熱點(hot spots)[1].丙氨酸掃描變異(Alanine scanning mutagenesis)是目前主要的識別熱點的實驗方法,其基本原理是把界面上的單個殘基替換成丙氨酸,并測得替換以后殘基結合能量的變化值.選擇丙氨酸作為替換殘基是因為丙氨酸的側鏈僅有一個碳原子,并且替換后不改變主鏈構象,也不會產生很大的靜電或者位阻效應[2].由于其實驗過程較為復雜,目前獲得的丙氨酸掃描變異數據很少,主要存放在丙氨酸掃描變異數據庫ASEdb[3]和結合界面殘基數據庫 BID[4]中.目前,已經有一些研究工作來刻畫熱點殘基的序列和結構特點,例如:分析熱點殘基和非熱點殘基的氨基酸組成,發現色氨酸、精氨酸和酪氨酸更易形成熱點殘基,而亮氨酸、絲氨酸、蘇氨酸和纈氨酸更易形成非熱點殘基[5];O環理論認為蛋白質相互作用界面的熱點被對結合能量貢獻不大的殘基形成環并包裹著,這些形成環的殘基用來隔離熱點殘基和水分子[6].
基于已有的對熱點殘基的序列和結構特點的研究,目前有一些基于機器學習的方法來預測蛋白質相互作用界面熱點,并取得了相對較高的預測精度[7],但是相關研究領域仍有一些問題存在,具體表現為:(1)蛋白質相互作用界面中的熱點殘基被發現是局部緊湊地聚集著,而現有的熱點殘基預測方法僅從目標殘基中提取特征并用來訓練分類器,如何有效地利用目標殘基的局部空間結構信息來提高預測精度是需要考慮的;(2)盡管目前已經提出了許多分類特征,如何進行特征提取并獲得非冗余的分類特征也是需要考慮的.
本文從目標殘基及它的2個空間相鄰殘基,即相互作用界面另一側的距離最近的殘基(鏡面接觸殘基)和同一側的距離最近的殘基(內部接觸殘基),來獲取分類特征;然后結合隨機森林來估計分類特征的重要性,并進行特征提取;最后利用支持向量機來有效地整合特征并用于熱點殘基預測.
首先從丙氨酸掃描變異數據庫(ASEdb)中獲取含有丙氨酸掃描變異殘基的蛋白質鏈及相關復合物.對于蛋白質相互作用界面殘基,當其結合能量的變化值(ΔΔG)≥8.364,kJ/mol時,定義該殘基為熱點[7].這樣,訓練集包括來自20個蛋白質復合物中的318個丙氨酸掃描變異殘基,其中 77個殘基是熱點殘基,241個殘基是非熱點殘基.另外,利用BID中的數據集作為獨立測試集,包括 18個蛋白質復合物中的125個界面殘基,其中 38個殘基是熱點殘基,87個殘基是非熱點殘基.關于訓練集和測試集的詳細描述參見文獻[7].
2.1 分類特征描述
對于蛋白質相互作用界面殘基,本文設計了多個分類特征描述符,用于熱點預測和分類,并且基于它們的不同來源和性質,將其大體分為5類[7].
2.1.1 原子接觸數和原子接觸面積
對于2個殘基中的各自1個原子,通過CSU程序[8]定義它們的接觸關系(contact atoms),其是基于原子間的距離以及所在環境的擁擠程度來確定的.進而,對于 1個殘基i,通過對殘基i與相互作用界面中其他殘基j的接觸原子數目求和來定義殘基i的原子接觸數.另外,通過對相互作用界面另一側殘基 j的原子接觸面積求和來定義殘基i的原子接觸面積.
2.1.2 殘基接觸數和物理化學特征
2個殘基中如果至少有 1對接觸原子(2個原子分別來自于2個殘基),則這2個殘基稱為接觸殘基(contact residues).對于殘基i,利用相互作用界面中的接觸殘基 j的數目定義殘基i的殘基接觸數.另外,考慮殘基i的6個物理化學特征(包括疏水性、親水性、等電點、質量、極性和極化率),其中i的每個物理化學特征通過對所有接觸殘基j的相應物理化學參數求和以定義殘基i的物理化學特征.
2.1.3 相對可及表面積和相對側鏈可及表面積
可及表面積是指生物分子對于溶劑的可接觸表面積,殘基的可及表面積與蛋白質的功能和活性位點有密切關系.這里殘基的相對可及表面積和相對側鏈可及表面積分別度量了殘基和側鏈在形成蛋白質復合物后的可及表面積的變化率.
2.1.4 深度指數
原子的深度定義為該原子和最近的溶劑可及原子之間的距離.這里通過 PSAIA程序[9]計算殘基的以下特征描述符:平均深度指數(殘基所有原子的平均深度指數)、深度指數的標準差、側鏈平均深度指數(側鏈所有原子的平均深度指數)、側鏈深度指數的標準差.另外,本文還計算了殘基和側鏈的相對深度指數(分別為殘基和側鏈在形成蛋白質復合物后的平均深度指數的變化率).
2.1.5 二級結構和氨基酸分類
殘基的二級結構包括螺旋、折疊或卷曲.另外,基于偶極矩與側鏈體積,20種蛋白質氨基酸被分為6類,第 1類:天冬氨酸、谷氨酸;第 2類:精氨酸、賴氨酸;第 3類:丙氨酸、甘氨酸、纈氨酸;第 4類:酪氨酸、甲硫氨酸、蘇氨酸、絲氨酸、半胱氨酸;第 5類:異亮氨酸、亮氨酸、苯丙氨酸、脯氨酸;第 6類:組氨酸、天冬酰胺、谷氨酰胺、色氨酸.因此,這部分包括2個離散特征描述符,其變量取值個數分別為3和6.
基于上面5類特征,對于1個殘基共有19個特征描述符.為了考慮目標殘基的空間結構信息,本研究從目標殘基、鏡面接觸殘基和內部接觸殘基獲取分類特征描述符,并作為目標殘基的特征.這樣對于 1個目標殘基,獲取的特征個數為57.
2.2 特征選擇
特征選擇是訓練分類器前的重要一步,并且其通過去掉冗余和不相關的特征,提高分類器的預測性能.在這里,對目標殘基共提出了57個特征,這樣的特征集可能會引起模型的過擬合,因此,使用隨機森林挑選出重要的特征,以便更好地區別熱點殘基和非熱點殘基.
隨機森林是包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數而定.在決定類別的同時,隨機森林還提供了評估變量重要性的方法,其中最常用的是基于袋外數據(OOB)的特征值隨機擾動后,度量其袋外數據分類精度的平均下降值.利用該度量方法進行特征選擇,并通過R軟件包randomForest進行計算.
2.3 分類算法
支持向量機是一種監督式學習的方法,廣泛地應用于統計分類以及回歸分析.支持向量機將向量映射到更高維的空間里,在這個空間里建立有1個最大間隔超平面.在分開數據的超平面的兩邊建有 2個互相平行的超平面,分隔超平面使2個平行超平面的距離最大化.這里通過 R軟件包 e1071建立支持向量機分類器.
2.4 預測性能的度量
為了度量所提熱點預測方法的分類性能,本文采用一些常用的指標,包括預測精度(nACC)、敏感性(nSE)、準確率(nPR)、特異性(nSP)和 Matthew相關系數(nMCC).這些指標的具體定義如下:

式中 nTP、nFP、nTN和 nFN分別表示真正類的數量(正確預測的熱點殘基)、假正類的數量(非熱點殘基被錯誤地預測為熱點殘基)、真負類的數量(正確預測的非熱點殘基)和假負類的數量(熱點殘基被錯誤地預測為非熱點殘基).
ROC曲線是用構圖法揭示敏感性與特異性的相互關系,曲線本身以及相伴隨的指標——曲線下面積(nAUC)常被用來度量分類器的預測性能,nAUC值越接近于1,說明分類效果越好.
3.1 估計特征的重要性
利用隨機森林估計初始 57個特征的重要性.表1給出了前 16個重要特征,是基于袋外數據分類精度的平均下降值排序的.
針對表1中的16個重要特征,對于目標殘基和鏡面接觸殘基,依據 2.1節對特征描述符的分類,從每類特征描述符中選取1個最重要特征(利用表1衡量特征的重要性),最終選擇了7個特征(目標殘基的原子接觸面積、目標殘基的質量、鏡面接觸殘基的殘基接觸數、目標殘基的相對側鏈可及表面積、鏡面接觸殘基的相對側鏈可及表面積、目標殘基的側鏈平均深度指數、鏡面接觸殘基的平均深度指數),用于支持向量機分類器的建立.

表1 利用隨機森林估計的前16個重要特征Tab. 1 The first 16 important characteristics evaluated by random forests
3.2 基于訓練集的5折交叉驗證
在訓練集上通過 5折交叉驗證檢驗基于支持向量機的分類器的預測性能.數據集被隨機分成樣本數量近似相等的 5份,然后依次選擇每 1份為測試集,剩下的 4份為訓練集,建立分類器.基于該計算過程,預測精度nACC=84.0%,敏感性nSE=46.8%,準確率 nPR=78.3%,特異性 nSP=95.9%,Matthew相關系數nMCC=0.519.另外,圖1給出了分類器的ROC曲線,其曲線下面積 nAUC=0.762.這些預測結果顯示:采用所選特征,利用基于支持向量機方法能夠有效地區分熱點殘基和非熱點殘基.

圖1 支持向量機分類器的ROC曲線Fig. 1 ROC curve of support vector machine classifier
為了進一步考察各類物理量對于熱點預測性能的影響,依次刪除不同物理量后,同樣采用 5折交叉驗證的方法計算 ROC曲線下面積 nAUC,結果見表2.可以看出,刪除不同物理量后,nAUC值均有所減小,所以這些物理量都有助于熱點預測性能的提高.

表2 依次刪除不同物理量后在訓練集上的預測性能比較Tab. 2 Comparison of predicting performance in the training set after subtracting each physical quantity
3.3 獨立測試集上的預測性能
在獨立測試集上比較所提方法和已有熱點預測方法的預測性能.現有的熱點預測方法主要包括基于能量的方法 Robetta[10]和 FOLDEF[11]、基于決策樹的方法 KFC[12]以及經驗方法 HotPoint[13].表 3給出了不同方法的預測性能,其中這些比較方法的預測結果是通過它們各自的網頁服務器計算獲得的.本文基于支持向量機的預測方法的預測結果為nPR=60.0%,nSE=31.6%,nSP=90.8%,nACC=72.8%,nMCC= 0.281.從表 3可以看出,本文方法在準確率、特異性和預測精度方面要優于其他熱點預測方法,并且相對于其他預測方法的最好結果,其分別提高了 8%,3.4%和2.4%.

表3 不同熱點預測方法在測試集上的性能比較Tab. 3 Comparison of different hot spot predicting methods in the test set
本文提出了一種新的計算方法以識別蛋白質相互作用界面的熱點,即從目標殘基、鏡面接觸殘基和內部接觸殘基獲取各類特征,并且利用隨機森林選擇重要特征,最后利用支持向量機有效整合這些特征.計算結果表明,該方法可以有效地用于熱點預測.文中計算用的數據集和代碼可從以下網址下載:http://sourceforge.net/projects/tustbioinfor/files/.
[1] Bogan A A,Thorn K S. Anatomy of hot spots in protein interfaces[J]. Journal of Molecular Biology,1998,280(1):1-9.
[2] Cunningham B C,Wells J A. High-resolution epitope mapping of hgh-receptor interaction by alanine-scanning mutagenesis[J]. Science,1989,244(4908):1081-1085.
[3] Thorn K S,Bogan A A. ASEdb:A database of alanine mutations and their effects on the free energy of binding in protein interactions[J]. Bioinformatics,2001,17(3):284-285.
[4] Fischer T B,Arunachalam K V,Bailey D,et al. The binding interface database(BID):A compilation of amino acid hot spots in protein interfaces[J]. Bioinformatics,2003,19(11):1453-1454.
[5] Moreira I S,Femandes P A,Ramos M J. Hot spots-A review of the protein-protein interface determinant amino-acid residues[J]. Proteins,2007,68(4):803-812.
[6] Li X,Keskin O,Ma B,et al. Protein-protein interactions:Hot spots and structurally conserved residues often locate in complemented pockets that preorganized in the unbound states:Implications for docking[J]. Journal of Molecular Biology,2004,344(3):781-795.
[7] Wang L,Liu Z P,Zhang X S,et al. Prediction of hot spots in protein interfaces using a random forest model with hybrid features[J]. Protein Engineering Design and Selection,2012,25(3):119-126.
[8] Sobolev V,Sorokine A,Prilusky J,et al. Automated analysis of interatomic contacts in proteins[J]. Bioinformatics,1999,15(4):327-332.
[9] Mihel J,Sikic M,Tomic S,et al. PSAIA-protein structure and interaction analyzer[J]. BMC Structural Biology,2008,8(1):21.
[10] Kortemme T,Baker D. A simple physical model for bind ing energy hot spots in protein-protein complexes[J]. Proceedings of the National Academy of Sciences of the United States of America,2002,99(22):14116-14121.
[11] Guerois R,Nielsen J E,Serrano L. Predicting changes in the stability of proteins and protein complexes:A study of more than 1000 mutations[J]. Journal of Molecular Biology,2002,320(2):369-387.
[12] Darnell S,Page D,Mitchell J C. An automated decisiontree approach to predicting protein interaction hot spots[J]. Proteins,2007,68(4):813-823.
[13] Tuncbag N,Gursoy A,Keskin O. Identification of computational hot spots in protein interfaces:Combining solvent accessibility and inter-residue potentials improves the accuracy[J]. Bioinformatics,2009,25(12):1513-1520.
基于支持向量機的蛋白質相互作用界面熱點殘基預測
暢衛功1,李 灝2,王 林1,楊海波1
Predicting of Hot Spots at Protein Interfaces Using Support Vector Machines
CHANG Weigong1,LI Hao2,WANG Lin1,YANG Haibo1
(1. College of Computer Science and Information Engineering,Tianjin University of Science & Technology,Tianjin 300222,China;2. Tianjin Rui He Tian Fu Science & Technology Ltd. Co.,Tianjin 300384,China)
Hot spots at protein interfaces were found to be clustered within locally and tightly packed regions. However,the existing machine learning based on hot spot prediction methods only gets features from the target residue,and does not consider the local spatial information of the target residue. Meanwhile,how to conduct the feature selection and obtain the subsets without redundant features should also be considered. In order to accurately identify hot spot residues at protein interfaces,this research tried to get various features by taking into consideration the spatial neighbor residues of each interface residue,and the feature selection was conducted by using random forests. Thereafter,the support vector machine was employed to predict the hot spots at protein interfaces. Computational experiments show that our prediction method can effectively discover hot spot residues.
protein interface;hot spot;support vector machine;random forest
TP399;Q816 文獻標志碼:A 文章編號:1672-6510(2015)02-0070-05
10.13364/j.issn.1672-6510.20140075
2014-05-14;
2014-08-28
天津市高等學校科技發展基金資助項目(20120803);天津市科技支撐計劃重點資助項目(12ZCZDGX02400)
暢衛功(1974—),男,山西人,講師,wgchang@tust.edu.cn.
常濤