許 嘉
(內蒙古科技大學分析測試中心,內蒙古包頭014010)
抗凍蛋白(Antifreeze protein,AFP)是一類能夠特異性結合冰晶、提高生物抗凍能力的蛋白質[1]。這類蛋白最初是在南北極的海洋魚類血清中發現,近年來,在昆蟲、真菌、細菌和某些植物體內也均發現存在抗凍蛋白。這類蛋白通過與冰晶的特異性相互作用,阻止生物體內冰核的形成與生長,維持生物體內的溶液狀態。因此,對抗凍蛋白的理論研究有助于揭示抗凍蛋白的活性和抗凍機理。
正確判斷一條新測序的蛋白質是否為抗凍蛋白對于生物工程發展、作物的改造十分重要。然而,利用實驗手段來判斷是否是抗凍蛋白不但費時,而且會消耗很多資源。隨著大量生物基因組測序的完成,海量基因組、蛋白質組、轉錄組數據的產生,利用機器學習算法來預測蛋白質的類型和功能不僅節約了實驗成本,而且能夠大大提高實驗效率。后基因組時代為我們提供了大量蛋白質序列和注釋信息,同時為理論預測抗凍蛋白提供了可能性[2]。
目前,已有一些判別方法用于抗凍蛋白的預測[3-4],且取得了一定的結果。然而,仍缺乏對抗凍蛋白有效的描述。本文利用偽氨基酸組分來描述抗凍蛋白序列,并利用支持向量機來對抗凍蛋白進行預測。
抗凍蛋白原始數據從 http://www3.ntu.edu.sg/home/EPNSugan/index_files/AFP-Pred.htm[3]下載。該數據集包含了481條抗凍蛋白序列和9 193條非抗凍蛋白序列,這些數據的序列一致性低于40%。如果正負數據集的數目偏差過大,會導致錯誤的評估預測模型。因此,為了平衡正負集數據,分別選取400條抗凍蛋白和400條非抗凍蛋白作為基準數據集,并進一步將正負數據集隨機分為訓練集和測試。這兩集合分別包含200條抗凍蛋白和200條非抗凍蛋白。
偽氨基酸組分(PseAAC)[5]是 Chou教授提出的一種能夠很好地表征蛋白質序列的信息參數。它不但能夠描述蛋白質序列的氨基酸組成,而且能夠描述蛋白質氨基酸序列的物理化學性質的關聯。下面對偽氨基酸組分進行描述。
如果將一個氨基酸殘基數為L的蛋白質X表示成,R1R2R3…RL那么,這條蛋白質序列就可以表示成由20+λ個離散數值定義的一個20+λ維向量,定義形式如下:

這里

其中,fi表示20種不同氨基酸殘基在蛋白質X中出現的頻率。ω是蛋白質序列關聯的權重因子。通常,權重因子的選擇范圍定在ω=0.05到0.7之間,這里我們選取ω=0.05。θj是j階序列相關系數:

公式(3)中相關性函數Θ(Ri,Ri+j)是可以由以下公式得出:

其中,k是因子個數,Hl(Ri)是第i個氨基酸殘基所具有的任一種物理化學特征。這些物理化學特征主要包括親水性,疏水性,側鏈聚集度,a-COOH基的PK值,α-NH3+基的PK值,溫度為25℃時的pI值。這些物化性質的值需經過標準化處理,公式如下:

這里Hl0(i)是第i個氨基酸殘基物理化學特征值的原始值,可從網站 http://chou.med.harvard.edu/bioinf/PseAAC/獲得。
支持向量機是一種優秀的機器學習方法,并已廣泛運用于生物信息學的領域,比如:轉錄起始點和蛋白質亞細胞定位等多個方面。其優點在于能夠同時最小化經驗誤差與最大化幾何邊緣區,因此支持向量機也被稱為最大邊緣區分類器。其基本思想是將向量映射到一個更高維的空間里,使得不同類型的向量在高維空間中線性可分。對于待分類樣本,其判別函數具有如下形式:

其中,k(x,xi)稱為核函數,通過選取不同的核函數可以得到不同的支持向量機,常用的核函數有以下幾種形式:

(6)~(8)式中,d、γ、b和 c分別為三種核函數的可調參數。本文采用由Chang和Lin開發的LIBSVM軟件包[6],選取徑向基函數(RBF)作為支持向量機的核函數,調整誤差懲罰參數C及核函數參數γ,可得到最佳預測模型。這里使用LIBSVM中的gridsearch程序來優化參數C和γ。
利用敏感性(Sensitivity,Sn)、特異性(Specificity,Sp)和總體準確率(Overall accuracy,OA)為評價指標測試模型的預測性能,其定義如下:

其中,TP、TN、FP和FN分別為正確預測抗凍蛋白數目,正確預測的非抗凍蛋白,非抗凍蛋白預測成為抗凍蛋白的數目和抗凍蛋白預測成非抗凍蛋白的數目。
以偽氨基酸組分為特征,利用支持向量機進行分類。利用grid方法對訓練集進行參數尋優,建立最優模型。發現當C=32 768且γ=0.001 953 125時,模型的預測精度最高,對訓練集預測精度達到91.3%。為檢驗模型的推廣能力,我們利用構建好的模型對400條測試序列進行預測,結果表明有78.8%的蛋白質被預測成功,其中75.1%的抗凍蛋白和83.6%的非抗凍蛋白能夠被正確預測。該結果證明偽氨基酸組分可用于抗凍蛋白的預測。
AFP-Pred是第一款用于抗凍蛋白預測的軟件[3],其構建基于300條抗凍蛋白和300條抗凍蛋白。通過使用隨機森林算法對抗凍蛋白進行預測,對訓練集的預測精度達到81.3%,對測試集的預測精度達到 83.4%。最近,Zhao Xiaowei等開發了AFP_PSSM來預測抗凍蛋白[4],對訓練集的預測精度為82.7%,對測試集的預測精度達到93.0%。
盡管已有對測試集的預測精度高于本研究結果,但對于訓練集,本研究結果仍具備優勢。此外,這些方法大多使用了蛋白質序列的進化信息和預測的二級結構信息,這些信息的獲得和提取比本研究使用的偽氨基酸組分要更加復雜。特別是當查詢的數據庫中沒有待查詢序列的同源序列時,進化信息將不可用;當二級結構預測軟件錯誤的預測了蛋白質結構時,那么提取的二級結構信息也不可信。因此,只從蛋白質一級序列出發來預測抗凍蛋白,能夠避免以上問題的出現。
盡管目前的研究結果還不十分令人滿意,但隨著蛋白質序列數據庫的不斷充實,將考慮更多的信息,如寡肽頻率、氨基酸約化等信息,以期提高分類模型的預測準確率。
References)
[1] Carvajal-Rondanelli PA,Marshall SH,Guzman F.Antifreeze glycoprotein agents:structural requirements for activity[J].Journal Science Food Agricuture,2011,91(14):2507-2510.
[2] Garner J,Harding MM.Design and synthesis of antifreeze glycoproteins and mimics[J].Chembiochem,2010,11(18):2489-2498.
[3] Kandaswamy KK,Chou KC,Martinetz T,M?ller S,Suganthan PN,Sridharan S,Pugalenthi G.AFP-Pred:A random forest approach for predicting antifreeze proteins from sequence-derived properties[J].Journal of Theoretical Biology,2011,270(1):56-62.
[4] Zhao Xiaowei,Ma Zhiqiang,Yin Minghao.Using support vector machine and evolutionary profiles to predict antifreeze protein sequences[J].Interntional Journal of Molecular Science,2012,13(2):2196-2207.
[5] Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.
[6] Fan RE,Chen PH,Lin CJ.Working set selection using the second order information for training SVM[J].Journal of Multivariate Analysis,2005,6:1889-1918.