王 婷
(長治職業技術學院,山西 長治 046000)
本文使用chou和shen相同的數據庫[3],從蛋白酶的一級序列出發,以氨基酸組分,氨基酸二肽組分和親疏水三肽組分為參數,采用離散增量結合支持向量機(ID-SVM)的方法對蛋白酶的類型進行預測,獲得了較好的預測效果。
本文選取了chou和shen創建的蛋白酶數據庫[4](http://merops.sanger.ac.uk/(version 8.1,released on 05-May-2008))。此數據庫的特點:序列同源性小于25%;序列長度不小于50個氨基酸;去除所有含有未知殘基的序列。基于以上標準,最終得到3051個蛋白酶序列,可以分為6個類型:258個絲氨酸蛋白酶(aspartic)序列;589個蘇氨酸蛋白酶(cysteine)序列;39個半胱氨酸蛋白酶(glutamic)序列;1040個天冬氨酸蛋白酶(metallo)序列;1063個金屬蛋白酶(serine)序列;62個谷氨酸蛋白酶(threonine)序列。本文以這6類蛋白酶的一級結構為研究對象。
1.2.1 氨基酸n肽組分
肽是構成蛋白質的結構片段,也是蛋白質發揮作用的活性基礎部分。當n=1時,氨基酸n肽組分就退化為氨基酸組分,即20種氨基酸出現的頻數,其表達相對簡單,但丟失了各氨基酸間的關聯信息。當n=2時定義為二肽組分,即400種氨基酸二聯體出現的頻數,此時加入了氨基酸間的排列次序和關聯信息[5]。以此類推,n個氨基酸縮合成的n聯體就稱為n肽組分。
1.2.2 氨基酸序列的親疏水性分布
蛋白質是由20種不同的氨基酸組成的生物大分子,蛋白質分子中的氨基酸殘基靠酰胺鍵連接,形成含多達幾百個氨基酸殘基的多肽鏈,不同類型的氨基酸所包含的側鏈結構和性質也各不相同,因此類型不同的氨基酸具有不同的物理化學性質。大量實驗證實,蛋白質序列中氨基酸的物理化學性質也是影響蛋白質結構和功能的重要因素,尤其是分子結構中的親疏水性分布的特征。
本文選取了氨基酸的親疏水性分布作為描述氨基酸序列的一個信息參數。根據Li F M等、Chen Y L等、Pánek J等的方法對20種氨基酸進行分類,按照單個氨基酸親疏水性分布的不同,將20種氨基酸分為以下6類:強親水性類、強疏水性類、弱親水或弱疏水性類、脯氨酸、甘氨酸、半胱氨酸。具體分類如表1所示。

表1 氨基酸的親疏水特征分類
1.3.1 離散增量算法(increment of diversity, ID)
云計算是一種利用大規模低成本運算單元通過IP網絡相連而組成的運算系統,用以提供各種計算和存儲服務。由于具有高性能、低成本、可平滑擴展等優勢,云計算為IT技術發展提供了新的技術手段和業務模式,不僅是企業降低建設和維護成本的重要手段,更為企業技術、業務和管理創新帶來了新的契機。
離散增量算法是一種公認的較好模式識別分類器。此算法近年來已成功應用于蛋白質亞細胞定位[9]、蛋白質折疊子的結構類型[10]及蛋白質超二級結構的識別[11]等工作。
對離散量給出如下定義,對于由s維信息符號構成的狀態空間X,這里用mi表示第i個狀態出現的個數,其離散源X{m1,m2,…,ms}中的離散量:

2個同為s維狀態空間的離散源X:{n1,n2,…,ns}和Y:{m1,m2,…,ms},二者離散量:
混合離散源X+Y(n1+m1,n2+m2,…,ns+ms)的離散量:

離散源X與Y的離散增量定義:
ID(X,Y)=D(X+Y)-D(X)-D(Y)
ID(X,Y)值用于比較2個離散源的相似性程度。ID(X,Y)值越小,表明2個離散源越相似;反之ID(X,Y)值越大,表明2個離散源的差異越大。
1.3.2 支持向量機算法(support vector machine, SVM)
支持向量機算法是由Vapnik等人于1995年提出的,具有相對優良的性能指標。此方法是建立在統計學理論基礎上的機器學習方法。通過學習算法,SVM可以自動找出那些對分類有較好區分能力的支持向量,由此構造出的分類器可以最大化類與類的間隔,因此有較好的適應能力和較高的分辨率。該方法只需由各類域的邊界樣本的類別來決定最后的分類結果[12]。目前支持向量機算法在亞細胞定位[13,14]、蛋白質結構[15]和蛋白質相互作用[16]等方面都有廣泛應用,其計算結果已經遠遠超過了各種傳統的學習算法。支持向量機算法已經被很多學者編譯為程序加以應用,這里使用的是由Chang和Lin聯合開發的libsvm程序包,可以從網站(http://www.csie.ntu. edu.tw/~cjlin/)免費下載獲得。
1.3.3 離散增量結合支持向量機算法(ID-SVM)
如果直接將從一級蛋白質序列中提取到的特征參數,輸入支持向量機算法中,那么輸入向量的維數就會非常大,勢必造成維數災難,使得支持向量機算法的優越性大打折扣。為了解決這一問題,提出了離散增量結合支持向量機算法(ID-SVM):將蛋白質序列中提取到的特征參數輸入離散增量算法,將得到的離散增量值作為特征參數輸入支持向量機中進行分類預測。這樣做可以很好地降低支持向量機的輸入向量維數,避免SVM過訓練。
本文選取了20個氨基酸組分,400個氨基酸二肽組分和216個親疏水三肽組分作為離散源參數。每組參數得到的離散增量值均可以構成一個6維向量;再將這3組離散增量值組合起來,構成一個3×6=18維的特征向量輸入支持向量機中進行分類預測。本文采用jacknife檢驗方法對蛋白酶的類型進行預測,其結果如表2所示。

表2 基于ID-SVM方法在Jackknife檢驗下6種類型蛋白酶的預測結果
由表2可以看出,Jacknife檢驗方法的總體預測成功率為82.49%。相對而言,對第二類蘇氨酸蛋白酶(cysteine)和第五類金屬蛋白酶(serine)的預測效果更好一些,分別達到了94.74%和91.06%,而對第六類谷氨酸蛋白酶(threonine)的預測效果稍差。表明蛋白質序列數目越多的類,預測成功率可能會更高。如果能夠進一步提取出更多更好的序列特征信息,預測結果肯定會提升。
本文使用離散增量結合支持向量機方法預測蛋白酶的類型,能夠獲得較好的預測結果,有以下2個原因:離散增量算法可以有效降低參數向量的維數,簡化計算過程;支持向量機算法能夠很好的融合各種有益序列信息,并通過調節計算參數得到最佳的預測結果。