王 婷
(長治職業技術學院 山西長治046000)
酶是具有高效催化作用的蛋白質,生物體內幾乎所有的代謝反應都需要酶的參與,而且對于物質代謝的控制也大多通過酶的活性來實現[1]。已經證實,人類的許多疾病如蠶豆病、白化病、苯丙酮尿病等,均是由于某種酶的變異、減少甚至缺失造成的[2]。酶的類型與其功能和催化性能關系密切,因此對于新發現的酶,可以通過確定它的類型來表明其生物功能。傳統的研究酶功能的生化實驗方法不僅費時、耗資,而且可能會碰到許多目前無法解決的實際困難。因此,使用機器學習算法來預測酶類型的理論方法應用越來越廣泛[3]。
本文從酶的氨基酸序列出發,在特征參數的提取上有創新:采用矩陣打分和離散增量的方法提取,再將這些參數構成的組合向量輸入支持向量機。首次使用支持向量機算法對6類酶的類型進行預測,取得了較好的預測結果。
本文使用的是由 Shen和 Chou等[4]創建的酶家族類數據庫。選取酶序列數據遵循以下標準:①序列長度不小于 50個殘基;②不存在一個酶同時隸屬于多種類型的情況;③酶序列的同源性小于 40%。基于以上標準,最終獲得 9832條酶序列,分為以下 6個類型:①氧化還原酶1618條;②轉移酶3450條;③水解酶2791條;④裂合酶679條;⑤異構酶518條;⑥合成酶776條。
1.2.1 矩陣打分方法
矩陣打分(S)方法已經在轉錄因子結合位點和蛋白質折疊子的預測等方面得到成功應用[5~7]。此方法通過以下3個步驟實現:
①引入偽計數pij,位點位置概率作為矩陣元:

②建立位置權重矩陣,即標準打分矩陣:

③對給定的序列片段進行打分,將打分函數定義為:

式中:Ni表示全部氨基酸在第i個位置出現的個數;nij表示第 j種氨基酸在第i個位置上出現的個數;P0j表示第j種氨基酸出現的背景概率。
1.2.2 離散增量方法
離散增量(ID)方法已經在蛋白質結構和超家族的預測[8-9]等工作中獲得廣泛使用。
兩個 S維離散源 X(n1,n2,…,ni,…,ns)和Y(m1,m2,…mi…,ms),其中 ni和 mi分別表示酶的信息參數,定義X和Y的離散量為:

定義混合離散源 X+Y(n1+m1,n2+m2,…,ni+mi,…,ns+ ms)的離散量為:

兩個離散源X與Y之間的離散增量為:

氨基酸的化學特性親疏水性質,主要由其側鏈基團決定。根據單個氨基酸的親疏水分布,將 20種氨基酸劃分為 6 類[9]:①強親水類(R,D,E,N,Q,K,H);②強疏水類(L,I,V,A,M,F);③弱親水或弱疏水類(S,T,Y,W);④脯氨酸(P);⑤甘氨酸(G);⑥半胱氨酸(C)。
1.2.3 支持向量機算法
支持向量機(SVM)算法是在統計學習理論的基礎上發展起來的一種新的機器學習方法,它根據有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折中,以期獲得最好的推廣能力。由于具有強有力的非線性建模能力和良好的泛化性能,它能夠解決小樣本、非線性和高維數等實際問題[10]。本文使用的是Chang和Lin[11]聯合開發的Libsvm程序包。
從酶序列的N端與C端分別選取80個氨基酸殘基作為保守位點,使用矩陣打分方法得到 12個打分值;再分別將氨基酸的次鄰二聯體和親疏水三聯體出現的個數作為信息參數,使用離散增量方法得到12個離散增量值;最后將這 12個打分值和 12個離散增量值構成的組合向量,輸入支持向量機中,采用Jackknife檢驗方法進行分類預測,其預測成功率見表 1。為了比較計算結果,這里還分別采用矩陣打分方法和離散增量方法對單參數進行預測,同時也把運用相同數據庫 Chou[4]的 Jackknife檢驗結果列在了表1中。

表1 Jackknife檢驗下6類酶的預測結果(%)Tab.1 Prediction results of 6 enzymes by jackknife test(%)
從表1的計算結果可以看出,分別將氨基酸的次鄰二聯體和親疏水三聯體出現的個數作為信息參數,使用離散增量方法對酶的類型預測效果不是很好,預測成功率較低。選取酶序列的N端與C端的殘基片段打分方法的預測效果明顯好于離散增量方法,說明酶序列的N端與C端均具有較強的氨基酸位點保守性。把打分值與離散增量值進行組合,共同輸入支持向量機中進行預測,獲得了非常好的結果。Jackknife檢驗總體的預測成功率為88.86%,氧化還原酶、轉移酶、水解酶、裂合酶、異構酶和合成酶的預測成功率分別為 92.34%、86.69%、83.30%、97.20%、98.26%和97.68%,結果表明此算法對于酶的分類預測非常有效。裂合酶和異構酶的預測成功率比 Chou[4]的方法分別提高了 12.1%和 14.66%,但轉移酶和水解酶的預測成功率比Chou[4]的結果差。
本文對酶的類型進行預測,當使用組合向量作為特征參數時獲得了較好的預測結果,其主要原因是:①由于不同類型酶的N端與C端所包含的特征信號具有很強的差異性,從酶序列兩端的殘基片段提取的打分值,其包含的信息更加全面;②支持向量機算法具有很強的融合性能,可以將打分值與離散增量值恰當的融合,共同作為支持向量機的特征參數,取得了更優的預測結果。