王 瑩,程薇薇
(1.哈爾濱遠東理工學院,黑龍江 哈爾濱 150001;2.齊齊哈爾工程學院,黑龍江 齊齊哈爾 161000)
新陳代謝是生命活動中最重要的特征之一,是由千千萬萬化學變化產生的.而這些化學變化都是在催化劑的催化下進行的.酶是生物體中的生物催化劑,同時也是一種蛋白質,它具有較高的催化效率和高度的專一性,又廣泛存在于各種細胞中.可以說,酶在各種代謝過程中起了很重要的作用.也可以說沒有酶就沒有生命現象[1,2].酶的分類研究對于研究生命的新陳代謝至關重要.而對于酶的分類研究同時也是對蛋白質功能的研究.目前,在海量的蛋白質序列數據如何判斷該序列的功能及其分類是既耗資又耗時.因此,我們現在迫切需要建立一個分類預測的數學模型來快速的解決以上問題.目前,人們從理論上找到一種比較有效的預測方法,能快速并且較準確的預測出蛋白質的功能和特性等.
近些年,許多研究者通過利用生物信息學建立了相應的酶序列的數據庫,并通過分類預測算法及酶序列的相關特征建立數學模型對酶的家族類及其亞類的研究上取得了較好的預測結果.
本文選取2011年由我們小組構建和整理新數據庫,其中水解酶六個亞類共4498條序列.
蛋白質序列都是由20種基本的氨基酸組成的.并反映了序列的全局信息.前人的研究表明,酶與氨基酸組分信息有一定的關聯性,不同類的酶序列的氨基酸有一定的差異.因此,本文選用氨基酸組分的信息(A)作為參數,來表示酶的序列信息.我們可以將一條酶序列替換為一個20維的向量:

其中si(i=1,2,3,...,20)代表第i種氨基酸在一條酶序列中出現的頻數.
對于蛋白質分子來說,它不僅只具有一級結構,還有二級結構等.蛋白質的一級結構只反映其序列信息,而它的二級結構反映其空間結構信息.前面我們只選取了酶蛋白的序列信息,為了更好的反映酶蛋白的特性本文選取預測的二級結構信息(P)作為特征參數.
本文所使用的二級結構信息是PSIpred(Position Specific Iterated pred)軟件[3]的在線服務器作為二級結構搜索工具http://bioinf.cs.ucl.ac.uk/psipred/.基于上述操作,對于一條酶序列,我們用一個3維的向量來表示二級結構α螺旋、β折疊以及無規卷曲(coil)在該序列中出現的頻數.
研究表明模體是刻畫蛋白質結構和執行功能的重要部分.因此,通過對模體的研究,我們就能得到該序列的功能信息及結構特征.目前,對于模體的搜索工具有很多.比較常用的有PROSITE數據庫中的PS_scan模體搜索工具和MEME軟件等.其中MEME軟件所得到的模體是具有統計學意義的,有此軟件得到的模體是通過對比序列得到的片段.
為了可以反映出序列的功能,本文選用已被廣泛用于DNA及蛋白質序列中模體搜索的MEME在線搜索器作為搜索工具[4](http://meme.sdsc.edu/meme/cgi-bin/meme.cgi)來搜索各個酶家族類及其亞類中的模體.用該軟件在搜索過程中,我們可以限定模體的長度和模體類數,本文限定6-15個氨基酸殘基作為模體的長度,并且每類亞類搜索5個模體類數,統計每條酶序列25個模體出現的頻數,從而每條酶序列由一個25維向量來表示.
為了更好的反映酶序列的功能信息,我們選取PROSITE搜索得到功能模體[5].Prosite數據庫收集了大量的具有顯著生物學意義的蛋白質序列模式和功能位點.本文將PS_scan模體搜索工具[5]用Perl語言編譯實現.用來搜索水解酶的亞類的蛋白質序列中出現的模體.
我們對水解酶序列搜索得到的模體進行統計分析后,選取出現最多的5種模體,其預測結果最好.水解酶共選取5種模體.對于每一條酶序列來說,記錄模體在序列中出現的次數.即可將序列信息轉化為模體頻數值.把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統計模體,水解酶共得到30個模體頻數值.
人工神經網絡[6](Artificial Neural Networks,ANN)系統是20世紀40年代后出現的.它是由眾多的神經元可調的連接權值連接而成,具有大規模并行處理、分布式信息存儲、良好的自組織自學習能力等特點.BP(Back Propagation)算法又稱為誤差反向傳播算法,是人工神經網絡中的一種監督式的學習算法.BP神經網絡算法在理論上可以逼近任意函數,基本的結構由非線性變化單元組成,具有很強的非線性映射能力.BP神經網絡是一種多層的前饋神經網絡.具體來說,本文神經網絡模型如下:

圖1 神經網絡模型
BP神經網絡的過程主要分為兩個階段,第一階段是信號的前向傳播,從輸入層經過隱含層,最后到達輸出層;第二階段是誤差的反向傳播,從輸出層到隱含層,最后到輸入層,依次調節隱含層到輸出層的權重和偏置,輸入層到隱含層的權重和偏置.
假設輸入層的節點個數為n,隱含層的節點個數為l,輸出層的節點個數為m.輸入層到隱含層的權重ωij,隱含層到輸出層的權重為ωjk,輸入層到隱含層的偏置為aj,隱含層到輸出層的偏置為bk.學習速率為η,激勵函數為g(x).其中激勵函數為g(x)取Sigmoid函數.形式為:


其中Yk為期望輸出.我們記Yk-Ok=ek.
權值的更新公式為:

本文基于前人建立的數據庫,以氨基酸組分、預測的二級結構和MEME模體及功能模體頻數組成向量來表示序列信息,水解酶共得到53維向量,將得到的向量輸入到神經網絡算法進行分類預測,在Jack-knife檢驗下進行預測,總精度依次為96.7%.具體結果如表1.

表1 水解酶的5個亞類結果(%)
參考文獻:
〔1〕閻隆飛,孫之榮.蛋白質分子結構[M].北京:清華大學出版社,1999.
〔2〕閻隆飛.蛋白質的結構與功能[M].長沙:湖南科學技術出版社,1988.
〔3〕Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J].Biochemical and Biophysical Research Communications,2004,325:506~507.
〔4〕Bailey T.L.,Mikael B.,Buske F.A.,Frith M.,Grant C.E.,ClementiL.,Ren J.Y.,LiW.W.,NobleW.S.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research.2006,3.
〔5〕Castro,D.E.,Sigrist,C.J.,Gattiker,A.,Bulliard.,Langendijk-Genevaux,P.S.,Gasteiger,E.,Bairoch,A.,Hulo,N.ScanProsite:detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins [J].Nucleic Acids Research.2009,37,202~208.
〔6〕許忠能.生物信息學[M].北京:清華大學出版社,2008.