王瑩 程薇薇
摘 要:本文基于前人建立的數據庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,用主成分分析對序列向量進行分析,選取20個主要成分。將每條序列由20維向量來表示。用SVM算法對水解酶的亞類分別進行分類預測,在Jack-knife檢驗下的預測總精度為96.9%。
關鍵詞:SVM算法 主成分分析 水解酶 模體
中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2018)01(a)-0143-02
酶是一種生物催化劑,存活在細胞中,影響著細胞生長、代謝等生命過程的化學反應[1]近些年,許多研究者通過利用生物信息學建立了相應的酶序列的數據庫,并通過分類預測算法及酶序列的相關特征建立數學模型對酶的家族類及其亞類的研究上取得了較好的預測結果。隨著酶序列的相關特征的增多,用來表示序列的向量維數也相應的增加,急需對其進行優化,降低向量的維數,以提高預測的總精度。因此,本文將用主成分分析的方法來降低序列特征的維數,得到較好的預測精度。
1 數據庫和方法
1.1 數據庫
本文選取2011年由我們小組構建和整理新數據庫,其中水解酶5個亞類共4498條序列。
1.2 特征參數
1.2.1 氨基酸組分
蛋白質序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數,來表示酶的序列信息。我們可以將一條酶序列替換為一個20維的向量。
1.2.2 氨基酸緊鄰組分
本文用氨基酸緊鄰組分將每條酶序列用400維向量來表示,以反映序列的結構信息。將一條酶序列替換為一個400維的向量,同上一個參數。
1.2.3 預測的二級結構
對于蛋白質分子來說,它不僅只具有一級結構,還有二級結構等。而二級結構反映其空間結構信息。因此,本文選取預測的二級結構信息(P)作為特征參數。
本文所使用的二級結構信息是PSIpred(Position Specific Iterated pred)軟件[2]。對于一條酶序列,我們用一個3維的向量來表示3種二級結構在該序列中出現的頻數。
1.2.4 低頻功率譜密度值(F)
功率譜密度可以反映蛋白質序列的次序信息,本文將用其作為參數取得了較好的預測效果[3],功率譜密度值的提取方法如下[4]。
(1)將酶序列轉為成數字序列。
由于酶具有強疏水性,因此我們使用疏水值作為參數[6],使得每條酶序列變成數字序列。
(2)離散傅里葉變換。
酶序列數字化后,對它進行離散傅里葉變換,具體公式如下:
1≤k≤L
(3)提取功率譜密度值:,其中T為周期。
(4)功率譜密度值的處理。
因為每條酶序列長短不同,比較和分析其特性有一定的限制,需將長度不同的酶序列變為相同長度。因此,根據信號的組成特點,本文將每條酶序列都轉換成15維的向量。
1.2.5 MEME模體和功能模體
模體是刻畫蛋白質結構和執行功能的重要部分。因此,通過對模體的研究,我們就能得到該序列的功能信息及結構特征。本文選用已被廣泛用于DNA及蛋白質序列中模體搜索的MEME在線搜索器作為搜索工具[3]來搜索水解酶中的模體。本文限定6~15個氨基酸殘基作為模體的長度,并且每類亞類搜索5個模體類數,統計每條酶序列。
我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語言編譯實現。用來搜索水解酶的亞類的蛋白質序列中出現的模體。對于每一條酶序列來說,記錄模體在序列中出現的頻數。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統計模體,水解酶共得到30個模體頻數值。
1.3 主成分分析
主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發展。主成分分析是一種通過降維的方法把多個變量化成幾個主成分的統計分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。
本文以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,將468維向量利用主成分分析的方法優選出貢獻率較高的20維向量特征。因此,通過該方法每一條酶序列將由20維向量來表示。
1.4 支持向量機算法
支持向量機[4](SVM)是一種新型分類預測方法。SVM的基本思想是將把輸入數據通過非線性映射映射到一個高維的空間,然后在找到最優超平面,最終超平面與樣本之間的距離最大。其中最優超平面的判別函數為:,這里是內積核函數。本文選取徑向基核函數進行計算。
2 結語
本文基于前人建立的數據庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進行分類預測,在Jack-knife檢驗下進行預測,總精度依次為96.9%。其中各亞類的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。
參考文獻
[1] 閻隆飛,孫之榮.蛋白質分子結構[M].北京:清華大學出版社,1999.
[2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.
[3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.
[4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.
[5] 許忠能.生物信息學[M].北京:清華大學出版社,2008.
[6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.