基于主成分分析優(yōu)化參數(shù)預(yù)測(cè)水解酶的亞類(lèi)

2018-05-07 06:52:04王瑩程薇薇

科技創(chuàng)新導(dǎo)報(bào) 2018年1期

王瑩程薇薇

摘要：本文基于前人建立的數(shù)據(jù)庫(kù)，以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息，用主成分分析對(duì)序列向量進(jìn)行分析，選取20個(gè)主要成分。將每條序列由20維向量來(lái)表示。用SVM算法對(duì)水解酶的亞類(lèi)分別進(jìn)行分類(lèi)預(yù)測(cè)，在Jack-knife檢驗(yàn)下的預(yù)測(cè)總精度為96.9%。

關(guān)鍵詞：SVM算法主成分分析水解酶模體

中圖分類(lèi)號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1674-098X（2018）01（a）-0143-02

酶是一種生物催化劑，存活在細(xì)胞中，影響著細(xì)胞生長(zhǎng)、代謝等生命過(guò)程的化學(xué)反應(yīng)[1]近些年，許多研究者通過(guò)利用生物信息學(xué)建立了相應(yīng)的酶序列的數(shù)據(jù)庫(kù)，并通過(guò)分類(lèi)預(yù)測(cè)算法及酶序列的相關(guān)特征建立數(shù)學(xué)模型對(duì)酶的家族類(lèi)及其亞類(lèi)的研究上取得了較好的預(yù)測(cè)結(jié)果。隨著酶序列的相關(guān)特征的增多，用來(lái)表示序列的向量維數(shù)也相應(yīng)的增加，急需對(duì)其進(jìn)行優(yōu)化，降低向量的維數(shù)，以提高預(yù)測(cè)的總精度。因此，本文將用主成分分析的方法來(lái)降低序列特征的維數(shù)，得到較好的預(yù)測(cè)精度。

1 數(shù)據(jù)庫(kù)和方法

1.1 數(shù)據(jù)庫(kù)

本文選取2011年由我們小組構(gòu)建和整理新數(shù)據(jù)庫(kù)，其中水解酶5個(gè)亞類(lèi)共4498條序列。

1.2 特征參數(shù)

1.2.1 氨基酸組分

蛋白質(zhì)序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明，不同類(lèi)的酶序列的氨基酸有一定的差異。因此，本文選用氨基酸組分的信息（A）作為參數(shù)，來(lái)表示酶的序列信息。我們可以將一條酶序列替換為一個(gè)20維的向量。

1.2.2 氨基酸緊鄰組分

本文用氨基酸緊鄰組分將每條酶序列用400維向量來(lái)表示，以反映序列的結(jié)構(gòu)信息。將一條酶序列替換為一個(gè)400維的向量，同上一個(gè)參數(shù)。

1.2.3 預(yù)測(cè)的二級(jí)結(jié)構(gòu)

對(duì)于蛋白質(zhì)分子來(lái)說(shuō)，它不僅只具有一級(jí)結(jié)構(gòu)，還有二級(jí)結(jié)構(gòu)等。而二級(jí)結(jié)構(gòu)反映其空間結(jié)構(gòu)信息。因此，本文選取預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息（P）作為特征參數(shù)。

本文所使用的二級(jí)結(jié)構(gòu)信息是PSIpred（Position Specific Iterated pred）軟件[2]。對(duì)于一條酶序列，我們用一個(gè)3維的向量來(lái)表示3種二級(jí)結(jié)構(gòu)在該序列中出現(xiàn)的頻數(shù)。

1.2.4 低頻功率譜密度值（F）

功率譜密度可以反映蛋白質(zhì)序列的次序信息，本文將用其作為參數(shù)取得了較好的預(yù)測(cè)效果[3]，功率譜密度值的提取方法如下[4]。

（1）將酶序列轉(zhuǎn)為成數(shù)字序列。

由于酶具有強(qiáng)疏水性，因此我們使用疏水值作為參數(shù)[6]，使得每條酶序列變成數(shù)字序列。

（2）離散傅里葉變換。

酶序列數(shù)字化后，對(duì)它進(jìn)行離散傅里葉變換，具體公式如下：

1≤k≤L

（3）提取功率譜密度值：，其中T為周期。

（4）功率譜密度值的處理。

因?yàn)槊織l酶序列長(zhǎng)短不同，比較和分析其特性有一定的限制，需將長(zhǎng)度不同的酶序列變?yōu)橄嗤L(zhǎng)度。因此，根據(jù)信號(hào)的組成特點(diǎn)，本文將每條酶序列都轉(zhuǎn)換成15維的向量。

1.2.5 MEME模體和功能模體

模體是刻畫(huà)蛋白質(zhì)結(jié)構(gòu)和執(zhí)行功能的重要部分。因此，通過(guò)對(duì)模體的研究，我們就能得到該序列的功能信息及結(jié)構(gòu)特征。本文選用已被廣泛用于DNA及蛋白質(zhì)序列中模體搜索的MEME在線搜索器作為搜索工具[3]來(lái)搜索水解酶中的模體。本文限定6～15個(gè)氨基酸殘基作為模體的長(zhǎng)度，并且每類(lèi)亞類(lèi)搜索5個(gè)模體類(lèi)數(shù)，統(tǒng)計(jì)每條酶序列。

我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語(yǔ)言編譯實(shí)現(xiàn)。用來(lái)搜索水解酶的亞類(lèi)的蛋白質(zhì)序列中出現(xiàn)的模體。對(duì)于每一條酶序列來(lái)說(shuō)，記錄模體在序列中出現(xiàn)的頻數(shù)。把PROSITE搜索得到的5種模體，再加上由MEME軟件搜索得到的統(tǒng)計(jì)模體，水解酶共得到30個(gè)模體頻數(shù)值。

1.3 主成分分析

主成分分析[5]（principal component analysis）是由Pearson在1901年提出，直到1933年得到發(fā)展。主成分分析是一種通過(guò)降維的方法把多個(gè)變量化成幾個(gè)主成分的統(tǒng)計(jì)分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

本文以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息，將468維向量利用主成分分析的方法優(yōu)選出貢獻(xiàn)率較高的20維向量特征。因此，通過(guò)該方法每一條酶序列將由20維向量來(lái)表示。

1.4 支持向量機(jī)算法

支持向量機(jī)[4]（SVM）是一種新型分類(lèi)預(yù)測(cè)方法。SVM的基本思想是將把輸入數(shù)據(jù)通過(guò)非線性映射映射到一個(gè)高維的空間，然后在找到最優(yōu)超平面，最終超平面與樣本之間的距離最大。其中最優(yōu)超平面的判別函數(shù)為：，這里是內(nèi)積核函數(shù)。本文選取徑向基核函數(shù)進(jìn)行計(jì)算。

2 結(jié)語(yǔ)

本文基于前人建立的數(shù)據(jù)庫(kù)，以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息，水解酶共得到468維向量，并用主成分分析的方法將468維向量降為20維向量，將得到的向量輸入到支持向量算法進(jìn)行分類(lèi)預(yù)測(cè)，在Jack-knife檢驗(yàn)下進(jìn)行預(yù)測(cè)，總精度依次為96.9%。其中各亞類(lèi)的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

參考文獻(xiàn)

[1] 閻隆飛，孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京：清華大學(xué)出版社，1999.

[2] Chou K.C.，CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications，2004，325（2）：506-507.

[3] Bailey T.L.，Mikael B.，Buske F.A.，et al.MEME Suite：tools for motif discovery and searching[J].Nucleic Acids Research，2006（37）：202-208.

[4] Ruijia Shi，Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011：599-604.

[5] 許忠能.生物信息學(xué)[M].北京：清華大學(xué)出版社，2008.

[6] Castro， D.E.，Sigrist，C.J.，Gattiker，A.，et al. ScanProsite： detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research，2009（37）：202-208.

科技創(chuàng)新導(dǎo)報(bào)2018年1期

科技創(chuàng)新導(dǎo)報(bào)的其它文章: 基于圖像類(lèi)型的Photoshop摳圖技巧; 提高燒結(jié)機(jī)運(yùn)行可靠性研究與應(yīng)用; 瓦里安Clinac IX直線加速器“軟”故障兩例; 如何提高報(bào)社記者的新聞采寫(xiě)能力; 邯鄲市大型儀器設(shè)備資源運(yùn)營(yíng)現(xiàn)狀和對(duì)策研究; 高校圖書(shū)館采購(gòu)模式淺析