999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析優化參數預測水解酶的亞類

2018-05-07 06:52:04王瑩程薇薇
科技創新導報 2018年1期

王瑩 程薇薇

摘 要:本文基于前人建立的數據庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,用主成分分析對序列向量進行分析,選取20個主要成分。將每條序列由20維向量來表示。用SVM算法對水解酶的亞類分別進行分類預測,在Jack-knife檢驗下的預測總精度為96.9%。

關鍵詞:SVM算法 主成分分析 水解酶 模體

中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2018)01(a)-0143-02

酶是一種生物催化劑,存活在細胞中,影響著細胞生長、代謝等生命過程的化學反應[1]近些年,許多研究者通過利用生物信息學建立了相應的酶序列的數據庫,并通過分類預測算法及酶序列的相關特征建立數學模型對酶的家族類及其亞類的研究上取得了較好的預測結果。隨著酶序列的相關特征的增多,用來表示序列的向量維數也相應的增加,急需對其進行優化,降低向量的維數,以提高預測的總精度。因此,本文將用主成分分析的方法來降低序列特征的維數,得到較好的預測精度。

1 數據庫和方法

1.1 數據庫

本文選取2011年由我們小組構建和整理新數據庫,其中水解酶5個亞類共4498條序列。

1.2 特征參數

1.2.1 氨基酸組分

蛋白質序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數,來表示酶的序列信息。我們可以將一條酶序列替換為一個20維的向量。

1.2.2 氨基酸緊鄰組分

本文用氨基酸緊鄰組分將每條酶序列用400維向量來表示,以反映序列的結構信息。將一條酶序列替換為一個400維的向量,同上一個參數。

1.2.3 預測的二級結構

對于蛋白質分子來說,它不僅只具有一級結構,還有二級結構等。而二級結構反映其空間結構信息。因此,本文選取預測的二級結構信息(P)作為特征參數。

本文所使用的二級結構信息是PSIpred(Position Specific Iterated pred)軟件[2]。對于一條酶序列,我們用一個3維的向量來表示3種二級結構在該序列中出現的頻數。

1.2.4 低頻功率譜密度值(F)

功率譜密度可以反映蛋白質序列的次序信息,本文將用其作為參數取得了較好的預測效果[3],功率譜密度值的提取方法如下[4]。

(1)將酶序列轉為成數字序列。

由于酶具有強疏水性,因此我們使用疏水值作為參數[6],使得每條酶序列變成數字序列。

(2)離散傅里葉變換。

酶序列數字化后,對它進行離散傅里葉變換,具體公式如下:

1≤k≤L

(3)提取功率譜密度值:,其中T為周期。

(4)功率譜密度值的處理。

因為每條酶序列長短不同,比較和分析其特性有一定的限制,需將長度不同的酶序列變為相同長度。因此,根據信號的組成特點,本文將每條酶序列都轉換成15維的向量。

1.2.5 MEME模體和功能模體

模體是刻畫蛋白質結構和執行功能的重要部分。因此,通過對模體的研究,我們就能得到該序列的功能信息及結構特征。本文選用已被廣泛用于DNA及蛋白質序列中模體搜索的MEME在線搜索器作為搜索工具[3]來搜索水解酶中的模體。本文限定6~15個氨基酸殘基作為模體的長度,并且每類亞類搜索5個模體類數,統計每條酶序列。

我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語言編譯實現。用來搜索水解酶的亞類的蛋白質序列中出現的模體。對于每一條酶序列來說,記錄模體在序列中出現的頻數。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統計模體,水解酶共得到30個模體頻數值。

1.3 主成分分析

主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發展。主成分分析是一種通過降維的方法把多個變量化成幾個主成分的統計分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

本文以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,將468維向量利用主成分分析的方法優選出貢獻率較高的20維向量特征。因此,通過該方法每一條酶序列將由20維向量來表示。

1.4 支持向量機算法

支持向量機[4](SVM)是一種新型分類預測方法。SVM的基本思想是將把輸入數據通過非線性映射映射到一個高維的空間,然后在找到最優超平面,最終超平面與樣本之間的距離最大。其中最優超平面的判別函數為:,這里是內積核函數。本文選取徑向基核函數進行計算。

2 結語

本文基于前人建立的數據庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進行分類預測,在Jack-knife檢驗下進行預測,總精度依次為96.9%。其中各亞類的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

參考文獻

[1] 閻隆飛,孫之榮.蛋白質分子結構[M].北京:清華大學出版社,1999.

[2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.

[3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.

[4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.

[5] 許忠能.生物信息學[M].北京:清華大學出版社,2008.

[6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.

主站蜘蛛池模板: 日本成人精品视频| 日本久久久久久免费网络| 亚洲天堂久久久| 亚洲综合久久一本伊一区| 国产毛片高清一级国语| 国产精品无码翘臀在线看纯欲| 在线观看国产一区二区三区99| 伊人蕉久影院| 欧美在线三级| 99在线免费播放| 日本三级黄在线观看| 国产91无码福利在线| 国产在线精彩视频二区| 精品自窥自偷在线看| 色综合久久无码网| 国产菊爆视频在线观看| 一本久道久久综合多人| 久爱午夜精品免费视频| 国产va免费精品| 国产经典免费播放视频| 无码国产偷倩在线播放老年人 | 国产香蕉国产精品偷在线观看| 波多野结衣爽到高潮漏水大喷| 久草青青在线视频| 国产污视频在线观看| 欧美自拍另类欧美综合图区| 国产成人盗摄精品| 亚洲美女久久| 真实国产乱子伦视频| 欧美啪啪视频免码| 动漫精品啪啪一区二区三区| 国产99精品视频| 亚洲男女在线| 国产精品亚洲专区一区| 国产丝袜一区二区三区视频免下载| 久久精品无码国产一区二区三区| 中文字幕永久视频| 国产99在线| 超碰精品无码一区二区| 欧美精品影院| 国产一区二区三区免费| 国产精品亚洲一区二区三区z| 国产午夜无码片在线观看网站| 一级毛片a女人刺激视频免费| 亚洲综合色区在线播放2019| 亚洲国产精品美女| 99久久成人国产精品免费| 日本在线亚洲| 亚洲日韩精品综合在线一区二区| 好紧好深好大乳无码中文字幕| 久久精品丝袜| 中文毛片无遮挡播放免费| 免费午夜无码18禁无码影院| 思思热精品在线8| 天堂亚洲网| 国产99欧美精品久久精品久久| 亚洲精品国产自在现线最新| 99精品一区二区免费视频| 国产h视频在线观看视频| 国产主播一区二区三区| 美女视频黄频a免费高清不卡| 日韩毛片免费| 五月天综合婷婷| 人妻精品久久久无码区色视| 精品国产福利在线| 91尤物国产尤物福利在线| 日韩毛片在线播放| a亚洲视频| 日本在线免费网站| 欧美日韩免费| 精品亚洲麻豆1区2区3区| 亚洲精品天堂在线观看| 亚洲天堂免费观看| 又粗又大又爽又紧免费视频| 精品国产aⅴ一区二区三区| 又爽又大又黄a级毛片在线视频| 亚洲欧美日韩成人在线| 亚洲一级毛片免费观看| 欧美午夜网站| 久久福利片| 日本a级免费| 国产一区二区三区在线观看视频|