999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析優化參數預測水解酶的亞類

2018-05-07 06:52:04王瑩程薇薇
科技創新導報 2018年1期

王瑩 程薇薇

摘 要:本文基于前人建立的數據庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,用主成分分析對序列向量進行分析,選取20個主要成分。將每條序列由20維向量來表示。用SVM算法對水解酶的亞類分別進行分類預測,在Jack-knife檢驗下的預測總精度為96.9%。

關鍵詞:SVM算法 主成分分析 水解酶 模體

中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2018)01(a)-0143-02

酶是一種生物催化劑,存活在細胞中,影響著細胞生長、代謝等生命過程的化學反應[1]近些年,許多研究者通過利用生物信息學建立了相應的酶序列的數據庫,并通過分類預測算法及酶序列的相關特征建立數學模型對酶的家族類及其亞類的研究上取得了較好的預測結果。隨著酶序列的相關特征的增多,用來表示序列的向量維數也相應的增加,急需對其進行優化,降低向量的維數,以提高預測的總精度。因此,本文將用主成分分析的方法來降低序列特征的維數,得到較好的預測精度。

1 數據庫和方法

1.1 數據庫

本文選取2011年由我們小組構建和整理新數據庫,其中水解酶5個亞類共4498條序列。

1.2 特征參數

1.2.1 氨基酸組分

蛋白質序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數,來表示酶的序列信息。我們可以將一條酶序列替換為一個20維的向量。

1.2.2 氨基酸緊鄰組分

本文用氨基酸緊鄰組分將每條酶序列用400維向量來表示,以反映序列的結構信息。將一條酶序列替換為一個400維的向量,同上一個參數。

1.2.3 預測的二級結構

對于蛋白質分子來說,它不僅只具有一級結構,還有二級結構等。而二級結構反映其空間結構信息。因此,本文選取預測的二級結構信息(P)作為特征參數。

本文所使用的二級結構信息是PSIpred(Position Specific Iterated pred)軟件[2]。對于一條酶序列,我們用一個3維的向量來表示3種二級結構在該序列中出現的頻數。

1.2.4 低頻功率譜密度值(F)

功率譜密度可以反映蛋白質序列的次序信息,本文將用其作為參數取得了較好的預測效果[3],功率譜密度值的提取方法如下[4]。

(1)將酶序列轉為成數字序列。

由于酶具有強疏水性,因此我們使用疏水值作為參數[6],使得每條酶序列變成數字序列。

(2)離散傅里葉變換。

酶序列數字化后,對它進行離散傅里葉變換,具體公式如下:

1≤k≤L

(3)提取功率譜密度值:,其中T為周期。

(4)功率譜密度值的處理。

因為每條酶序列長短不同,比較和分析其特性有一定的限制,需將長度不同的酶序列變為相同長度。因此,根據信號的組成特點,本文將每條酶序列都轉換成15維的向量。

1.2.5 MEME模體和功能模體

模體是刻畫蛋白質結構和執行功能的重要部分。因此,通過對模體的研究,我們就能得到該序列的功能信息及結構特征。本文選用已被廣泛用于DNA及蛋白質序列中模體搜索的MEME在線搜索器作為搜索工具[3]來搜索水解酶中的模體。本文限定6~15個氨基酸殘基作為模體的長度,并且每類亞類搜索5個模體類數,統計每條酶序列。

我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語言編譯實現。用來搜索水解酶的亞類的蛋白質序列中出現的模體。對于每一條酶序列來說,記錄模體在序列中出現的頻數。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統計模體,水解酶共得到30個模體頻數值。

1.3 主成分分析

主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發展。主成分分析是一種通過降維的方法把多個變量化成幾個主成分的統計分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

本文以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,將468維向量利用主成分分析的方法優選出貢獻率較高的20維向量特征。因此,通過該方法每一條酶序列將由20維向量來表示。

1.4 支持向量機算法

支持向量機[4](SVM)是一種新型分類預測方法。SVM的基本思想是將把輸入數據通過非線性映射映射到一個高維的空間,然后在找到最優超平面,最終超平面與樣本之間的距離最大。其中最優超平面的判別函數為:,這里是內積核函數。本文選取徑向基核函數進行計算。

2 結語

本文基于前人建立的數據庫,以氨基酸組分、氨基酸緊鄰組分、預測的二級結構、低頻功率譜密度值和MEME模體及功能模體頻數組成向量來表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進行分類預測,在Jack-knife檢驗下進行預測,總精度依次為96.9%。其中各亞類的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

參考文獻

[1] 閻隆飛,孫之榮.蛋白質分子結構[M].北京:清華大學出版社,1999.

[2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.

[3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.

[4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.

[5] 許忠能.生物信息學[M].北京:清華大學出版社,2008.

[6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.

主站蜘蛛池模板: 69视频国产| 毛片手机在线看| 五月天久久综合国产一区二区| 经典三级久久| 免费可以看的无遮挡av无码| 精品国产一区91在线| 国产色网站| 亚洲va视频| 精品福利国产| 欧美一级在线| 怡春院欧美一区二区三区免费| 亚洲最黄视频| 国产成人精品视频一区二区电影| 青青网在线国产| 尤物视频一区| 日韩视频免费| 精品第一国产综合精品Aⅴ| 久久天天躁狠狠躁夜夜2020一| 免费全部高H视频无码无遮掩| 91 九色视频丝袜| 无码免费视频| 国产香蕉在线视频| 欧美啪啪精品| 久久大香伊蕉在人线观看热2| 国产久操视频| 国产欧美在线| 亚洲首页在线观看| 97亚洲色综久久精品| 欧美一级高清片欧美国产欧美| 九色视频线上播放| 成人无码一区二区三区视频在线观看| 91精选国产大片| 国产成人a毛片在线| 久久一色本道亚洲| 在线亚洲精品自拍| 国产91透明丝袜美腿在线| 漂亮人妻被中出中文字幕久久| 久久国产高清视频| 色偷偷av男人的天堂不卡| 女同国产精品一区二区| 欧美日韩一区二区三区四区在线观看| 国产超薄肉色丝袜网站| 99在线小视频| 伊人色在线视频| 欧美怡红院视频一区二区三区| 欧美一级夜夜爽| 国产青榴视频| 在线视频精品一区| 狼友av永久网站免费观看| 欧美中日韩在线| 亚洲精品色AV无码看| 日本精品中文字幕在线不卡 | 99久久精品免费看国产免费软件| 亚洲综合经典在线一区二区| 天堂岛国av无码免费无禁网站| 就去色综合| 日韩一区精品视频一区二区| 国产欧美高清| 国内a级毛片| 国产一区二区色淫影院| 欧美国产成人在线| 中国成人在线视频| 日韩国产 在线| 日韩av在线直播| 国模私拍一区二区三区| 亚洲精品成人福利在线电影| 色综合色国产热无码一| 国产成人a毛片在线| 伊人精品成人久久综合| 欧美 亚洲 日韩 国产| 毛片久久网站小视频| 欧美日本中文| 五月婷婷综合网| 一级片一区| 久久精品人妻中文系列| 无码精油按摩潮喷在线播放| 国产18在线播放| 在线人成精品免费视频| 无码精油按摩潮喷在线播放 | 91久久偷偷做嫩草影院| 男人天堂亚洲天堂| 国产精品成人免费视频99|