999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主成分分析優(yōu)化參數(shù)預(yù)測(cè)水解酶的亞類(lèi)

2018-05-07 06:52:04王瑩程薇薇

王瑩 程薇薇

摘 要:本文基于前人建立的數(shù)據(jù)庫(kù),以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,用主成分分析對(duì)序列向量進(jìn)行分析,選取20個(gè)主要成分。將每條序列由20維向量來(lái)表示。用SVM算法對(duì)水解酶的亞類(lèi)分別進(jìn)行分類(lèi)預(yù)測(cè),在Jack-knife檢驗(yàn)下的預(yù)測(cè)總精度為96.9%。

關(guān)鍵詞:SVM算法 主成分分析 水解酶 模體

中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2018)01(a)-0143-02

酶是一種生物催化劑,存活在細(xì)胞中,影響著細(xì)胞生長(zhǎng)、代謝等生命過(guò)程的化學(xué)反應(yīng)[1]近些年,許多研究者通過(guò)利用生物信息學(xué)建立了相應(yīng)的酶序列的數(shù)據(jù)庫(kù),并通過(guò)分類(lèi)預(yù)測(cè)算法及酶序列的相關(guān)特征建立數(shù)學(xué)模型對(duì)酶的家族類(lèi)及其亞類(lèi)的研究上取得了較好的預(yù)測(cè)結(jié)果。隨著酶序列的相關(guān)特征的增多,用來(lái)表示序列的向量維數(shù)也相應(yīng)的增加,急需對(duì)其進(jìn)行優(yōu)化,降低向量的維數(shù),以提高預(yù)測(cè)的總精度。因此,本文將用主成分分析的方法來(lái)降低序列特征的維數(shù),得到較好的預(yù)測(cè)精度。

1 數(shù)據(jù)庫(kù)和方法

1.1 數(shù)據(jù)庫(kù)

本文選取2011年由我們小組構(gòu)建和整理新數(shù)據(jù)庫(kù),其中水解酶5個(gè)亞類(lèi)共4498條序列。

1.2 特征參數(shù)

1.2.1 氨基酸組分

蛋白質(zhì)序列都是由20種基本的氨基酸組成的。并反映了序列的全局信息。前人的研究表明,不同類(lèi)的酶序列的氨基酸有一定的差異。因此,本文選用氨基酸組分的信息(A)作為參數(shù),來(lái)表示酶的序列信息。我們可以將一條酶序列替換為一個(gè)20維的向量。

1.2.2 氨基酸緊鄰組分

本文用氨基酸緊鄰組分將每條酶序列用400維向量來(lái)表示,以反映序列的結(jié)構(gòu)信息。將一條酶序列替換為一個(gè)400維的向量,同上一個(gè)參數(shù)。

1.2.3 預(yù)測(cè)的二級(jí)結(jié)構(gòu)

對(duì)于蛋白質(zhì)分子來(lái)說(shuō),它不僅只具有一級(jí)結(jié)構(gòu),還有二級(jí)結(jié)構(gòu)等。而二級(jí)結(jié)構(gòu)反映其空間結(jié)構(gòu)信息。因此,本文選取預(yù)測(cè)的二級(jí)結(jié)構(gòu)信息(P)作為特征參數(shù)。

本文所使用的二級(jí)結(jié)構(gòu)信息是PSIpred(Position Specific Iterated pred)軟件[2]。對(duì)于一條酶序列,我們用一個(gè)3維的向量來(lái)表示3種二級(jí)結(jié)構(gòu)在該序列中出現(xiàn)的頻數(shù)。

1.2.4 低頻功率譜密度值(F)

功率譜密度可以反映蛋白質(zhì)序列的次序信息,本文將用其作為參數(shù)取得了較好的預(yù)測(cè)效果[3],功率譜密度值的提取方法如下[4]。

(1)將酶序列轉(zhuǎn)為成數(shù)字序列。

由于酶具有強(qiáng)疏水性,因此我們使用疏水值作為參數(shù)[6],使得每條酶序列變成數(shù)字序列。

(2)離散傅里葉變換。

酶序列數(shù)字化后,對(duì)它進(jìn)行離散傅里葉變換,具體公式如下:

1≤k≤L

(3)提取功率譜密度值:,其中T為周期。

(4)功率譜密度值的處理。

因?yàn)槊織l酶序列長(zhǎng)短不同,比較和分析其特性有一定的限制,需將長(zhǎng)度不同的酶序列變?yōu)橄嗤L(zhǎng)度。因此,根據(jù)信號(hào)的組成特點(diǎn),本文將每條酶序列都轉(zhuǎn)換成15維的向量。

1.2.5 MEME模體和功能模體

模體是刻畫(huà)蛋白質(zhì)結(jié)構(gòu)和執(zhí)行功能的重要部分。因此,通過(guò)對(duì)模體的研究,我們就能得到該序列的功能信息及結(jié)構(gòu)特征。本文選用已被廣泛用于DNA及蛋白質(zhì)序列中模體搜索的MEME在線搜索器作為搜索工具[3]來(lái)搜索水解酶中的模體。本文限定6~15個(gè)氨基酸殘基作為模體的長(zhǎng)度,并且每類(lèi)亞類(lèi)搜索5個(gè)模體類(lèi)數(shù),統(tǒng)計(jì)每條酶序列。

我們還選取PROSITE搜索得到功能模體[5]。本文將PS_scan模體搜索工具[6]用Perl語(yǔ)言編譯實(shí)現(xiàn)。用來(lái)搜索水解酶的亞類(lèi)的蛋白質(zhì)序列中出現(xiàn)的模體。對(duì)于每一條酶序列來(lái)說(shuō),記錄模體在序列中出現(xiàn)的頻數(shù)。把PROSITE搜索得到的5種模體,再加上由MEME軟件搜索得到的統(tǒng)計(jì)模體,水解酶共得到30個(gè)模體頻數(shù)值。

1.3 主成分分析

主成分分析[5](principal component analysis)是由Pearson在1901年提出,直到1933年得到發(fā)展。主成分分析是一種通過(guò)降維的方法把多個(gè)變量化成幾個(gè)主成分的統(tǒng)計(jì)分析方法。這些主成分可以有效地反映原始向量的絕大部分信息。

本文以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,將468維向量利用主成分分析的方法優(yōu)選出貢獻(xiàn)率較高的20維向量特征。因此,通過(guò)該方法每一條酶序列將由20維向量來(lái)表示。

1.4 支持向量機(jī)算法

支持向量機(jī)[4](SVM)是一種新型分類(lèi)預(yù)測(cè)方法。SVM的基本思想是將把輸入數(shù)據(jù)通過(guò)非線性映射映射到一個(gè)高維的空間,然后在找到最優(yōu)超平面,最終超平面與樣本之間的距離最大。其中最優(yōu)超平面的判別函數(shù)為:,這里是內(nèi)積核函數(shù)。本文選取徑向基核函數(shù)進(jìn)行計(jì)算。

2 結(jié)語(yǔ)

本文基于前人建立的數(shù)據(jù)庫(kù),以氨基酸組分、氨基酸緊鄰組分、預(yù)測(cè)的二級(jí)結(jié)構(gòu)、低頻功率譜密度值和MEME模體及功能模體頻數(shù)組成向量來(lái)表示序列信息,水解酶共得到468維向量,并用主成分分析的方法將468維向量降為20維向量,將得到的向量輸入到支持向量算法進(jìn)行分類(lèi)預(yù)測(cè),在Jack-knife檢驗(yàn)下進(jìn)行預(yù)測(cè),總精度依次為96.9%。其中各亞類(lèi)的精度分別為98.6%、97.1%、93.7%、95.0%、97.5%。

參考文獻(xiàn)

[1] 閻隆飛,孫之榮.蛋白質(zhì)分子結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.

[2] Chou K.C.,CAI Y.D.Using GO-PseAA predictor to predict enzyme sub-class[J]. Biochemical andBiophysical Research Communications,2004,325(2):506-507.

[3] Bailey T.L.,Mikael B.,Buske F.A.,et al.MEME Suite:tools for motif discovery and searching[J].Nucleic Acids Research,2006(37):202-208.

[4] Ruijia Shi,Xiuzhen.Predicting enzyme subclasses by using support vector machine with Composite vectors[A].IEEE/ACIS Intermational Conference on computer[C].2011:599-604.

[5] 許忠能.生物信息學(xué)[M].北京:清華大學(xué)出版社,2008.

[6] Castro, D.E.,Sigrist,C.J.,Gattiker,A.,et al. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in proteins[J].Nucleic Acids Research,2009(37):202-208.

主站蜘蛛池模板: 国产精品视频第一专区| 特级aaaaaaaaa毛片免费视频| 99视频免费观看| 99久久国产综合精品2023| www.亚洲天堂| 99精品福利视频| 四虎国产精品永久在线网址| 91成人在线观看| 欧美无专区| 国产爽爽视频| 午夜精品久久久久久久无码软件| 在线另类稀缺国产呦| 一级爱做片免费观看久久| 亚洲黄网视频| 国产人人射| 欧美三级自拍| 波多野结衣一级毛片| 国产区免费精品视频| аv天堂最新中文在线| 四虎永久在线| 欧美在线国产| 成人av专区精品无码国产| 国产精品理论片| 九九热精品视频在线| 色视频国产| 久久久91人妻无码精品蜜桃HD| 五月天福利视频| 亚洲视频三级| 无码啪啪精品天堂浪潮av| 国产福利微拍精品一区二区| 日日碰狠狠添天天爽| 亚洲天堂视频在线免费观看| 在线不卡免费视频| 国外欧美一区另类中文字幕| 青青草91视频| 国产91小视频在线观看| aⅴ免费在线观看| 婷婷色中文| 国产黑丝一区| 久久久久无码精品| 一区二区影院| 日本精品视频| 99热这里只有精品国产99| 国产一级片网址| 欧美一级一级做性视频| 欧美在线综合视频| 国产精品粉嫩| 国产成人午夜福利免费无码r| 日韩成人午夜| 国产在线一区二区视频| 国产在线观看成人91| 欧美亚洲日韩不卡在线在线观看| 99久久精品免费看国产免费软件| 高清码无在线看| 亚洲无码电影| 26uuu国产精品视频| 影音先锋丝袜制服| 久久黄色视频影| 一级黄色网站在线免费看| 国产亚洲欧美日韩在线一区二区三区 | 无遮挡国产高潮视频免费观看| 爱做久久久久久| 456亚洲人成高清在线| 国产黄网站在线观看| 在线精品亚洲国产| 亚洲美女高潮久久久久久久| 91po国产在线精品免费观看| 国产99在线| 中国一级特黄视频| 亚洲AV人人澡人人双人| a级高清毛片| 三上悠亚一区二区| 亚洲综合精品香蕉久久网| 狠狠色丁香婷婷综合| 欧美中文字幕在线播放| 多人乱p欧美在线观看| 亚洲精品午夜无码电影网| 亚洲精品中文字幕午夜| 亚洲床戏一区| 无码国产伊人| 91在线激情在线观看| 免费观看成人久久网免费观看|