999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)

2015-07-09 20:29:44李強(qiáng)等
現(xiàn)代電子技術(shù) 2015年8期

李強(qiáng)等

摘 要: X射線晶體結(jié)構(gòu)分析是測(cè)定蛋白質(zhì)結(jié)構(gòu)的重要方法之一,國(guó)際蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)中已知晶體結(jié)構(gòu)的蛋白質(zhì)80%~90%均是使用該方法得到的。然而,并不是所有的蛋白質(zhì)都能良好結(jié)晶,使用晶體結(jié)構(gòu)分析方法對(duì)不能結(jié)晶的蛋白質(zhì)進(jìn)行結(jié)構(gòu)測(cè)定將浪費(fèi)大量的資源。因此,研發(fā)準(zhǔn)確高效的算法來(lái)對(duì)蛋白質(zhì)能否結(jié)晶進(jìn)行預(yù)測(cè)就具有重要意義。在此提出了一種組合蛋白質(zhì)物理化學(xué)特性、序列信息與進(jìn)化信息的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。該方法從不同視角抽取分別抽取蛋白質(zhì)的物理化學(xué)特征、偽氨基酸組成特征(PseAAC)和偽位置特異性得分矩陣特征(PsePSSM),使用隨機(jī)森林對(duì)組合的特征進(jìn)行蛋白質(zhì)結(jié)晶預(yù)測(cè)。在標(biāo)準(zhǔn)數(shù)據(jù)集上的獨(dú)立測(cè)試驗(yàn)證的結(jié)果表明,這里所述的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法具有良好的性能。

關(guān)鍵詞: 蛋白質(zhì)結(jié)晶; 偽氨基酸組成; 位置特異性得分矩陣; 隨機(jī)森林

中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)08?0050?04

Protein crystallization prediction based on fusion of multi?view features

and random forest

LI Qiang1, ZHENG Yu?jie2

(1. School of Computer Science and Engineering, NUST, Nanjing 210094, China;

2. The 28th Research Institute, China Electronics Technology Group Corporation, Nanjing 210007, China)

Abstract: The X?ray crystallography analysis is one of the important methods to measure protein structure, by which 80%~90% protein of the known crystalloid structures in the international protein data bank (PDB) has been obtained. However, not all the proteins used for determining structures are crystallizable, which will lead to a low success rate of crystallization projects and a serious waste of resources to measure those non?crystallizable protein. Hence, it is important to develop an accurate and effective method for predicting whether a protein will crystallize. In this study, a new protein crystallization prediction method to combine the protein physicochemical characteristic, serial information and evolutionary information is proposed, which extracts the protein physicochemical properties, pseudo amino acids composition (PseAAC) and pseudo position specific scoring matrix (PsePSSM) at different visual angle respectively. The random forest is taken as classifier predict protein crystallization of the combined Properties. Experimental results on benchmark dataset over cross?validation test and independent validation test show that the proposed method has perfect performance.

Keywords: protein crystallization; pseudo amino acids composition; position specific scoring matrix; random forest

蛋白質(zhì)的功能特性與它的三維結(jié)構(gòu)密切相關(guān)。準(zhǔn)確獲取蛋白質(zhì)的三維結(jié)構(gòu)信息對(duì)于理解蛋白質(zhì)的功能以及蛋白質(zhì)與其他生物小分子的相互作用至關(guān)重要。X射線晶體結(jié)構(gòu)分析、核磁共振光譜法(NMR)以及電子顯微鏡是測(cè)定蛋白質(zhì)三維結(jié)構(gòu)的常用方法。然而,并不是所有的蛋白質(zhì)都能良好結(jié)晶,使用X射線晶體結(jié)構(gòu)分析方法對(duì)不能結(jié)晶的蛋白質(zhì)進(jìn)行結(jié)構(gòu)測(cè)定將浪費(fèi)大量的資源。因此,研發(fā)準(zhǔn)確高效的算法來(lái)對(duì)蛋白質(zhì)能否結(jié)晶進(jìn)行預(yù)測(cè)就具有重要意義。

目前,研究人員已經(jīng)研發(fā)出很多預(yù)測(cè)蛋白質(zhì)結(jié)晶的有效方法,如:OB?score,CRYSTALP,XtalPred,ParCrys,MetaPPCP,CRYSTALP2,MCSG?Z score,PCCpred,以及RFCRYS等。分析這些方法可以發(fā)現(xiàn):

(1) 氨基酸組成成分(Amino Acids Composition, AAC)以及偽氨基酸組成成分(Pseudo Amino Acids Composition,PseAAC)是常用的特征表示方法;此外,氨基酸的物理化學(xué)屬性以及通過(guò)預(yù)測(cè)方法獲得的蛋白質(zhì)結(jié)構(gòu)屬性也往往被用于蛋白質(zhì)的特征表示;

(2) 蛋白質(zhì)的進(jìn)化信息是一種有效的特征表示方法,并且已經(jīng)被廣泛地應(yīng)用于很多蛋白質(zhì)屬性預(yù)測(cè),但是,蛋白質(zhì)結(jié)晶預(yù)測(cè)方法中沒(méi)有一個(gè)使用蛋白質(zhì)的進(jìn)化信息來(lái)進(jìn)行特征表示;

(3) 雖然現(xiàn)有方法在蛋白質(zhì)結(jié)晶預(yù)測(cè)問(wèn)題上取得了重要進(jìn)展,但是預(yù)測(cè)性能還有進(jìn)一步提高的空間。

基于上述分析,本文首先考察蛋白質(zhì)進(jìn)化信息能否用于蛋白質(zhì)結(jié)晶預(yù)測(cè)問(wèn)題的特征表示。然后,將蛋白質(zhì)物理化學(xué)信息、序列信息及進(jìn)化信息進(jìn)行組合用于蛋白質(zhì)結(jié)晶預(yù)測(cè),以進(jìn)一步提高預(yù)測(cè)性能。在標(biāo)準(zhǔn)數(shù)據(jù)集上的交叉驗(yàn)證及獨(dú)立測(cè)試驗(yàn)證的結(jié)果表明,本文所述的方法具有良好的性能,是對(duì)現(xiàn)有蛋白質(zhì)結(jié)晶預(yù)測(cè)方法的有益補(bǔ)充。

1 數(shù)據(jù)來(lái)源

數(shù)據(jù)集S表示為:

[S=S+?S-] (1)

式中:S+表示正樣本集,其中包含的是能結(jié)晶的蛋白質(zhì)序列; S-表示負(fù)樣本集,其中包含的是不能結(jié)晶的蛋白質(zhì)序列;符號(hào)[?]表示集合理論中的并集。本文中使用Kurgan等構(gòu)建的數(shù)據(jù)集[1],該數(shù)據(jù)集包含一個(gè)訓(xùn)練子集(Train1500)和一個(gè)獨(dú)立測(cè)試子集(Test500)。Train1500中包含756個(gè)正樣本和744個(gè)負(fù)樣本,Test500中包含244個(gè)正樣本和256個(gè)負(fù)樣本。為了進(jìn)一步驗(yàn)證本文所述方法的泛化能力,還使用了Overton等人構(gòu)建的另外一個(gè)獨(dú)立測(cè)試集Test144,其中包含72個(gè)正樣本和72個(gè)負(fù)樣本[2]。在數(shù)據(jù)集的構(gòu)建過(guò)程,已經(jīng)考慮了蛋白質(zhì)之間的同源冗余性消除,蛋白質(zhì)序列之間的同源性[1]小于25%。

2 多視角特征提取

2.1 物理化學(xué)特征

蛋白質(zhì)的一些物理化學(xué)性質(zhì)對(duì)蛋白質(zhì)能否結(jié)晶有著重要影響。因此,本文依據(jù)氨基酸屬性集AAIndex1,篩選出7個(gè)物理化學(xué)性質(zhì):疏水性指數(shù)、平均極性、正電荷、負(fù)電荷、凈電荷、等電位和分子質(zhì)量。每條蛋白質(zhì)的上述7個(gè)物理化學(xué)性質(zhì)構(gòu)成一個(gè)維數(shù)為7的特征向量。

2.2 偽氨基酸組成成分特征提取

PseAAC是由Chou在經(jīng)典的AAC特征基礎(chǔ)上提出來(lái)的,分為I型和Ⅱ型。一個(gè)蛋白質(zhì)的Ⅱ型PseAAC特征向量可表示為[20+iλ](其中[i]表示生成PseAAC時(shí)使用的氨基酸屬性的數(shù)量,[λ]表示序列相關(guān)因子)。PseAAC生成方法如下:

4 實(shí)驗(yàn)結(jié)果和討論

4.1 獨(dú)立測(cè)試驗(yàn)證結(jié)果

表1和表2分別列出了本文方法與其他蛋白質(zhì)結(jié)晶預(yù)測(cè)方法在獨(dú)立測(cè)試集Test144及Test500上的性能對(duì)比[3]。圖1給出了本文方法在獨(dú)立測(cè)試集Test144和Test500上的ROC曲線。

從表1可以看出,在Test144獨(dú)立測(cè)試上,本文所述方法的亦獲得了較好的性能,Acc以及MCC分別為81.94%和0.64,取得了和RFCRYS相當(dāng)?shù)念A(yù)測(cè)性能。另一方面,雖然OB?score的Sen達(dá)到了88.00%,但是其Spe僅僅為47.00%,表明OB?score方法的預(yù)測(cè)結(jié)果中存在大量的假陽(yáng)性(FP)。

表2 在Test500獨(dú)立測(cè)試集上的性能對(duì)比

從表2的結(jié)果來(lái)看,本文所述方法在獨(dú)立測(cè)試集Test500上再次取得了最好的性能。Spe、Acc以及MCC分別為83.98%,83.80%和0.68,比RFCRYS分別高出了約9%,2%以及7%。結(jié)合表1及表2的結(jié)果,可以看出本文所述的方法較之于已有的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法有著更為良好的泛化能力。這得益于使用了多種有效的蛋白質(zhì)特征以及強(qiáng)有力的隨機(jī)森林分類算法。

5 結(jié) 語(yǔ)

本文提出一種組合蛋白質(zhì)物理化學(xué)特征、偽氨基酸組成特征以及偽位置特異性得分矩陣特征的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。該方法同時(shí)利用了蛋白質(zhì)的序列及進(jìn)化信息,因此所抽取的特征更具有鑒別能力。在標(biāo)準(zhǔn)數(shù)據(jù)集上獨(dú)立測(cè)試驗(yàn)證結(jié)果表明,本文所述的方法具有良好的性能,是對(duì)已有蛋白質(zhì)結(jié)晶預(yù)測(cè)方法的有益補(bǔ)充。

參考文獻(xiàn)

[1] KURGAN L, RAZIB A A, AGHAKHANI S, et al. CRYSTALP2: sequence?based protein crystallization propensity prediction [J]. BMC Structural Biology, 2009, 9: 50?63.

[2] OVERTON I M, PADOVANI G, GIROLAMI M A, et al. ParCrys: a Parzen window density estimation approach to protein crystallization propensity prediction [J]. Bioinformatics, 2008, 24(7): 901?907.

[3] JAHANDIDEH S, MAHDAVI A. RFCRYS: Sequence?based protein crystallization propensity prediction by means of random forest [J]. Journal of Theoretical Biology, 2012, 306: 115?119.

[4] YU D J, HU J, WU X W, et al. Learning protein multi?view features in complex space [J]. Amino Acids, 2013, 44(5): 1365?1379.

[5] 王建,王彩蕓.基于改進(jìn)牛頓算法的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)[J].現(xiàn)代電子技術(shù),2009,32(14):135?137.

[6] 李秀娟,田川,馮欣.數(shù)據(jù)挖掘分類技術(shù)研究與分析[J].現(xiàn)代電子技術(shù),2010,33(20):86?88.

主站蜘蛛池模板: 欧美日韩国产高清一区二区三区| 国产精品视频免费网站| 欧美国产在线看| 国产美女在线观看| 欧美精品v| 国产精品尤物在线| 精品一区二区久久久久网站| 亚洲人成网线在线播放va| 国产无码网站在线观看| 国产乱人免费视频| 久久婷婷色综合老司机| 尤物国产在线| 国产精品成人第一区| 久草视频中文| 久久久久亚洲AV成人网站软件| 欧美在线一级片| 日韩免费毛片视频| 欧美一级色视频| 人妻21p大胆| 97av视频在线观看| 国产一二三区在线| 久久青草免费91线频观看不卡| 日韩天堂在线观看| 99在线视频免费| 成人综合网址| 蜜臀AV在线播放| 国产真实乱了在线播放| 嫩草国产在线| 中国一级毛片免费观看| 亚洲一区二区精品无码久久久| 亚洲高清中文字幕| 色婷婷天天综合在线| 久久久久亚洲精品成人网| 日韩色图区| 四虎AV麻豆| 亚洲日本在线免费观看| 国产精品亚洲综合久久小说| 亚洲国内精品自在自线官| 日韩欧美视频第一区在线观看| 国产乱肥老妇精品视频| 欧美不卡视频在线| 性视频一区| 97视频免费看| 国产精品成人AⅤ在线一二三四| 久久99精品久久久久纯品| 色综合天天综合| 亚洲永久精品ww47国产| 国产69精品久久久久孕妇大杂乱| 国产精品lululu在线观看| 一级爆乳无码av| 中文字幕免费播放| 国产a网站| 99国产精品国产高清一区二区| 蜜桃视频一区| 91精品视频在线播放| 欧美乱妇高清无乱码免费| 亚洲毛片一级带毛片基地| 天堂成人在线视频| 国产欧美在线观看一区| 亚洲V日韩V无码一区二区| 欧美视频在线第一页| 狠狠亚洲五月天| 亚洲天堂视频网站| 国产裸舞福利在线视频合集| jizz亚洲高清在线观看| 国产在线观看91精品亚瑟| 国产精品太粉嫩高中在线观看| 思思热精品在线8| 亚洲日韩精品综合在线一区二区 | 精品撒尿视频一区二区三区| 91丝袜乱伦| 99热国产这里只有精品9九| a网站在线观看| 毛片卡一卡二| 久久国产乱子伦视频无卡顿| 无遮挡国产高潮视频免费观看| 精品视频一区在线观看| 久久久久88色偷偷| 国产日本欧美亚洲精品视| 免费毛片在线| 日韩中文无码av超清| 亚洲成人动漫在线|