999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊支持向量機的膜蛋白折疊類型預測

2007-01-01 00:00:00鄒凌云王正志黃教民
生命科學研究 2007年4期

摘 要:現有的基于支持向量機(support vector machinc,SVM)來預測膜蛋白折疊類型的方法,利用的蛋白質序列特征并不充分,并且在處理多類蛋白質分類問題時存在不可分區域,針對這兩類問題,提取蛋白質序列的氨基酸和二肽組成特征,并計算加權的多階氨基酸殘基指數相關系數特征,將3類特征融和作為分類器的輸入特征矢量,并采用模糊SvM(fuzzy SvM,FSVM)算法解決對傳統SVM不可分數據的分類,在無冗余的數據集上測試結果顯示,改進的特征提取方法在相同分類算法下預測性能優于已有的特征提取方法;FSvM在相同特征提取方法下性能優于傳統的SVM,二者相結合的分類策略在獨立性數據集測試下的預測精度達到96.6%,優于現有的多種預測方法,能夠作為預測膜蛋白和其它蛋白質折疊類型的有效工具。

關鍵詞:模糊支持向量機;跨膜蛋白;折疊類型;氨基酸殘基指數

中圖分類號:Q617 文獻標識碼:A 文章編號:1007-7847(2007)104-0306-05

膜蛋白是生物膜功能的主要體現者,根據跨膜區片段的折疊類型的不同,整合膜蛋白可以分為兩種主要的折疊類型:α螺旋跨膜蛋白(transmembrane α-heucal protcins,TMHs)和β-筒型跨膜蛋白(transmembrane β-barrel proteins,TMBs),TMHs幾乎存在于所有類型的細胞膜中,其跨膜區為具有強疏水特性的殘基構成的螺旋段,TMHs擔負著多種多樣的功能,包括把營養物質和一些無機電解質輸入細胞,而將有毒的或無用的代謝產物排出細胞,以及參與細胞膜內外信號的傳遞等作用,TMBs發現于革蘭氏陰性細菌、線粒體和葉綠體的外膜,由8~22條β折疊鏈通過反平行排列構成類似于桶狀的跨膜結構,TMBs同樣具有重要的生物功能,如非特異性調控、組成運輸離子和小分子的通道、控制分子(如麥芽糖、蔗糖分子)通過外膜、參與構成電位調控型陰離子通道等等,這兩類跨膜蛋白具有不同的結構模體,但是同樣都處于脂質環境,這使得它們結構特征不同于那些具有全0螺旋或者全β結構的球狀蛋白(Globular Proteins,GPs)。

近年來,一些基于生物信息學手段預測膜蛋白折疊類型方法被提出來,這些方法多數利用了蛋白質的一級序列特征(如氨基酸組成)以及物理化學性質,比如跨膜區的疏水性和兩極性,基于對已知結構的蛋白質序列的氨基酸組成的統計分析,或者機器學習方法如神經網絡(neuralnetwork,NN)、隱馬爾可夫模型(hiddenMarkov models,HMM),k最近鄰(k-nearestneighbors,K-NN)以及支持向量機(supportvector machines,SVM)等,這些方法的缺點是所利用的蛋白質序列特征都比較簡單,缺少對各種特征的綜合利用,另外,基于SVM的預測方法雖然在測試中顯示出了超過其它機器學習方法的預測性能,但都是用于解決一個兩類問題(如識別TMHs和非7MHs),在解決多類問題時(如同時識別TMHs、TMBs和GPs的問題),容易出現分類盲區,也就是說,當一些輸入樣本不能被確切的定義為屬于某一類時,傳統的SVM對此缺乏很好的解決手段,為了解決這個問題,一些研究者先后提出了不同形式的模糊支持向量機(fuzzy supportvector machine,FSVM),從而較好的解決了傳統SVM的這個局限。

本文針對在其它蛋白質折疊類型中識別TMHs和TMBs的多類分類問題,提出了一種蛋白質序列的組合特征計算方法,通過計算蛋白質序列的多類特征,采取合適的加權手段將這些特征組合,并采用FSVM作為分類器,解決了傳統SVM的分類盲區問題,有效提高了預測性能。

1 數據與方法

1.1 數據集

我們采用了由Gromiha和Suwa收集的一個包含1318條蛋白質數據的數據集,包括7MBs(377條)、TMHs(267條)和GPs(674條)3大類蛋白質數據,其中兩類膜蛋白數據從PSORT-B數據庫中篩選而來;GPs數據從PDB40D_1.37數據庫中篩選而來,其折疊類型包括155條全α、156條全β、184條α+β和179條α/β,Park等人采用CD-HIT程序(httP://bioinform aries.org/cd-hit/)對數據集中序列相似度進行了分析,去除了序列相似度大于40%的冗余序列,最后得到的數據集組成如下:TMBs (208條),TMHs(206條),GPs(673條,其中155條全α、156條全β、183條α+β和179條α/β),為便于描述,我們稱之為MCPl087數據集,該非冗余數據集可以從下列網址下載:http://www.cbrc.ip/~gromiha/omp/dataset2.html。

1.2 序列特征提取

這里,我們提出了一種由3類特征組合的蛋白質序列描述方法,這3類特征是:氨基酸組成、二肽組成以及加權的氨基酸指數相關系數特征。20種氨基酸的組成特征通過下列公式計算:

其中f(i)表示第i種氨基酸殘基的含量,N1表示序列中第i種氨基酸的數量,N表述序列的氨基酸殘基總數,這樣得到一個20維的特征矢量,二肽組成通過下列公式計算:

這里,Nij表示序列中氨基酸對(二肽)ij的數量,總共得到400種二肽含量特征,即一個400維的特征矢量。

為了計算加權指數相關系數,首先將蛋白質序列映射為數值序列,假設一條蛋白質序列由N個氨基酸殘基構成,則可表示為:R1,R2…,Ri,…,RN,其中,Rj表示第i個位置的氨基酸殘基,利用氨基酸的某一種物理化學指數(如疏水值、極性等)將蛋白質序列映射為數值序列:h1,h2,…,hi,…,hL,其中,hi對應于Ri的指數值。

其中,ψ為相關系數特征的階數,ψ<N,如ψ=1時為第一階序列順序相關系數,反映了序列中所有連續的氨基酸殘基之間的某一種指數的相關性,其它階次依此類推,ω為權重因子,用于調節指數特征對分類系統的影響程度,ω值的選取可根據預測效果進行調整,考慮到跨膜區疏水性、極性以及不溶于水等是跨膜蛋白的重要特征,我們從氨基酸指數數據庫(AAlndex,http://www.genome.ad.jp/dbget/aaindex.html)中選擇了改進的Kyte-Doolittle疏水值(Modified Kyte-Doolittlehydrophobicity scale,KD)、 平均極性(Meanpolarity,MP)和溶劑化自由能(Solvation freeenergy,SFE)等3種指數進行計算。

結合3種特征以后,一條蛋白質序列可以表示為下列特征向量:

這是一個(420+3*ψ)維的向量,在本文測試中,取P=60,oJ=10,對于序列長度不到60個氨基酸殘基的蛋白質序列,將序列長度自動補齊為60個殘基,且補齊的殘基編碼值取0,這樣,由一條蛋白質序列得到一個600維的特征向量作為FSVM分類器輸入。

1.3 FSVM算法

SVM是統計學習理論中的核心內容,它基于VC維理論和結構風險最小化原理,在很大程度上克服了傳統機器學習中的維數災難以及局部極小等問題,傳統的SVM是針對兩類分類問題而設計的,設輸入的樣本數據為n,則訓練樣本為:Sn=((x1,y1),(x2,x2),…,(xn,yn)),y∈{-1,+1}。(5)當用傳統SVM來解決多類問題的時候,通常將多類問題轉化成“一對多”(one-vs-rest)、“一對一”(one-vs-one)或者有向無環圖(DAG)的形式,因此本質上我們仍可以把SVM對多類問題的處理看作是對兩類問題處理的推廣,但是實際應用中,有些訓練樣本并不能明確屬于集合中的哪一類,而是表現出一定的模糊性,用傳統的SVM算法對此類問題進行處理無法考慮這些模糊訓練點的影響,實際分類過程中,在包含模糊訓練點的情況下,每個訓練點在算法中所占的權重不相同,對于那些極模糊的點,應當使其訓練算法中所占的權重盡量小,從而能夠保證算法的有效陸,這里,我們采用“一對一”的策略,將k類問題轉化為k(k-1)/2個兩類問題,對于每個模糊訓練點,引入模糊隸屬度。,假設一個模糊點屬于集合y=1的程度是。(0≤s≤1),那么它屬于集合y=-1的程度就是1-s;而對于確定的點,其s為1或0,模糊點對應

2 性能評價標準

采用了兩類檢驗方法:一個是訓練集上的留一法測試(jackknin)測試,即訓練集數據每次留出一個來測試,其它數據用來訓練,對具有N個數據的數據集依次進行N次測試;另一個是獨立性數據集測試(Independent dataset),即采用訓練集數據進行訓練,采用測試集數據進行測試,兩個數據集無交集。

性能評價指標包括:類精度(Accuracy ofCategory i,Acc(i)),馬氏相關系數(Matthew’s

3 結果和討論

我們進行了下列測試:1)采用本文的組合特征條件下不同分類器的性能測試,將本文的模糊SVM分類器(FSVM)和傳統SVM的“一對一”、“一對多”方法在數據集上進行jackkinfe測試,結果如表1所示;2)相同分類算法下不同的特征提取法的預測性能測試,使用本文的FSVM分類算法,比較了采用氨基酸組成、二肽組成以及組合特征等3種特征提取方法在數據集上的iackkinfe測試的性能,結果如表2所示;3)比較了本文分類策略和其它3種基于機器學習的分類策略在獨立性數據集測試下的預測性能,將數據集分為訓練集和測試集,其中訓練集數據為:TMBs(158條),TMHs(156條),GPs(440條,其中100條全α、100條全β、120條α+β和120條α/β);測試集數據為:TMBs(58條),TMHs(56條),GPs(233條,其中55條全α、56條全β、63條α+β和59條α/β),測試結果如表3所示。

表1結果顯示,在采用相同的特征提取方法的情況下,FSVM分類器在數據集上對各種蛋白質折疊類型的預測精度、馬氏相關系數均高于傳統SVM,基于“一對多”和“一對一”策略來解決多類問題的傳統SVM總體預測精度分別為91.9%和93.4%,而FSVM達到了94.8%,較前二者分別提高了2.9%和1.4%,這表明,FSVM提高了對模糊數據的識別能力,能夠得到更準確的分類結果。

表2結果顯示,采用相同的分類算法,基于本文的組合特征的分類方法,其類精度、馬氏相關系數和總精度均好于只利用氨基酸組成成分特征的分類方法,也優于使用氨基酸和二肽組成特征相結合的分類方法,這是因為前者不但考慮了氨基酸殘基在序列中的順序信息,還考慮了氨基酸的物理化學性質的影響,利用了更多的序列信息,另一方面也說明所采取的各個特征加權融合的方式是有效的。

表3結果顯示,本文的分類策略具有非常好的整體預測性能,預測精度顯著高于早期提出的基于HMM的預測方法,由于使用了組合特征,本文方法預測精度也高于僅僅利用簡單的氨基酸組成特征的NN和K-NN方法,另外,通過采用能有效解決分類盲區問題的FSVM分類算法,使得獨立性數據集上總預測精度達到了96.6%,比Park et al,提出的基于傳統SVM算法的預測方法的預測精度提高了2.4%。

4 結論

在目前已有的膜蛋白折疊類型預測方法中,還沒有使用FSVM作為分類算法的方法,本文在傳統SVM分類器中引入模糊因子,較好地解決了傳統SVM在處理多類問題時存在不可分區域的問題,同時,提取蛋白質序列的多類特征進行加權組合,比已有的預測方法所利用的特征包含的信息更多,采取這種基于特征融合和算法融合的方法,在包含多種折疊類型的蛋白質數據集上獲得了很好的預測性能,優于現有的多種預測方法,但是本文方法仍然存在可改進的地方:一是FSVM中的權重計算公式是根據經驗設計的,并非理論上的最優計算方法;二是選擇的特征是一級序列特征,不能包含蛋白質的全部信息,在后續研究中,期望可以通過對FSVM進行改進,并且在特征選取中加入2級、3級結構信息,從而進一步提高預測性能。

作者簡介:鄒凌云(1979—),男,湖南汨羅人,博士研究生,主要從事生物信息學研究;王正志(1945,),男,上海人,國防科技大學教授博士,通訊作者,主要從事控制理論和生物信息學研究。

主站蜘蛛池模板: 欧美激情一区二区三区成人| 黄色a一级视频| 国产精品女同一区三区五区| 亚洲国产天堂久久九九九| 免费国产黄线在线观看| 一区二区自拍| 精品第一国产综合精品Aⅴ| 欧美日韩免费在线视频| 97视频精品全国在线观看| 久久毛片网| 日本a级免费| 3344在线观看无码| 免费午夜无码18禁无码影院| 亚洲色成人www在线观看| 91在线一9|永久视频在线| 综合五月天网| 中文无码精品A∨在线观看不卡| 青青国产成人免费精品视频| 国产成人亚洲欧美激情| 国产欧美精品专区一区二区| 色妺妺在线视频喷水| 国内a级毛片| 色综合激情网| 久久久国产精品无码专区| 久久国产毛片| 国产精品人人做人人爽人人添| 国内毛片视频| 激情综合图区| 久久永久精品免费视频| 人妻丝袜无码视频| 日本成人不卡视频| 久久久久久尹人网香蕉| 亚洲成a∧人片在线观看无码| 久久一色本道亚洲| 国产毛片网站| 无码中文字幕精品推荐| 国产精品福利一区二区久久| 亚洲AV无码久久精品色欲| 欧美综合中文字幕久久| 欧美中日韩在线| 国产国产人免费视频成18| 亚洲一级色| 特级精品毛片免费观看| 青青热久免费精品视频6| 91久久国产综合精品女同我| 成人免费视频一区| 人人91人人澡人人妻人人爽 | 国产第二十一页| 成人精品在线观看| 国产第八页| 免费人成视频在线观看网站| 国产乱肥老妇精品视频| 国产成人盗摄精品| 综合色88| 91青青在线视频| 国产性爱网站| 亚洲天堂在线免费| 国产极品美女在线观看| 亚洲人成影院在线观看| 免费不卡视频| 自拍亚洲欧美精品| 视频国产精品丝袜第一页| 亚洲视频免| 国产男女免费视频| 久久这里只有精品国产99| 曰AV在线无码| 国产 日韩 欧美 第二页| 国产微拍一区二区三区四区| 欧美日韩在线成人| 久热中文字幕在线| 午夜日韩久久影院| 九九视频在线免费观看| 日韩天堂视频| 国产91av在线| 亚洲丝袜中文字幕| 亚洲欧美日韩色图| 久久毛片基地| 久久久久人妻一区精品| 免费中文字幕一级毛片| 亚洲精品日产AⅤ| 久久久久亚洲精品成人网| 无码内射中文字幕岛国片 |