999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于壓縮氨基酸和支持向量機進行膜蛋白類型識別

2013-11-14 07:10:30管翠萍徐惠娟
生物信息學 2013年4期
關鍵詞:特征提取分類特征

管翠萍,石 晶,徐惠娟

(寧夏大學生命科學學院,寧夏銀川750021)

膜蛋白是一類結構獨特的蛋白質,它處于細胞與外界的交界部位,是細胞執行各種功能的物質基礎,同時也是很多藥物作用的靶點,如最典型的 G蛋白偶聯受體家族,它雖然只占人類基因組編碼序列的1%,但在藥物研發中卻有60% ~70% 的目標蛋白是G蛋白偶聯受體家族成員[1]。目前隨著基因組學和蛋白組學的發展,對膜蛋白結構和功能的研究刻不容緩,而對膜蛋白進行類型預測則是以上工作的一個重要基礎。膜蛋白根據其在細胞膜上的不同存在方式,可分為六大類:A.Type I跨膜蛋白,只含有一段α螺旋構成的跨膜區,N末端在細胞外,C末端在細胞內;B.Type II跨膜蛋白,與Type I的方向剛好相反;C.Multipass跨膜蛋白,具有多個跨膜區;D.Lipid Chain錨定膜蛋白,通過脂質錨鏈與脂雙層相結合;E.GPI錨定膜蛋白,通過甘氨酰甘氨酸二肽酶與脂雙層相結合;F.外周蛋白,通過與其它膜蛋白之間的非共價鍵結合,而不是直接與脂雙層發生相互作用[2-3]。

目前利用分子生物學方法來驗證膜蛋白類型已經不能滿足日益增長的膜蛋白序列的需求,而生物信息學則可利用海量的生物數據,進行分類預測。因此,通過膜蛋白的初級序列結合生物信息手段來預測其所屬類型,以獲取相關的結構和功能信息是目前的一個研究趨勢。現已提出了一些預測方法,并取得了較好的預測結果,如Chou等先后提取氨基酸組分、偽氨基酸組成、蛋白質進化等特征進行分類研究[3-8];Feng和Zhang提出了氨基酸指數的自相關函數方法[9];Cai等分別利用部分序列順序作用和功能結構域方法結合支持向量機(SVM)實現分類預測[10-11];Yang等[12]采用單氨酸和二肽組成方法獲取序列順序信息進行預測;Jiang等融合氨基酸組成和氨基酸位置特征利用支持向量機進行分類預測等[13]。本文將利用壓縮的氨基酸對原始膜蛋白序列進行信息壓縮,對壓縮序列進行氨基酸組成和順序特征的提取,同時采用SVM構建分類器,實現六種分類模型的構建,利用五疊交叉驗證的方法進行驗證。

1 材料與方法

1.1 數據集的構建

早期的研究大多數基于 Chou等人[3]構建的CE2059和CE2625兩個通用數據集來進行分類模型的構建。這兩個數據集中的數據來源于SWISSPROT1997年11月發布的Release 37,建立年限較早,且隨著現在數據的不斷更新,其中有些信息已經變更。2007年,Chou和 Shen基于 SWISS-PROT Release 51對該數據集做了進一步擴充,其中訓練集包含3 249個膜蛋白序列;獨立檢驗集包含4 333個膜蛋白序列[8]。2009年,Zeng又對現有數據集進行改進,收集了5 750條膜蛋白序列[14]。目前,隨著數據庫中數據的不斷增長,膜蛋白序列信息也在不斷補充中,采用新的數據集來做分類模型是有必要的,但這樣又缺乏了與以往研究的可比較性。所以在本研究中,將采用兩個數據集A、B,分別作分類模型構建來對預測結果進行比較。數據集A即采用通用的CE2059和CE2625。數據集B將根據最新的2013年1月發布的uniprotKB/swiss-prot版本進行構建,構建原則參見CE2059和CE2625等通用數據集的建立準則[3,14]:

(1)選擇uniprotKB/swiss-prot數據庫中清楚明確標示和注釋的蛋白質,如出現“fragment”、“probable”、“potential”或“by similarity”的篩除掉;

(2)來自不同物種卻同名的蛋白質只入數據集一次;

(3)選擇只有唯一類型的蛋白序列入數據集。

經篩選,共選出6 069條膜蛋白序列。其中A.Type I 907 條,B.Type II 273,C.Multipass 4 385 條,D.Lipid Chain 268條,E.GPI 183條,F.Peripheral 53條。以上作為真樣本集,相應的假樣本集則由除該類型外的其他五組類型數據隨機產生,具體分布見表1。

表1 膜蛋白類型數據集Table 1 Database of membrane protein types

1.2 序列特征的提取與轉化

1.2.1 由原始序列轉換為壓縮序列

引入壓縮氨基酸的概念,即將原始的20種氨基酸 AA={A,R,N,D,C,Q,E,G,H,I,L,M,K,F,P,S,T,W,Y,V}根據理化性質的不同進行壓縮分類,性質相近的歸為一類,這樣20種氨基酸根據不同的壓縮方式[15]形成了不同的壓縮種類(見表2)。對表2中所列的11種壓縮方式分別進行測試,比較不同的壓縮方式對膜蛋白類型識別效果的優劣。

表2 不同的壓縮方法對20種氨基酸進行壓縮分類Table 2 Compressed alphabets produced by different methods

針對每一種壓縮方式,一條原始的由20種氨基酸組成的蛋白質序列,利用壓縮的氨基酸轉換為壓縮序列。

1.2.2 對壓縮序列進行氨基酸組分特征提取

蛋白質序列的特征已被普遍用于蛋白質的家族分類、結構預測、信號位點識別等方面,且取得了較好的效果,目前比較常用的序列特征有單氨基酸組成和二肽組成,僅考慮單氨基酸的組成,往往會漏掉許多序列次序信息,二肽的組成分析能很好的補充氨基酸序列之間順序的特征,考慮了鄰近殘基之間的耦合作用。通過對壓縮序列進行單氨基酸和二肽組成頻率的統計,將壓縮序列轉換為維數固定的特征向量。具體步驟:

其中,Fi表示在壓縮序列中氨基酸i的出現頻率,Ai表示壓縮序列中氨基酸i出現的總次數,n表示壓縮序列的長度;Fij表示壓縮序列中相鄰兩個氨基酸ij的出現頻率,depij表示壓縮序列中相鄰兩個氨基酸ij出現的總次數,m表示所有兩兩氨基酸出現的可能組合,N屬于表2中所列的11種壓縮后的氨基酸種類。最后,根據不同的壓縮方式,由公式(1)和公式(2)計算得到的特征向量總維數也是不同的,應為N+N2。

1.3 基于SVM的分類模型構建

支持向量機最大的特點就是泛化能力比較強,即由有限的訓練集樣本得到的小誤差仍能夠保證對獨立的測試集的小誤差,同時也可以防止模型構建過程中問題的產生。以往的研究表明使用支持向量機方法可以很好的對膜蛋白類型進行預測[11-13]。本文采用libsvm3.13軟件包[16],選擇徑向基核函數進行多類分類器的構建,以實現對膜蛋白類型的識別預測。

1.4 五疊交叉驗證和評價標準

利用五疊交叉驗證的方法隨機劃分數據集對分類模型進行測試。即將真、假樣本數據分別隨機分為5個大致相等的子集,依次各取出一個子集合作為測試集,而各自其余4個子集合作為訓練集,如此交替反復5次后,將各次的準確度作平均。為了避免隨機取樣產生的偏好性,將此驗證過程重復10次。最后,利用靈敏度(Sensitivity)、特異性(Specificity)和總體準確度(Accuracy)這3個指標來評價模型的性能。具體定義如下:

其中,TP為真陽性的數目,TN為真陰性的數目,FP為假陽性的數目,FN為假陰性的數目。

2 結果分析

根據表2所列的不同壓縮方法將膜蛋白序列進行壓縮,轉換為壓縮序列;利用單氨基酸和二肽組成的序列信息對序列進行特征提取,根據壓縮方式不同最終得到不同維數的特征向量,利用支持向量機(SVM)方法進行分類器構建;采用五疊交叉驗證和3個評價指標來衡量不同壓縮方法對分類預測結果的影響(見表3)。

表3 采用不同壓縮方法進行分類模型構建的預測結果Table 3 Prediction results of classifiers which construct on different compressed methods

由表3可知,從整體水平來看,采用Li-B(10)的壓縮方式可以較好地實現對六種膜蛋白類型的分類。為進一步與以往研究進行比較,我們選取Li-B(10)的壓縮方式,再用通用數據集A進行測試(數據集A中只包括5種膜蛋白類型),結果見表4。

由表4結果可知,采用Li-B(10)的壓縮方式對通用數據集A進行特征提取同樣是有效的,比其他基于數據集A的預測方法效果要好。

表4 采用Li-B(10)的壓縮方式對數據集A進行測試Table 4 Test the database A with Li-B(10)compressed method

3 討論

本研究中采用了與通用數據集CE2059和CE2625同樣的構建準則來構建新的膜蛋白類型數據集,與早期通用的數據集 CE2059和CE2625相比,該數據集包含了更為全面的膜蛋白類型(新增的外周蛋白類型)和序列信息,另外在假樣本的選取上,我們隨機抽取了不同比例的類型數據進行組合,并重復10次隨機組成假樣本,避免了隨機抽樣以及假樣本過多所引起的結果偏差,有效保證了數據集的全面性與可靠性。其次,有效特征的選取也是成功構建分類器的關鍵,基于氨基酸組成、氨基酸位置,偽氨基酸以及氨基酸理化性質等特征構建的分類器均取得了較好的分類效果。本研究利用了壓縮的氨基酸,將原始序列所包含的信息進行有效壓縮,這種方法最早是用在序列比對上,可將序列間的局部相似性最大化,從而發現序列間保守的區域或是鑒定序列的同源性關系等,這里將它應用到分類問題上,再綜合氨基酸組成和順序特征,進行特征提取,由表3和表4結果可知,該方法在膜蛋白類型分類上是有效的。不同的壓縮方法得到的結果是有區別的,如對Type I分類預測時,SE-B(14)的壓縮方式較好,而SE-V(10)對Lipid Chain和Peripheral的分類效果較好。但從整體上來看,則是Li-B(10)的壓縮方式對六種膜蛋白的分類更為合適,平均準確度在85%以上,但對個別類型如Lipid Chain、GPI和Peripheral的分類效果偏低。原因主要有兩點:一是這三種類型的數據集所包含的序列數目較少,使如上方法在對該類型進行特征提取時不能很好的體現;二是從類型上分析,Type I、Type II和 Multipass均屬于跨膜蛋白,具有跨膜螺旋特征,而Lipid Chain和GPI屬于錨定蛋白,還有特殊的一類外周蛋白,這三類與跨膜蛋白差異較大,利用如上方法的特征提取對于跨膜蛋白類型的分類效果較為顯著,而對于Lipid Chain、GPI和外周蛋白的區分還需考慮更為有效的特征,如氨基酸的理化性質、序列末端特征等。

4 結論

綜上所述,利用壓縮的氨基酸結合氨基酸組分和二肽順序特征來預測膜蛋白類型是一種有效的方法。該方法操作簡單,但是僅限于對類型的預測,如要進一步對膜蛋白功能和結構進行分析,還需考慮更多的一些屬性特征,挖掘這些特性有待于進一步的研究,為更深入的探討膜蛋白功能奠定基礎。

References)

[1] Oren M.Becker,Yael Marantz,Sharon Shacham,Boaz Inbal,Alexander Heifetz,Ori Kalid,Shay Bar-Haim,Dora Warshaviak,Merav Fichman and Silvia Noiman.G protein coupled receptors:In silico drug discovery in 3D [J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(31):11304-11309.

[2] 張振慧.蛋白質分類問題的特征提取算法研究[D].湖南長沙:國防科學技術大學,2006.

[3] Kuo-Chen Chou,David W.Elrod.Prediction of membrane protein types and subcellular locations[J].Proteins,1999,34(1):137 -153.

[4] Kuo-Chen Chou.Prediction of Protein Cellular Attributes Using Pseudo-amino Acid Com position [J].Proteins,2001,43(3):246-255.

[5] Kuo-Chen Chou,David W.Elrod.Protein Subcellular Locations Prediction[J].Protein Engineering design& selection,1999,12(2):107-118.

[6] Hong-Bin Shen,Kuo-Chen Chou.Using optimized evidence theoretic K-nearest neighbor classifier and pseudo-amino acid composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2005,334(1):288 -292.

[7] Hong-Bin Shen,Jie Yang,Kuo-Chen Chou.Fuzzy KNN for predicting membrane protein types from pseudo-amino acid composition [J].Journal of Theoretical Biology,2006,240(1):9 -13.

[8] Kuo-Chen Chou,Hong-Bin Shen.MemType-2L:a web server for predicting membrane proteins and their types by incorporating evolution information through Pse-PSSM[J].Biochemical and Biophysical Research Communications,2007,360(2):339 -345.

[9] Zhi-Ping Feng,Chun-Ting Zhang.Prediction of membrane protein types based on the hydrop-hobic index of amino acids[J].Journal of Protein Chemistry,2000,19(4):269 -275.

[10] Yu-Dong Cai,Xiao-Jun Liu,Xue-Biao Xu and Kuo-Chen Chou.SVM for predicting membrane protein types by incorporating quasisequence-order effect[J].Internet Electronic Journal of Molecular Design,2002,1(4):219 -226.

[11] Yu-Dong Cai,Guo-Ping Zhou and Kuo-Chen Chou.Support vector machines for predicting membrane protein types by using functional domain composition[J].Biophysical Journal,2003,84(5):3257-3263.

[12] Xiao-Guang Yang,Rui-Yan Luo and Zhi-Ping Feng.Using amino acid and peptide composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2007,353(1):164-169.

[13]姜彬,王正華,王勇獻,賀細平.多特征融合提取算法結合支持向量機預測膜蛋白類型[J].上海交通大學學報,2009,7:1172-1176.

[14]曾聰.蛋白分類的特征提取算法和數據集構建技術研究[D].湖南長沙:國防科學技術大學,2010.

[15] Robert C.Edgar.Local homology recognition and distance measures in linear time using compressed amino acid alphabets[J].Nucleic Acids Research,2004,32(1):380 -385.

[16] Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1 -27.

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 日韩国产综合精选| 99热这里只有精品免费| 国产美女精品一区二区| 日韩欧美成人高清在线观看| 欧美精品不卡| 亚洲精品国产自在现线最新| 亚洲自拍另类| 国产视频 第一页| 精品精品国产高清A毛片| 香蕉eeww99国产精选播放| 精品成人一区二区| 国产第一页屁屁影院| 日本免费福利视频| 久久国产精品嫖妓| 国内精品视频在线| 亚洲 成人国产| 日本午夜在线视频| 欧美日韩成人| 99激情网| 97国产在线观看| 午夜啪啪福利| 欧美日韩综合网| 免费高清自慰一区二区三区| 天天综合色天天综合网| 国产精品99久久久| 一区二区理伦视频| 亚洲男人天堂久久| a亚洲天堂| 99热国产在线精品99| 色偷偷一区| 激情六月丁香婷婷| 国产欧美视频在线观看| 国产成人精品免费视频大全五级 | 91久久夜色精品国产网站| 中文字幕不卡免费高清视频| 亚洲一级无毛片无码在线免费视频| 久久这里只有精品2| 日韩少妇激情一区二区| 亚洲免费人成影院| 久久鸭综合久久国产| 亚洲一区二区日韩欧美gif| 亚洲成AV人手机在线观看网站| 好紧太爽了视频免费无码| 女人毛片a级大学毛片免费| 欧美一级在线播放| 久久网欧美| 91在线播放免费不卡无毒| 视频二区国产精品职场同事| 成人国产小视频| 久久96热在精品国产高清| 亚洲色图综合在线| 青青草国产免费国产| 精品一区二区三区波多野结衣| 午夜老司机永久免费看片 | 九色在线观看视频| 播五月综合| 丁香综合在线| 国产哺乳奶水91在线播放| 国产成人AV大片大片在线播放 | 成人蜜桃网| 天天摸天天操免费播放小视频| 影音先锋亚洲无码| 国产激情在线视频| 亚洲av无码片一区二区三区| 凹凸国产分类在线观看| 在线视频精品一区| 国产成人91精品| 四虎国产在线观看| 夜夜操天天摸| 偷拍久久网| 91av成人日本不卡三区| 亚洲国产精品成人久久综合影院| 欧美精品v欧洲精品| 亚洲中文精品人人永久免费| 亚洲精品在线观看91| 亚洲福利网址| 国产视频a| 香蕉eeww99国产在线观看| 狠狠色狠狠综合久久| 无码免费视频| 青青久视频| 香蕉视频在线观看www|