999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

蛋白質功能預測方法概述

2013-11-14 07:10:42沈素萍方慧生陳凱先
生物信息學 2013年1期
關鍵詞:結構功能方法

劉 言,沈素萍,方慧生*,陳凱先

(1.中國藥科大學生命科學與技術學院,江蘇南京210009;2.上海藥物研究所藥物發現與設計中心,上海201203)

1 引言

基因組學和蛋白質組學在過去十年的發展過程中產生了大規模的新的蛋白質序列和試驗數據,科學家為了確定這些新序列的功能借助計算機手段進行了大量的研究[1-2]。在過去的二十年里,人們利用計算機技術對蛋白質功能進行預測的文章發表了上 千 篇 之 多 (http://www.ncbi.nlm.nih.gov/pubmed),大部分是基于序列相似性、基于結構域、基于相互作用網絡等方法預測,再利用生物學知識來進行解析。本文綜合闡述了迄今為止蛋白質功能預測的分類,大致可分為四類:(1)基于序列相似性預測方法;(2)基于蛋白質相互作用網絡預測方法;(3)基于結構相似性預測方法;(4)其他預測方法。

2 蛋白質功能

蛋白質功能對于客觀環境很敏感:給定的發揮作用的空間環境不同、規定的作用時間不同都可以使蛋白質所表現出來的功能是有差異性的。為了使功能預測的結果更加準確,Bork等提出了一種蛋白質功能類型的分類[3],按蛋白質發揮作用的平臺不同將蛋白質功能分為分子功能,細胞功能和生理功能。很明顯,這三個類型不是獨立存在的,而是如圖2那樣等級相關的。現如今在蛋白質功能預測中最常用的是GO分類,Gene Ontology分類從細胞組成、分子功能和生物學途徑三方面描述蛋白質的性質與功能。分子功能是描述其分子生物學活性,如催化活性、結合活性,可以具體到腺苷酸環化酶活性或鐘形受體結合活性等;生物學途徑是細胞生長和維持、信號轉導過程,更狹義可描述為在嘧啶代謝或α-配糖基的運輸等具體過程。所以蛋白質功能預測的最終想得到結果是:這個新序列在細胞中充當什么組分,在哪個生物學過程中起作用,起著什么樣的作用。

圖1 蛋白質功能預測方法的分類Fig.1 Protein function prediction methods

圖2 蛋白質功能類型分類Fig.2 Protein function types classification

3 蛋白質功能預測的方法

蛋白質功能預測方法可粗略分為基于序列相似性預測、基于蛋白質相互作用網絡預測、基于結構相似性預測和其它不依賴于相似性的預測方法。我們將分別列舉近年來基于這四類方法所做的蛋白質功能預測,以及它們各自的優勢與弱勢。

3.1 基于序列相似性預測蛋白質功能

基于序列相似性是較早的一種功能預測的方法,它是基于序列相似,功能相似的假說建立的。最傳統的方法是對新序列進行BLAST或PSI-BLAST搜索[4],通過產生的E值選擇與新序列高度相似的序列(一般序列一致性要在40%以上[5]),由已知序列功能推斷出新序列的功能。但隨著研究的不斷深入,這種方法被證明是不可靠的[6],因為序列同源性不等于功能一致性[7]。基于序列同源性的模型的建立過于依賴蛋白質之間的相似程度,所以只能適用于與功能已知蛋白質有很高同源性的新蛋白序列的功能預測。并且隨著同源性降低,建立模型的誤差增加。

Hawkins[8-9]分別通過提取 Go terms 和對 Go terms評分的方法對傳統的PSI-BLAST搜索進行拓展,包括從親緣關系較遠的序列進行注釋、應用新的數據挖掘工具、功能相關矩陣、得分密切相關的注釋對,開發出可以通過降低分辨率來增加功能注釋的普及型的方法PFP(protein function prediction)。PFP方法綜合考慮了GO terms評分和GO terms與其親代GO terms之間的功能相關性。從而不需要精準的匹配模式或蛋白質結構信息,只需要較弱相似序列就可以推斷出新序列的功能,結果的精確度和覆蓋范圍比傳統的PSI-BLAST結果高出五倍不止。由 AFP - SIG 05[10]和 CASP7[11]兩個高級別的比賽結果就可以證明PFP方法是很成功的。

圖3 ESG方法建立的序列相似圖譜Fig.3 The sequence similarity map establish by ESG method

Chitale[12]于09 年建立了 ESG(extended similarity group)方法,此方法執行迭代序列數據庫搜索并且對新序列進行GO terms注釋。注釋就是給每條序列制定一個概率,這個概率是基于蛋白質序列相似圖譜(圖3)中multiple-level neighbors的親緣相似評分所得的。圖4中用funsim(Fundamental Simulation Instruction Method)對 PFP、Top-PSIBLAST、ESG三種方法進行了對比,從圖中可以看出ESG方法所產生結果較好。

圖3 PSI-BLAST搜索得到的序列相似圖譜,序列Q經過PSI-BLAST搜索返回N條序列,稱為ESG first level,對 ESG first level進行 PSI- BLAST再返回N條序列稱為ESG second level,以此類推得到ESG multiple-level,各序列之間稱為multiplelevel neighbors。

圖4 根據funsim打分得到的結果準確度對比Fig.4 Results accuracy compared get though funsim scoring

基于序列的蛋白質功能預測考慮的是獨立的蛋白質序列,未考慮蛋白質之間的相互作用。而蛋白質是通過與其它蛋白質直接或間接相互作用而執行功能的。所以要從序列預測蛋白質的功能應該將與其相互作用的蛋白質序列一同考慮在內。

3.2 基于相互作用網絡預測蛋白質功能

基于PPI(protein-protein interaction)的預測方法主要用于從多個蛋白質序列中尋找有相互作用和關聯進化的蛋白質或從PPI數據庫中提取信息,預測效果依賴于基因組數目和PPI數據庫的準確程度。由 Bader等[13]開發的 Pathguide(http://www.pathguide.org)提供大部分PPI相關的數據庫列表和鏈接,表1列出了部分PPI數據庫。根據這些數據庫中提取的蛋白質相互作用數據,人們可以構建相應的相互作用網絡。在相互作用網絡中,一般用節點(node)來表示蛋白質,而連接兩個節點的邊(edge)表示蛋白質之間是否存在相互作用關系。

表1 蛋白質相互作用數據庫Table 1 Protein interaction database

目前,利用相互作用網絡進行功能注釋主要有 兩種方法,即直接注釋方法(direct annotation schemes)[14-16]和基于模塊的方法(module - assisted schemes)[17-18]。

3.2.1 直接注釋方法

為了有效的打擊商業賄賂犯罪,許多國家都采取一系列的措施來建立和完善舉報人保護和獎勵制度:比如德國規定,不公開舉報人和證人的住址,并且允許通過匿名方式進行舉報。同時德國還對揭露商業賄賂的信息來源予以法律保護,任何人都不能對信息的來源進行調查[12]。再比如日本對舉報人的保護制度制定專門的《公益舉報人保護法》,保護那些揭露公司主管或人員徇私舞弊的舉報人。該法規定要對舉報人的身份予以保密,不得以任何形式泄露舉報人。對舉報商業賄賂的單位和個人,給予重獎。公司不得以任何理由解雇或用其他任何形式打擊報復舉報人。如果發生此類情況,將按有關法律嚴肅處理[13]。

Vazquez[14]等首先采用基于分割的方法(cutbased approaches)將圖論法引入蛋白質功能注釋研究中。其基本思路是:對一個未知功能蛋白質賦予某種功能,要使得注釋為相同功能的蛋白質(未注釋或者已注釋)的連接數目最多。Hu[15]綜合考慮了PPI信息和序列的生物化學/物理化學特征,當未注釋蛋白質與已知功能的蛋白質幾乎沒有序列相似性時,也可以獲得相關的PPI信息。并應用此方法對鼠源蛋白質功能進行預測,在訓練集合測試集中一階成功率分別為69.1%和70.2%。構建蛋白質相互作用網絡時通常是從注釋蛋白質到非注釋蛋白質做一個單向的預測。而真正的生物學過程中蛋白質是有流動性的,它們之間有動態的相互作用,從而產生了一個外環境穩定但內部千變萬化的框架。Chi[16]首次將蛋白質之間動態相互作用加入到了預測過程中,方法是先給未注釋的蛋白質指派一個最初的功能,然后計算此蛋白質和與其相鄰的蛋白質之間的最初相似性。用基于KNN的預測算法為未注釋的蛋白質預測一個新的功能,用這個新預測的功能代替最初的功能,再重新計算該蛋白質和與其相鄰的蛋白質之間的相似性,在進行下一輪的計算。直到未注釋的蛋白質和與其相鄰的蛋白質之間的相似性達到一個穩態平衡時結束。正確定義蛋白質之間的相似性迭代法比非迭代法顯示了更好的準確度和召回率,同時可行性和有效性也得到了提高。

3.2.2 基于模塊預測方法

Rives[17]等人就提出一個假設,認為同一個模塊中的蛋白質成員更加可能擁有最短的路徑距離譜(path distance profiles)。根據這個假設,所有短路徑的蛋白質對聚成一類。這個方法實施比較復雜,很難在整個基因組水平上的網絡上進行分析,但在一些子網絡中它已經得到很好的應用,比如對釀酒酵母的核蛋白的相互作用網絡分析。Janusz[18]整合了發育和癌癥研究項目的基因表達譜和蛋白質相互作用圖譜提供了一個有系統和全局代表性的組合網絡模塊。并開發了一種新方法 Network-Guided Forests,該方法是以間接網絡域相關的決策樹來確定網絡模塊的生物或臨床結果,由此產生的網絡簽名證明在不同樣本隊列之間的穩健性和捕捉發展與疾病的因果關系。

3.3 基于結構信息預測

最早基于結構進行蛋白功能注釋的方法是找到一個結構相似的蛋白,將其功能轉移給前一個蛋白,如在蛋白序列中的情況一樣。然而這種方法并不能夠單獨被用來預測蛋白質功能,因為它的準確性只有20% -50%[19],結果是不足以令人采納的。所以從3D結構衍生了多種其他的可能預測蛋白質功能的方法(如圖5)。

圖5 3D結構衍生出的多種可能的功能預測的方法[20]Fig.5 A variety of possible functions of prediction methods derived from 3D structure

結構基序是存在于幾個相關蛋白質結構中的一個蛋白的三維亞結構,它與功能息息相關。最為大家所熟知的結構基序是在許多DNA結合蛋白中均能找到的螺旋-轉角-螺旋(HTH)基序。Leo C等[21]對人類 TRIM 家族中 TRIM20(pyrin)和TRIM21兩個與疾病相關的蛋白進行了研究,闡明了C末端PRYSPRY區域是如何影響TRIM的功能。鑒于大部分蛋白質功能研究都是針對特異性蛋白這一狀況,Akira R[22]提取了PDB數據庫中所有蛋白質結構,然后從中提取出所有的結合位點,通過多次聚類得到復合基序(如圖6),將復合基序分組,根據各組的復合基序的功能特征來確定蛋白質的功能。這一方法的不局限性是蛋白質功能預測的一大突破。

圖6 基序通過完全連鎖聚類得到復合基序Fig.6 Motif complete linkage clustering composite motif

Hoffmann[23]開發了一種衡量結合口袋之間相似性的新方法。以原子云代表每一個口袋,通過比對三維空間中的原子來評估兩個口袋之間的相似性,并用convolution kernel比較所得到的結果信息。這樣即使相關蛋白不共享序列和整體結構相似性,口袋比對也是可行的。并用此方法來識別已知的結合口袋的配體結合的相關性,為今后在這一領域的工作提供了新的標桿。Hermann[24]預測Tm0396的酶功能活性發現潛在的物的高能量結構對接模式可能成為酶功能預測的有用工具。

3.4 其他預測方法

Liao[25]建立了一種不依賴于序列和結構相似性來預測蛋白質功能的新方法。選擇酵母中已知的實驗測定的1377個蛋白質。首先將它們由短到長重新排列成一個連貫的數據集。設定一個連貫序列集m(可隨機取值),將氨基酸序列集轉換為profile編碼(每個氨基酸在1377個總數中出現的頻率)數據集。然后采用最鄰近聚類算法對序列集進行測試。選擇步長為5,設定m值,得到的結果30%m作為測試集,剩余作為訓練集。這個方法是很多與已知功能序列相似性很小的新蛋白質序列得到預測,同時也增加了從序列預測功能的普及性。Yang[26]從序列的數字特征預測蛋白質功能。首先從序列中提取疏水性、極性與電荷特性三個數字特征,并提出序列功能可能性。然后綜合特征向量和功能可能性,應用k-最近鄰居算法(KNN)進行蛋白質的功能預測。該方法綜合考慮了局部和全局信息,預測結果比基于序列相似性的方法更有效。

4 總結

近幾十年來,蛋白質功能預測的方法不斷被充實完善。本文僅指列出了部分有代表性的常用的蛋白質功能預測方法,但其中支持各個方法的算法本文就不多做陳述。后基因組時代的快速發展給我們帶來機遇的同時也帶來了巨大的挑戰,蛋白質序列與結構的懸殊差異使我們不得不加快透徹分析序列的腳步,發展從序列預測蛋白質結構與功能的普遍性與準確性并存的方法就變得刻不容緩。而目前所提出的基于序列預測的方法還遠遠不能滿足科學發展的要求。

References)

[1] T.Hawkins,M.Chitale and D.Kihara.New paradigm in protein function prediction for large scaleomics analysis[J].Mol.Biosyst,2008,4:223 –231.

[2] A.Al- Shahib,R.Breitling,DR.Gilbert.Predicting protein function by machine learning on amino acid sequences–a critical evaluation[J].BMC Genomics,2007,78:1 – 10.

[3] P.Bork,T.Dandekar,Y.Diaz- Lazcoz,F.Eisenhaber,M.Huynen and YP.Yuan.Predicting Function:From Genes to Genomes and Back [J].J.Mol.Biol,1998,283:707 -725.

[4] SF Altschul,TL.Madden,AA.Sch ffer,JH.Zhang,Z.Zhang,W.Miller and DJ.Lipman.Gapped BLAST and PSI-BLAST:a new generation of protein database search programs[J].Nucleic Acids Res,1997,25:3389 – 3402.

[5] B.Rost,J.Liu,R.Nair,KO.Wrzeszczynski and Y.Ofran.Automatic prediction of protein function [J].Cellular and Molecular Life Sciences,2003,60:2637 -2650.

[6] B.Rost.Enzyme function less conserved than anticipated[J].J Mol Biol,2002,318:595 – 608.

[7] B.Louie,R.Higdon,E.Kolker.A statistical model of protein sequence similarity and function similarity reveals overly-specific function prediction[J].PLoS One ,2009,4:e7546.

[8] T.Hawkins,S.Luban,D.Kihara.Enhanced automated function prediction using distantly related sequences and contextual association by PFP[J].Protein Sci.,2006,15:1550 – 1556.

[9] T.Hawkins,M.Chitale,S.Luban,D.Kihara.PFP:automated prediction of gene ontology functional annotations with confidence scores using protein sequence data[J].Proteins,2009,74:556 –582.

[10] I.Friedberg,M.Jambon,A.Godzik.New avenues in protein function prediction[J].Protein Sci,2006,15:1527 – 1529.

[11] G.Lopez,A.Rojas,M.Tress,A.Valencia.Assessment of predictions submitted for the CASP7 function prediction category[J].Proteins,2007,69:165 –174.

[12] M.Chitale,T.Hawkins,C.Park and D.Kihara.ESG:extended similarity group method for automated protein function prediction[J].BMC,2009,14:1739 -1745.

[13] GD.Bader,MP.Cary,C.Sander.Pathguide:a pathway resource list[J].Nucleic Acids Res,2006,34:D504 - 506.

[14] Chua HN,Sung WK,Wong L.Exploiting indirect neighbours and topological weight to predict protein function from protein-protein interactions[J].Bioinformatics,2006,22:1623.

[15] L.Hu,T.Huang,X.Shi,WC.Lu,YD.Cai,KC.Chou.Predicting Functions of Proteins in Mouse Based on Weighted Protein-Protein Interaction Network and Protein Hybrid Properties[J].PLOS ,2011,1:e14556.

[16] Chi and Hou:An iterative approach of protein function prediction[J].BMC Bioinformatics,2011,12:437.

[17] AW.Rives,T.Galitski.Modular organization of cellular networks[J].Proceedings of the National Academy of Sciences,2003,100:1128.

[18] J.Dutkowski,T.Ideker.Protein Networks as Logic Functions in Development and Cancer[J].PloS Computational Biology ,2011,9:e1002180.

[19] S.Goldsmith - Fischman,B Honig.Structural genomics:computational methods for structure analysis[J].Protein Sci,2003,12:1813-1821.

[20] GA Reeves,JM Thornton.Integrating biological data through the genome[J].Human Molecular Genetics,2006,7:R81 - R87.

[21] LC.James,AH.Keeble,Z.Khan,DA.Rhodes and J.Trowsdale.Structural basis for PRYSPRY -mediated tripartite motif(TRIM)protein function[J].PNAS,2007,104(15):6200 -6205.

[22] AR.Kinjo,H.Nakamura.Composite Structural Motifs of Binding Sites for Delineating Biological Functions of Proteins[J].PLoS ONE,2012,7(2):e31437.

[23] B.Hoffmann,M.Zaslavskiy,Jean - Philippe Vert and V.Stoven.A new protein binding pocket similarity measure based on comparison of clouds of atoms in 3D:application to ligand prediction.BMC Bioinformatics 2010,11:99.

[24] JC.Hermann,R.Marti-Arbona,AA.Fedorov,E.Fedorov,SC.Almo,BK.Shoichet and FM.Raushel.Structure-based activity prediction for an enzyme of unknown function[J].Nature,2007,448(7155):775 –779.

[25] B.Liao,Q.Liu,Q.Zeng,J.Luo,G.Yue.An Approach for Data Selection of Protein Function Prediction[J].MATCH Commun.Math.Comput.Chem,2011,65:459 -468.

[26] A.Yang,R.Li,W.Zhu,G.Yue.A Novel Method for Protein Function Prediction Based on Sequence Numerical Features[J].MATCH Commun.Math.Comput.Chem,2012,67:833 -843.

猜你喜歡
結構功能方法
也談詩的“功能”
中華詩詞(2022年6期)2022-12-31 06:41:24
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
關于非首都功能疏解的幾點思考
論《日出》的結構
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
中西醫結合治療甲狀腺功能亢進癥31例
主站蜘蛛池模板: 欧美自慰一级看片免费| 噜噜噜久久| 波多野结衣视频一区二区| 亚洲视频免费播放| 99国产精品一区二区| 91色在线观看| 亚洲三级影院| 免费女人18毛片a级毛片视频| 伊人91在线| 污污网站在线观看| 国产福利免费视频| 亚洲一本大道在线| 亚洲精品中文字幕无乱码| 亚洲一区二区在线无码 | 免费国产一级 片内射老| 国产精品久久自在自2021| 中文字幕在线日韩91| 四虎永久在线| 久久精品这里只有精99品| 99热这里都是国产精品| 国产爽妇精品| 亚洲日本一本dvd高清| 亚洲午夜国产片在线观看| 91网址在线播放| 久久久久久久久18禁秘| 狠狠色成人综合首页| 久久免费成人| 国产成人亚洲毛片| 成人综合久久综合| 永久在线精品免费视频观看| 国产成人喷潮在线观看| 激情综合婷婷丁香五月尤物| 国产成人一区免费观看| 欧洲亚洲欧美国产日本高清| 亚洲人成在线精品| 婷婷午夜天| 丝袜美女被出水视频一区| 欧美国产成人在线| 动漫精品中文字幕无码| 高h视频在线| 综合亚洲色图| 久久成人国产精品免费软件| 不卡午夜视频| 91蜜芽尤物福利在线观看| 日韩欧美高清视频| 免费jizz在线播放| 在线无码av一区二区三区| 六月婷婷激情综合| h视频在线播放| 国产成人永久免费视频| 色综合日本| 黄片在线永久| 日本色综合网| 日本午夜影院| 国产精品久久久久婷婷五月| 无码一区18禁| 国产丰满成熟女性性满足视频| 欧美另类精品一区二区三区| 欧洲精品视频在线观看| 久草中文网| 久久中文字幕av不卡一区二区| 国产精品无码一区二区桃花视频| 日韩欧美中文字幕在线精品| 99热这里只有精品免费| 免费三A级毛片视频| 亚洲欧美一区二区三区蜜芽| 欧美亚洲国产一区| 欧美精品在线视频观看| 久久 午夜福利 张柏芝| 日韩视频福利| 欧美综合一区二区三区| 被公侵犯人妻少妇一区二区三区| 国产亚洲精品自在久久不卡 | 亚洲天堂在线免费| 欧美一区中文字幕| 人妻免费无码不卡视频| 日韩免费毛片视频| 理论片一区| 亚洲a级毛片| 亚洲综合婷婷激情| 国产乱论视频| 久久一色本道亚洲|