曹 晨,馬 堃
(1.吉林大學計算機科學與技術學院,長春130012;2.江蘇恒瑞醫藥股份有限公司,江蘇 連云港 222047)
?
蛋白質二級結構指定
曹 晨1,馬 堃2*
(1.吉林大學計算機科學與技術學院,長春130012;2.江蘇恒瑞醫藥股份有限公司,江蘇 連云港 222047)
蛋白質二級結構是指蛋白質骨架結構中有規律重復的構象。由蛋白質原子坐標正確地指定蛋白質二級結構是分析蛋白質結構與功能的基礎,二級結構的指定對于蛋白質分類、蛋白質功能模體的發現以及理解蛋白質折疊機制有著重要的作用。并且蛋白質二級結構信息廣泛應用到蛋白質分子可視化、蛋白質比對以及蛋白質結構預測中。目前有超過20種蛋白質二級結構指定方法,這些方法大體可以分為兩大類:基于氫鍵和基于幾何,不同方法指定結果之間的差異較大。由于尚沒有蛋白質二級結構指定方法的綜述文獻,因此,本文主要介紹和總結已有蛋白質二級結構指定方法。
蛋白質二級結構指定;蛋白質結構
蛋白質二級結構指定是研究蛋白質結構與功能的基礎,二級結構支撐著蛋白質組織構架并且是產生蛋白質三維折疊模式的關鍵,二級結構的指定是蛋白質結構預測的前提條件并且為蛋白質比較和功能分析提供有效的方法。然而由原子坐標正確地指定蛋白質二級結構是一項重要且具有挑戰的工作。雖然目前已經有超過20種蛋白質二級結構指定程序,但是不同程序指定結果之間差異較大。由于目前尚沒有二級結構指定方法的綜述文獻,因此本文對已有的方法進行總結并且介紹不同方法使用的二級結構指定模式。
在結構生物學和生物化學中,蛋白質二級結構是指在蛋白質中有規則重復的構象。1951年,Linus Pauling和同事根據模型蛋白骨架氫鍵準確地預測出理想的螺旋和片層結構,同時指出,310-螺旋由于鍵角不合適而不能出現在蛋白質中[1],但是后來發現,310-螺旋殘基在蛋白質中占有大概4%的比例[2]。隨后,在1952年,Kaj Ulrik Linderstr?m-Lang在Linus Pauling工作基礎上,首次引入二級結構的概念,與此同時,蛋白質一級結構和三級結構的概念也被他一同引入[3]。Pauling預言α-螺旋和π-螺旋是通過蛋白質骨架的氫鍵:α-螺旋具有重復的(i,i+4)氫鍵而π-螺旋具有重復的(i,i+5)氫鍵[1]。本文中,(i,i+n)氫鍵模式是指i+n號氨基酸殘基的N-H基和i號氨基酸殘基的C=O基形成氫鍵。Pauling這篇文章在20世紀科研中被認為具有里程碑的意義:第一次在分子生物學中使用了模型并且獲得了巨大的成功;α-螺旋和β-片層的發現是蛋白質研究的基石[4]。
α-螺旋和β-片層是蛋白質二級結構中最主要的元素,具有這兩種二級結構的殘基占蛋白質殘基總數的一半[1,5]。另外還有一些其他二級結構,例如除了α-螺旋還有其他幾種螺旋:π-螺旋,310-螺旋,左手螺旋和PPII螺旋。π-螺旋經常出現在α-螺旋的末端或者α-螺旋的中間位置[6],而且π-螺旋和左手螺旋被發現和蛋白質功能關系密切[6-8];α-片層,在天然狀態下雖然稀少,但是被認為是蛋白質折疊的重要中間媒介結構[9];轉角和環,在蛋白質結構中扮演著連接規則元素的作用[10,11];無規則卷曲其實并不是一種特定二級結構,它是在不能被指定為其他規則二級結構情況下的一種統稱。
310-螺旋,α-螺旋和π-螺旋分別是形成連續的(i,i+3),(i,i+4),(i,i+5)氫鍵模式(見圖1a)[1]。而左手螺旋又分為左手310-螺旋和左手α-螺旋,其氫鍵模式和相應的右手螺旋一致。左手和右手的定義是采用拇指指向螺旋軸延伸的方向,殘基的Cα原子的走向是右手的為右手螺旋,走向是左手則為左手螺旋。本文在沒有特別說明的情況下,螺旋指的是右手螺旋。

圖1 α-螺旋和β-片層氫鍵模式示意圖Fig. 1 Hydrogen-bond patterns of α-helix and β-sheet
蛋白質二級結構在結構生物學的諸多領域具有重要的作用,具體來說,在蛋白質結構的可視化[13]、蛋白質結構的比較與分類[14-16]、蛋白質的建模與結構預測[17]、蛋白質的結構檢查[18]、蛋白質折疊[19],蛋白質動力學的結構變化[20,21]以及蛋白-蛋白相互作用和蛋白質功能分析方面都有著廣泛的應用[22]。在結構生物學中,很多研究是基于蛋白質二級結構正確指定基礎上進行的。

以上介紹的五個程序都是基于氫鍵模式,或者在氫鍵模式的基礎上,通過原子間距離和角度的限制從而對蛋白質殘基的二級結構進行指定。除了使用氫鍵模式外,很多蛋白質二級結構指定方法利用蛋白結構的幾何特征,而基于幾何的二級結構指定方法又可以分為兩類:1)使用蛋白質局部的幾何特征;2)將蛋白質骨架原子擬合到一條直線或者一系列直線上。
對于基于幾何蛋白質二級結構指定方法的第一類,使用蛋白質局部的幾何特征進行蛋白質二級結構指定的主要方法有(按照發表時間順序進行介紹):
P-SEA(Protein Secondary Element Assignment, 1997年):利用Cα原子的距離標準(i和i+2,i和i+3,i和i+4之間的距離)和角度標準(i,i+1,i+2,i+3四個Cα原子形成的二面角和i,i+1,i+2三個Cα原子形成的夾角)進行二級結構定;P-SEA只能指定出三類二級結構:螺旋,片層和不規則卷曲[30]。
Xtlsstr(1999年):蛋白質在遠紫外區域的圓二色性是由骨架酰胺-酰胺相互作用決定的[31],Xtlsstr通過計算蛋白質骨架二面角和三個距離(其中兩個是氫鍵距離)對二級結構進行指定,結果發現310-螺旋,π-螺旋和β-片層的指定結果與圓二色光譜中觀測到的酰胺-酰胺相互作用結果相一致[32]。
VoTAP(VOrono? Tessellation Assignment Procedure,2004年)利用泰森多邊形(VOrono? diagram)將蛋白質分為殘基多面體,如果兩個殘基多面體共享一個面,那么認為這兩個殘基是存在相互作用的,根據這個共享接觸面面積大小將這兩個殘基的相互作用強度分成三種:無作用,中等相互作用和很強的相互作用,這樣就產生了殘基之間作用強度的矩陣。通過對DSSP,STRIDE,P-SEA和DEFINE這四個程序的二級結構指定結果統計并結合殘基間作用強度矩陣的分析VoTAP做出新的二級結構的指定。VoTAP的指定結果分成三類:螺旋,片層和不規則卷曲[33]。
KAKSI(KAKSI means “two” in Finnish,2005年)利用距離和角度的限制先對蛋白質中殘基進行一次螺旋掃描,將符合螺旋距離和角度標準的殘基指定為螺旋,之后再對剩余殘基進行兩次β-片層掃描:先找出符合β-單鏈距離和角度標準的殘基,然后再將β-單鏈的殘基配對為β-片層。KAKSI將蛋白二級結構分為三類:螺旋,片層和不規則卷曲[34]。
Beta-Spider(2005年)是專門指定β-片層的程序,Beta-Spider給出β-片層間兩條鏈形成氫鍵殘基的Cα原子距離和角度的限制,另外Beta-Spider給相鄰兩個β-鏈設定了堆積能(包括氫鍵和范德華力)的閾值,當同時滿足幾何條件和能量條件后,兩個相鄰β-鏈被匹配為β-片層結構。Beta-Spider指定的平行β-片層和反平行的β-片層含量分別比DSSP指定的多11%和6%[35]。
PALSSE(Predictive Assignment of Linear Secondary Structure Elements,2005年)刻畫出Cα原子向量之間的轉角和距離標準,先找到二級結構的核心區域,再由核心區域進行延伸拓展。PALSSE只指定兩種二級結構:螺旋和片層,蛋白質80%的殘基都被PALSSE歸于兩種結構。和其他程序不同的是,PALSSE發現兩個二級結構之間會有重疊,因此PALSSE可以給一個殘基指定兩種二級結構[36]。
SABA(Secondary structure Assignment program Based on only Alpha carbons,2011年)定義了一個虛擬中心(兩個連續殘基Cα原子的中心),通過給出虛擬中心間的距離和四個虛擬中心形成的二面角標準進行蛋白質二級結構的指定。SABA可以指定出α-螺旋,310-螺旋,平行和反平行的β-片層結構[37]。
SST(2012年)是基于最小信息長度推斷的貝葉斯方法來指定二級結構,它把蛋白質二級結構指定作為假設來解釋蛋白質的坐標數據(Cα原子坐標),SST可以指定出螺旋的精細結構[38]。
DISICL(DIhedral-based Segment Identification and CLassification,2014年)僅使用蛋白質骨架二面角信息進行二級結構指定。DISICL首先將拉氏圖分為19個區域,然后將連續兩個殘基的二面角分別配對到拉氏圖相應區域中,根據配對的區域進行二級結構指定。DISICL將二級結構劃分為18個小類,這18個小類可以合并為8個大類的二級結構[21]。
PCASSO(Protein C-Alpha Secondary Structure Output,2014年)提取出每個殘基Cα原子和虛擬中心(與SABA虛擬中心定義一致)與其他殘基(包括序列附近殘基和相差超過6個序列的殘基)的距離特征,每個殘基產生258個距離屬性。PCASSO利用隨機森林從258個屬性中隨機選擇16個屬性計算最佳的分裂方式。PCASSO指定的二級結構分為三類:螺旋,片層和不規則卷曲,PCASSO和DSSP在殘基水平有95%的指定是相同的[20]。
HELIX-F(HELIX Fitting,2015年)將螺旋指定問題分為兩個子問題:最小化問題與約束滿足問題。HELIX-F通過擬合算法搜索一系列空間螺旋曲線以最佳地擬合到蛋白質連續四個殘基的Cα原子上,這部分解決的是第一個最小化問題。利用最佳擬合的螺旋曲線我們可以得到相應的螺旋參數,這些螺旋參數被我們用于蛋白質中螺旋的指定。結果顯示,HELIX-F可以準確地指定310-螺旋,α-螺旋,π-螺旋,并且可以指定左手螺旋和PPII螺旋[39]。
SACF(Secondary structure Assignment using Cα Fragment,2016年)的核心思想是找到DSSP指定二級結構片段中的離群Cα片段并將其排除,對剩余片段進行幾何聚類,聚類后每個簇的中心Cα片段作為模板,新的指定只需要和模板Cα片段進行比較即可。SACF與STRIDE相同之處在于都是通過幾何特征排除離群的構象,但是我們將二級結構片段看做一個整體結構而不是像STRIDE那樣關注殘基局部幾何特征:φ/φ,這么做的好處是使得SACF指定結果在整體Cα片段上更加一致[40]。
此外,基于局部幾何特征的二級結構指定程序還有:PROSS(1999年)只是根據蛋白質骨架的二面角進行二級結構指定[41];SEGNO(2005年)根據Cα原子二面角和氫鍵距離以及角度來指定二級結構[42];P-CURVE(1989年)的二級結構指定基于對蛋白質曲率的數學分析,P-CURVE利用微分幾何通過一系列肽平面的固定軸系統產生螺旋軸,并計算出一系列參數(螺旋半徑,傾斜值,扭曲值和滾動值),再利用這些參數值進行蛋白質二級結構的指定[43]。
第二類基于幾何的指定方法代表的程序有:
DEFINE(1988年)首先給出不同種類二級結構的標準距離矩陣,根據蛋白質殘基的距離矩陣和標準距離矩陣的均方根(RMS)差異來指定二級結構片段第一個殘基和末端殘基。因為DEFINE只給出β-鏈的標準距離矩陣,因此DEFINE會指定出沒有匹配為β-片層的β-鏈[44]。
STICK(2001年)可以看做是DEFINE的一個改進,由于蛋白質結構中存在彎曲和扭曲,將Cα原子擬合到一條直線上會產生較大偏差。STICK將殘基Cα原子軌跡近似到一系列直線上,STICK通過每個殘基在軸上上升的距離來描述二級結構,而不是用經典的螺旋和片層結構來描述。這么做的好處就是可以用線段編碼結構從而進行蛋白質結構的比較[45]。
最后,有幾種二級結構指定方法不屬于上面的分類,這些方法或者是為了指定蛋白質中一些稀少結構(如PPII螺旋,轉角等),或者利用其他程序的指定結果,具體的有:DSSP-PPII(2011年)利用DSSP的輸出結果進行指定,DSSP-PPII主要為了指定蛋白質中的PPII螺旋[46];DSSPcont(CONTinuous DSSP Assignment,2003年)利用DSSP使用不同的氫鍵能量閾值對蛋白質指定多次,殘基的最終指定結果為每次DSSP指定結果的加權平均值[47];PROMITIF(1996年)利用DSSP輸出結果去指定和分析一些稀少結構,如β-轉角,γ-轉角,β-凸起,β-發夾,ψ-環等結構[48];SKSP(The consensus of STRIDE, KAKSI, SECSTR, and P-SEA,2008年)的蛋白質二級結構指定結果是四個方法(STRIDE, KAKSI, SECSTR和P-SEA)指定的平均[49]。
截止到2016年,已經有超過20種蛋白質二級結構指定程序發表在生物信息以及生物學領域的期刊上。由于不同程序指定的二級結構元素不同,例如,DSSP指定了八種二級結構元素(表1)而KAKSI,PSEA等方法只是提供了三種二級結構元素(螺旋,片層,不規則卷曲),甚至,有的程序采取另外的標準來描述二級結構:STICK利用殘基在軸上上升的距離來描述二級結構。為了進行比較,一般采取的策略是將不同的二級結構元素分成三個大類:螺旋,片層,不規則卷曲,這種策略被廣泛使用[30,34,38]。1993年,Colloc等人利用154個蛋白質對DSSP,P-CURVE和DEFINE的指定結果做了比較,發現只有63%的殘基被這三個程序指定結果是相同的[50]。相互比較時,DSSP和DEFINE,P-CURVE和DEFINE的符合率都是74%,而DSSP和P-CURVE的符合率是79%。2005年,Martin等人對不同二級結構指定方法在高分辨率X-射線蛋白質數據集上的指定結果進行了一次比較[34],參與比較的程序有DSSP,STRIDE,KAKSI,PSEA,SECSTR,XTLSSTR和PDB文件中的二級結構指定,發現:DSSP,STRIDE,PDB和SECSTR結果相近,符合率在87.4%到95.4%之間,其中DSSP和STRIDE的符合率最高(95.4%),原因是這兩個程序都是基于氫鍵的;SECSTR和DSSP緊密相關,所以二者符合率達到了93.4%;XTLSSTR是這幾個程序中和其他程序差異最大的:XTLSSTR指定結果和其它程序指定結果的符合率都低于81%;KAKSI、PSEA和其它程序表現出中等差異。另外根據二級結構指定程序相關文獻,我們收集了一些指定結果之間的比較(見表1)。值得注意的時,不同文獻符合率的計算方法有所不同,而且,不同文獻中所使用的測試集也是不同的,所以同樣的兩個方法在不同文獻中符合率是有差異的。我們選擇其中一篇文獻的結果列于表中,表中的符合率數據只作為的參考。

表1 不同二級結構指定程序的比較
由表1可以看出,除了SECSTR,PCASSO,SABA這三個程序,其他程序二級結構指定結果與DSSP的符合率都在85%以下,甚至有的低于75%(DISICL,DEFINE,STICK)。
曹晨等人通過比較10種蛋白質二級結構指定結果發現,在基于幾何的蛋白質二級結構指定程序中,PCASSO與DSSP指定結果最為一致,其整體符合率達到了93.5;SACF,KAKSI,PROSS這三種方法指定結果與DSSP指定結果接近,從83.5%到84.7%;而DISICL,PALSSE與DSSP指定結果的符合率只有78.9%和72.9%。不同二級結構指定方法指定結果的差異主要是在二級結構的N端和C端,如果以DSSP指定結果作為標準:PCASSO和SACF傾向于縮短二級結構的兩段,而SEGNO,KAKSI,P-SEA更有可能延伸二級結構的N端和C端[40]。
準確且一致地指定蛋白質二級結構是一個重要的問題。目前最流行的二級結構指定方法是DSSP,但是DSSP方法存在以下幾個問題:1)利用靜電能量近似地代替氫鍵能量;2)氫原子坐標是近似得到的,與實際位置可能存在誤差;3)DSSP將介電常數視為定值但是實際上介電常數在蛋白質表面和內部疏水環境差異很大;4)不同氫鍵模式之間會有交叉,這些問題會導致DSSP指定結果中出現幾何上異常的二級結構。基于幾何的指定方法特別是基于Cα原子坐標的指定方法可以利用最少的蛋白質原子信息對二級結構指定指定。蛋白質中一些稀少的二級結構(例如π-螺旋,PPII螺旋等)對于蛋白質功能研究具有重要的作用,因此二級結構指定方法不僅需要指定出大類的二級結構:螺旋、片層、卷曲,還需要對二級結構中的細微結構進行指定與分析。
References)
[1]PAULING L, COREY R B, BRANSON H R. The structure of proteins; two hydrogen-bonded helical configurations of the polypeptide chain[J]. Proceedings of National Academy of Sciences of the United States of America, 1951, 37(4): 205-211.
[2]ANDERSEN C A. Protein structure and the diversity of hydrogen bonds[D].Anker Engelunds:The Technical University of Denmark, 2001.
[3]LINDERSTR?M-LANG K. Proteins and enzymes[M].Palo Alto,California:Stanford University Press, 1952.
[4]DUNITZ J D. Pauling’s left-handed alpha-helix[J]. Angewandte Chemie-International Edition, 2001, 40(22): 4167-4173.
[5]PAULING L, COREY R B. Configurations of polypeptide chains with favored orientations around single bonds: two new pleated sheets[J]. Proceedings of National Academy of Sciences of the United States of America, 1951, 37(11): 729-740.
[6]COOLEY R B, ARP D J, KARPLUS P A. Evolutionary origin of a secondary structure: pi-helices as cryptic but widespread insertional variations of alpha-helices that enhance protein functionality[J]. Journal of Molecular Biology, 2010, 404(2): 232-246.
[7]WEAVER T M. The pi-helix translates structure into function[J]. Protein Science, 2000, 9(1): 201-206.
[8]NOVOTNY M, Kleywegt G J. A survey of left-handed helices in protein structures[J]. Journal of Molecular Biology, 2005, 347(2): 231-241.
[9]MILNER-WHITE E J, WATSON J D, QI G Y, et al. Amyloid formation may involve alpha-to beta sheet interconversion via peptide plane flipping[J]. Structure, 2006, 14(9): 1369-1376.
[10]RICHARDSON J S. The anatomy and taxonomy of protein structure[J]. Advances in Protein Chemistry, 1981(34): 167-339.DOI:10.1016/S0065-3233(08)60520-3.
[11]ROSE G D, GIERASCH L M, SMITH J A. Turns in peptides and proteins[J]. Advances in Protein Chemistry, 1985(37): 1-109.
[12]PERCZEL A, GASPARI Z, CSIZMADIA I G. Structure and stability of beta-pleated sheets[J]. Journal of Computer Chemistry, 2005, 26(11): 1155-1168.
[13]RICHARDSON J S. Schematic drawings of protein structures[J]. Methods Enzymol, 1985(115): 359-380.
[14]SALI A, BLUNDELL T L. Definition of general topological equivalence in protein structures. A procedure involving comparison of properties and relationships through simulated annealing and dynamic programming[J]. Journal of Molecular Biology, 1990, 212(2): 403-428.
[15]ORENGO C A, MICHIE A D, JONES S, et al. CATH--a hierarchic classification of protein domain structures[J]. Structure, 1997, 5(8): 1093-1108.
[16]GIBRAT J F, MADEJ T, BRYANT S H. Surprising similarities in structure comparison[J]. Current Opinion in Structural Biology, 1996, 6(3): 377-385.
[17]DROZDETSKIY A, COLE C, PROCTER J, et al. JPred4: a protein secondary structure prediction server[J]. Nucleic Acids Research, 2015, 43(W1): W389-94.
[18]MORRIS A L, MACARTHUR M W, HUTCHINSON E G, et al. Stereochemical quality of protein structure coordinates[J]. Proteins, 1992, 12(4): 345-364.
[19]KUWAJIMA K, YAMAYA H, MIWA S, et al. Rapid formation of secondary structure framework in protein folding studied by stopped-flow circular dichroism[J]. FEBS Letters, 1987, 221(1): 115-118.
[20]LAW S M, FRANK A T, BROOKS C L. PCASSO: a fast and efficient c alpha-based method for accurately assigning protein secondary structure elements[J]. Journal of Computational Chemistry, 2014, 35(24): 1757-1761.
[21]NAGY G, OOSTENBRINK C. Dihedral-based segment identification and classification of biopolymers I: proteins[J]. Journal of Chemical Information and Modeling, 2014, 54(1): 266-277.
[22]YU C Y, CHOU L C, CHANG D T. Predicting protein-protein interactions in unbalanced data using the primary structure of proteins[J]. BMC Bioinformatics, 2010(11): 167.
[23]LEVITT M, GREER J. Automatic identification of secondary structure in globular proteins[J]. Journal of Molecular Biology, 1977, 114(2): 181-239.
[24]KABSCH W, SANDER C. Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features[J]. Biopolymers, 1983, 22(12): 2577-2637.
[25]FRISHMAN D, ARGOS P. Incorporation of non-local interactions in protein secondary structure prediction from the amino acid sequence[J]. Protein Engineering, 1996, 9(2): 133-142.
[26]FRISHMAN D, ARGOS P. Knowledge-based protein secondary structure assignment[J]. Proteins, 1995, 23(4): 566-579.
[27]FODJE M N, Al-KARADAGHI S. Occurrence, conformational features and amino acid propensities for the pi-helix[J]. Protein Engineering, 2002, 15(5): 353-358.
[28]TOUW W G, BAAKMAN C, BLACK J, et al. A series of PDB-related databanks for everyday needs[J]. Nucleic Acids Research, 2015, 43(Database issue): D364-368.
[29]ZACHARIAS J, KNAPP E W. Protein secondary structure classification revisited: processing dssp information with PSSC[J]. Journal of Chemical Information and Modeling, 2014, 54(7): 2166-2179.
[30]LABESSE G, COLLOC’H N, POTHIER J, et al. P-SEA: a new efficient assignment of secondary structure from C alpha trace of proteins[J]. Computer Applications of Biosciences, 1997, 13(3): 291-295.
[31]TETIN S Y, PRENDERGAST F G, VENYAMINOV S Y. Accuracy of protein secondary structure determination from circular dichroism spectra based on immunoglobulin examples[J]. Analytial Biochemistry, 2003, 321(2): 183-187.
[32]KING S M, JOHNSON W C. Assigning secondary structure from protein coordinate data[J]. Proteins, 1999, 35(3): 313-320.
[33]DUPUIS F, SADOC J F, MORNON J P. Protein secondary structure assignment through Voronoi tessellation[J]. Proteins-Structure Function and Bioinformatics, 2004, 55(3): 519-528.
[34]MARTIN J, LETELLIER G, MARIN A, et al. Protein secondary structure assignment revisited: a detailed analysis of different assignment methods[J]. BMC Structural Biology, 2005(5): 17.DOI:10.1186/1472-6807-5-17.
[35]PARISIEN M, MAJOR F. A new catalog of protein beta-sheets[J]. Proteins-Structure Function and Bioinformatics, 2005, 61(3): 545-558.
[36]MAJUMDAR I, KRISHNA S S, GRISHIN N V. PALSSE: a program to delineate linear secondary structural elements from protein structures[J]. BMC Bioinformatics, 2005( 6): 202.
[37]PARK S Y, YOO M J, SHIN J, et al. SABA (secondary structure assignment program based on only alpha carbons): a novel pseudo center geometrical criterion for accurate assignment of protein secondary structures[J]. BMB Reports, 2011, 44(2): 118-122.
[38]KONAGURTHU A S, LESK A M, ALLISON L. Minimum message length inference of secondary structure from protein coordinate data[J]. Bioinformatics, 2012, 28(12): i97-105.
[39]CAO C, XU S, WANG L. An algorithm for protein helix assignment using helix geometry[J]. Plos One, 2015, 10(7):e0129674.DOI: 10.1371/journal.pone.0129674.
[40]CAO C, WANG G S, LIU A, et al. A new secondary structure assignment algorithm using Cα backbone fragments[J]. International Journal of Molecular Sciences, 2016, 17(3):333.
[41]SRINIVASAN R, ROSE G D. A physical basis for protein secondary structure[J]. Proceedings of National Academy of Sciences of the United States of America, 1999, 96(25): 14258-1463.
[42]CUBELLIS M V, CAILLIEZ F, LOVELL S C. Secondary structure assignment that accurately reflects physical and evolutionary characteristics[J]. BMC Bioinformatics, 2005, 6(suppl4):s8.DOI:10.1186/1471-2105-6-S4-S8.
[43]SKLENAR H, ETCHEBEST C, LAVERY R. Describing protein structure: a general algorithm yielding complete helicoidal parameters and a unique overall axis[J]. Proteins, 1989, 6(1): 46-60.
[44]RICHARDS F M, KUNDROT C E. Identification of structural motifs from protein coordinate data: secondary structure and first-level supersecondary structure[J]. Proteins, 1988, 3(2): 71-84.
[45]TAYLOR W R. Defining linear segments in protein structure[J]. Journal of Molecular Biology, 2001, 310(5): 1135-1150.
[46]MANSIAUX Y, JOSEPH A P, GELLY J C, et al. Assignment of PolyProline II conformation and analysis of sequence-structure relationship[J]. Plos One, 2011, 6(3):e18401. DOI: 10.1371/journal.pone.0018401.
[47]CARTER P, ANDERSEN C A F, ROST B. DSSPcont: continuous secondary structure assignments for proteins[J]. Nucleic Acids Research, 2003, 31(13): 3293-3295.
[48]HUTCHINSON E G, THORNTON J M. PROMOTIF-a program to identify and analyze structural motifs in proteins[J]. Protein Science, 1996, 5(2): 212-220.
[49]ZHANG W, DUNKER A K, ZHOU Y Q. Assessing secondary structure assignment of protein structures by using pairwise sequence-alignment benchmarks[J]. Proteins-Structure Function and Bioinformatics, 2008, 71(1): 61-67.
[50]COLLOC’H N, ETCHEBEST C, THOREAU E, et al. Comparison of three algorithms for the assignment of secondary structure in proteins: the advantages of a consensus assignment[J]. Protein Engineering, 1993, 6(4): 377-382.
Protein secondary structure assignment
CAO Chen1, MA Kun2*
(1.CollegeofComputerScienceandTechnology,JilinUniversity,Changchun130012,China;2.JiangsuHengruiMedicineCo.,Ltd.,LianyungangJiangsu222047,China)
Secondary structure protein refers to regular repeative sub-structures on the protein backbone. The accurate assignment of the secondary structure of proteins from protein atom coordinates underlies the analysis of protein structure and function. It is also very important for protein classification, finding functional motifs in proteins, and understanding the folding mechanisms of proteins as well as for molecular visualization, protein comparison and prediction. Thus, protein secondary structure assignment is still an active research field in structural bioinformatics. More than twenty secondary structure assignment methods have been developed and are generally categorized into two groups, i.e.,geometry-based and hydrogen bond-based. However, the consistence of secondary structure assigned by different methods is relatively low. These is no review paper about protein secondary structure assignment so far.Therefore,this paper mainly introduce and summarize these methods.
Protein secondary structure assignment; Protein structure
2016-04-09;
2016-05-26.
曹 晨,男,博士研究生,研究方向:生物信息學;E-mail: caochen13@mails.jlu.edu.cn.
*通信作者:馬堃,男,工程師; 研究方向:生物信息學;E-mail: hrmakun@126.com.
10.3969/j.issn.1672-5565.2016.03.09
Q71
A
1672-5565(2016)03-181-07