葛慧華,黃可君,張光亞
(華僑大學(xué) 化工學(xué)院,福建 廈門361021)
來源于嗜鹽菌[1]的嗜鹽酶(尤其是水解酶)能適應(yīng)高濃度鹽,也能忍受很寬的p H值,在醫(yī)藥、食品、紡織及化工產(chǎn)業(yè)等領(lǐng)域有廣泛應(yīng)用[2].嗜鹽微生物的嗜鹽機(jī)理一直是研究者關(guān)注的焦點(diǎn),目前已發(fā)現(xiàn)微生物主要通過兩種方式對抗胞外的高鹽環(huán)境[3-5]:1)在細(xì)胞內(nèi)積累高濃度的K+以對抗高滲環(huán)境(saltin);2)在細(xì)胞內(nèi)積累細(xì)胞相容性溶質(zhì)來抗衡外界鹽環(huán)境的負(fù)面影響(salt-out).近年來,隨著嗜鹽微生物基因組和蛋白質(zhì)組計(jì)劃的完成,對第一種嗜鹽機(jī)制微生物蛋白質(zhì)組的分析日益增加[6],而對后一種適應(yīng)機(jī)制的微生物蛋白質(zhì)組的研究則很少.由于細(xì)胞相容性物質(zhì)都有帶電荷的基團(tuán)(如氨基酸來源的相容性物質(zhì)),因此蛋白質(zhì)為了在高濃度的細(xì)胞相容性物質(zhì)中保持溶解性和穩(wěn)定性,必須減少其分子表面非極性的面積[7-8].這種微生物中蛋白質(zhì)與其同源蛋白同樣存在與嗜鹽機(jī)制有關(guān)的差異,不過其差異程度相對較小[7].生物信息學(xué)和比較蛋白質(zhì)學(xué)的發(fā)展為研究嗜鹽菌的機(jī)理提供了新思路,所得結(jié)果對設(shè)計(jì)新的嗜鹽蛋白具有積極指導(dǎo)價(jià)值[9-10].然而,多數(shù)方法并未對兩種不同嗜鹽機(jī)制的蛋白進(jìn)行區(qū)分.本文選取了兩株不同嗜鹽機(jī)制的微生物及一株非嗜鹽微生物的全蛋白質(zhì)組序列,探討了不同嗜鹽蛋白穩(wěn)定性機(jī)制,并使用一種新型核函數(shù)的支持向量機(jī)方法對3種蛋白進(jìn)行了識別.
根據(jù)以下3點(diǎn)規(guī)則從數(shù)據(jù)庫選取微生物:1)必須是嗜鹽微生物,且基因組注釋已經(jīng)完成,可提供大量蛋白質(zhì)序列;2)所選取微生物最適生長溫度接近,減少了溫度對其氨基酸使用偏好的影響;3)微生物基因組的G+C摩爾分?jǐn)?shù)非常接近,最大程度減少了GC摩爾分?jǐn)?shù)對氨基酸使用偏好的影響.所選取的嗜鹽菌分別為Halobacteriumsp.NRC-1和Halomonaselongata,前一個(gè)為細(xì)胞內(nèi)積累KCl(saltin)[11],后一個(gè)為積累細(xì)胞相容性物質(zhì)(salt-out)[12],而非嗜鹽菌為CaulobactercrescentusCB15[13].這樣,它們在氨基酸使用上的差異就主要是由嗜鹽機(jī)制不同造成的.
使用Blastclust程序[14]共得到1 701,2 382及2 703條序列,其所占比例分別為25.1%,35.1%和39.8%.上述6 786條序列ID號,F(xiàn)ASTA格式的序列,以及蛋白質(zhì)長度等信息保存在一個(gè)基于Microsoft Access的數(shù)據(jù)庫中.
考慮到蛋白質(zhì)序列中20種氨基酸出現(xiàn)的頻率存在較大差異,因此,在比較不同氨基酸組成差異的時(shí)候需要考慮這個(gè)因素,以使結(jié)果更能反映真實(shí)差異[15].為此,統(tǒng)計(jì)了Uniprot數(shù)據(jù)庫中所有蛋白序列氨基酸組成,并計(jì)算3種微生物中各蛋白質(zhì)氨基酸組成.兩種嗜鹽蛋白Halobacteriumsp.NRC-1和Halomonaselongata分別表示為HIP和HOP,其與非嗜鹽蛋白(表示為NP)氨基酸組成的差異為

式(1)~(2)中:Nj,I,Nj,O和Nj,N分別表示積累鹽離子(salt-in)、細(xì)胞相容性物質(zhì)(salt-out)及非嗜鹽蛋白標(biāo)準(zhǔn)化的氨基酸組成;j表示20種氨基酸;Cj,I,Cj,O和Cj,N分別表示這3種蛋白中氨基酸組成;Cj,av表示Uniprot數(shù)據(jù)庫所有序列氨基酸組成平均值.經(jīng)計(jì)算,3種蛋白質(zhì)組累計(jì)統(tǒng)計(jì)的氨基酸數(shù)量分別為525 159,805 826和896 556.
在評估模型優(yōu)劣過程中,經(jīng)常采用獨(dú)立樣本測試、交叉驗(yàn)證和Jackknife測試3種方法[16-17].在實(shí)際操作過程中,該法運(yùn)算速度較慢且消耗計(jì)算機(jī)資源龐大,因此,交叉驗(yàn)證被越來越多的研究者采用[18-20],而它實(shí)際上是Jackknife測試的一個(gè)特例.文中采用10倍交叉驗(yàn)證(10-CV).
模型最終表現(xiàn)通過以下2個(gè)參數(shù)進(jìn)行描述,預(yù)測準(zhǔn)確率(γ)和受試者操作特性曲線下面積(A).一般而言,分類器的A值大于0.9,則被認(rèn)為優(yōu)秀.文中實(shí)現(xiàn)所有算法的軟件均來自于懷卡托智能分析環(huán)境(Weka 3-6-8)[21],使用DELL precisionTM490工作站,所有運(yùn)行參數(shù)均采用默認(rèn)值.
經(jīng)與非嗜鹽蛋白比較,兩種嗜鹽與非嗜鹽蛋白氨基酸組成存在較明顯差,如圖1(a)所示.為此,特定義在 HIP或 HOP中,若|Dj,I-N|>0.25或|Dj,O-N|>0.25,則氨基酸j視為顯著性氨基酸.可見,在HIP中存在較多的Asp,Thr和Val,較少的Lys,Trp和 Met;而HOP中這種顯著性氨基酸則明顯較少,只有較多的His和較少的Ala.Asp作為一種酸性氨基酸在嗜鹽蛋白(salt-in)中大量存在,這已得到廣泛證實(shí).Asp主要存在于蛋白分子表面,與陽離子(如K+)相互作用,從而增加嗜鹽蛋白的穩(wěn)定性.此外,其分子中堿性氨基酸(如Lys)的含量則顯著減少[22].Thr由于側(cè)鏈帶有羥基,非常容易和環(huán)境中水分子形成氫鍵,有助于蛋白在高鹽濃度中保持可溶性及結(jié)構(gòu)和功能.Val具有一定疏水性,且分子較小,有利于保持嗜鹽蛋白更緊湊的疏水核心,從而增加其穩(wěn)定性[23].Met是一種疏水性較強(qiáng)的氨基酸,而研究表明嗜鹽蛋白穩(wěn)定性與其較低的疏水性有關(guān)[24],因此,Met在嗜鹽蛋白中含量較低.Trp屬于芳香族且疏水性較強(qiáng),研究表明芳香族氨基酸在嗜鹽蛋白中含量很少[25].
對HOP(通過細(xì)胞相容性物質(zhì)穩(wěn)定的蛋白)而言,其與非嗜鹽蛋白的氨基酸組成雖然也存在差異,但相比于HIP則明顯較少.其中His較多而Ala則較少.Costantini等[26]認(rèn)為,Ala非常容易形成α-螺旋,而His則具有很強(qiáng)的無規(guī)則卷曲形成趨向.眾所周知,α-螺旋是一種較剛性的結(jié)構(gòu),而無規(guī)則卷曲則極具柔性,減少α-螺旋和增加無規(guī)則卷曲可增加蛋白質(zhì)分子的柔性,而分子柔性與其功能密切相關(guān)[27].這很可能有助于蛋白在細(xì)胞相容性物質(zhì)濃度較高的細(xì)胞液中保持穩(wěn)定.
為了進(jìn)一步了解其差異,參考相關(guān)文獻(xiàn)[28]把氨基酸分成14種類型,包括帶電的(Ch),脂肪族(Al)、芳香族(Ar)、極性的(Po)、中性的(Ne)、疏水性的(Hy)、帶正電(Ps)、帶負(fù)電(Ng)、微小的(Ti)、小的(Sm)、大的(La)、含硫的(Su)、酰胺(Am)及酸性與堿性氨基酸(A-B)的差值.比較它們在 HIP及HOP與NP中的差異,結(jié)果如圖1(b)所示.
由圖1(b)可知:HIP中性氨基酸、微小的氨基酸及帶電氨基酸明顯較高,疏水性氨基酸則明顯較少;而HOP中僅有較小的氨基酸明顯多于非嗜鹽蛋白.研究表明:中性氨基酸不與離子發(fā)生靜電引力,其在高鹽條件下很易形成疏水相互作用,而側(cè)鏈微小或較小的氨基酸在蛋白質(zhì)內(nèi)核組裝過程中更容易占據(jù)蛋白質(zhì)分子中不同空間[29].這對維持蛋白穩(wěn)定性非常重要.

圖1 嗜鹽與非嗜鹽蛋白氨基酸組成的差異Fig.1 Compositional differences of amino acids between halophilic and non-halophilic proteins
此外,HIP和HOP與NP中酸性氨基酸與堿性氨基酸差值均差異明顯,尤其在HIP中.這與大多數(shù)研究所發(fā)現(xiàn)的嗜鹽蛋白酸性氨基酸含量明顯超過堿性氨基酸含量的結(jié)果吻合.然而,Bardavid等[30]的研究發(fā)現(xiàn),在Halanaerobiales屬中一些在細(xì)胞內(nèi)積累高濃度KCl的嗜鹽蛋白并不存在這種差異.
綜上所述,對于HIP而言,文中結(jié)果與大多數(shù)文獻(xiàn)報(bào)道結(jié)果相吻合,但通過引入所有蛋白平均氨基酸組成使其結(jié)果更為明顯;而對HOP而言,其氨基酸組成差異雖然沒有HIP與NP這么明顯,但它們可能通過增加分子柔性及更高效的內(nèi)核組裝,來保持蛋白質(zhì)在高細(xì)胞相容性物質(zhì)環(huán)境中的可溶性、穩(wěn)定性及行使正確的生物學(xué)功能.
支持向量機(jī)(SVM)是生物信息學(xué)領(lǐng)域最常用的分類工具[31],其分類性能主要取決與核函數(shù),而核函數(shù)的選取及其對應(yīng)參數(shù)的優(yōu)化非常耗時(shí).為此,采用一種通用核函數(shù),通過參數(shù)調(diào)整,可適應(yīng)各種數(shù)據(jù)[32-33].文中選取Person通用核函數(shù)(PUKF)[32],它在生物學(xué)領(lǐng)域尚不多見[34].基于PUKF的支持向量機(jī)對兩種嗜鹽蛋白和兩種嗜鹽蛋白與非嗜鹽蛋白的識別效果,如表1所示.

表1 不同算法的預(yù)測精度Tab.1 Performances of different algorithms
對兩種嗜鹽蛋白而言,10-倍交叉驗(yàn)證的結(jié)果表明:基于PUKF的支持向量機(jī)識別精度最佳,可達(dá)92.5%.其A值為0.921,大于0.9,說明該分類器的識別效果優(yōu)秀.相比而言,其識別精度比單一分類器的徑向基核函數(shù)(RBF)的支持向量機(jī)高7.1%,比組合分類器的Bagging(基礎(chǔ)分類器為Decision Stump)高15.3%.此外,同其他幾種核函數(shù)的支持向量機(jī)相比,其準(zhǔn)確率分別高于RBF和線性核函數(shù)的7.1%和4.2%,與多項(xiàng)式核函數(shù)的支持向量機(jī)比較接近.然而,相對于后者,PUKF的支持向量運(yùn)算所需時(shí)間明顯較少,如完成本次運(yùn)算,前者所需時(shí)間約6 min,而同樣條件下的多項(xiàng)式支持向量機(jī)(E=5)所需時(shí)間約14 min,是前者的2倍多.由此可見,PUKF的支持向量機(jī)能兼顧運(yùn)算效率與運(yùn)算精度.
同樣,采用PUKF的支持向量對兩種嗜鹽蛋白與非嗜鹽蛋白進(jìn)行識別.對于這三種類型的蛋白,該方法的10-倍交叉驗(yàn)證驗(yàn)證的精度達(dá)到84.1%,其A值達(dá)到0.895,接近0.9,說明其識別精度依然令人滿意.相對與其他單一分類器而言,其精度提高0.5%至10.2%不等;相比組合分類器,其識別精度有6.3%至32%的提高;相比其他幾種常見核函數(shù)的支持向量機(jī),其精度依然最佳,比RBF和線性核函數(shù)的支持向量機(jī)分別高出5.9%和8.5%;相比多項(xiàng)式核函數(shù)的支持向量機(jī),也有0.5%至1.7%左右的提升,識別效果基本相當(dāng),但其運(yùn)算效率則提升明顯.因此,在本識別過程中,PUKF的支持向量機(jī)算法表現(xiàn)最好,而且其運(yùn)算精度高、速度快,對計(jì)算機(jī)資源的消耗較少,在大規(guī)模數(shù)據(jù)分析方面更具優(yōu)勢.
此外,本方法對兩種嗜鹽及非嗜鹽蛋白識別精度為84.1%,雖然未能達(dá)到預(yù)期的90%以上,但相比對這3種類型蛋白進(jìn)行隨機(jī)猜測的幾率33.3%而言,其效果已明顯提高了53.8%;而對兩種嗜鹽的識別精度達(dá)92.5%,相比于隨機(jī)猜測的幾率50%而言,其精度提高了42.5%.由此看來,對3種不同類型蛋白識別的精度還是令人滿意的.
當(dāng)使用氨基酸組成作為序列特征值時(shí),識別精度隨序列長度的變化而出現(xiàn)差異.這種現(xiàn)象在之前的相關(guān)研究中已有報(bào)道.如Grominha[35]在識別球狀蛋白和外膜蛋白過程中發(fā)現(xiàn),對少于300個(gè)氨基酸的蛋白而言,其識別精度為86%,對氨基酸數(shù)量在300~800之間的蛋白,其識別精度高達(dá)98%,而對大于800個(gè)氨基酸的蛋白,其精度為100%.Zhang等[36]對嗜熱和常溫蛋白的預(yù)測結(jié)果也表明,對小分子蛋白(少于200個(gè)氨基酸),其識別精度為僅為79%,而對大分子蛋白(大于800個(gè)氨基酸)的識別精度則達(dá)100%.然而,研究者并未對此現(xiàn)象進(jìn)行過多的解釋,其可能的原因也未作進(jìn)一步探討.
按照序列長度(L)將蛋白質(zhì)序列分為4個(gè)類型,并進(jìn)行自一致性檢驗(yàn),其平均識別精度為89.5%,不同長度蛋白質(zhì)序列的識別精度分析結(jié)果,如表2所示.表2中:L為序列長度;n為序列數(shù)量;nc為正確預(yù)測的序列數(shù)量;φ為不同長度蛋白質(zhì)序列數(shù)量的百分比;η為預(yù)測的準(zhǔn)確率.從表2可知:隨著蛋白質(zhì)序列長度的增加,識別精度逐漸上升,對較小的蛋白分子,其識別精度為86.2%,比平均值低3.3%;對大分子蛋白,其識別精度達(dá)97.1%,比平均值高出7.6%;而對中等大小(200~800)的識別精度也均高于平均值.

表2 不同長度蛋白質(zhì)序列的預(yù)測結(jié)果Tab.2 Prediction performances of different sequence lengths
文中嚴(yán)格區(qū)分兩種不同嗜鹽機(jī)制的蛋白,并分別將其同非嗜鹽微生物蛋白質(zhì)組進(jìn)行了比較.結(jié)果表明:對HIP而言,其結(jié)果與報(bào)道結(jié)果吻合,而對HOP而言,其分子中含有更多柔性的二級結(jié)構(gòu),同時(shí)分子中較小的氨基酸占多數(shù),這在之前相關(guān)文獻(xiàn)中未見報(bào)道.這對認(rèn)知兩種不同嗜鹽機(jī)制蛋白穩(wěn)定性的機(jī)制及對結(jié)構(gòu)和功能強(qiáng)化的理性設(shè)計(jì)具有重要指導(dǎo)意義.
此外,從蛋白質(zhì)類型而言,出現(xiàn)預(yù)測錯(cuò)誤主要是HOP與NP之間,而從蛋白質(zhì)大小而言,主要是對分子量小的蛋白預(yù)測精度偏低.因此,如何有效解決上述兩個(gè)問題以提高識精度將是后續(xù)研究重點(diǎn).
[1] EICHLER J.Biotechnological uses of archaeal extremozymes[J].Biotechnol Adv,2001,19(4):261-278.
[2] DELGADO-GARCíA M,VALDIVIA-URDIALES B,AGUILAR-GONZáLEZ C N,et al.Halophilic hydrolases as a new tool for the biotechnological industries[J].J Sci Food Agric,2012,92(13):2575-2580.
[3] ROBERTS M F.Organic compatible solutes of halotolerant and halophilic microorganisms[J].Saline Systems,2005,1:5.
[4] RHODES M E,F(xiàn)ITZ-GIBBON S T,OREN A,et al.Amino acid signatures of salinity on an environmental scale with a focus on the Dead Sea[J].Environ Microbiol,2010,12(9):2613-2623.
[5] OREN A.Microbial life at high salt concentrations:Phylogenetic and metabolic diversity[J].Saline Systems,2008,4:2.
[6] COQUELLE N,TALON R,JUERS D H,et al.Gradual adaptive changes of a protein facing high salt concentrations[J].J Mol Biol,2010,404(3):493-505.
[7] SIGLIOCCOLO A,PAIARDINI A,PISCITELLI M,et al.Structural adaptation of extreme halophilic proteins through decrease of conserved hydrophobic contact surface[J].BMC Struct Biol,2011,11:50.
[8] STREET T O,BOLEN D W,ROSE G D.A molecular mechanism for osmolyte-induced protein stability[J].Proc Natl Acad Sci USA,2006,103(38):13997-14002.
[9] EBRAHIMIE E,EBRAHIMI M,SARVESTANI N R,et al.Protein attributes contribute to halo-stability,bioinformatics approach[J].Saline Systems,2011,7(1):1.
[10] HAYES R J,BENTZIEN J,ARY M L,et al.Combining computational and experimental screening for rapid optimization of protein properties[J].Proc Natl Acad Sci USA,2002,99(25):15926-15931.
[11] COKER J A,DASSARMA P,KUMAR J,et al.Transcriptional profiling of the model ArchaeonHalobacteriumsp.NRC-1:Responses to changes in salinity and temperature[J].Saline Systems,2007,25(3):6.
[12] SCHWIBBERT K,MARIN-SANGUINO A,BAGYAN I,et al.A blueprint of ectoine metabolism from the genome of the industrial producerHalomonaselongataDSM 2581(T)[J].Environ Microbiol,2011,13(8):1973-1994.
[13] NIERMAN W C,F(xiàn)ELDBLYUM T V,LAUB M T,et al.Complete genome sequence ofCaulobactercrescentus[J].Proc Natl Acad Sci USA,2001,98(7):4136-4141.
[14] ALTSCHUL S F,MADDEN T L,SCHAFFER A A,et al.Gapped BLAST and PSI-BLAST:A new generation of protein database search programs[J].Nucleic Acids Res,1997,25(17):3389-3402.
[15] DING Yan-rui,CAI Yu-jie,ZHANG Ge-xin,et al.The influence of dipeptide composition on protein thermostability[J].FEBS Lett,2004,569(1/2/3):284-288.
[16] CHOU Kuo-chen,SHEN Hong-bin.Cell-PLoc:A package of web-servers for predicting subcellular localization of proteins in various organisms[J].Nat Prot,2008,3(2):153-162.
[17] CHOU Kuo-chen,SHEN Hong-bin.Recent progresses in protein subcellular location prediction[J].Anal Biochem,2007,370(1):1-16.
[18] WANG Tong,YANG Jie,SHEN Hong-bin,et al.Predicting membrane protein types by the LLDA algorithm[J].Protein& Peptide Lett,2008,15(9):915-921.
[19] LI Feng-min,LI Qian-zhong Z.Predicting protein subcellular location using Chou′s pseudo amino acid composition and improved hybrid approach[J].Protein& Peptide Lett,2008,15(6):612-616.
[20] LIN Hao.The modified Mahalanobis discriminant for predicting outer membrane proteins by using Chou′s pseudo amino acid composition[J].J Theor Biol,2008,252(2):350-356.
[21] FRANK E,HALL M,TRIGG L,et al.Data mining in bioinformatics using Weka[J].Bioinformatics,2004,20(15):2479-2481.
[22] KASTRITIS P L,PAPANDREOU N C,HAMODRAKAS S J.Haloadaptation:Insights from comparative modeling studies of halophilic archaeal DHFRs[J].Int J Biol Macromol,2007,41(4):447-453.
[23] PAUL S,BAG S K,DAS S,et al.Molecular signature of hypersaline adaptation:Insights from genome and proteome composition of halophilic prokaryotes[J].Genome Biol,2008,9:R70.
[24] WRIGHT D B,BANKS D D,LOHMAN J R,et al.The effect of salts on the activity and stability ofEscherichia coliandHaloferaxvolcaniidihydrofolate reductases[J].J Mol Biol,2002,323(2):327-344.
[25] ARAKAWA T,TOKUNAGA M.Electrostatic and hydrophobic interactions play a major role in the stability and refolding of halophilic proteins[J].Protein Pept Lett,2004,11(2):125-132.
[26] COSTANTINI S,COLONNA G,F(xiàn)ACCHIANO A M.Amino acid propensities for secondary structures are influenced by the protein structural class[J].Biochem Biophys Res Commun,2006,342(2):441-451.
[27] RADIVOJAC P,OBRADOVIC Z,SMITH D K,et al.Protein flexibility and intrinsic disorder[J].Protein Sci,2004,13(1):71-80.
[28] BETTS M J,RUSSELL R B.Amino acid properties and consequences of substitutions[M].Chichester:Bioinformatics for Geneticists Wiley,2003,289-316.
[29] BRITTON K L,BAKER P J,BORGES K M M,et al.Insights into thermal stability from a comparison of the glutamate dehydrogenases fromPyrococcusfuriosusandThermococcuslitoralis[J].Eur J Biochem,1995,229(3):688-695.
[30] BARDAVID R E,OREN A.The amino acid composition of proteins from anaerobic halophilic bacteria of the order Halanaerobiales[J].Extremophiles,2012,16(3):567-572.
[31] WARD J J,MCGUFFIN L J,BUXTION B F,et al.Secondary structure prediction with support vector machines[J].Bioinformatics,2003,19(13):1650-1655.
[32] UESTUEN B,MELSSEN W J,BUYDENS L M C.Facilitating the application of support vector regression by using a universal pearsonⅦfunction based kernel[J].Chemometrics and Intelligent Laboratory Systems,2006,81(1):29-40.
[33] 鄭啟富,陳德釗,劉化章.基于PersonⅦ核函數(shù)的支持向量機(jī)及其在化學(xué)模式分類中的應(yīng)用[J].分析化學(xué),2007,35(8):1142-1146.
[34] SABDERS W S,JOHNSTON C I,BRIDGES S M,et al.Prediction of cell penetrating peptides by support vector machines[J].PLOS Comput Biol,2011,7(7):e1002101.
[35] GROMIHA M M.Motifs in outer membrane protein sequences:Applications for discrimination[J].Biophy Chem,2005,117(1):65-71.
[36] ZHANG Guang-ya,F(xiàn)ANG Bai-shan.LogitBoost classifier for discriminating thermophilic and mesophilic proteins[J].J Biotechnol,2007,127(3):417-424.