叢華劍武栓虎田健初曉宇伍寧豐
(1.煙臺大學(xué),煙臺 264005;2.中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所,北京 100081)
基于細(xì)菌同源蛋白預(yù)測細(xì)菌最適生長溫度的研究
叢華劍1,2武栓虎1田健2初曉宇2伍寧豐2
(1.煙臺大學(xué),煙臺 264005;2.中國農(nóng)業(yè)科學(xué)院生物技術(shù)研究所,北京 100081)
不同細(xì)菌有不同的最適生長溫度,而基因序列與其最適生長溫度密切相關(guān)。為探究其相關(guān)性,選取92個具有不同最適生長溫度的細(xì)菌的全基因組序列為研究材料,通過尋找92個細(xì)菌共有的同源蛋白,并計算共有同源蛋白中氨基酸的頻率,發(fā)現(xiàn)共有同源蛋白的氨基酸頻率特征與其最適生長溫度存在著顯著的相關(guān)關(guān)系,其中蛋白質(zhì)序列中的螺旋結(jié)構(gòu)與其最適生長溫度關(guān)系最大。該研究為揭示細(xì)菌對溫度的適應(yīng)機(jī)制,以及對蛋白質(zhì)穩(wěn)定性相關(guān)的分子設(shè)計具有重要的意義。
細(xì)菌;最適生長溫度;同源蛋白;氨基酸頻率
細(xì)菌生長在不同的自然環(huán)境里,在某個特定的溫度下,它的生長速度最快,這個溫度被稱為其最適生長溫度。根據(jù)最適生長溫度的不同,細(xì)菌可以被分為嗜熱菌、中溫菌及嗜冷菌,其中嗜熱菌的最適生長溫度一般在40℃以上,嗜冷菌的最適生長溫度在20℃以下,而大多數(shù)中溫菌最適生長溫度在30℃左右。細(xì)菌適應(yīng)不同最適生長溫度的機(jī)制一直是人們針對細(xì)菌研究的熱點(diǎn)。2003年,Makarova等[1]通過系統(tǒng)發(fā)生學(xué)分析方法尋找到一些可能對嗜熱起關(guān)鍵作用的基因,并找到了一些與嗜熱表型特征相關(guān)的同源基因簇。2007年,Li等[2]發(fā)現(xiàn)了部分原核生物基因序列與其最適生長溫度的關(guān)系。2011年,Kim 等[3]發(fā)現(xiàn)了某一藻類中的耐熱基因,該基因的表達(dá)使其在高溫下有更好的生存能力。2012年,Jensen等[4]基于全基因組序列,利用貝葉斯的統(tǒng)計方法對細(xì)菌的最適生長溫度范圍進(jìn)行了預(yù)測,得到了準(zhǔn)確的結(jié)果。2014年,Hu[5]發(fā)現(xiàn)了對細(xì)菌在低溫下正常生長起關(guān)鍵作用的酶。通過大量研究表明,細(xì)菌在最適生長溫度方面的差異,與其基因序列的差異密切相關(guān),然而對于影響其最適生長溫度的序列特征,目前仍缺乏有效的研究和分析,需要從基因組學(xué)的層面對其進(jìn)行系統(tǒng)挖掘。
本研究為了探究基因序列與其最適生長溫度的關(guān)系,將運(yùn)用生物信息學(xué)的方法確定不同細(xì)菌間共有的同源蛋白,并對這些共有同源蛋白進(jìn)行序列分析,從中分析與其最適生長溫度相關(guān)的分子特征,為揭示細(xì)菌對溫度的適應(yīng)機(jī)制以及利用蛋白質(zhì)的分子設(shè)計來提高其穩(wěn)定性等方面奠定基礎(chǔ)。
1.1 材料
數(shù)據(jù)集采用Jensen等[4]在實驗中采用的92個細(xì)菌(表1),其全基因組序列和最適生長溫度均來自NCBI數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/)。

表1 92個細(xì)菌的詳細(xì)信息

續(xù)表
1.2 方法
1.2.1 提取共有同源蛋白 在NCBI數(shù)據(jù)庫中,獲取全部92個細(xì)菌的全部基因組信息,選取基因數(shù)目最多的一個細(xì)菌,通過RSD[6]軟件(Reciprocal Smallest Distance,https://github.com/todddeluca/ reciprocal_smallest_distance/)找到該菌與其他所有細(xì)菌之間共有的同源蛋白,參數(shù)divergence和E-value thresholds分別取值0.2和1e-20,divergence是散度閾值,用來判斷基因之間的“距離”,E-value是期望值閾值,用來判斷結(jié)果的顯著性。通過整理之后可以得到所有細(xì)菌的共有的同源蛋白,然后對其進(jìn)行序列比對[7]確定蛋白質(zhì)的功能。
1.2.2 計算氨基酸頻率 提取共有同源蛋白中每一種氨基酸的頻率,并把其頻率值作為特征,采用隨機(jī)森林的方法來模擬其與最適生長溫度的相關(guān)性。相關(guān)系數(shù)采用20-倍的交叉驗證的方法進(jìn)行,首先把數(shù)據(jù)分為20份,每一次交叉驗證選取其中一份作為測試集,其余19份數(shù)據(jù)作為訓(xùn)練集,通過訓(xùn)練集建立隨機(jī)森林模型,然后用測試集進(jìn)行驗證,通過20次交叉驗證后,可以得到最終的相關(guān)系數(shù),相關(guān)系數(shù)計算公式如下:

式中,ρ表示相關(guān)系數(shù)值,X與Y分別表示同源蛋白的氨基酸頻率與溫度值,N為樣本數(shù)量。通過計算可以得到每一個同源蛋白的氨基酸頻率與最適生長溫度之間的相關(guān)系數(shù)。
1.2.3 進(jìn)化樹的構(gòu)建 利用與最適生長溫度相關(guān)性最高的同源蛋白的序列、全部共有同源蛋白序列以及菌株的16S rDNA來構(gòu)建進(jìn)化樹,采用的工具為MEGA[8](Molecular Evolutionary Genetics Analysis,http://www.megasoftware.net/),先對所有的同源蛋白進(jìn)行序列比對,然后選擇構(gòu)建Maximum Likelihood Tree,因為根據(jù)最大似然估計的方法,概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。Bootstrap replications值選擇1 000,1 000次重復(fù)可以充分保證結(jié)果的可靠性。其他參數(shù)為默認(rèn)值,以此可以構(gòu)建出反應(yīng)進(jìn)化關(guān)系的進(jìn)化樹。
1.2.4 確定對與最適生長溫度關(guān)系最大的序列位置
選取與最適生長溫度相關(guān)性最高的10個共有同源蛋白,采用ClusterW[9,10](http://www.clustal.org/)對其序列進(jìn)行比對后,逐列分析確定與其最適生長溫度相關(guān)的關(guān)鍵位置。具體方法是根據(jù)比對結(jié)果,一次刪除一列,計算相關(guān)系數(shù),與原相關(guān)系數(shù)進(jìn)行比較,得到差值,差值的絕對值越大,說明這個位置與最適生長溫度的關(guān)系越大。
從與最適生長溫度相關(guān)性最高的前10個同源蛋白中,提取每個同源蛋白中對最適生長溫度影響較大的前5%的位置,每個同源蛋白合并可得到92個“子序列”,將10個同源蛋白的“子序列”合并成92個“特征序列”,“特征序列”中的每一個位置都是影響細(xì)菌最適生長溫度的關(guān)鍵序列。我們將對得到的“特征序列”進(jìn)行后續(xù)的氨基酸指數(shù)和蛋白質(zhì)二級結(jié)構(gòu)方面的分析。
1.2.5 計算氨基酸指數(shù) 氨基酸指數(shù)[11]是代表每種氨基酸物理或化學(xué)性質(zhì)的一套定量值標(biāo),現(xiàn)每種氨基酸已有544個氨基酸指數(shù),分別代表某種氨基酸的544種性質(zhì)。在獲取全部544種氨基酸指數(shù)后,分別計算每個“特征序列”在每種氨基酸指數(shù)下的加權(quán)平均值,這樣可以獲取一個92行544列的矩陣,然后計算某種氨基酸指數(shù)與最適生長溫度的相關(guān)性,共可獲取544個氨基酸指數(shù)與最適生長溫度的相關(guān)指數(shù)。
2.1 共有同源蛋白的提取
不同的微生物通常含有不同的基因數(shù)量,為了使不同微生物間具有可比性,本研究首先提取了不同物種間共有的直系同源基因,這些基因一般是由共同的祖先進(jìn)化而來。不同物種間的直系同源基因一般具有類似的功能,通常編碼生命必需的酶、輔酶或關(guān)鍵調(diào)控蛋白的基因,往往具有功能保守、進(jìn)化緩慢的特征[12,13],這樣的特點(diǎn)便于利用其來分析基因序列與最適生長溫度的關(guān)系等相關(guān)研究。表2為提取的53個共有的同源基因信息,這些基因是生物中的看家基因,如methionyl-tRNA formyltransferase、glutamine-fructose-6-phosphate aminotransferase、Polyribonucleotide nucleotidyltransferase等都是細(xì)菌中非常重要的轉(zhuǎn)移酶,30S ribosomal protein S13、50S ribosomal protein L13等都是參與細(xì)胞翻譯過程的核糖體亞單位的重要組成蛋白。它們在維持生命的過程中起到關(guān)鍵的作用。

表2 53個共有同源基因信息

圖1 53個同源蛋白中氨基酸頻率與溫度的相關(guān)系數(shù)
2.2 氨基酸頻率與最適生長溫度的相關(guān)性
53個共有同源蛋白中氨基酸的頻率與最適生長溫度的相關(guān)系數(shù),并按相關(guān)系數(shù)大小進(jìn)行排序,結(jié)果(圖1)顯示,與溫度相關(guān)性最高的同源蛋白,相關(guān)系數(shù)為0.86,對應(yīng)的蛋白質(zhì)名稱為:Polyribonucleotide nucleotidyltransferase,相關(guān)性最低的同源蛋白,相關(guān)系數(shù)為0.67,對應(yīng)蛋白質(zhì)名稱為:Ribulose-phosphate 3-epimerase,全部53個共有同源蛋白的相關(guān)系數(shù)都在0.65以上,說明共有同源蛋白的氨基酸頻率與其最適生長溫度具有很高的相關(guān)性。我們把53個共有同源蛋白相連,計算氨基酸頻率與其最適生長溫度的相關(guān)系數(shù)為0.90,再次驗證了共有同源蛋白中氨基酸頻率與最適生長溫度之間具有較高的相關(guān)性。
2.3 氨基酸指數(shù)分析
圖2為相關(guān)系數(shù)最高的前30個氨基酸指數(shù)(圖2-A)和最低的后30個氨基酸指數(shù)(圖2-B)的對比圖,圖中顏色越深的點(diǎn)表示相關(guān)系數(shù)值越大。圖2-A顯示,除了排在第9位的氨基酸指數(shù)呈現(xiàn)負(fù)相關(guān)的關(guān)系,具體表現(xiàn)為隨著“特征序列”最適生長溫度的增加,氨基酸指數(shù)值逐漸變小,其他的氨基酸指數(shù)均呈現(xiàn)正相關(guān)的關(guān)系,表現(xiàn)為隨著“特征序列”最適生長溫度的增加,氨基酸指數(shù)值逐漸變大。由此可見,蛋白質(zhì)中與其最適生長溫度相關(guān)的特征序列中的氨基酸選擇性有明顯的傾向性,在相關(guān)系數(shù)最高的前30個氨基酸指數(shù)中,其相關(guān)系數(shù)絕對值均在0.70以上。10個與最適生長溫度相關(guān)性最高的氨基酸指數(shù)(表3)顯示,最適生長溫度較高的微生物中蛋白質(zhì)中的特征序列傾向選擇分子量大,且疏水性強(qiáng)的氨基酸。

圖2 相關(guān)系數(shù)最高的前30個氨基酸指數(shù)(A)和最低的30個氨基酸指數(shù)(B)

表3 相關(guān)性最大的前10個氨基酸指數(shù)
2.4 蛋白質(zhì)二級結(jié)構(gòu)信息
對于蛋白質(zhì)二級結(jié)構(gòu)上的分析,本研究主要探究“特征序列”的每個氨基酸位于蛋白質(zhì)的區(qū)域,觀察其是否有明顯的位置特征。對蛋白質(zhì)的二級結(jié)構(gòu)的預(yù)測,采用的工具是PSIPRED[14](http://bioinf. cs.ucl.ac.uk/psipred/)。

圖3 利用Polyribonucleotide nucleotidyltransferase所建的進(jìn)化樹

圖4 全部同源蛋白構(gòu)建的進(jìn)化樹

圖5 基于16 S基因構(gòu)建的進(jìn)化樹
對最適生長溫度的影響比較大的氨基酸主要分布于α螺旋及l(fā)oop區(qū),比例分布分別為46.10%和37.13%,β折疊部分只占了16.77%。而“特征序列”所在的完整的蛋白序列中,α螺旋、loop區(qū)及β折疊所占的比例分別為:35.30%、46.37%及18.33%。研究發(fā)現(xiàn),“特征序列”中α螺旋所占比例增加,loop區(qū)所占比例減少,β折疊部分基本保持不變,可見對最適生長溫度有較大影響的位置對α螺旋部分有一定選擇偏好性。
2.5 進(jìn)化分析
我們選取與最適生長溫度相關(guān)性最高的同源蛋白以及全部蛋白來構(gòu)建進(jìn)化樹(圖3,圖4)。通過觀察與最適生長溫度相關(guān)性最高的同源蛋白所建的進(jìn)化樹(圖3),發(fā)現(xiàn)較為明顯的異常值有8個,分別占總數(shù)的8.7%。全部共有同源蛋白相連所建的以及進(jìn)化樹(圖4),可以發(fā)現(xiàn)較為明顯的異常值有5個,占總數(shù)的5.4%。利用92個細(xì)菌的16S rDNA構(gòu)建的進(jìn)化樹(圖5),其明顯的異常值有7個,占總數(shù)的7.6%,其值均不足10%。因此通過進(jìn)化樹很好地將高溫、中溫以及低溫3類細(xì)菌進(jìn)行了分類,且3個進(jìn)化樹分類效果相當(dāng)。
本研究通過氨基酸頻率特征來探究共有同源蛋白中一些對溫度有影響的關(guān)鍵位置,并對其進(jìn)行分析發(fā)現(xiàn),細(xì)菌中的一些特殊基因序列對其最適生長溫度有較大影響,這對蛋白質(zhì)熱穩(wěn)定性相關(guān)實驗有比較重要的指導(dǎo)意義。然而,實際上仍有很多因素對蛋白質(zhì)熱穩(wěn)定性有較大影響,國內(nèi)外學(xué)者都對其進(jìn)行了大量的研究。其中Zeldovich等[15]的研究發(fā)現(xiàn)、Ile、Val、Tyr、Trp、Arg、Glu及Leu(IVYWREL)在蛋白序列中的比例與蛋白質(zhì)的最適生長溫度有較高的相關(guān)性,說明氨基酸的組成比例與蛋白質(zhì)的最適生長溫度具有相關(guān)性。除了基因序列的影響之外,蛋白質(zhì)的空間結(jié)構(gòu)作用力的影響也是一個重要的因素[16],通過分析蛋白質(zhì)的三級結(jié)構(gòu),并對其進(jìn)行分子動力學(xué)模擬,可以更直觀地分析在高溫情況下蛋白質(zhì)的熱穩(wěn)定性情況。Mitra等[17]的研究就是通過這樣的方法對蛋白質(zhì)進(jìn)行設(shè)計,提高了纖維素酶的熱穩(wěn)定性,Akcapinar等[18]則是對突變后的耐高溫蛋白質(zhì)進(jìn)行分析,從蛋白質(zhì)活性中心空間作用力改變的角度解釋了突變對其熱穩(wěn)定性的提高的機(jī)制。在國內(nèi),對細(xì)菌最適生長溫度以及蛋白質(zhì)熱穩(wěn)定性的研究也正不斷開展[19-21],在基因組的熱穩(wěn)定性機(jī)制,蛋白質(zhì)穩(wěn)定性的機(jī)理,理性設(shè)計蛋白質(zhì)熱穩(wěn)定性等方面都取得了不錯的研究成果。所以,在后續(xù)工作中將對這些因素進(jìn)行更深入的研究,同時也將選取一個更大的數(shù)據(jù)庫來獲取影響最適生長溫度的特征,通過生物信息學(xué)的方式來對蛋白質(zhì)的熱穩(wěn)定性進(jìn)行系統(tǒng)的預(yù)測分析。利用生物信息學(xué)的方法,可以更高效地獲得并處理大量的基因組數(shù)據(jù),這將對理解蛋白質(zhì)的熱穩(wěn)定性以及蛋白質(zhì)的分子設(shè)計具有重要的意義。
本研究通過利用生物信息學(xué)的方法,從基因組的層面上對細(xì)菌的最適生長溫度進(jìn)行了分析,利用氨基酸頻率作為特征,發(fā)現(xiàn)了同源蛋白的氨基酸頻率與細(xì)菌最適生長溫度有較高的相關(guān)性;通過構(gòu)建進(jìn)化樹分析發(fā)現(xiàn),共有同源蛋白可以更好地對不同最適生長溫度的細(xì)菌進(jìn)行分類。通過分析氨基酸指數(shù)發(fā)現(xiàn),不同最適生長溫度的細(xì)菌中,同源蛋白對氨基酸的選擇有偏好性。通過分析蛋白質(zhì)二級結(jié)構(gòu)發(fā)現(xiàn),對細(xì)菌最適生長溫度影響較大的位置的氨基酸普遍位于α螺旋以及l(fā)oop區(qū),并且偏好選擇于α螺旋部位。
[1]Makarova KS, Wolf YI, Koonin EV. Potential genomic determinants of hyper thermophily[J]. Trends Genet, 2003, 19:172-176.
[2]Li W, Zou H, Tao M. Sequences downstream of the start codon and their relations to G02+02C content and optimal growth temperature in prokaryotic genomes[J]. Antonie Van Leeuwenhoek, 2007, 92(4):417-427.
[3]Kim E, Park H S, Jung Y, et al. Identification of the high-temperature response genes from Porphyra seriata(rhodophyta)expression sequence tags and enhancement of heat tolerance of Chlamydomonas(chlorophyta)by expression of the Porphyra htr2 gene 1[J]. Journal of Phycology, 2011, 47(4):821-828.
[4] Jensen DB, Vesth TC, Hallin TC, et al. Bayesian prediction of bacterial growth temperature range based on genome sequences[J]. BMC Genomics, 2012, 13(suppl7):53.
[5]Hu J. Polynucleotide phosphorylase is required for Escherichia coliO157:H7 growth above refrigerated temperature[J]. Foodborne Pathogens & Disease, 2014, 11(3):177-185.
[6] Wall DP, Deluca T. Ortholog detection using the reciprocal smallest distance algorithm[J]. Methods In Molecular Biology, 2007, 396:95-110.
[7]Altschul SF. Basic local alignment search tool[J]. J Mol Biol,1990, 215:403-410.
[8] Tamura K, Stecher G, Peterson D, et al. MEGA6:molecular evolutionary genetics analysis version 6.0[J]. Molecular Biology and Evolution, 2013, 30:2725-2729.
[9]Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice[J]. Nucleic Acids Res, 1994, 22:4673-4680.
[10]Larkin MA, Blackshields G, Brown NP, et al. Clustal W and Clustal X version 2. 0[J]. Bioinformatics, 2007, 23:2947-2948.
[11] Kawashima S, Kanehisa M. AAindex:amino acid index database[J]. Nucleic Acids Res, 2000, 28(1):374.
[12] Sonnhammer EL, Koonin EV. Orthology, paralogy and proposed classification for paralog subtypes[J]. Trends in Genetics, 2002,18(12):619-620.
[13]Gabaldn T, Dessimoz C, Huxley-Jones J, et al. Joining forces in the quest for orthologs[J]. Genome Biology, 2009, 10(9):403.
[14]Jones DT. Protein secondary structure prediction based on positionspecific scoring matrices[J]. J Mol Biol, 1999, 292:195-202.
[15]Zeldovich KB, Berezovsky IN, Shakhnovich EI. Protein and DNA sequence determinants of thermophilic adaptation[J]. Plos Computational Biology, 2007, 3(1):62-72.
[16]Ratakonda S, Anand A, Dikshit K, et al. Crystallographic structure determination of B10 mutants of Vitreoscilla hemoglobin:role of Tyr29(B10)in the structure of the ligand-binding site[J]. Acta Crystallographica Section F-Structural Biology and Crystallization Communications, 2013, 69:215-222.
[17]Mitra S, Mukhopadhyay BC, Mandal AR, et al. Cloning,overexpression, and characterization of a novel alkali-thermostable xylanase from Geobacillus sp. WBI[J]. Journal of Basic Microbiology, 2015, 55(4):527-537.
[18]Akcapinar GB, Venturini A, Martelli PL, et al. Modulating the thermostability of Endoglucanase I from Trichoderma reesei using computational approaches[J]. Protein Engineering Design & Selection, 2015, 28(5):127-135.
[19]田健, 王平, 伍寧豐, 范云六. 理性設(shè)計提高蛋白質(zhì)熱穩(wěn)定性的研究進(jìn)展[J]. 生物技術(shù)進(jìn)展, 2012, 4:233-239.
[20]張健, 張琳, 王維. 通過蛋白質(zhì)序列比對探討細(xì)菌的熱適應(yīng)機(jī)制[J]. 安徽農(nóng)業(yè)科學(xué), 2011, 21:12646-12648.
[21] 盛多紅. 超嗜熱古菌基因組的熱穩(wěn)定性[J]. 生命科學(xué),2014, 1:64-71.
(責(zé)任編輯 李楠)
Prediction of Optimal Growth Temperature of Bacterium Based on the Homologous Proteins
CONG Hua-jian1,2WU Shuan-hu1TIAN Jian2CHU Xiao-yu2WU Ning-feng2
(1. Yantai University,Yantai 264005;2. Biotechnology Research Institute,Chinese Academy of Agricultural Sciences,Beijing 100081)
The optimal temperature for each bacterium differs,which is related to its gene sequence. In order to explore the correlation between them,the known genome sequences of 92 bacteria with own different optimal temperatures were selected as the study material,then the common homologous protein from 92 bacteria were searched,and frequencies of the amino acids in homologous protein were calculated. A significant correlation between the frequency of the amino acid in homologous protein and the optimal growth temperature was realized. The analysis of the sites in homologous genes showed that the helix regions in the protein sequence were the most correlated with its optimal growth temperature. This study presents important significance on understanding the mechanism of the bacterial adaption to the temperature as well as designing the mutation to improve the protein stability.
bacterium;optimal growth temperature;homologous protein;amino acid frequency
10.13560/j.cnki.biotech.bull.1985.2016.03.025
2015-05-19
國家自然科學(xué)基金項目(31371748)
叢華劍,男,碩士,研究方向:生物信息學(xué);E-mail:conghuajian1991@163.com
武栓虎,教授,碩士生導(dǎo)師, 研究方向: 數(shù)字圖像處理,數(shù)字信號處理,基因信息學(xué),模式識別, 視頻圖像壓縮,小波分析與應(yīng)用,E-mail:wushuanhu@163.com;田健,博士,副研究員,碩士生導(dǎo)師,研究方向:蛋白質(zhì)分子設(shè)計與改良、微生物重要基因資源挖掘等,E-mail:tianjian@caas.cn