李豆南,王曉丹,羅小葉,黃 魏,邱樹毅,*
(1.貴州大學 貴州省發酵工程與生物制藥重點實驗室,釀酒與食品工程學院,貴州 貴陽 550025;2.貴州大學生命科學學院,貴州 貴陽 550025)
鏈霉菌(Streptomyces)從分類學上歸屬于放線菌目,是最為高等的放線菌類群,具有發育良好的分枝菌絲,主要分布于土壤環境中。研究表明,該類群主要是一類革蘭氏陽性、化能異養型好氧菌[1],該菌屬下的菌株多數能夠合成結構復雜的次生代謝產物(如抗生素等),具有良好的生物活性,是一類具有很大應用潛力的微生物[2]。近年來,在醬香型、濃香型白酒釀造過程中也陸續分離得到該菌屬下的多種菌株,并對其代謝特性進行了一定的探究,確認該菌屬在釀造體系中存在重要的生物調控作用[3-4]。
全基因組測序是針對未知基因組序列的物種進行個體全部基因組測序,具有測序覆蓋面廣、準確性極高的技術優勢[5]。近年來隨著該技術的快速發展,以第2代測序技術為主體的全基因組測序技術已成為了一種高效檢測手段,廣泛應用于生物、醫學等領域。在微生物學方面,以低錯誤率、低成本化和測序通量高為特征的羅氏454、Illumina HiSeq 2000測序平臺已演變為基本的二代全基因組測序技術,成為了探究未知微生物類群多樣性、生物學特性、代謝功能機制的重要手段[6-7],已經在土壤、腸道環境中微生物類群的分析鑒定以及工程菌株的開發中發揮了重要的作用[8-10]。針對一些極端環境中的微生物而言,由于其難以分離、可培養性低的特點,傳統的分析方法已不適用,這時全基因組測序技術的優勢便展現出來[11],其中,在諸如油田中嗜熱采油芽孢桿菌(Geobacillus thermodenitrif i cans)[12]、新西蘭地熱區域中嗜酸甲烷氧化細菌[13-14]、水稻根際土壤中的斯氏假單胞菌(Pseudomonas stutzeri)[15]、蠟狀芽孢桿菌[16]、深海沉積物中耐壓耐冷的希瓦氏菌屬[17]、兩極地區永久凍土中的產甲烷菌類群[18]、氯消毒飲用水中的抗性變形菌類群[19]以及高酸性金屬礦中的硫桿菌、酸微菌群落[20]等極端環境下微生物的研究中均有該技術的運用,為微生物防治石油污染、特殊代謝途徑的發現和極端環境微生物多樣性等方面的研究起到了巨大的推動作用。
本研究的開展建立在課題組王曉丹等[21]之前的研究之上,其利用羅氏454 FLX+高通量測序平臺對貴州3 種醬香型高溫大曲中細菌的群落結構多樣性進行了深入研究,發現在屬水平上鏈霉菌屬為大曲中的優勢細菌屬之一,含量均占到大曲總生物量的1%以上,暗示該類群可能具有重要的功能性作用;基于這一結果,本課題組通過分離方法的設計,成功從大曲中得到1 株具有耐高溫特性的鏈霉菌株FBKL4.005,并以該菌株為材料進行全基因組測序分析,從基因功能注釋的角度快速剖析菌株的代謝特征,為日后醬香大曲中該類群功能性研究打下基礎。
鏈霉菌菌株(實驗室編號:FBKL4.005)篩選分離自茅臺某酒廠高溫醬香大曲;細菌基因組DNA提取試劑盒 美國Biomiga公司;制霉菌素、新生霉素、瓊脂糖、Tris、EDTA二鈉 北京索萊寶科技有限公司;其他化學試劑均為國產分析純。
Thermo高速冷凍離心機 美國貝克曼庫爾特有限公司;核酸凝膠電泳儀、凝膠成像儀 德國耶拿分析儀器股份公司;微型旋渦混合儀、Flex cycler多功能聚合酶鏈式反應(polymerase chain reaction,PCR)儀 美國Bio-Rad公司;BXM-30R立式滅菌鍋 上海博訊實業有限公司醫療設備廠;SW-CJ-1D凈化工作臺 蘇州凈化設備有限公司。
1.3.1 培養基的選擇與配方
菌株純化、斜面保藏培養基:ISP2培養基。
液體種子擴培培養基:葡萄糖10 g/L、酵母膏4 g/L、蛋白胨4 g/L、酵母浸粉4 g/L、K2HPO44 g/L、KH2PO42 g/L、MgSO4·7H2O 0.5 g/L,pH 7.2~7.4。
1.3.2 菌株總DNA的提取
從實驗室低溫(4 ℃)保藏的ISP2斜面培養基上刮取適量待測菌株,接種于100 mL液體種子擴培培養基中,于45 ℃培養24 h后,采用細菌基因組DNA提取試劑盒提取基因組DNA,操作步驟參照試劑盒說明書進行,所得基因組利用0.8%的瓊脂糖電泳后在凝膠成像儀上對提取效果進行檢測并用于基因組測序。
1.3.3 全基因組測序數據處理及分析
基因組DNA提取后采用Illumina HiSeq 2000測序平臺完成全基因組測序,上機前先利用HiSeq平臺完成建庫,使用Agilent 2100對文庫的插入片段進行檢測,并運用實時定量PCR技術對文庫的有效濃度進行準確定量,保證文庫質量。將測序得到的原始數據進行過濾處理,分別去除質量值不大于38的低質量堿基、N堿基達到10 bp、與連接物之間overlap超過15 bp的reads,去除樣品宿主以及重復污染,得到有效數據。
經過預處理后得到的有效數據,使用SOAP denovo組裝軟件[22-23]進行序列拼接組裝,根據序列的雙端信息,確定出contig排列,取長度大于500 bp的序列,根據不同的K-mer進行組裝得到初步組裝結果,然后采用krskgf、gapclose等軟件對初步組裝結果進行優化和補洞,將contig連接成基因組序列,得到最終組裝結果,并與GO(Gene Ontology)、COG(Cluster of Orthologous Groups of proteins)、KEGG(Kyoto Encyclopedia of Genes and Genomes)、NR(Non-Redundant Protein Database)、TCDB(Transporter Classification Database)數據庫進行比對分析,從而獲得菌株基因組功能注釋信息。
利用SOAP denovo組裝軟件[22-23]對測序得到的序列雙端的信息數據進行拼接(原始序列67 771 429 個reads,讀長150 bp,文庫插入片段大小6 000 bp),共獲得7 個scaffolds和69 個contigs,共9 441 858 bp的序列信息,其中用于判斷基因組拼接效果優劣的N50大小為352 516 bp,N90大小為116 315 bp;經過優化與補洞處理后,獲得菌株整個基因組大小為9 454 406 bp,GC含量為73.03%,基因平均長度為976 bp,其中編碼區基因總數為8 316 個,占整個基因組序列大小86.01%。由菌株基因GC含量及測序深度分布圖可知(圖1),經過拼接組裝后的GC含量主要分布在60%~80%之間,序列深度多分布在70~200×的范圍;Unigene長度分布集中在300~1 100 bp及大于2 000 bp范圍內(圖2),其中400~500 bp長度的基因分布最多,達到669 個,占總數的8.00%左右。

圖1 菌株GC含量及測序深度分布圖Fig.1 GC Content and sequencing depth distribution

圖2 菌株Unigene長度分布Fig.2 Unigene length distribution
將菌株測序數據與GO(Released November,2013)、COG(Released September,2015)、KEGG(Released April,2016)、NR(Released April,2016)、TCDB(Released April,2016)功能數據庫進行BLAST比對,同時使用antiSMASH(version 2.0.2)對基因組上已知次級代謝基因簇進行預測,對上述結果完成過濾(BLASTP,evalue≤1e-5),對于每一條序列的BLAST結果,均選取得分最高的比對結果(identity≥0%,coverage≥40%)進行注釋。發現菌株基因組共有7 946 個基因得到成功比對注釋,占基因總數的95.38%,共有258 個基因在所有數據庫中得到注釋,占基因總數的3.10%;其中,在NR、GO、COG數據庫中得到功能注釋的基因較多,分別為7 903、5 358 個和5 720 個,占基因總數的94.86%、64.31%及68.66%,而在TCDB數據庫中得到注釋的基因最少,僅有451 個,占基因總數的5.41%,具體的菌株基因組功能注釋分布情況見圖3。

圖3 菌株基因功能注釋分布情況Fig.3 Database distribution of gene functional annotation from the strain
2.2.1 NR數據庫基因注釋分析

表1 菌株基因組NR數據庫比對分析結果Table1 Results of BLAST with NR database

續表1
NR是一個非冗余的蛋白質數據庫[24],通過BLAST軟件,將菌株FBKL4.005的基因序列翻譯為相應的氨基酸序列,并與NR數據庫進行比對,得到最終的注釋結果。菌株一共有7 903 個基因被注釋到,占基因總數的94.86%,其中菌株FBKL4.005拼接基因組在屬水平上與現有的鏈霉菌屬(Streptomyces sp.)基因組核酸序列相似性在57.50%左右,總體相似度最高;而在種水平上則與吸水鏈霉菌(S. hygroscopicus)具有14.82%最高相似性。
2.2.2 COG數據庫基因注釋分析

圖4 菌株基因組COG數據庫比對分析結果Fig.4 COG functional classif i cation of maitake Unigenes
COG是由NCBI創建并維護的蛋白數據庫,根據細菌、藻類和真核生物完整基因組的編碼蛋白系統進化關系分類構建而成[25]。利用BLAST軟件,將菌株FBKL4.005的翻譯得到的氨基酸序列,與COG數據庫進行比對,完成相應基因的功能注釋。從功能注釋分析結果可以看出(圖4),菌株FBKL4.005基因功能注釋結果總共可以分為25 類,其中具有一般功能預測的注釋結果最為豐富,共778 個,占注釋基因總數的13.60%,其次是與物質代謝密切相關的759 個轉錄注釋結果,占注釋基因總數的13.27%,而與碳水化合物轉運和代謝、氨基酸轉運與代謝、信號轉導機制等功能相關的基因也得到較多的注釋結果,分別為611、602 個和453 個,此外還發現了302 個功能未知的基因,有待今后進一步研究。
2.2.3 GO數據庫注釋分析

表2 菌株基因組GO功能分類Table2 Gene ontology classif i cation of the strain
GO是1988年由基因本體聯合會創立基因本體論數據庫,能夠通過細胞學組件、生物學途徑、分子功能3 大分支數據庫對物種基因組進行分類和準確描述[26]。將菌株FBKL4.005翻譯氨基酸序列與GO數據庫進行比對,對GO的不同分類比對結果進行統計,得到菌株功能基因含量的分布情況(圖5)。菌株共有5 358 個基因在GO數據庫中被注釋到,在3 大類功能注釋數據下又可分為43 種功能注釋結果(表2),其中的細胞學組件類有10 個分支,共3 591 個基因注釋結果,菌株基因組與細胞、細胞組分功能組表現出最高相關性,各有1 514 個;生物學途徑類注釋存在22 個分支,共10 615 個,其中菌株基因組與代謝過程、細胞過程、生物調節、生物過程調控等功能組相關性較高,分別為3 161、2 677、993 個和979 個;分子功能類有11 個分支共7 044 個相關性注釋結果,其中菌株基因組與催化活性、連接功能組相關性最高,分別為2 987 個和2 697 個。

圖5 菌株的功能基因含量分布情況Fig.5 Functional gene distribution of strain FBKL4.005
2.2.4 KEGG數據庫注釋分析
KEGG建立于1995年,是全面分析基因表達產物在細胞中的代謝途徑及功能作用的重要參考,其中,最核心的便是KEGG PATHWAY數據庫;通過數據庫的比對查閱,可以快速方便地確定發揮某類功能相關的所有注釋基因[27-28]。本研究將菌株的氨基酸序列與KEGG數據庫進行比對,對KEGG不同分類比對結果完成統計,發現菌株基因組共有3 492 個基因得到注釋,占菌株基因總數的43.95%,碳水化合物、氨基酸以及脂肪代謝為菌株基因組最主要涉及的幾種代謝通路,分別有355、345 個和155 個基因注釋結果。
進一步通過KEGG PATHWAY數據庫分析,確定菌株有179 個物質代謝通路得到注釋,其中嘌呤代謝(93 個)、糖酵解與糖異生作用(91 個)、丁酸甲酯代謝(82 個)、氨基苯甲酸酯降解代謝(79 個)、脂肪酸代謝(78 個)、精氨酸/脯氨酸代謝(76 個)以及氨基糖/核苷酸糖代謝(75 個)等通路與菌株基因組相比擁有較高的相關度(表3)。此外,通過比對結果的匯總還發現338 個與白酒特征風味物質產生通路、187 個與土腥味物質代謝通路、87 個與環境污染物降解通路、74 個與大分子糖類物質降解通路以及57 個與鏈霉素和新霉素等抗生素產生通路相關的基因;因此根據這些信息,初步推測該菌株在白酒釀造體系中可能與特征風味產生有一定的關系,同時可能還具有一定的抗生素代謝功能和大分子物質降解能力,為今后該菌株代謝功能的探究打下了基礎。

表3 菌株基因組KEGG數據庫主要代謝通路分析Table3 Main metabolic pathways of the strain from KEGG database
2.2.5 TCDB數據庫注釋分析
TCDB是轉運蛋白分類數據庫,包括離子通道的分類系統,該數據庫提供了TC編號、描述信息和超過600 個轉運蛋白家族的實例數據;而轉移系統則以5 個級別進行分類,每個級別都對應于TC編號里的一個編號,用以表示特定類型的轉運蛋白質[29]。研究中使用BLAST軟件,將菌株的氨基酸序列與TCDB數據庫進行比對,分別得到TCDB一級分類統計結果與二級分類統計結果。其中從一級分類統計結果來看(表4),菌株基因組涉及到初級主動運輸以及電化學勢驅動轉運體功能的基因最多,分別為244 個與136 個,初步表明了菌株FBKL4.005可能多以主動運輸、電化學轉運的方式分泌和吸收各種物質;而從二級分類統計結果來看(圖6),與單向傳遞體、協同轉運子、逆向轉運子轉運以及P-P磷酸化驅動轉運蛋白相關的基因最多,分別為211 個和136 個,為菌株主要的轉運蛋白系統。

表4 菌株TCDB數據庫一級分類統計結果Table4 First level classif i cation of the strain by TCDB database

圖6 菌株TCDB數據庫二級分類統計結果Fig.6 Second level classif i cation of the strain by TCDB database
2.2.6 菌株次級代謝基因簇分析
次級代謝產物是微生物在一定的生長時期,以初級代謝產物為前體合成的一系列大分子生長非必需物質;通過次級代謝基因簇注釋分析可以看出(表5),菌株基因組有關萜烯類物質合成以及非核糖體肽合成酶的基因簇最多,各有5 個,此外還發現了與芳香類化合物合成有關的基因簇,其中萜烯類物質是醬香型白酒生產中鏈霉菌屬的主要代謝產物,與釀造過程中的土霉味產生密切相關,同時在藥香型以及濃香型白酒中也均有該類物質少量檢出[30-32],是白酒中與風味形成有關的物質之一;而芳香類化合物則同樣存在于各種香型的白酒中,同樣是構成白酒風味的重要成分[33]。

表5 菌株次級代謝基因簇分析Table5 Secondary metabolic gene clusters of the strain
本研究采用Illumina HiSeq第2代高通量測序技術對分離自醬香大曲的具有耐高溫特性的鏈霉菌菌株FBKL4.005進行全基因組測序,經序列拼接組裝后,確定菌株基因組大小為9 454 406 bp,是一種GC含量高達73.03%的微生物類群,同時將整合基因組數據與GO、COG、KEGG、NR、TCDB等幾大基本數據庫的進行比對分析,完成菌株基因組各方面功能的注釋及數據統計工作,從分子生物學的角度探究了該菌株的生物學特性以及代謝功能機制。
總體而言,菌株FBKL4.005在基因上與鏈霉菌屬尤其是該屬下的吸水鏈霉菌具有最高的相似性,從功能預測的角度來看,COG數據庫的比對結果顯示轉錄、碳水化合物、氨基酸代謝是菌株主要的功能預測結果;通過GO數據庫的比對,細胞、細胞組分、代謝過程、催化活性等注釋結果呈現出較高的相關性;利用KEGG數據庫中的代謝通路分析手段,確定了菌株主要代謝通路的組成,發現多個與白酒特征風味、土腥味、糖類物質降解、鏈霉素和新霉素產生等代謝通路相關的基因;此外,對菌株轉運蛋白系統及次級代謝產物基因簇進行了探究,從結果來看轉運子轉運、磷酸化驅動轉運蛋白系統主導的主動運輸、電化學轉運為菌株運輸物質的主要方式,同時發現與白酒風味、土腥味物質代謝相關的基因結構。而針對類似菌株,荊新云[34]也完成了全測序分析,獲得了全長8 047 771 bp的基因組、7 570 個編碼基因以及23 個次生代謝產物基因簇,同時發現與其耐熱性相關普遍脅迫蛋白基因的拷貝數比一般鏈霉菌高。與耐高溫鏈霉菌4F相比,菌株FBKL4.005基因組更大、次生代謝基因簇較多,且發現了高溫鏈霉菌4F所沒有的風味代謝相關基因,但其耐熱性基因卻未能有效證實。
研究針對醬香大曲中具有耐高溫特性的鏈霉菌菌株,采用全基因組測序技術對其生物學特性和代謝功能機制進行探究,得到大量基因組學信息,為今后深入開展醬香大曲中耐熱性鏈霉菌代謝功能特征及相關機制的研究提供了重要的數據參考。