王和玉,劉延峰,張巧玲,堵國成,楊 帆,李江華,*
(1.貴州香臺酒股份有限公司,貴州 仁懷 564501;2.江南大學 工業生物技術教育部重點實驗室,江蘇 無錫 214122)
白酒發酵過程中復雜的微生物種群是決定白酒風味特征的重要因素[1-3]。霉菌能夠分泌多種酶類分解原料為發酵過程微生物提供代謝底物,同時其自身可生成各種代謝產物,對白酒風味形成有重要貢獻[4-6]。在白酒生產中主要的功能霉菌包括毛霉、曲霉等。在醬香型白酒的釀造過程制曲、堆積發酵和窖池發酵中,宛氏擬青霉(Paecilomyces variotii)是優勢霉菌之一[7],研究表明該菌具有高糖化酶活力,能夠降解原料中的淀粉[8],并且在制曲工藝、堆積工藝以及兼性條件下分別進行純種固態發酵,能代謝生成酸、醇、醛、酮、酯及芳香族化合物等多種物質,發酵產生多種風味物質和風味前體物質,包括苯乙醇、苯乙酸等,是醬香型白酒中眾多呈香呈味物質中的組成部分[9]。同時P. variotii也能夠分泌降解糠醛的酶,可有效降低酒醅中的糠醛[10]。
目前,在白酒釀造行業,針對釀造微生物功能研究已從傳統的發酵分析手段轉方代謝組學結合宏基因組、轉錄組進行全方面的解析[11-14],迄今為止,白酒釀造微生物全基因組測序報道有地衣芽孢桿菌(Bacillus licheniformis)GMCC3963[15]、華根霉(Rhizopus chinensis)CTCCM201021[16]、耐高溫放線菌(Thermoactinomyces daqus)H-18[17]以及窖泥中分離得到的丁酸梭菌(Clostridium butyricum)JKY6D110[18]等。P. variotii作為醬香型白酒釀造過程的優勢微生物之一,在制曲及制酒階段活動活躍,目前對其研究主要在于產酶特性及代謝產物分析[8],P. variotii全基因組分析鮮見報道,對P. variotii發酵代謝機制及生理生化等微生物特性缺乏足夠的認識和了解,限制了深入開發和利用該微生物。
本研究通過PacBio RS II測序平臺,對香臺酒釀造過程中分離得到的P. variotii MTDF-01進行全基因組測序,根據測序獲得的數據進行基因組分析、基因功能注釋和比較基因組學分析,為今后進一步深入了解P. variotii在醬香型白酒生產過程中的代謝機理以及為調控菌株代謝能力提供重要的生物信息學基礎。
菌株MTDF-01分離自香臺酒釀造過程。
真菌基因組DNA提取試劑盒 北京索萊寶科技有限公司;其他化學試劑均為國產分析純。
ACB-401超凈工作臺 新加坡Esco科技有限公司;spx-250B-z生化培養箱 上海福馬實驗設備有限公司;MaxQ 6000軌道搖床 賽默飛世爾科技公司;5804R臺式高速冷凍離心機 德國Eppendorf公司;GelDoc XR凝膠成像系統 美國Bio-Rad公司。
1.3.1 菌體培養與回集
菌體培養:擬青霉劃線PDA瓊脂斜面培養基37 ℃培養72 h后通過無菌生理鹽水洗下孢子,制備成孢子懸浮液。
菌體搖瓶培養:吸取450 μL孢子懸浮液(孢子濃度數量級107)接種至20 mL/250 mL的PDA液體培養基中,搖床培養30 ℃、轉速200 r/min。將培養好的菌體通過過濾回集。
1.3.2 菌株總DNA提取
采用真菌基因組DNA提取試劑盒提取基因組DNA,操作步驟參照試劑盒說明書。提取得到的基因組通過0.8%瓊脂糖凝膠電泳檢測。
1.3.3 全基因測序組裝
本次測序委托武漢生物技術研究院完成。樣本質檢合格后,用Covarisg-TUBE對基因組DNA隨機打斷,進行文庫構建。利用磁磁富集、純化大片段DNA,對片段化的DNA進行損傷修復、末端修復;在DNA片段兩端連接莖環狀測序接頭,并利用外切酶去除連接失敗的片段,純化后,采用Agilent 2100 Bioanalyzer HighSensitivity Kit進行文庫質量檢測。采用第3代測序儀PacBioRS II對DNA進行非擴增長片段測序,測序完成后去除adapter序列及截掉reads部分區域的低質量堿基,采用HGAP[19]流程進行組裝,挑選長reads作為種子序列,其他的較短reads通過BLASR軟件[20]比對到種子序列,進行校正。最終以校正后的高質量種子reads采用Celera assembler組裝軟件[21]用OLC組裝算法進行組裝。利用Quiver軟件[22]進行組裝結果的優化和校正。在Quiver校正結果的基礎上,去除低覆蓋度的重疊群及冗余的重疊群。
1.3.4 基因預測與注釋
通過EVM(EvidenceModeler)軟件[23]整合Augustus軟件[24]、SNAP軟件[25]、GeneWise軟件[26]基因預測結果獲得基因結構預測,將獲得的基因提交COG(cluster of orthologous groups of proteins)[27]、GO(gene ontology)[28]、KEGG(kyoto encyclopedia of genes and genomes)[29-30]、NR(non-redundant protein database)、Swiss-Prot數據庫[31]、TrEMBL數據庫[31]進行比對,獲得功能注釋信息。
1.3.5 物種進化樹構建及分析
挑選菌株進行系統發育樹構建,運用MEGA 7.0軟件(https://www.megasoftware.net/)Neighbor-Joining法進行分析,以18S rRNA基因進行比較分析構建系統進化樹。
1.3.6 CAZy糖酶分析
通過dbCAN HMMs 3.0在線工具[32](http://csbl.bmb.uga.edu/dbCAN/index.php)將P. variotiiMTDF-01的CDS序列與碳水化合物活性酶(CAZy)數據庫(http://www.cazy.org/)進行比對分析。比對時dbCAN的閾值參數設置如下:如果比對的序列長度大于80 aa,閾值<1×10-5,否則閾值>1×10-3。
1.3.7 次級代謝產物合成基因簇分析
利用antiSMASH 3.0[33](https://fungismash.secondarymetabolites.org)對MTDF-01菌株中次生代謝物合成基因組簇進行預測。
1.3.8 基因組共線性分析
利用Mummer程序(https://sourceforge.net/projects/mummer/postdownload,版本3.23)對MTDF-01及NCBI中已測序的菌株P. variotiiNo.5進行分析比較,并用MUMmerplot將結果可視化。菌株P. variotiiNo.5序列從NCBI網站下載(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/497/085/GCA_000497085.1_PVAR5_assembly01/)。
PacBio RS II是首個商業化應用的第3代測序平臺,其采用特有的單分子實時技術使得測序讀長較第2代測序技術顯著增加(半數測序讀長大于20 kb),同時減弱GC性[19]。通過PacBio RS II測序平臺對菌株MTDF-01進行全基因組測序,獲得菌株MTDF-01全基因組數據。測序數據過濾后總數據量為2.58 G,平均測序讀長為14.64 kb,最長的測序讀長達到 46.94 kb,測序深度為83.81×,DNA靶序列平均長度為7 823 bp。對原始數據進行組裝后得到參考序列由19 個重疊群組成,形成19 個基因組骨架,總長度為30 833 540 bp,其中最長重疊群為7 588 950 bp,GC平均含量為47.46%。MTDF-01基因組測序數據提交至NCBI,GenBank登錄號為SAMN09987769。
為進一步確認MTDF-01的種屬關系,本研究以18S rRNA基因進行比較分析,構建系統發育樹(圖1)。結果表明MTDF-01與P. variotiiCBS 102.74、P. variotiiCBS 101075聚為一支,可以確定為P. variotii,同時與P. variotiiNo.5也聚為一支,兩者物種親緣關系較近。

圖1 通過MEGA Neighbor-Joining法構建的真菌分子系統發育樹Fig. 1 Molecular phylogenetic tree of fungi constructed by Neighbor-Joining method with MEGA software
基于ab initio預測軟件(Augustus、SNAP、GeneMark-ES)及同源比對預測兩種方法對P. variotiiMTDF-01測序拼接片段進行基因預測與編碼區分析,共預測出基因8 815 個,基因總長度為13 530 750 bp,平均基因長度為1 740 bp,平均編碼序列長度為478 bp。預測基因序列采用多個數據庫(KOGGOKEGGNRSwiss-ProtTrEMBL)進行比對,獲得相應功能注釋信息,最終注釋基因8 662 個,詳細統計數據見表1。在基因組序列上共找到5 044 個簡單重復序列,分別采用同源比對和de novo預測的方式對基因組的重復序列進行注釋,結果顯示該基因組中含有3.80%的重復序列。在基因序列上共找到tRNA數量為221 個,rRNA為49 個。

表1 基因功能注釋統計Table 1 Gene function annotation statistics of MTDF-01
2.4.1 COG聚類分析
NCBI創建并維護的蛋白數據庫COG是根據細菌、藻類和真核生物完整基因組的編碼蛋白系統進化關系分類構建而成。真核生物的序列功能可通過真核基因組數據庫KOG進行比對及預測。對P. variotiiMTDF-01基因功能進行初步分析,選擇利用COG進行基因注釋與功能分類,共注釋基因1 972 個,占總蛋白數的22.37%,可分為25 個功能組,3 大類分別為細胞過程及信號、信息儲存及加工、代謝過程,分別注釋基因數為556、336 個和822 個。從圖2可看出,分類為R(普通功能預測)的基因數量最多為377 個,其余基因序列主要集中在O(蛋白翻譯后修飾)、C(能量產生與轉換)、I(脂質轉運和代謝)及Q(次級代謝物合成、轉運和代謝)等分類單元。

圖2 MTDF-01預測蛋白COG功能分類Fig. 2 COG cluster analysis of MTDF-01 proteins
2.4.2 GO聚類分析
基于基因本體數據庫GO功能分類,該數據庫按照細胞學組件、分子功能、生物學過程對蛋白進行分類注釋。本研究將MTDF-01菌株進行蛋白質功能分析,共預測得到5 490 個蛋白,注釋統計結果如表2所示。可看出菌株的GO功能聚類在細胞、細胞組分、連接、催化活性、細胞過程、代謝過程等條目的基因數占據優勢,其中細胞和細胞組分各有1 187 個基因,分子功能中的連接和催化活性功能分別有2 929 個和2 922 個,生物學過程中的細胞過程和代謝過程分別注釋到2 077 個及2 914 個基因,表明在菌株的蛋白功能主要為細胞組成、代謝和酶催化。

表2 MTDF-01預測蛋白GO分類Table 2 Gene ontology classi fication of MTDF-01 proteins

續表2
2.4.3 KEGG代謝途徑預測分析
本研究通過將P. variotiiMTDF-01與KEGG數據庫進行比對分析,共注釋得到物質代謝通路274 個。MTDF-01中預測代謝通路(圖3)在新陳代謝、遺傳信息加工、細胞過程3 個大類中涉及基因較多,遺傳信息加工(轉錄、翻譯、蛋白質的折疊和加工等)共有566 個基因,細胞過程(轉運代謝、細胞運動、細胞生長與死亡細胞通訊等)共有382 個基因,而涉及代謝的這類基因最多,行使的功能較多,既有細胞本身合成氨基酸的基因,也有氨基酸代謝、膜蛋白基因以及能量系統基因等,共有1 506 個。在代謝中涉及基因最多的通路主要有嘌呤代謝途徑(ko00230)、氧化磷酸化途徑(ko00190)、嘌呤代謝途徑(ko00240)、糖酵解途徑(ko00010)、淀粉與蔗糖代謝途徑(ko00500)、精氨酸與脯氨酸代謝途徑(ko00330)。
通過比對結果發現,MTDF-01中涉及氨基酸代謝的代謝途徑有20 條共462 個基因,包含了苯丙氨酸、色氨酸和酪氨酸等芳香族氨基酸代謝途徑,芳香族氨基酸可為苯乙醇、苯乙酸等風味物質代謝提供前體物質,但缺失精氨酸合成途徑的相關基因。進一步對白酒特征風味物質相關通路分析發現MTDF-01具有苯乙醇、苯乙酸、亞麻油酸、苯甲酸、肉桂酸乙酯、乙酸、乳酸等風味物質的代謝途徑。其中苯乙醇和苯乙酸可通過苯丙氨酸、酪氨酸和色氨酸生物合成途徑將苯丙氨酸在氧化氫-過氧化物酶作用下生成2-苯乙酰胺,進一步在酰胺酶作用下生成苯乙酸,苯乙酸可在乙醛脫氫酶和和芳基乙醇脫氫酶作用下生成苯乙醇。苯丙氨酸也可通過芳香族L-氨基酸/L-色氨酸脫羧酶作用生成苯乙胺,苯乙胺在芳基乙醇脫氫酶作用下生成苯乙醇。在P. variotiiMTDF-01中有多條通路可合成乙酸,該菌株具有乙醇脫氫酶和乙醛脫氫酶相關基因能夠將乙醇氧化成乙酸,還可丙酮酸代謝途徑、乙醛酸和二羧酸鹽代謝途徑代謝生成乙酸。注釋結果表明P. variotiiMTDF-01有亞麻油酸、油酸、花生四烯酸、二十二碳六烯酸等多種有機酸合成的關鍵酶。有文獻報道,P. variotii具有降解糠醛的功能[10],但在注釋結果中并未發現糠醛降解途徑。根據預測信息可推測該菌株在白酒發酵過程中可能對白酒風味代謝具有重要貢獻。

圖3 P. variotiiMTDF-01 KEGG功能分類Fig. 3 KEGG cluster analysis of P. variotii MTDF-01 proteins
2.4.4 CAZy糖酶分析
在白酒釀造過程中,淀粉酶能夠將原料中的淀粉降解生成葡萄糖等利于微生物利用的還原糖,為發酵進程提供營養底物,促進酵母等微生物生長代謝。原料中的纖維成分較多,纖維素酶能夠對纖維素進行降解,釋放淀粉,有利于糖化酶的作用,同時纖維素酶能夠將原料淀粉中3%左右的纖維素和半纖維素轉化成可發酵性糖,有利于酵母的利用[34],此外,纖維素酶也會影響白酒的風味[35]。
將基因組序列與CAZy數據庫進行比對,在P. variotiiMTDF-01的基因組中共有907 個基因編碼的蛋白質結構域屬CAZy家族,包括425 個糖苷水解酶(glycoside hydrolases,GHs)、307 個糖苷轉移酶、75 個碳水化合物酯酶、5 個多糖裂解酶、213 個碳水化合物結合組件(carbohydrate-binding modules,CBMs),其中194 個基因含有多種組分結構域,表明MTDF-01含有豐富的碳水化合物代謝酶。CBMs作為一些GHs所含有的非催化活性結構的結構域,使得GHs能靠近底物,以增加GHs錨定底物的能力,從而影響GHs的酶催化活性。通過預測MTDF-01的基因組中共有108 個GHs基因含有CBMs結構域。
淀粉降解的酶主要為α-淀粉酶、α-葡萄糖苷酶(糖化酶)等,纖維素酶主要為α/β-葡聚糖酶、β-葡萄糖苷酶,木聚糖是半纖維素中最主要的碳水化合物,因此木聚糖酶也成為了半纖維素降解中的主要酶類。為進一步探索P. variotiiMTDF-01對淀粉及纖維素的降解能力,本研究對在P. variotiiMTDF-01基因組中淀粉/糖原、纖維素等降解酶相關酶進行統計,見表3。結果表明在P. variotiiMTDF-01基因組中含有多個淀粉及纖維素水解酶基因,分別為60 個及165 個,可推測P. variotiiMTDF-01具有降解淀粉和纖維素的潛力。在白酒生產過程中,纖維素酶來源廣泛,大曲中的細菌、真菌和放線菌都有產纖維素酶的能力。在曲霉[36]、Paenibacillussp.、Acinetobactersp.[37]等微生物中均有較強的纖維素降解力,但對P. variotii纖維素降解方面研究較少,P. variotii纖維素降解能力仍需進一步進行實驗驗證。

表3 P. variotii MTDF-01淀粉及纖維素降解酶CAZy預測結果Table 3 Predicted starch and cellulose degrading-enzymes of P. variotiiM TDF-01 from CAZy database
2.4.5 次級代謝產物合成基因簇分析

表4 MTDF-01次級代謝產物合成基因簇Table 4 Secondary metabolic gene clusters of MTDF-01
聚酮合酶基因合成酶途徑、非核糖體多肽合成酶途徑與聚酮合酶基因合成酶-非核糖體多肽合成酶混合代謝是大多數真菌毒素合成中的關鍵代謝途徑。同時在真菌的萜類化合物代謝過程中,也能產生多種真菌毒素[16]。用anti-SMASH對基因組進行次級代謝產物合成分析預測,基因組中共預測得到23 個次級代謝產物基因簇,主要為聚酮合酶(polyketide synthase,PKS)基因簇、非核糖體多肽合成酶(non-ribosomal peptide synthase,NRPS)基因簇和萜烯類,具體預測結果如表4所示。在預測到的基因簇中,pks和Nrps基因簇共15 個,占預測總基因簇的65.21%,T1pks有7 個,Nrps有6 個,T1pks-Nrps有2 個,萜烯類合成途徑基因簇有5 個。但所有基因簇與已知次級代謝產物進行BLAST比對發現,P. variotiiMTDF-01的基因組中PKS途徑、NRPS途徑與PKS-NRPS混合代謝途徑、萜烯類途徑中的基因簇并未匹配及注釋到相似性高的基因信息,相似度最高的僅為33%。因此可認為P. variotiiMTDF-01中不存在PKS、NRPS、PKSNRPS混合代謝途徑、萜烯類等途徑合成代謝能力,P. variotiiMTDF-01不具備合成該類物質的能力。
通過KEGG對萜類化合物合成途徑分析時也發現,在P. variotiiMTDF-01中注釋到參與萜類化合物代謝途徑的基因僅有26 個,其中萜類化合物合成途徑注釋到18 個基因,主要為萜類物質骨架結構的真菌甲羥戊酸合成途徑中注釋到相對完整的代謝途徑,共16 個基因,但并未注釋到特異性后修飾相關蛋白序列,因此,根據基因組預測信息可表明P. variotiiMTDF-01不具備真菌毒素合成能力,是白酒釀造過程的發全菌株。
2.5.1P. variotiiNo.5全基因組概況
目前已報道的關于P. variotii的全基因組測序的菌株為P. variotiiNo.5(NBRC109023)。P. variotiiNo.5是1 株分離于土壤中的耐甲醛的真菌,能夠在20 min內降解2%的甲醛[38]。將P. variotiiMTDF-01與P. variotiiNo.5菌株進行比較基因組學研究,以研究不同環境P. variotii基因組信息的差異,為研究不同來源P. variotii基因組框架、組成及蛋白差異提供理論基礎及研究方方。兩個菌株基本信息統計結果如表5所示。

表5 P. variotiiMTDF-01與P. variotii No.5基本特征比較分析Table 5 Comparative analysis of general features of P. variotii MTDF-01 and P. variotii No.5
2.5.2 共線性分析

圖4 P. variotii MTDF-01與P. variotii No.5基因組序列線性結構比較Fig. 4 Global alignment between P. variotii MTDF-01 and No.5
通過比較P. variotiiMTDF-01與P. variotiiNo.5兩個基因組的同源性,繪制共線性關系點陣圖(圖4)以觀測結構性的差異。結果表明P. variotiiMTDF-01與P. variotiiNo.5在基因組水平上存在較大差異。從圖4可看出,兩者基因組中有多條大片段能夠比對上,兩株菌基因組存在一定相似性,但是存在大量倒位、重排等現象。對單核苷酸多態性進行分析發現P. variotiiMTDF-01與P. variotiiNo.5兩個基因組共存在16 414 處單核苷酸堿基突變,其中有525 個堿基缺失,335 個堿基插入,15 554 個單堿基替換。
進一步對蛋白編碼序列進行分析發現:P. variotii MTDF-01共預測CDS序列8 815 個,P. variotii No.5共預測CDS序列8 877 個,總匹配蛋白數(相似度大于50%)為7 743 個,其中僅有26 個基因完全匹配上,其余7 717 個基因存在氨基酸層面的突變、插入或缺失,相似度在90%以上的基因有5 803 個,占總匹配蛋白數的74.94%。兩者在氨基酸水平上既有相似性又有各自的獨特性。通過KEGG注釋結果表明No.5存在大量環境信息處理相關基因,主要涉及信號轉導。由于P. variotii MTDF-01和P. variotii No.5兩株菌株來源環境差異較大,P. variotii No.5來源于土壤環境,而P. variotii MTDF-01在白酒釀造環境中經過高溫高酸等環境脅迫條件長期馴化,因此這也可能導致兩株菌在基因組及功能的差異。白酒釀造環境的長期馴化使P. variotii MTDF-01顯示出獨特性。
Oka等[38]將從土壤中分離得到的P. variotii No.5進行全基因組測序,并根據其具有降解甲醛的功能,對參與甲醛代謝的相關途徑進行了分析,發現了7 個相關蛋白。Radwan等[39]從噴氣燃料中分離得到Paecilomyces sp. BYSS01,預測發現共有334 種真菌酶參與碳水化合物代謝,并且能夠參與芳香烴和正烷烴的降解。但在白酒釀造過程中關于P. variotii的基因組研究鮮見報道。本研究通過對白酒釀造過程中分離得到P. variotii MTDF-01進行全基因組測序,拼接得到基因組總長度為30 833 540 bp,GC平均含量為47.46%。通過COG、GO、KEGG等數據庫比較分析發現MTDF-01菌株基因主要涉及遺傳信息加工、細胞轉運及代謝過程,在代謝過程中主要參與碳水化合物、氨基酸、核苷酸、能量代謝等代謝通路,這為進一步了解P. variotii代謝機理提供了理論基礎。基于KEGG和全基因組測序數據代謝網絡注釋發現,P. variotii MTDF-01具有苯乙醇、苯乙酸、苯甲酸、肉桂酸乙酯、乙酸、乳酸等代謝途徑并具有合成多種有機酸的關鍵酶,此外,通過碳水化合物預測和次級代謝產物分析表明P. variotii MTDF-01含有多個淀粉和纖維素水解酶,具有降解淀粉和纖維素的潛力,不具備真菌毒素合成能力,是白酒釀造過程的發全菌株。對P. variotii MTDF-01與P. variotii No.5基因組進行比較基因組學分析發現,兩者存在顯著差異,存在翻轉及異位等基因組重排現象,P. variotii MTDF-01具有獨特性。
本研究利用全基因組測序對白酒釀造過程中分離得到的P. variotii MTDF-01進行分析,在P. variotii MTDF-01中發現了參與釀酒原料代謝及風味物質合成代謝的基因及代謝通路,為解析P. variotii的釀造功能提供了新思路,從基因組水平對P. variotii代謝途徑的挖掘,為深入了解P. variotii在白酒生產過程中的代謝機理提供了參考信息及研究方方,對以后P. variotii的相關研究具有重要意義。