宋曉兵,彭埃天,凌金鋒,陳 霞,崔一平
(廣東省農業科學院植物保護研究所/廣東省植物保護新技術重點實驗室,廣東 廣州 510640)
昆蟲病原真菌廣泛存在于自然界中,是害蟲的自然天敵之一,由真菌侵染引起的昆蟲疾病約占60%[1]。昆蟲病原真菌種類資源豐富,已經發現了1 000多種昆蟲病原真菌[2],是微生物殺蟲劑的重要材料來源。生物控制是一種防治農業害蟲的經濟和生態友好方法[3-4],利用昆蟲病原真菌防治害蟲具有不易產生抗性、易造成昆蟲病害流行、生態安全環保等優勢[5-6],在今后的農業害蟲防治中具有良好的應用前景[7-8]。
基因組學是研究生物基因組的組成、結構、相互關系、表達調控,以及對全基因進行集體表征、定量分析及不同基因組比較研究的一門交叉生物學學科,基因組學、轉錄組學、蛋白質組學以及代謝組學等共同構成系統生物學的組學基礎。測序技術的快速發展促進了真菌基因組學的研究,通過基因組測序針對特定屬種的多基因組測序比較分析,獲得進化過程中與真菌次級代謝合成相關的重要基因、蛋白質家族等,進而為真菌的形態差異、致病性差異、環境適應性等提供遺傳依據[9-10]。昆蟲病原真菌是與宿主相互作用的真菌,不同真菌的寄主范圍不同、致病力也存在顯著差異。已完成的球孢白僵菌(Beauveria bassiana)、金龜子綠僵菌(Metarhizium anisopliae)、蝗綠僵菌(Metarhizium acridum)、冬蟲夏草菌(Ophiocordyceps sinensis)和蛹蟲草菌(Cordyceps militaris)等典型昆蟲病原真菌的全基因組測序,加速了涉及關鍵基因功能、真菌致病機制、宿主與病原體互作以及涉及真菌繁殖的深入研究[11]。
本文綜述了昆蟲病原真菌基因組學的最新研究進展,涵蓋利用基因組學及多組學聯合揭示昆蟲病原真菌的種內或物種間的進化,以及寄主范圍改變、侵染機理、免疫機制、代謝產物等方面,期望能為今后農業害蟲生物控制的應用提供理論依據。
目前,DNA測序已經從第一代測序技術發展到第三代測序技術。1977年Maxam和Gilbert發明了化學降解法[12],同年Sanger法即雙脫氧終止法(Chain Termination Method)標志第一代測序技術的誕生[13]。Sanger測序技術因操作簡便、準確率高和較長讀長的優勢而被廣泛應用,基于該技術完成了人類的基因組測序[14]。
第一代測序技術速度快,但單次僅能測一條序列,測序讀長在1 000~1 500 bp,測序成本高、通量低,不能夠應用于大規模的基因測序[15]。20世紀90年代中后期,第二代測序(Nextgeneration sequencing,NGS)技術出現,主要解決了第一代測序通量低的問題,可以同時對多達幾百萬條的DNA序列進行測定,也被稱為高通量測序技術[16]。二代測序平臺主要有Roche公司的454、Illumina公司的Solexa和Hiseq、ABI公司的Solid、華大基因的BGISEQ等[17]。
二代測序技術通量高,但測序讀長較短,測序片段限制在250~300 bp,某些序列可能無法被大量擴增,造成信息的丟失。目前第三代測序技術方興未艾,通過單分子水平讀取核苷酸序列,因此也被稱為單分子測序技術。當前主流的第三代測序技術主要有HeliScope公司的SMS、PacBio公司的SMRT、Oxford公司的Nanopore、VisiGen公司的FRET。第三代測序技術無需PCR富集序列,直接測序的測序長度高達10 kb。三代測序技術直接對RNA分子測序,大幅度降低體外逆轉錄產生的系統誤差;直接檢測甲基化的DNA序列,為表觀遺傳學研究提供了有力手段;對特定序列的單核苷酸多態性(Single Nucleotide Polymorphism,SNP)檢測,測定稀有突變及其頻率等[18]。
基于基因組測序技術的飛速發展,已有1 500種以上的真菌獲得了全基因組序列[19]。以大規模測序為基礎的群體基因組學,逐漸應用于解析真菌的物種形成、種群分化、群體結構和位點特異性效應。全基因組調查(Genome survey)提供了解決昆蟲病原真菌的生物學問題及其與宿主相互作用的復雜機制的新策略[20]。許多昆蟲致病真菌如球孢白僵菌、金龜子綠僵菌、蝗綠僵菌、冬蟲夏草菌、蛹蟲草菌等已成功完成基因組測序[21-24],本團隊利用Nanopore和Illumina平臺已完成了球孢白僵菌QB-28(GenBank登錄號:JADBGJ000000000)和宛氏擬青霉WS-11(GenBank登錄號:JACXGS000000000)兩株對柑橘木虱高致病性真菌的全基因組測序和全基因組調查。基因組測序技術的發展推動了真菌鑒定、起源、進化、不同的生活方式和宿主選擇、真菌病毒的鑒定等研究,促進了后續的功能基因組、系統發育基因組和比較基因組的研究,對研究真菌的生長發育、功能調控和致病機制提供了大量的生物信息和遺傳信息數據。
利用Roche 454系統和Illumina雙端測序球孢白僵菌ARSEF2860,獲得了76.6倍覆蓋度的基因組測序數據,組裝的總基因組數據33.7 Mb,基因組預計編碼10 366個蛋白質基因,通過基因注釋從7 283個預測蛋白中分析鑒定出3 002個蛋白質家族;研究表明球孢白僵菌基因組中包含更多的細菌樣毒素(Bacterial-like toxins),以及更多的物種特異毒力基因,例如編碼一類小型富含半胱氨酸的分泌蛋白基因(SSCps);與植物病原真菌相比,球孢白僵菌具有特殊的表達轉錄因子(TFs),可用于調控和激活特定基因,以適應不同的昆蟲宿主[23]。基于鳥槍法測序蛹蟲草菌Cm01,獲得了147倍覆蓋度的基因組測序數據,組裝的總基因組數據32.2 Mb,基因組預計編碼9 684個蛋白質基因,InterproScan分析鑒定了2 736個保守蛋白家族(包含6 725個蛋白),大約16%的預測基因被推定參與病原體與宿主的相互作用;蛹蟲草菌中蛋白酶、幾丁質酶、脂肪酶和蛋白激酶的基因家族膨脹,而糖苷水解酶和果膠裂解酶則發生了基因家族收縮[22]。基因組測序還可用于真菌病毒研究,使用Illumina HiSeq 2500系統對球孢白僵菌RCEF5853進行宏基因組測序,發現了一種新的雙鏈RNA病毒,球孢白僵 菌Partitivirus 3(BbPV-3),BbPV-3的CP、RdRp序列同源性以及RdRp結構域系統發育分析顯示其是Epsilonpartitivirus屬的新成員[25]。
系統發育基因組學是系統發育學與基因組學相融合的交叉學科,通過分析基因組水平的大規模分子數據來闡釋真菌譜系及其性狀進化、系統進化關系。簡化基因組測序(Reducedrepresentation sequencing)和目標序列捕獲技術(Target sequence capture)是系統發育基因組學研究獲取數據的兩個主要技術手段[26],而超級矩陣法(Supermatrix approach)和物種樹分析(Species-tree approach)是系統發育分析進行進化樹重建的兩類主要方法[27-28]。
基于蛹蟲草菌Cm01子實體發育的基因組測序,發現該菌的有性生殖是異宗配合的,是第一個被報道的無需不同交配型的配對也能產生有性子實體的子囊菌[22]。球孢白僵菌種系基因組分析證實,子囊菌對昆蟲的致病性是多元化的,而且具有趨同進化的趨勢,伴隨多個物種專化性的毒力基因以及與寄主范圍和致病策略相關的基因家族的擴張和收縮[23]。系統發育基因組學分析球孢白僵菌和蛹蟲草菌,表明真菌昆蟲致病性是在距今2億年的三疊紀-侏羅紀界線時期演化而來的,而蟲草譜系的出現早于綠僵菌譜系1.3億年[22-23]。基因組測序分析表明,冬蟲夏草菌Co18基因組中包含兩個親和性交配型基因,并且具有自我繁殖力,可以獨立完成性循環;基因結構的變化表明,冬蟲夏草菌具有早期潛伏侵染寄主幼蟲以及后期致死成熟幼蟲的雙重致病機制;假定蛋白分析表明,冬蟲夏草菌可能通過抗凍蛋白和增加脂質積累和脂肪酸不飽和度的機制使其適應極端寒冷[24]。
比較基因組學以基因組圖譜和測序為基礎,對已知的基因和基因組結構進行分析比較,從而全面了解基因的功能、表達機制和物種進化。比較基因組學可以更好地解析病原真菌的起源進化、物種形成、寄主追蹤以及寄主跳轉[29]。通過近緣真菌或同種真菌不同生理小種之間的基因組對比研究,解析近緣真菌的細微區別,包括致病性、次級代謝模式或其他特性,闡釋真菌在基因進化過程中的分離、內含子的獲得或丟失以及不同生境對基因進化的影響。
基于金龜子綠僵菌和蝗綠僵菌的全基因組比較分析表明,兩者的基因組結構高度同源,前者基因組編碼有更多的不同蛋白基因,含有大量的轉座子基因以及丟失重復引起點突變的防御功能基因,加快基因組進化以適應感染不同種類的昆蟲宿主;推測綠僵菌由植物內生真菌或病原真菌進化而來,與植物病原真菌及其他絲狀真菌相比,昆蟲病原真菌基因組中的蛋白酶、幾丁質酶及脂酶等用于昆蟲體壁降解的基因家族存在顯著的擴張現象;相比其他真菌,兩者具有更大比例的編碼分泌蛋白的基因,其中高達30%的同源物功能尚未鑒定,昆蟲與病原菌的互作機制需要進一步研究[21]。通過比較分析7種綠僵菌的基因組信息,表明綠僵菌由專化性菌經由中間型過渡物種向廣譜菌方向演化,與宿主表現協同進化的特性,期間伴隨著基因及蛋白家族擴張、基因組結構及生殖類型變化等;研究表明綠僵菌的泛基因組是開放式的,預測不斷會有新的物種形成[30-31]。
球孢白僵菌JEF-007與其他分離株基因組的比較分析表明,JEF-007與ARSEF2860具有高度同源性,共有232個基因具有100%的同源性,3 362個基因具有90%~100%的同源性;而參與致病過程的基因,如幾丁質酶(Chitinases)和胰蛋白酶樣蛋白(Trypsin-like protease)基因,在JEF-007中是高度保守的,而其他基因在同一物種中出現明顯的序列變異,基因組的差異可能導致不同的形態表型和生物學功能[32]。淡紫擬青霉菌株PLBJ-1和PLFJ-1的基因組比較分析表明,PLBJ-1基因組中88.12%的序列與PLFJ-1基因組中88.60%的序列具有很好的共線性關系,與其他真菌的重復序列分別為6.07%和6.00%;對淡紫擬青霉兩個菌株的主要蛋白家族進行預測,發現兩者均具有較多的水解酶類、蛋白酶類和致病相關蛋白等家族的合成基因;單拷貝同源蛋白重建的系統發育分析表明,昆蟲致病菌與線蟲致病菌可能具有共同的祖先[33]。比較冬蟲夏草菌與肉座菌目其他真菌線粒體基因組發現,PcG(polycomb group)基因和rRNA基因排列順序、數目基本一致;基于線粒體基因系譜的分析,傳統的蟲草類真菌可劃分成不同的科屬[34]。
轉錄組學是在特定環境下,或者在不同細胞類型、器官中研究所有基因轉錄水平的方法。轉錄組分析是研究基因功能及結構的基礎,也是發掘功能基因的重要途徑之一,對昆蟲病原真菌關鍵時期中重要的基因進行篩選研究,能更快的找出新的生長基因、致病基因、調控基因等相關信息,揭示其生長發育、侵染、定殖等作用機制。
本團隊利用Illumina Miseq測序技術對感染球孢白僵菌24、48、72 h以及健康的柑橘木虱進行轉錄組測序,在CK vs.S24h、CK vs.S48h和CK vs.S72h三個轉錄組里分別獲得了971、1 671、752個顯著差異表達基因(DEGs),差異表達基因主要富集在能量代謝、離子運輸、轉錄和翻譯調控、生殖和發育調控以及免疫防御反應等相關通路;通過基因序列比對、結構域分析、系統進化樹構建等生物信息學方法,共篩選鑒定出柑橘木虱80個免疫相關基因,為篩選球孢白僵菌侵染昆蟲的重要靶標基因以及柑橘木虱生物學途徑的關鍵基因提供了豐富的數據基礎[35]。基于轉錄組測序技術解析健康小菜蛾及感染球孢白僵菌48 h小菜蛾的基因表達差異,獲得15 542個表達差異基因,其中顯著差異表達基因2 434個;KEGG pathway分析表明差異基因主要富集在核糖體、內質網蛋白質加工以及半乳糖、酪氨酸代謝等免疫相關通路,而肽聚糖識別蛋白、酚氧化酶、絲氨酸蛋白酶等基因在寄主的免疫應答過程中起了重要的作用[36]。通過轉錄組測序比較體外共生藍變菌Sporothrixsp.1和球孢白僵菌感染松墨天牛蛹所產生的免疫反應,分析表明松墨天牛對兩種真菌的免疫應答方式具有顯著性差異,球孢白僵菌感染48 h后松墨天牛的差異表達基因數量是藍變菌感染的2倍;藍變菌感染松墨天牛過程中Toll和IMD信號通路起主導作用,而球孢白僵菌感染松墨天牛過程中,只有Toll信號通路上調表達[37]。
綠僵菌和蝗綠僵菌的高通量轉錄組學分析中,涉及宿主識別、附著胞分化和侵染性的基因和途徑在早期感染過程中表現出差異表達,可能是影響真菌宿主特異性的因子;不同寄主體壁信號誘導下,兩者表達不同信號識別蛋白,誘導下游的MAPK和PKA的信號強度不同,從而精確調控細胞分化,決定了不同綠僵菌的寄主范圍[21]。利用RNA-seq技術對羅伯茨綠僵菌ARSEF23在生長發育、逆境脅迫、侵染定殖以及退化條件下的轉錄組測序,對比參考基因組中已有的轉錄本,共獲得769個新轉錄本,其中77個為可編碼的新轉錄本,并從注釋的新轉錄本中篩選到抗逆相關基因—小泛素相關修飾基因(SUMO)[38]。統計學及生物信息學等多重方法分析羅伯茨綠僵菌ARSEF23中可變剪接基因的表達差異,鑒定出可變剪接事件數10 471個,相關參與基因5 005個;KEGG通路富集分析顯示,擁有較多變體mRNA的基因顯著富集于MAPK信號通路及泛素介導的蛋白水解酶通路[39]。
通過比較轉錄組的方法,對綠僵菌侵染東亞飛蝗的血細胞與脂肪體的免疫應答進行分析表明,脂肪體的免疫應答主要通過激活先天性免疫相關的基因、與能量代謝和發育相關的基因,血細胞的免疫應答主要通過調控與膜調控相關的基因、激活細胞免疫應答和釋放體液免疫因子[40]。飼喂飛蝗含綠僵菌及胞外蛋白酶抑制劑(TPCK)的餌劑,對飛蝗中腸樣本進行轉錄組測序分析顯示,上調的差異基因主要與飛蝗的生長、發育相關,下調的基因富集到與飛蝗先天性免疫反應途徑密切相關的PI3K/Akt信號途徑;胞外蛋白酶誘導的免疫相關基因防御素(Defensin)、防御蛋白(Hdd11)、表面抗原蛋白、Takeout蛋白等上調表達,推測胞外蛋白酶在飛蝗免疫反應中起著關鍵作用[41]。通過比較對宿主的轉錄反應,發現G蛋白偶聯受體(GPCR)是一個關鍵信號受體,在宿主識別階段廣泛地被昆蟲病原菌所共有,并在羅伯茨綠僵菌、綠僵菌和球孢白僵菌中被上調[21,23]。通過調節3%~12%效應子基因在不同脅迫條件下的差異表達,分析與Hog1相關的轉錄因子Msn2的功能和轉錄組信息,明確其對球孢白僵菌和羅伯茨綠僵菌的分生孢子形成、滲透抗性、抗氧化能力、UV-B抗性、耐熱性和毒力具有顯著作用,同時揭示了兩種真菌之間獨特的熱響應機制[42]。
蛋白質組學是一種直接針對基因組圖譜進行比對的技術,轉錄組學數據與蛋白質基因組學的結合可以用于發現并鑒定新的基因[43]。昆蟲病原真菌通過侵染菌絲或者附著胞等結構將效應蛋白分泌到寄主細胞中或者細胞間質中[44],例如球孢白僵菌通過效應子LysM破壞昆蟲的免疫反應而引起侵染[45]。
分析鑒定昆蟲病原真菌在侵染過程中與寄主之間互作的效應蛋白質,對研究其在侵染致病過程中起到的關鍵作用具有重要意義。利用生物信息學和預測軟件從球孢白僵菌10 364個蛋白序列中預測到940個分泌蛋白,其中185個為碳水化合物活性酶家族蛋白;將分泌蛋白與胞外酶數據庫進行比對分析篩選,得到18個候選效應子,包括11個功能未知的推定蛋白,其余為胞外蛋白、幾丁質酶蛋白、細胞壁蛋白等[46]。基于比較轉錄組學和孢外粘液蛋白表達譜的聯合分析,從鹿兒島被毛孢的野生型孢外粘液中鑒定出474個蛋白,包含7個與黏附相關蛋白、13個與寄主體壁降解相關酶類、9個直接參與防御相關的蛋白以及2個昆蟲激素代謝相關酶,鹿兒島被毛孢中分泌蛋白、昆蟲激素代謝類基因和凝集素類蛋白共同參與應答過程[47]。
病原真菌侵染昆蟲需要穿透富含幾丁質的表皮,利用宿主組織作為營養資源,需要分泌大量降解酶作為致病因子。羅伯茨綠僵菌和蝗綠僵菌分泌較多的蛋白酶的基因,分別為132、104個[21]。羅伯茨綠僵菌、蝗綠僵菌和球孢白僵菌擁有的糖苷水解酶的數量接近植物病原性真菌的平均值150個[21,23],而冬蟲夏草菌只有66個糖苷水解酶,并且缺少專門用于降解植物組織的酶[24]。
代謝組學是對一定條件下生物體內初級和次級代謝產物的定性及定量,從而揭示生命現象及其內在規律的學科,可以直接動態地反映出細胞的生理生化過程,從而有效地檢測和發現特定的生化途徑,準確地解釋生理或者病理現象[48]。代謝組學可以有效闡釋真菌生物生態系統中各種復雜的相互作用,以及真菌對環境和基因變化的響應。
次生代謝產物參與真菌與其宿主害蟲之間的相互作用,可能是真菌致病的毒素,也可能是可以藥用的多肽類物質[44,49]。真菌次級代謝產物的合成受到多種方式的調控,包括發育調控、轉錄因子調控、全局調控因子調控等,合成基因與調控基因通常成簇出現,有利于通過遺傳操作對次級代謝產物的合成進行調控。代謝組學能快速鑒定不同菌株代謝物的區別找到標志代謝物,促使真菌次級代謝產物合成基因的鑒定快速發展,未來可能成為一種新型分類鑒定方法。
在絲狀真菌中,代謝相關基因一般是以基因簇(Genes clusters)的形式分布,相對于綠僵菌和植物病原菌,蛹蟲草菌的次生代謝產物相關的核心基因較少,相比綠僵菌,蛹蟲草菌的萜類合成酶、聚酮化合物合酶(PKS)和非核糖體肽合酶(NRPS)基因較少;對冬蟲夏草菌PKS和PKS樣基因進行系統發育分析,發現蛹蟲草菌的蛋白與已知真菌毒素的PKS分為不同的簇[50]。蟲草素、白僵菌素、卵孢白僵菌素、白僵菌酮、卵孢霉素和綠僵菌素已經被鑒定出來,涉及其生物合成的基因簇在基因組測序之前鮮為人知[51-54]。真菌毒素的合成路徑及其調控機制、產毒真菌與昆蟲互作、侵染致病的機理提供了新的思路。真菌毒素合成主要通過聚酮化合物(PKS)代謝、非核糖體多肽(NRP)合成、PKS-NRP混合代謝、萜類化合物代謝、氨基酸相關代謝[55]。鑒定出羅伯茨綠僵菌43個與次生代謝產物相關的假定核心基因,而蝗綠僵菌有20個[21]。綠僵菌素基因簇的富足或缺失與宿主特異性密切相關[56]。基于HPLC-MS的代謝組學研究發現,對昆蟲病原真菌、食用菌以及植物病原真菌菌絲體的甲醇和乙酸乙酯混合提取物進行代謝組學分析,發現白僵菌、綠僵菌和棒束孢特有的化合物可能是蟲生真菌長期協同進化所產生的特有產物[57]。
國際生物基因組學會議于2017年提出“地球生物基因組計劃”,計劃未來10年對地球上所有已知的真核生物進行基因組測序[26]。基因組測序推動昆蟲病原真菌毒素基因鑒定、昆蟲—真菌分子相互作用及遺傳改造、提高真菌殺蟲劑的應用效率等基礎及應用研究。基于真菌基因組學,對昆蟲致病性真菌的生物學有了更全面的了解,包括起源和進化、真菌與昆蟲的相互作用機制、宿主特異性和次生代謝產物。基因的功能研究不僅促進了對真菌致病機理和多應激反應所涉及的分子機制的理解,而且還提供了進行遺傳操作以提高性能的靶基因,有助于生物殺蟲劑的改良和研發。
基于基因組學、轉錄組學、蛋白質組學、代謝組學和表型組學數據進行多組學的整合分析,能夠更全面、深層次和精確地闡釋復雜性狀形成的分子機制和調控機理,對生物過程進行全面深入的解析。三維基因組學是以研究真核生物核內基因組空間構象,及其對不同基因轉錄調控的生物學效應為主要研究內容的新興學科,也是后基因組學時代研究的熱門領域之一[58-61]。基因組的三維空間結構對基因組的表達、調控等功能有著重要影響,全基因組的三維空間結構和功能研究將成為昆蟲病原菌基因組學一個新的研究方向。