王桂瑤,常延斌,郭建華,郭 超,奚家勤,胡利偉,蔡憲杰,宋紀真*
1.中國煙草總公司鄭州煙草研究院,鄭州高新技術產業開發區楓楊街2號 450001 2.廣東省糧食科學研究所,廣州市越秀區越秀北路222號 510050 3.上海煙草集團有限責任公司,上海市楊浦區長陽路717號 200082
煙草粉螟[Ephestia elutella(Hübner)],屬鱗翅目(Lepidoptera)螟蛾科(Pyralidae),又名煙草粉斑螟、煙草螟蛾等,是一種世界性倉貯害蟲[1]。煙草粉螟廣泛分布于熱帶及溫帶地區,其幼蟲可為害貯存期煙草、咖啡、可可和干果等,尤其喜食含糖多、含煙堿少的中高等級烤煙[1-4],給煙草行業造成巨大的經濟損失。
隨著測序技術的不斷進步和生物信息學的持續發展,轉錄組、基因組、蛋白組和代謝組等組學研究手段被越來越多地應用于昆蟲學研究,為昆蟲學研究提供了新的機遇[5-6]。昆蟲基因組學研究是當前的研究熱點,目前,已有1 219項昆蟲基因組測序計劃在NCBI注冊,其中有401種昆蟲完成了基因組拼接,為昆蟲分子生物學研究提供了豐富的數據資源[5-7]。例如,晉家正等[8]對藥用美洲大蠊(Periplaneta americana)全基因組進行測序分析,為美洲大蠊藥用基因資源挖掘奠定基礎。二化螟(Chilo suppressalis)基因組研究揭示了二化螟耐寒性的遺傳基礎[9]。張屾[10]鑒定了棉鈴蟲(Helicoverpa armigera)基因組中與食性相關的基因家族,闡述了其多食性的分子機制,為棉鈴蟲的綠色防控奠定基礎。然而,由于目前煙草粉螟基因組信息的匱乏,國內外有關煙草粉螟的研究主要集中在生物學特性、生態學特性、抗藥性及生物防治等方面[11-21],而關于煙草粉螟遺傳、進化、生長、發育和繁殖等分子水平的研究還較少。因此,對煙草粉螟基因組進行研究有助于從系統生物學層面闡述其爆發成災的分子機制,篩選鑒定其潛在的生物防治或化學防治靶基因,從而為開發綠色、安全的新型害蟲防治策略奠定理論基礎。
昆蟲基因組具有高雜合和高重復的特點,研究特定物種基因組,首先要對其進行初步研究,評估其基因組大小、雜合度和重復序列,為全基因組測序和組裝提供重要依據[22]。昆蟲基因組大小評估常使用兩種方法,一是通過流式細胞儀分析得到染色體組型信息并推斷其基因組大小,另一種是通過基因組調查分析預測基因組大小、重復序列和雜合度等[7,22]。昆蟲之間基因組大小差異顯著,目前動物基因組大小數據庫(Animal genome size database)提供了超過1 300條昆蟲基因組大小數值,其中最大的是直翅目的斑腿蝗(Podisma pedestris,約16.6 Gb),基因組最小的為海濱搖蚊(Clunio tsushimensis,約68.5 Mb)[22]。基因組大小是研究基因組進化、結構和功能的重要參數之一,而重復序列數量、基因間隔區長度和平均內含子大小是決定昆蟲基因組大小的主要因素[6,22-23]。另外,昆蟲基因組大小是不斷變化的,堿基的插入和缺失、轉座子轉座和染色體變異等是個體水平基因組大小進化的原動力[22]。
本研究中基于低深度高通量測序對煙草粉螟基因組進行初步研究,采用K-mer法預測煙草粉螟基因組大小、雜合度和重復序列等信息,利用SOAPde novo軟件對煙草粉螟測序數據進行初步組裝,旨在為后續測序提供合理方案,并為煙草粉螟基因組的深度測序和組裝提供參考。
煙草粉螟采集于中國煙草總公司鄭州煙草研究院煙草倉貯實驗室,并用人工飼料(小麥∶燕麥片∶全麥粉=7∶7∶1)飼養多代形成穩定種群。飼養條件:30℃±1℃,相對濕度70%±5%,全暗。挑選個頭較大的煙草粉螟蛹0.5 g,去除體表附著的雜質,液氮速凍后,-70℃保存備用。
利用DNA提取試劑盒(Insect gDNA Isolation Kit,美國Biomiga公司)提取煙草粉螟基因組DNA。首先利用瓊脂糖凝膠電泳定量對基因組DNA進行初步檢測,待檢測合格后,再利用Qubit Fluorometer(Invitrogen Qubit 2.0,美國Thermo Fisher Scientific公司)進行DNA濃度測定,利用瓊脂糖凝膠電泳(膠濃度1%,電壓180 V)進行DNA的完整性、純度和片段大小檢測,確保DNA質量達到建庫測序要求。
煙草粉螟基因組調查由北京諾禾致源科技股份有限公司完成。檢測合格的DNA樣品通過超聲波破碎隨機打斷成小片段(250 bp、500 bp),經末端修復、加A尾、加測序接頭、純化、PCR擴增等步驟完成整個文庫制備。構建好的文庫,通過Illumina Hiseq 2000測序平臺進行PE150雙末端測序。測序得到的原始序列(Raw reads)必須進行精細過濾,去除其中帶接頭的、低質量的Reads,得到Clean reads。
取全部Raw reads,統計測序Reads數量、數據產量、測序錯誤率、Q20含量、Q30含量和GC含量等。高通量測序中,每測一個堿基會產生一個相應的質量值,其中,Q20和Q30表示質量值大于等于20或30的堿基所占百分比,主要是用來衡量測序準確度的。測序數據質量分布在Q30(≥80%)以上才能保證后續分析正常進行。測序錯誤率分布檢查用于檢測在測序長度范圍內,有無異常的堿基位置存在高錯誤率。一般情況下,每個堿基位置的測序錯誤率都應低于1%。GC含量分布檢查用于檢測有無AT、GC分離現象。
基于Clean reads,采用K-mer法對煙草粉螟基因組大小進行估計[7,22]。當K值為17時,統計Kmer頻數分布,作K-mer分布曲線,計算K-mer的深度分布,并確定深度分布的峰值[24-25],使用SOAPde novo軟件得到K-mer總數。根據公式(基因組大小=K-mer總數/峰深度)估算煙草粉螟基因組大小。通過排除錯誤K-mer帶來的誤差影響,修正基因組大小。通過計算序列中雜合位點的比例得到基因組雜合度。根據主峰后1.8倍的K-mer總數占所有K-mer數的百分比計算序列重復率。
使用SOAPde novo軟件對不同片段大小的序列進行拼接[26],基本過程如下:首先利用Reads之間的重疊關系,并在重復邊界位置進行剪切,得到Contigs序列,其次根據大片段數據的Pair-end關系,構建Scaffolds序列,最后用Reads對Scaffolds的空隙區域進行填補。
將本研究中獲得的煙草粉螟基因組信息(基因組大小、GC含量和Contig N50)與NCBI上已公布的其他鱗翅目昆蟲基因組(https://www.ncbi.nlm.nih.gov/genome)進行比較。
Qubit檢測DNA濃度為198 ng/μL,A260/280=1.81,A260/230=1.69,提取的DNA質量較好。瓊脂糖凝膠電泳檢測顯示(圖1),樣本DNA主帶在48 000 bp以上,輕微斷裂,輕微降解,滿足建庫測序質量要求。

圖1 瓊脂糖凝膠電泳檢測結果Fig.1 Test results of agarose gel electrophoresis
本研究中共獲得小片段文庫測序15 Gb的原始數據量,覆蓋深度大約26.9×,獲得煙草粉螟Reads數量為52 552 733條。測序錯誤率為0.04%,Q20=97.48%,Q30=92.73%,說明堿基測序準確度較高,滿足后續數據分析要求。煙草粉螟基因組測序數據中A與T、C與G的互補堿基數基本一致,位置堿基N基本為零,但由于前幾個堿基測序質量值較低以及DNA模板擴增偏差等原因,常會導致每個Read前幾個堿基有較大波動,屬于正常情況(圖2)。

圖2 GC含量分布結果Fig.2 Results of GC content distribution
通過K-mer分析方法預測煙草粉螟基因組大小、雜合度和重復序列等基因組特征(表1)。當取K=17時,SOAPde novo軟件預測得到的K-mer數為11 715 804 970個。根據K-mer深度分布(圖3),利用公式估算出煙草粉螟修正基因組大小為546.4 Mb,基因組雜合度為1.93%,重復序列比率為48.59%。

表1 K-mer分析所得基因組特征統計分析Tab.1 Genomic characteristics by K-mer analysis

圖3 深度和K-mer頻率分布圖Fig.3 Depth and K-mer frequency distribution
利用SOAPde novo軟件對煙草粉螟測序數據進行初步組裝(表2)。由于其基因組重復性較高,選擇K=41作為初步組裝的K-mer大小,首先組裝成Contigs,組裝得到的Contigs數量為3 192 823條,序列總長為713 127 860 bp,最長的序列長度為59 643 bp,N50為244 bp。而后將Contigs組裝成Scaffolds,組裝得到的Scaffolds數量為3 054 965條,序列總長為725 456 026 bp,最長的序列長度為162 813 bp,N50為288 bp。

表2 基因組組裝結果Tab.2 Results of genome assembly
目前已有13種鱗翅目昆蟲(7種蛾類和6種蝶類)的基因組被發表(表3),其中,蛾類基因組大小介于為337~824 Mb之間,蝶類基因組大小介于為227~389 Mb之間,最大的是二化螟(824 Mb),最小的是玉帶鳳蝶(Papilio polytes,227 Mb),而煙草粉螟(546 Mb)基因組大小介于它們之間。煙草粉螟基因組GC含量為36.9%,與已知鱗翅目昆蟲相近。煙草粉螟Contig N50最小,組裝質量低,主要是由于煙草粉螟的基因組測序深度低,只對其進行了初步組裝。

表3 鱗翅目14種昆蟲基因組信息Tab.3 Genomic information of 14 species of Lepidoptera
鱗翅目分為蛾類和蝶類,是昆蟲綱中的第二大目,但目前已發表的鱗翅目昆蟲基因組仍然較少[7]。另外,與流式細胞儀分析法相比,基因組調查分析是一種更精確的分析未知基因組特征的方法[24],二化螟[9]和小菜蛾[27]等鱗翅目昆蟲均采用基因組調查分析的方法評估基因組大小。通過對鱗翅目昆蟲基因組大小進行比較,發現大多數蛾類基因組比蝶類基因組大,而重復序列是導致不同昆蟲基因組產生巨大差異的主要原因之一[22]。本研究中通過基因組調查分析預測煙草粉螟基因組大小為546.4 Mb,比大多數已知的蛾類基因組大,推測可能原因是煙草粉螟基因組具有相對較多的重復序列。另外,基因組調查分析結果表明煙草粉螟基因組雜合度很高(1.93%),重復片段多(重復率為48.59%),屬于復雜昆蟲基因組,組裝難度較大。因此,一方面通過自交對煙草粉螟種群進行不斷純化,從而降低種群雜合度,另一方面通過構建煙草粉螟二代、三代文庫,采用二代和三代相結合的測序策略,輔以Hi-C技術輔助基因組組裝,有望獲得高質量染色體水平的煙草粉螟全基因組圖譜。
目前,二化螟[9]、棉鈴蟲[10]和小菜蛾[27]等多種鱗翅目害蟲的基因組已被公開,研究人員利用基因組信息通過生物信息學方法鑒定了解毒代謝、嗅覺感受和食性等相關的關鍵基因,進而通過分子生物學和基因編輯驗證這些基因的功能,為開發綠色的新型害蟲防治策略提供理論依據[10]。然而,目前僅報道了煙草粉螟線粒體基因組序列[28],其全基因組還未見報道,制約了煙草粉螟生理習性和生長發育等分子機理的研究。本研究中利用低深度測序對煙草粉螟基因組進行初步研究,由于測序深度較低,組裝質量較差,仍需進行煙草粉螟基因組的深度測序和組裝。對煙草粉螟全基因組進行研究,進而利用生物信息學篩選鑒定一些與煙草粉螟生理習性相關的基因,或者潛在的生物防治或化學防治的靶基因,可為煙草粉螟新型綠色殺蟲劑的研制奠定基礎[29]。例如,利用煙草粉螟基因組鑒定其表皮幾丁質降解酶基因和幾丁質合成酶基因等昆蟲表皮發育關鍵基因,通過基因編輯等方式研究其功能,從而篩選驗證高致死率靶基因,有助于推動煙草粉螟新型綠色殺蟲劑的研制[29]。另外,利用煙草粉螟基因組鑒定其中的嗅覺基因,通過開展嗅覺基因功能研究,利用反向化學生態學方法,有助于設計更高效安全的煙草粉螟引誘劑及交配干擾劑,從而為煙草粉螟的監測和綠色防控提供理論依據和應用指導[30]。
通過對煙草粉螟進行全基因組調查分析,預測其基因組大小為546.4 Mb,雜合度為1.93%,重復序列比例為48.59%,GC含量為36.9%,屬于復雜昆蟲基因組。由于測序深度低,采用K-mer 41進行初步組裝,得到的Contigs總長為713 127 860 bp,其N50為244 bp,Scaffolds總長為725 456 026 bp,其N50為288 bp,組裝質量較低。