唐勇 劉旭
(1. 樂山職業技術學院,樂山 614000;2. 樂山豐野農業科技有限責任公司,樂山 614000;3. 樂山市農業局,樂山 614000)
以Sanger測序法[1]為代表的第一代測序技術為分子生物學研究帶來一場徹底的變革。Sanger測序技術已經為分子生物學研究服務近40年,其為科學研究所作出的貢獻有目共睹。盡管第一代測序技術有著其不可替代的優勢,但是其低通量的缺陷終究無法完全滿足研究需要。21世紀,測序技術發展進入快車道,第二代測序技術[2]和第三代測序技術[3]相繼問世。以 Roche/454[4]、Illumina/Solexa[5]等測序平臺為代表的第二代測序技術解決測序通量和測序價格問題,引起生命科學研究方法大變革[6],但是,第二代測序技術也遺留下測序讀長短的缺陷[7]。因此,為解決讀長問題而發明的第三代測序技術應運而生[3]。
目前主流的第三代測序技術主要包括牛津納米孔公司(Oxford Nanopore)的單分子納米孔測序技術(The single-molecule nanopore DNA sequencing)、Helicos公司的真正單分子測序技術(True singlemolecule sequencing,tSMS) 和 Pacific Biosciences(PacBio)公司的單分子實時測序技術(Single-molecule real-time,SMRT)[8]。其中,牛津納米孔技術有限公司開發的單分子納米孔測序技術以超長讀長和輕便見長[9],然而,由于其測序錯誤率高達35%[10-11]無法在研究中推廣;Helicos公司的tSMS測序技術費用偏高[12],項目基本處于停滯狀態。目前,最成熟的第三代測序平臺莫過于基于SMRT測序技術的PacBio系列平臺。
測序技術的發展對微生物研究的推動作用明顯,尤其是不可培養的微生物和復雜環境微生物的研究[13-14]。目前,微生物研究依然以第二代測序技術為主。但是,隨著基于SMRT測序技術的PacBio系列測序平臺的進一步成熟,其必將成為微生物研究者手中的另一柄利劍。因此,系統了解SMRT測序技術的特點及其在微生物研究中的應用進展,對微生物研究者具有指導意義。本文將介紹SMRT測序技術的原理和特點,詳細列舉SMRT測序技術在微生物16S rRNA基因全長測序、宏基因組測序和微生物全基因組測序中的應用,以及下游分析中存在的問題,旨為使用SMRT測序技術研究微生物的研究人員提供一定參考。
和其他兩個單分子測序技術原理一樣,SMRT測序技術也采用邊合成邊測序的策略。SMRT測序技術的核心是零模波導孔(Zero mode waveguide,ZMW),ZMW是直徑20-50納米的納米孔,底部固定有DNA聚合酶[15]。數百納米的激光照著DNA聚合酶所在的ZMW底部而發生衍射照亮狹小的范圍,從而剛好檢測到進入ZMW底部的堿基所攜帶熒光基團,而避免背景干擾(圖1-A[16])。每個ZMW可以結合一個DNA模板,其測序過程(圖1-B[16])是:(1)DNA聚合酶捕獲DNA單鏈模板并結合在活性位點上;(2)被不同染料標記的脫氧核苷酸進入ZMW底部檢測區與聚合酶結合;(3)基于脫氧核苷酸在ZMW底部停留時間判斷是否匹配;(4)被標記的磷酸基團被切割并釋放[12]。

圖1 SMRT測序技術原理[16]
作為第三代測序的基本特點,測序長度是SMRT測序技術的優勢之一。Ferrarini等[17]使用PacBio RS平臺,P4/C2試劑對葉綠體基因組進行測序,結果獲得平均reads長度為3 936.66 bp,一致序列的平均堿基錯誤率為1.3%。Shearman等[18]使用最新的PacBio SR Ⅱ平臺和C4試劑測序,成功獲得長度大于26 kb的reads。理論上,在最新的PacBio SR Ⅱ平臺下,使用P6/C4試劑測序能夠獲得的最長reads可以達到60 kb[16]。由于DNA聚合酶在激光的照射下會逐漸失活,因此其測序長度不可能永遠增加[19]。
測序錯誤偏高是所有測序技術都面臨的問題。基于納米孔測序技術的MinION測序儀和基于SMRT測序技術的PacBio平臺測序reads錯誤率分別達到 40% 和 15%[11,20]。然而,PacBio測序平臺所產生的測序錯誤為隨機分布的單堿基錯誤、插入或缺失[20-21],憑借這一特點,PacBio引入環化測序的策略成功將測序準確度提高,即將雙鏈模板兩端加載發夾結構接頭,形成環狀的測序模板(SMRTbell),然后對模板循環測序[22]。該測序方案可以保證相同堿基被多次測序,結合錯誤隨機模型,采用多重比對可以修正錯誤堿基,從而獲得高準確度reads[23]。該方案在全長16S rRNA基因測序、轉錄組測序等對reads長度要求相對較低,但是對測序準確度要求較高的研究中非常有效[24-25]。
測序速度快是SMRT測序技術的另一特點。相比動輒運行數天的第二代測序技術,SMRT測序技術每個run運行時間最短近0.5 h[16]。雖然,每個run輸出的數據量遠遠不及Hiseq2500等第二代測序技術,但是在對時間要求較高的情況下,SMRT測序技術無疑極具優勢(表1),如在臨床檢測或者疫情爆發等情況下。

表1 主要高通量測序儀器參數[16,26-28]
自2006年,Sogin等[29]首次成功將高通量測序技術(羅氏454)用于深海環境微生物多樣性調查,16S rRNA基因高通量測序片段選擇一直存在爭議[30],全長DNA測序無疑可以徹底終止這一爭論。SMRT測序技術在復雜環境微生物的研究中所具備的優勢已經被多次證實[24,31]。隨著SMRT測序技術的技術成熟和測序成本降低,第三代測序技術在16S rRNA基因測序中的應用越來越多。
腸道微生物與宿主的生長、免疫和健康息息相關,對腸道微生物調查有利于對相關疾病的標記與治療。2013年,Hu等[32]采集23個采用不同分娩方式出生的新生兒的糞便(10個孩子母親患有糖尿病和13個孩子母親未患糖尿病),采用PacBio RS平臺測序糞便中16S rRNA基因的V3-V4區,分析PASS數大于3的CCS reads,結果得到與其他實驗相反的結果:不同分娩方式對新生兒的糞便微生物沒有影響,而母親患病狀態對新生兒腸道微生物組成有顯著的影響。泡菜中含有大量乳酸菌和其他雜菌,四川家庭自制泡菜微生物的組成并不清楚。2017年,Cao等[33]在重慶7個地區采集到38份10年以上的泡菜鹽水,通過滴定法分為高酸度、中等酸度和低酸度3組。采用SMRT測序技術(PacBio SR Ⅱ/P6-C5)對38個樣本的16S rRNA基因全長進行測序。通過分析聚類和注釋分析得來自371個屬的593個種(包括35個門),其中,Lactobacillus acetotolerans的豐度與酸度呈正相關。此外,Serratia marcescens和Stenotrophomonas maltophilia等機會致病菌也在樣本中檢測到。酸度越低,物種多樣性越高,乳酸菌屬內的菌種越多(豐度大于1%),機會致病菌越多。該研究為自制泡菜的進一步研究提供了參考,且表明需要對自制四川泡菜內的機會致病菌深入研究。
宏基因組是指環境中的所有微生物基因組的總和[34-35]。2000年,Rondon等[35]首次通過構建宏基因組文庫研究土壤微生物多樣性,并開啟了環境微生物研究的新篇章。隨著高通量測序價格大幅下跌,獲得大批原始宏基因組測序數據已經不再是難題,而真正的研究瓶頸在于數據分析環節。其中,微生物參考基因組缺乏是宏基因組數據分析主要障礙。目前,已有參考基因組的微生物數量與自然界存在的微生物數量相去甚遠(表2)。因此,從復雜的宏基因組數據中完整而準確地構建微生物基因組草圖成為分析流程的首要任務[36]。第二代測序技術由于測序片段短的問題導致組裝困難,第三代測序技術有望徹底解決這一問題。

表2 微生物參考基因組統計
2016年,Frank等[37]采用Hiseq2000和PacBio RS Ⅱ兩種平臺結合的測序方式對沼氣反應器內的微生物宏基因組進行研究。其中,構建插入片段為1.5 kb的SMRTbell文庫使用P4/C2試劑測序。分別單獨組裝兩份數據,再采用混合組裝的方式組裝。結果表明,混合組裝的方式得到的組裝序列長度高于單獨組裝。該試驗結果表明SMRT測序技術對微生物宏基因組研究有提高作用。Frank等采用混合的方式是考慮SMRT測序技術測序成本(深度)的問題,而采用較為折中的方案。事實上,隨著PacBio系列測序平臺的普及和價格快速下降,SMRT可以完全取代第二代測序。2017年,Driscoll等[38]從美國克拉馬斯湖中采集水樣并共培養。然后采用PacBio測序平臺進行宏基因組測序并得到348 623條平均長度達到7 737 bp的PacBio reads,經過質量過濾和組裝,他們發現成功組裝出3個微生物基因組草圖。Driscoll等的實驗證明SMRT測序技術在低復雜度環境微生物宏基因組組裝中是有效的。
對無參考基因組的物種,采用測序并從頭組裝獲得全基因組圖譜的方式稱為全基因組測序。SMRT測序技術測序長度能夠幫助研究人員在組裝全基因組時成功跨過重復片段、低復雜區域,從而組裝出完整性更好的全基因組[39]。2013年,Chin等[40]設計并開發針對SMRT測序數據組裝微生物全基因組的算法(HGAP),他們使用該方法成功組裝了包括大腸桿菌(E. coli)在內的16個基因組,其中,3個基因組已經有完整的基因組,新組裝的基因組與參考基因組一致性達到99.9999%。他們的實驗證明結合SMRT測序技術和Illumina測序技術進行全基因組測序準確有效。Paulinella chromatophora是研究植物質體的重要模式生物,2017年,Lhee等[41]研究發現一個具有光合作用的新種(P. micropora sp.nov.),通過構建SMRTbell庫,并使用PacBio RS II測序平臺測序獲得16 Gb數據,使用HGAP算法組裝得到長度為976 991 bp的全基因組。通過全基因組水平的比較證實其為新的種。
除了完全采用PacBio reads進行全基因組組裝,通過與第二代測序技術組合的方式也是常用的微生物全基因組組裝方案,該方法能夠有效提高組裝準確性并降低測序成本。葡萄孢菌(Botrytis cinerea)是廣泛存在的植物病原真菌,研究人員先后使用第一代和第二代測序技術對全基因組測序,但是,其中仍然存在較多缺失和錯誤,2016年,Van Kan等[42]采用SMRT測序技術和第二代測序技術結合的方式對葡萄孢菌全基因組測序,de novo組裝得到由18條染色體組裝的新基因組,測序深度和完整性得到大幅提高。同時,他們采用RNAseq數據對基因組進行驗證和基因注釋。
微生物物種數量龐大,而環境微生物復雜性決定了其對研究技術的高要求。盡管第二代測序技術為微生物研究帶來了革命性的改變,但是,以SMRT測序技術為代表的第三代測序技術取代第二代測序技術成為微生物研究的主要手段是必然趨勢。SMRT測序技術已然領跑第三代測序技術。但是,SMRT測序技術仍然存在較大的問題,如測序費用高、測序錯誤率偏高等。
目前,SMRT測序技術在微生物研究領域應用最成熟且最多的還是微生物全基因組測序。而SMRT測序技術在復雜環境微生物宏基因組研究中還存在諸多問題需要解決,已有的研究也只是淺嘗輒止。目前,在我們文獻查閱的范圍之內,還沒有發現真正將SMRT測序技術應用于復雜環境微生物研究,因此,這方面還需要進一步探索。SMRTbell庫構建方法的提出為SMRT技術在微生物16S rRNA基因全長測序提供了可能,最近兩年逐漸在研究中被采用。但是,目前16S rRNA基因注釋數據庫還存在注釋物種少,參考序列長度短的問題,這無疑將降低16S rRNA基因全長測序數據分析的準確性。
[1]Sanger F, Nicklen S, Coulson AR. DNA sequencing with chainterminating inhibitors[J]. Proc Natl Acad Sci USA, 1977, 74(12):5463-5467.
[2]Metzker ML. Sequencing technologies—the next generation[J].Nature Reviews Genetics, 2010, 11(1):31-46.
[3]Schadt EE, Turner S, Kasarskis A. A window into third-generation sequencing[J]. Human Molecular Genetics, 2011, 19(4):R227-R240.
[4]Margulies M, Egholm M, Altman WE, et al. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 2006,437(7057):376-380.
[5]Bentley DR. Whole-genome re-sequencing[J]. Current Opinion in Genetics & Development, 2006, 16(6):545-552.
[6]Reis-Filho JS. Next-generation sequencing[J]. Breast Cancer Research, 2009, 11(3):S12.
[7]Treangen TJ, Salzberg SL. Repetitive DNA and next-generation sequencing:computational challenges and solutions[J]. Nature Reviews Genetics, 2012, 13(1):36-46.
[8]柳延虎, 王璐, 于黎. 單分子實時測序技術的原理與應用[J].遺傳, 2015, 37(3):259-268.
[9]Clarke J, Wu HC, Jayasinghe L, et al. Continuous base identification for single-molecule nanopore DNA sequencing[J]. Nature Nanotechnology, 2009, 4(4):265-270.
[10]Goodwin S, Gurtowski J, Ethe-Sayers S, et al. Oxford nanopore sequencing, hybrid error correction, and De novo assembly of a eukaryotic genome[J]. Biorxiv, 2015, 25(11):1750-1756.
[11]Laver T, Harrison J, O’Neill PA, et al. Assessing the performance of the oxford nanopore technologies minion[J]. Biomolecular Detection & Quantification, 2015, 3:1-8.
[12]Treffer R, Deckert V. Recent advances in single-molecule sequencing[J]. Current Opinion in Biotechnology, 2010, 21(1):4-11.
[13]Xia W, Jia Z. Comparative analysis of soil microbial communities by pyrosequencing and dgge[J]. Acta microbiologica Sinica,2014, 54(12):1489-1499.
[14]Shokralla S, Spall JL, Gibson JF, et al. Next-generation sequencing technologies for environmental DNA research[J]. Molecular Ecology, 2012, 21(8):1794-1805.
[15]Levene MJ, Korlach J, Turner SW, et al. Zero-mode waveguides for single-molecule analysis at high concentrations[J]. Annual Review of Biophysics, 2012, 41(41):269-293.
[16]Rhoads A, Au KF. Pacbio sequencing and its applications[J].Genomics, Proteomics & Bioinformatics, 2015, 13(5):278-289.
[17]Ferrarini M, Moretto M, Ward JA, et al. An evaluation of the pacbio rs platform for sequencing and De novo assembly of a chloroplast genome[J]. BMC Genomics, 2013, 14(1):670.
[18]Shearman JR, Sonthirod C, Naktang C, et al. The two chromosomes of the mitochondrial genome of a sugarcane cultivar:assembly and recombination analysis using long pacbio reads[J]. Scientific Reports, 2016, 6:31533.
[19]李明爽, 趙敏. 第三代測序基本原理[J]. 現代生物醫學進展,2012, 12(10):1980-1982.
[20]Koren S, Schatz MC, Walenz BP, et al. Hybrid error correction de novo assembly of single-molecule sequencing reads[J]. Nature Biotechnology, 2012, 30(7):693-700.
[21]Ross MG, Russ C, Costello M, et al. Characterizing and measuring bias in sequence data[J]. Genome Biology, 2013, 14(5):R51.
[22]Kong N, Thao K, Ng W, et al. Automation of PacBio SMRTbell 10 Kb template preparation on an agilent NGS workstation[J]. Crop Science, 2014, 15(6):886.
[23]Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Methods in Enzymology, 2009, 323(5910):133.
[24]Schloss PD, Jenior ML, Koumpouras CC, et al. Sequencing 16S RNA gene fragments using the PacBio SMRT DNA sequencing system[J]. Peerj, 2015, 4:e1869.
[25]Gao S, Ren Y, Sun Y, et al. PacBio full-length transcriptome profiling of insect mitochondrial gene expression[J]. RNA Biology, 2016, 13(9):820-825.
[26]Goodwin S, McPherson JD, McCombie WR. Coming of age:ten years of next-generation sequencing technologies[J]. Nature Reviews Genetics, 2016, 17(6):333-351.
[27]Giordano F, Aigrain L, Quail MA, et al. De novo yeast genome assemblies from MinION, PacBio and MiSeq platforms[J].Scientific reports, 2017, 7(1):3935.
[28]Mikheyev AS, Tin MM. A first look at the Oxford Nanopore MinION sequencer[J]. Molecular Ecology Resources, 2014, 14(6):1097-1102.
[29]Sogin ML, Morrison HG, Huber JA, et al. Microbial diversity in the deep sea and the underexplored “rare biosphere”[J].Proceedings of the National Academy of Sciences, 2006, 103(32):12115-12120.
[30]Chakravorty S, Helb D, Burday M, et al. A detailed analysis of 16S ribosomal RNA gene segments for the diagnosis of pathogenic bacteria[J]. Journal of Microbiological Methods, 2007, 69(2):330-339.
[31]Mosher JJ, Bowman B, Bernberg EL, et al. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing[J].Journal of Microbiological Methods, 2014, 104:59-60.
[32]Hu J, Nomura Y, Bashir A, et al. Diversified microbiota of meconium is affected by maternal diabetes status[J]. PLoS One,2013, 8(11):e78257.
[33]Cao J, Yang J, Hou Q, et al. Assessment of bacterial profiles in aged, home-made Sichuan paocai brine with varying titratable acidity by PacBio SMRT sequencing technology[J]. Food Control, 2017, 78:14-23.
[34]Handelsman J, Rondon MR, Brady SF, et al. Molecular biological access to the chemistry of unknown soil microbes:a new frontier for natural products[J]. Chemistry &Biology, 1998, 5(10):R245-R249.
[35]Rondon MR, August PR, Bettermann AD, et al. Cloning the soil metagenome:a strategy for accessing the genetic and functional diversity of uncultured microorganisms[J]. Applied and Environmental Microbiology, 2000, 66(6):2541-2547.
[36]Howe A, Chain PS. Challenges and opportunities in understanding microbial communities with metagenome assembly(Accompanied by Ipython Notebook Tutorial)[J]. Frontiers Microbiol, 2015, 6:678.
[37]Frank JA, Pan Y, Toomingklunderud A, et al. Improved metagenome assemblies and taxonomic binning using long-read circular consensus sequence data[J]. Scientific Reports, 2016, 6:25373.
[38]Driscoll CB, Otten TG, Brown NM, et al. Towards long-read metagenomics:complete assembly of three novel genomes from bacteria dependent on a diazotrophic cyanobacterium in a freshwater lake Co-culture[J]. Stand Genomic Sci, 2017, 12:9.
[39]Powers JG, Weigman VJ, Shu J, et al. Efficient and accurate whole genome assembly and methylome profiling of E. coli[J]. BMC Genomics, 2013, 14(1):675.
[40]Chin CS, Alexander DH, Marks P, et al. Nonhybrid, finished microbial genome assemblies from long-read smrt sequencing data[J]. Nature Methods, 2013, 10(6):563-569.
[41]Lhee D, Yang EC, Im Kim J, et al. Diversity of the photosynthetic Paulinella species, with the description of Paulinella micropora sp.nov. and the chromatophore genome sequence for strain Kr01[J].Protist, 2017, 168(2):155-170.
[42]Van Kan JA, Stassen JH, Mosbach A, et al. A gapless genome sequence of the fungus botrytis cinerea[J]. Mol Plant Pathol,2017, 18(1):75-89.