唐蝶 周倩
(1. 中國農業科學院深圳農業基因組研究所,深圳 518124;2. 鵬城實驗室,深圳 518055)
基因組組裝是將全基因組測序的小片段(read,長度100 bp-100 kb)通過算法拼接成盡量長的片段(contig和scaffold,長度幾十kb到Mb不等)或者整條染色體的過程。組裝過程的關鍵是識別基因組上相鄰測序片段的重疊關系,除測序技術外,基因組的雜合度和重復序列對組裝效果影響最大[1]。植物基因組往往經歷局部復制、全基因組加倍、重復序列擴張等,導致基因組中存在大量相似或者同源的片段,組裝時產生冗余的重疊關系,增加組裝的困難。由于植物基因組具有非常豐富的多樣性,參考已發表的少數物種組裝新的物種,有時卻無法達到理想的組裝效果。測序技術發展提供了短序列測序、單分子測序、光學圖譜、Hi-C圖譜等多種測序技術及其組合的組裝方案[2],如何以最低成本獲得滿足研究需求的基因組,是科研人員普遍面臨的一個問題。本文綜合闡述植物基因組特征與組裝效果之間的關系,以期對研究人員選擇組裝策略、預估組裝結果提供一定的參考。
在組裝前通常需要對基因組進行評估,獲得基因組的概括性特征。在各項特征中,基因組大小、雜合度和重復序列含量是決定測序成本、組裝難度和最終組裝效果的最重要的幾個特征[3]。這些特征可以通過全基因組的K-mer分析進行評估。在測序read上相隔1 bp取長度為K的子序列,稱為K-mer,全部測序read中K-mer的種類及其出現次數(K-mer深度)通過分布曲線展示出來,即可觀察到基因組的基本特征(圖1)。在測序覆蓋均勻、沒有測序錯誤和重復序列的基因組上,K-mer分布曲線符合泊松分布。如果基因組存在某些復雜特征,會使分布曲線偏離泊松分布,出現與特征相對應的峰。

圖1 幾種植物基因組Illumina測序數據K-mer分布曲線Fig. 1 K-mer volume histograms of illumina sequencing data from several plant genomes
在實際測序數據的K-mer分布曲線上,第一個極高的值是測序錯誤導致的K-mer,深度只有1-2。單倍體或純合基因組的K-mer分布曲線只有一個主峰。雜合二倍體基因組的K-mer分布曲線有兩個峰,分別為雜合峰和純合峰,前者深度只有后者的一半。雜合多倍體基因組則會出現多個雜合峰。雜合峰的比例越高,表示雜合度越大。重復序列含量較高時會在主峰后面形成一個小峰或者在極高深度處形成拖尾。
基因組大小可以由(總K-mer數量)/(K-mer期望測序深度)來估計,通常以K-mer分布曲線的主峰深度作為期望測序深度。該公式估算的基因組大小有10%左右的誤差,可以結合流式細胞實驗檢測DNA含量,估算基因組大小進行綜合考慮。
基因組大小不超過1Gb,純合或者雜合度低于千分之五,重復序列含量低于50%的基因組可以被歸類為簡單基因組。作為模式物種首先完成基因組圖譜的擬南芥(Arabidopsis thaliana)、水稻(Oryza sativa L. ssp. indica)等都屬于簡單基因組。簡單基因組使用二代測序數據、二三代測序數據混合或者純三代測序數據,都可以完成組裝(表1)。在二代數據為主的項目中,通常用小片段文庫組裝contig,大片段文庫(mate-pair)構建scaffold;加入少量三代數據混合組裝,以填補scaffold中的“空洞”區域。與前兩種方式相比,使用純三代數據組裝,能夠顯著提高組裝的連續性、完整性等指標,縮短組裝時間。10年前由多國實驗室合作、耗費數年完成的馬鈴薯(Solanum tuberosum L.)[6]和番茄(Solanum lycopersicum)[10]參考基因組,如今由單個團隊使用純三代測序數據就組裝了contig N50 提高500倍(32 kb vs 17.3 Mb)[11]和60倍(87 kb vs 5.5 Mb)[12]的新版本。使用三代測序數據獲得高質量的組裝片段,再利用遺傳圖譜、Hi-C圖譜[13-14]、光學圖譜[15]等構建成染色體,是當前解析簡單基因組最高效的方案,也是學術期刊對簡單基因組組裝的普遍要求。

表1 幾種植物基因組組裝方案及組裝結果Table1 Assembly strategies and results of several plant genomes
由于三代測序數據單堿基錯誤率高達10%-15%,組裝得到的基因組通常需要先進行序列糾錯(“拋光”)再進行基因注釋等分析?;蚪M糾錯可以使用二代數據或者三代數據,必要時兩種數據結合進行多次糾錯。
自交不親和和無性繁殖在自然界的植物中普遍存在,造成了基因組的雜合特征。本文討論的高雜合基因組雜合度約為1%-2%,即同源片段的序列差異達到1%-2%,導致組裝時同源區域的read無法充分合并,產生大量分支結構,嚴重影響組裝的連續性及后續分析。
將基因組DNA分成小份分別進行測序、組裝是避免雜合片段干擾的一種有效方法[37-38],每份DNA含有極少量雜合片段,基本可作為純合基因組組裝,從而降低組裝難度。早期解決雜合基因組使用BAC-by-BAC策略[9],構建數萬個BAC克隆,每個單獨測序、組裝,然后合并成一套基因組。另一種方法是借助減數分裂分離出單套基因組,比如通過花粉培養獲得單倍體個體。而對于無法獲得單倍體的物種,研究人員則設法從二倍體的測序數據中提取單倍體數據。在雜合菠蘿(Ananas comosus(L.)Merr.)基因組項目中,研究人員將雜合菠蘿F153與CB5雜交,通過比較后代F1個體與親本F153的測序read,分離出F153其中一套基因組的read進行組裝[5]。
近年來發展的10×Genomeics技術,將大片段DNA分子包裹進油滴添加標簽后測序,產生的linked-read保留了基因組長距離的信息,有助于構建更長的scaffold[39]。高雜合楊桃基因組的組裝結果顯示,單個10×G文庫組裝的scaffold N50達到2.7 Mb[40],組裝指標優于早期雜合梨(Pyrus bretschneideri Rehd.)和菠蘿基因組。該方案能以最少的測序和計算成本提供可用的參考基因組,已經在植物基因組中廣泛應用。
在早期的基因組項目中,組裝的目的是得到一個完整的單倍體參考基因組,因此只取單套基因組進行組裝或者將基因組內雜合區域盡量合并。隨著對基因組研究的深入,基因組單體型信息越來越受到重視,對雜合物種的基因組提出了分型組裝的需求。
Falcon-unzip是最早利用三代測序數據進行雜合基因組組裝和分型的工具[35],其組裝結果包含一個單倍體參考基因組和雜合區域的局部單體型信息,是目前雜合基因組分型最常見的呈現方式。由于三代測序數據的讀長優勢,Falcon-unzip組裝的雜合物種參考基因組在contig連續性上有顯著提升,但是輸出的參考基因組混合了兩個單體型的序列,在基因注釋等后續分析中仍然存在問題。
由于組裝算法的局限或變異位點分布不均勻,單純使用全基因組測序組裝的單體型都是局部的、片段化的。借助遺傳信息分離同源區域的基因組數據, 再將每個區域組裝成單體型,是目前解決高雜合物種組裝最成功的方法(圖2)。

圖2 三種植物基因組組裝和分型方案Fig. 2 Three assembly and genotyping strategies of genome in plants
“親本-子代”家系測序是區分雜合個體內兩套單體型最直接的方法。Triobin方法將家系測序與第三代測序技術結合[41],使用親本測序數據將雜合F1個體的測序數據分成兩類,然后兩類分別組裝成兩個親本的單體型。該方法對擬南芥F1個體(雜合度1.36%)的組裝結果顯示,兩個單體型的完成度和質量都達到較高水平。Triobin對來自親本雜合區域的read分類效果較差,更適用于純合親本的情況。另外,家系測序的條件在很多研究中無法滿足,限制了Triobin的應用范圍。
遺傳群體也是基因組分型的有力工具。通過遺傳群體與不同測序技術結合,梨雜合基因組[42]和馬鈴薯雜合基因組[7]項目發表了組裝雜合基因組完整單體型的方案。在雜合梨項目中,研究人員使用單倍體群體(12個花粉細胞)的測序數據對先前構建的3.8萬個BAC進行分型,每條染色體的BAC被分成A、B兩類,再分別組裝成A、B單體型。為避免不同染色體互相干擾,分型前先用梨單倍體參考基因組識別BAC所屬染色體,有效提高了分型的效率,但也限制了其在無參考物種上的應用效果。雜合馬鈴薯分型組裝的流程包含3個階段:(1)用高保真三代測序數據(HiFi read)組裝出二倍體基因組的全部contig序列;(2)構建遺傳圖譜將contig分配到12個連鎖群中,對應單倍體基因組的12條染色體;(3)同一連鎖群的contig根據基因型分成兩組,代表染色體的兩個單體型。與其他分型方法類似,該流程也先區分不同染色體,再區分染色體的兩個單體型。在階段(2)中,研究人員開發了利用contig構建連鎖群的方法,使用遺傳連鎖群區分不同染色體,避免了對已知參考基因組的依賴,擴展了應用范圍。
高雜合基因組的組裝和分型一直是基因組方法領域的難點,目前仍然沒有相對簡便的方法和工具。隨著HiFi read 數據的應用以及hifiasm等綜合利用三代測序、Hi-C數據優勢的組裝軟件的開發[42-43],將促進雜合植物基因組解析的快速進展。
重復序列在物種進化和功能調控中扮演不可或缺的角色,是基因組重要的組成部分。重復序列的序列相似性高、長度不一、拷貝數變化范圍大,一直是組裝中的難題。相比于二代測序技術,三代長讀長測序可以跨過重復序列區域,提高重復序列的區分度,顯著改善組裝的連續性和重復序列組裝的完整性、準確性,這種優勢在85%的序列都來源于轉座子擴增的玉米(Zea mays ssp. mays L.)基因組中得到充分體現。PacBio數據組裝的玉米B73基因組,相對之前基于二代組裝的版本,contig連續性提高了52倍,并且糾正了著絲粒區的組裝錯誤,極大改善了基因功能區注釋和轉座子的進化分析[45-46]。
高重復序列基因組的另外一類代表是擁有巨大 基因組的植物,如火炬松(Pinus taeda L.,22 Gb, 82%)[47]、挪威云杉(Picea abies,20 Gb,>71%)[48]、 銀杏(Ginkgo biloba,10 Gb,80%)[49],基因組70% 以上都是重復序列,遠超擬南芥(20%)[50]、水稻(40%)[51]等模式植物。這些裸子植物都是雜合的,可以選擇單倍的配子體胚乳進行測序。大型基因組的測序成本和組裝技術難度都較大,最初發表的幾個裸子植物基因組采用二代數據組裝的方式,contig N50僅有幾kb或者幾十kb。近日阮玨團隊利用~44× PacBio數據重新組裝了銀杏基因組[52],將contig N50由二代組裝的48 kb[49]提高至1.58 Mb,并利用Hi-C掛載了12條染色體,是目前發表的最高質量的裸子植物基因組,也提高了研究人員對大型基因組的組裝要求。2020年發表的大蒜(Allium sativum)基因組[53],經歷3次全基因組復制及重復序列擴張,基因組達到16.9 Gb,其中91.3%都是重復序列,是迄今組裝的重復序列比例最高的基因組,組裝方法采用了 PacBio 構建contig、10×G文庫連接成scaffold、最后用Hi-C數據掛載染色體。最新公布的雜合加州紅杉(Sequoia sempervirens )基因組(6倍體,單倍體27 Gb)組裝結果,研究人員使用PacBio HiFi數據和Hifiasm[42]軟件獲得47.47 Gb contig序列,N50達到1.92 Mb(https://downloads. pacbcloud. com/public/dataset/redwood2020/),并且組裝時間僅需幾天,展示了高準確率三代數據在大型植物基因組組裝上的應用前景。
由于雜交和基因組加倍導致了多倍體植物的存在,一些重要的農作物例如小麥、棉花、馬鈴薯等都是多倍體,其基因組的解析是影響作物育種進展的重要因素。多倍體物種根據其形成機制分為異源多倍體和同源多倍體,異源多倍體中染色體來源于不同祖先,基因組內可以區分亞基因組,對組裝干擾較少;而同源多倍體中多套染色體之間高度相似,相當于高雜合基因組,組裝難度極大。
異源多倍體基因組通??梢援斪黾兒匣蚪M進行組裝,其重點是組裝后區分亞基因組。國際小麥測序聯盟解析六倍體栽培小麥(Triticum aestivum,AABBDD)基因組時利用流式細胞儀分離技術將21條染色體分離開,分別構建BAC文庫進行測序和組裝[54]。分離染色體的技術和成本要求較高,并不常見于普通植物研究。四倍體油菜基因組(Brassica napus,AACC)[55]和四倍體花生基因組(Arachis hypogaea,AABB)[56-57]的組裝借助了二倍體祖先的測序數據區分出兩個亞基因組。相對二代測序數據,三代測序數據可以更好區分相似序列,組裝出連續性更長的contig,再結合全基因組遺傳圖譜或者Hi-C圖譜區分異源染色體。2015年發表的四倍體棉花TM-1(Gossypium hirsutum,AADD)基因組由10萬個BAC克隆和遺傳圖譜組裝完成[58],2019和2020年發表的新版本的TM-1基因組均由PacBio數據和Hi-C圖譜、光學圖譜完成,提高了參考基因組質量,也提供了更高效、更低成本的多倍體組裝 方法[59-60]。
相比異源多倍體由自然雜交產生,同源多倍體通過染色體加倍形成,遺傳上多套染色體都可以聯會,序列上同源區域相似度較高,在組裝過程中互相干擾。在二代測序數據為主的時代,為構建物種的參考基因組,只能測序單倍體材料降低組裝難度或者容忍、合并雜合區域。2017 年發表的六倍體甘薯基因組(Ipomoea batatas,B1B1B2B2B2B2)首次報道了同源多倍體植物的單倍體參考基因組和基因組30%區域的分型結果[61]。隨后,2018年同源四倍體甘蔗基因組(Saccharum officinarum,1n=4x)首次攻克了同源多倍體單體型組裝的難題[62],其關鍵步驟是使用BAC文庫和三代測序數據克服序列相似性,組裝出四倍體全部contig,再結合Hi-C圖譜分成4套染色體。其中Hi-C分型軟件ALLHIC[63]借助近緣物種高粱基因組,區分出甘蔗不同染色體的contig,再根據Hi-C互作信號對同源contig進行區分及錨定。同源四倍體紫花苜蓿(Medicago sativa L.,2n=4x)基因組的解析也使用了該方案,在二倍體苜蓿(M. truncatula)基因組的輔助下,成功獲得了4套分型結果[8]。四倍體苜蓿首次使用了高準確率的PacBio HiFi數據進行多倍體組裝,獲得了比甘蔗基因組更好的contig 連續性。雖然同源多倍體的組裝和分型在多個物種上都獲得了成功,但是基于Hi-C的分型軟件仍然要依賴單倍體的參考基因組,并且在處理差異較小的同源染色體時區分效果不明顯,解析復雜同源多倍體基因組還需繼續探索多種類型數據和技術整合[64]。
完成物種的參考基因組后,為挖掘和利用該物種的基因組資源,通常會進行群體重測序分析。傳統分析方法是將個體的短序列匹配到參考基因組上識別個體間的差異。這種方式得到變異類型十分有限,尤其對于個體間遺傳差異大的物種,單一參考基因組無法滿足分析需求。泛基因組(pan-genome)通過對物種的不同個體進行測序及組裝,盡可能地捕獲該物種的全部遺傳信息,為后續功能研究提供新的參考基因組,正逐漸成為挖掘物種遺傳多樣性的研究趨勢。
泛基因組構建的方式有3種(圖3)。早期研究由于測序數據較少,將個體測序數據比對到參考基因組,提取沒有比對上的read進行組裝,產生的新序列迭代補充到參考基因組上,這種方式稱為迭代組裝。2018年發表的3 010份水稻(Oryza sativa L.)測序是迭代組裝構建泛基因組的經典研究[65],研究人員提出“map-to-pan”策略,從重測序個體中組裝出268 Mb的非冗余序列,補充到日本晴參考基因組,作為后續變異檢測和功能分析的基礎。這種方式構建的泛基因組連續性較差,無法檢測大的結構變異,重新組裝的新序列也會導致泛基因組的冗余。

圖3 泛基因組構建的三種方式Fig. 3 Three approaches of assembling pan-genome
第二種方式是從頭組裝個體基因組后再構建泛基因組。高質量的個體基因組是泛基因組分析的前提,因此組裝成本較高。目前已發表的栽培稻-野生稻[66]、大麥(Hordeum vulgare L.)[67]和小麥泛基因組(Triticum aestivum L.)[68],均使用二代數據進行組裝。其中大麥和小麥泛基因組中利用Hi-C數據將部分材料組裝到染色體級別。從頭組裝有利于系統鑒定各類群的“存在-缺失”變異集,染色體水平的比較能夠揭示全基因組大規模序列重排和結構變異,為解析復雜表型的遺傳機制提供更精確的信息。大麥泛基因組的分析揭示了不同種質中兩個高頻染色體異位與育種和馴化的關系,展示了組裝的質量決定泛基因組分析的精度以及其在育種中的應用。
第三種方式是近年來快速發展的圖基因組(graph-based genome)[69-70],用圖上的路徑(path)表示不同個體中相同和差異的序列。圖參考基因組的構建一般基于從頭組裝的基因組,將不同個體的基因組比對到線性參考基因組提取變異,所有個體的變異經過去冗余,再與線性基因組進行整合,通過多條路徑的方式展示各種變異。圖基因組考慮了個體間的相似性和差異性,也能更加直觀的展示群體中復雜的結構變異。圖基因組相對線性基因組,能夠更好的協調多個基因組的坐標對應關系,以最小的數據結構保留全部個體的序列信息,將在泛基因組分析模型中獲得廣泛應用[71]。2020年發表的大豆(Glycine)泛基因組[72],是第一個構建高質量的圖參考基因組的作物,研究人員使用第三代測序數據從頭組裝選擇了26個代表性材料并錨定到染色體,平均contig N50達到了22.6 Mb,獲得了在泛基因組分析中最高的組裝連續性,對后續的泛基因組研究的提出了更高的標準[73]。
早期使用Sanger測序BAC等大片段克隆,再將大片段拼接成基因組。人類基因組項目用該方法完成了大腸桿菌、酵母、線蟲及果蠅等模式物種的標準參考基因組。此方法完成的基因組質量較好,但是成本過高,無法滿足日益增長的物種組裝需求。
在過去十幾年間,第二代測序技術快速發展,每Gb數據價格降低到50元以內,片段長度從30 bp提高到300 bp,并保證了較高的堿基準確率(>99%),使完成的基因組數量得到迅速增長。二代測序建庫過程中需要PCR擴增,存在GC偏好性,有些區域無法被二代測序覆蓋,影響組裝完整性。由于二代測序的讀長較短,通常構建2 kb-40 kb的mate-paire文庫以跨過重復序列等難組裝區域。這導致用二代數據完成的基因組含有大量gap,contig通常只有幾十kb。此外,讀長限制使二代測序難以解決基因組復雜區域,如著絲粒,端粒等富含串聯重復片段區域,組裝結果遠達不到基因組“完成圖”的質量。
以PacBio和Nanopore為代表的第三代測序技術無需PCR建庫過程對基因組覆蓋更均勻,實現了單分子測序,讀長可以達到幾十kb到上百kb。Nanopore ultra-long 測序技術,甚至可以產生Mb級別的read[74-75]。長度優勢使第三代long read能夠跨過長距離復雜區域,提供足夠多標記區分相似、同源片段,將組裝contig N50提高到Mb甚至幾十Mb級別。Pacbio和Nanopore已經成為基因組組裝最常用的數據類型,許多之前使用二代數據組裝的物種基因組,使用三代數據重新進行了組裝,提高contig連續性并且補充之前二代測序沒有覆蓋的區域。
PacBio的CLR(continuous long reads)數據原始堿基準確率為85%-92%。堿基錯誤是隨機的,增加測序深度進行校正后,一致性序列準確性可以達到99.99%。Nanopore 數據的原始堿基準確率與CLR相似,但是錯誤不完全隨機,糾錯后準確率可以提高到99%。然而,在植物雜合基因組或者高重復序列基因組中,同源或者多拷貝的序列之間差異只有1%-2%,遠低于三代序列的測序錯誤(10%-15%),對原始數據進行糾錯不可避免會合并基因組上的相似序列,在后續組裝和分型過程中損失該類序列的信息。在使用CANU等軟件組裝這類基因組時,有時糾錯階段會將原始數據量減少至三分之一,導致最后組裝結果遠小于預估基因組大小。并且原始數據糾錯耗時較長,在大型基因組(>10 Gb)組裝中成為短板因素。
近兩年來PacBio公司推出的高保真HiFi read,堿基準確率>99%。HiFi數據的高準確率顯著提高了參考基因組組裝的質量并且精減了原始序列糾錯、組裝結果拋光等步驟,是當前質量認可度最高的測序數據。HiFi read測序時對DNA插入片段進行多次循環讀取,以犧牲長度換取高準確率, 平均讀長只有CLR的1/2(10-20 kb vs 20-40 kb),并且通量只有CLR的1/5,當前一張SMRT cell芯片可以產出>100 Gb CLR read數據,而只能產出20-25 Gb HiFi read數據,無法跨過長距離復雜區域,且數據有效率較低、成本較高,這些是HiFi數據在解決大型、復雜基因組時的局限。
基因組組裝的質量在很大程度上取決于測序技術產出的片段長度和準確率。HiFi提供了高精度單分子測序,Nanopore ultra-long提供了超長片段,相信在不久的將來隨著測序成本的降低,這兩種技術的綜合應用能推動植物基因組進入端粒到端粒的“完成圖”組裝時代。
當前各種建庫技術、測序平臺都在不停發展,獲得高質量、高深度、多維度測序數據的成本在快速降低,構建研究物種的參考基因組成為基因組項目的常規任務。隨著被解析的基因組數量增加,植物基因組的易變性和多樣性不斷在各種復雜基因組中得到體現。在實際研究中,每個待組裝的基因組所面臨的技術問題和后續的分析需求也不盡相同。在項目初期做好基因組特征評估和對組裝質量的預期,再選擇測序和組裝策略是比較明智的做法。
泛基因組正逐漸成為研究作物馴化與基因功能的新參考基因組。越來越多的個體基因組完成了高質量組裝,使泛基因組的構建更具有實用價值,同時也對數據的存儲、可視化以及流程化分析提出新的要求。如何整合參考基因組與多組學數據,實現泛基因組指導作物育種改良成為新的熱點方向。
除組裝方法外,植物基因組面臨的還有測序技術方面的挑戰。由于細胞壁的存在,以及大量的多糖、次生代謝產物等,從植物細胞中提取高質量、大片段DNA構建測序文庫經常會遇到困難。例如Nanopore ultra-long 測序技術受限于植物DNA提取技術,目前仍未在植物基因組中有應用報道。未來相關測序實驗技術的突破也能夠為復雜植物基因組解析提供新的契機。