李丹 陳曉慧 賴鐘雄


摘 ?要??基于全基因組測序結果,探討了包括熱帶水果香蕉(Musa spp.)、龍眼(Dimocarpus longan)、番木瓜(Carica papaya)、菠蘿(Ananas comosus)、椰子(Cocos nucifera)、榴蓮(Durio zibethinus),經濟作物橡膠(Hevea brasiliensis)、木薯(Manihot esculenta)、棗椰(Phoenix dactylifera)、可可(Theobroma cacao)、油棕(Elaeis guineensis)、咖啡(Coffea canephora)以及藥用植物鐵皮石斛(Dendrobium officinale)在內的13種熱帶植物的全基因組測序的發展歷程,并對熱帶植物基因組研究進行了概述。
關鍵詞 ?熱帶植物;全基因組;第二代測序;遺傳育種;功能基因中圖分類號??Q943.2??????文獻標識碼??A
Research Progresses of Tropical Plant Genome
LI Dan, CHEN Xiaohui*, LAI Zhongxiong**
Institute of Horticultural Biotechnology, Fujian Agriculture and Forestry University, Fuzhou,?Fujian 350002,?China
Abstract ?Based on genome-wide sequencing results, the development of genome-wide sequencing of 13?tropical plants including banana (Musaspp.), longan (Dimocarpus longan), papaya (Carica papaya), pineapple (Ananas comosus), coconut (Cocos nucifera), durian (Durio zibethinus), rubber (Hevea brasiliensis),?cassava?(Manihot esculenta), date palm (Phoenix dactylifera), cocoa (Theobroma cacao), oil palm(Elaeis guineensis), coffee (Coffea canephra) Tiepi-shihu (Dendrobium officinale) was discussed, and the tropical plant genome research was summarized.
Keywords ?tropical plants; whole genome; next?generation sequencing; genetic breeding; functional genes
DOI10.3969/j.issn.1000-2561.2019.10.001
20世紀末,以Sanger技術為核心的第一代測序技術誕生,單鏈DNA噬菌體φX174全基因組序列的測定標志著人類正式步入基因組學時代[1]。第一代測序技術準確性高、序列讀長可達1?kb,但其測序技術復雜、成本高、通量低,無法滿足大規模應用。2000年首個植物基因圖譜擬南芥基因組通過一代測序技術破譯完成,取得了植物科學研究領域里程碑式突破[2]。2005年之后,測序技術發生革命性進步,通過邊合成邊測序的方法,以Roche 454、Illumina?Solexa/HiSeq和ABI SOLiD技術為代表的第二代測序技術(又稱高通量測序)興起,雖然第二代測序的序列存在讀長較短的不足,但也難以掩蓋其與第一代相比的顯著優勢,尤以高通量、高速率、低成本的Illumina HiSeq為代表的測序技術為代表,極大推動了基因組和轉錄組測序的應用與發展,成為大規模全基因組測序技術的主導。與前兩代相比,Helicos Heliscope單分子測序儀和PacBio SMRT、Oxford Nanopore Technologies的GridION等納米孔單分子第三代測序技術,超長讀長、測序速率更高、測序過程無需進行PCR擴增,但配套軟件平臺和技術算法的商業化應用尚未成熟,測序錯誤率明顯高于第二代。隨著多種測序技術的開發和應用,加速并擴大了研究人員對植物演化及性狀的認識,大量植物基因組序列被測定并取得里程碑式的研究成果。
以Sanger測序技術組裝的葡萄(Vitis vinifera)基因組測序工作于2007年完成[3-4],為果樹基因組測序建立了良好開端,隨后Sanger測序又運用到番木瓜(Carica papaya)基因組測序中[5],Roche?454結合Sanger、Illumina測序技術代替了單一Sanger組裝完成了可可(Theobroma cacao)[6]、香蕉(Musa acuminata)[7]等復雜的基因組測序,之后多種熱帶植物的全基因組測序工作在測序技術大發展的背景下相繼完成并公布,獲得了高質量的全基因組數據,為熱帶植物分子育種提供了優良的數據基礎。本文以plaBiPD在線網站(https://www.plabipd.de/index.ep)為查詢數據庫,回顧并分析了包括熱帶水果、熱帶經濟作物和藥用植物在內的13種具代表性的熱帶植物的全基因組測序研究結果,探討了各植物間全基因組測序歷程和面臨的難題,以及基于基因組關聯轉錄組學挖掘的重要研究。
通過比較香蕉(Musa spp.)、龍眼(Dimocarpus longan)、番木瓜(Carica papaya)、菠蘿(Ananas comosus)、椰子(Cocos nucifera)、榴蓮(Durio zibeth inus)、橡膠(Hevea brasiliensis)、木薯(Manihot esculenta)、棗椰(Phoenix dactylifera)、可可(Theobroma cacao)、油棕(Elaeis guine ensis)、咖啡(Coffea canephora)、鐵皮石斛(Dendr obium officinale)等在內的13種熱帶植物的基因組信息(表1),發現最先測序組裝的番木瓜基因組大小在13種植物中最小,且采用第一代Sanger測序技術。香蕉和龍眼基因組大小相當,多以第二代測序技術為主要測序方式。而較為復雜的大型喬木椰子、橡膠和菠蘿基因組數據較大,均采用了第二代測序技術與第三代測序技術相結合的方法。在起步較晚的香蕉B基因組、矮種椰Catigan Green Dwarf以及云南普洱F3代GREEN均啟用了第三代測序PacBio SMRT或Hi-C技術。從測序技術來看,熱帶植物多采用主流的第二代Illumina Hiseq 2000。從基因數目來看,番木瓜基因組注釋的數量最少,咖啡(阿拉比卡)基因組注釋的數量最多,達99?829。但是基因最大的椰樹基因組上注釋的基因數目遠小于咖啡(阿拉比卡),可見基因組大小和基因數目之間并沒有直接關系。
多數植物基因組由于遠緣雜交、自交不親和及基因組較大且基因組雜合度、倍性高等原因,導致基因組組裝難度加大。N50指的是將所有組裝的基因組序列從長到短依次排列,從最長的序列開始疊加,當疊加總長達到所有序列總長的50%時,被疊加的那條序列即為N50長度,N50越大代表序列組裝質量越好。在具有高度相似序列重復和高雜合度的植物中,基因組序列分布分散且重復出現導致Scaffold N50相對較短,這使得即使對于長插入片段精準度下降,因此可能導致Scaffold延伸的破壞,N50指標下降。香蕉B基因組PKW、橡膠RRIM?600、木薯KU50、鐵皮石斛云南普洱F3代GREEN和棗椰(Khalas(雌)、Deglet Noor & Medjool)的測序組裝Scaffold N50和Contig N50指標均較低,其主要原因在香蕉PKW基因組上,主要是由于測序采用基因組讀數映射導致組裝質量欠佳,而在橡膠RRIM 600、木薯KU50和鐵皮石斛云南普洱F3代GREEN則由于基因組測序覆蓋度較低、測序材料不理想而致使組裝難度加大。可見,為確保高質量的基因組測序,應特別注意測序材料的選擇。
1.1熱帶水果
1.1.1 ?香蕉??香蕉是芭蕉科大型單子葉植物,是重要熱帶水果,同時也是世界第四大糧食作物。香蕉存在4種基因組,A基因組(Musa acuminata)[7]、B基因組(M.balbisiana)[8]、S基因組(M. schizo carpa)[29]和T基因組(Australimusa)。自然演化和種間雜交導致A和B基因組產生多種基因型(二倍體:AA、BB、AB;三倍體:AAA、AAB、ABB;四倍體:AAAB、AABB、ABBB),大多數可食用栽培品種是三倍體。在人為馴化過程中培育出野生二倍體雜交的三倍體單性結實雜種,通過營養繁殖進行擴繁。雜交基因組含有不確定數量的A和B基因組等位基因,使香蕉遺傳性狀的研究復雜化。香蕉在生產過程中面臨的毀滅性威脅是來自于由尖孢鐮刀菌古巴專化型(Fusar ium oxys porumf. sp.cubense,Foc)引起的枯萎病,?又稱巴拿馬病,且該病原菌熱帶型4號小種(TR4)危害最為嚴重,尚無有效的根治方法。因此,選育抗生物和非生物脅迫的優良香蕉品系迫在眉睫,而基因組測序為挖掘優良基因信息提供了重要的參考依據。本文主要介紹了A、B和阿寬蕉基因組。
香蕉全基因組測序在2012年首次報道,DHont等[7]利用Roche 454 GSFLX組合Sanger、Illumina GAIIx測序技術以20.5倍覆蓋度讀取了二倍體馬來西亞小果野蕉DH-Pahang(AA)基因組序列523?Mb基因組序列草圖,Illumina讀數50倍覆蓋度進行數據校正,最終組裝了24?425個contig和7513個Scaffold,總長為472.2?Mb,覆蓋90%的全基因組序列和92%的注釋基因,注釋蛋白編碼基因36?542個,非編碼RNA含819個轉運RNA(tRNA)、235個微小RNA(miRNA)。基于比較基因組和轉錄組數據解析了芭蕉科的基因組進化特征,為后續香蕉遺傳改良研究奠定了重要基礎。
隨后,香蕉B基因組公布。野生二倍體Pisang Klutuk Wulung(PKW)是B基因組組合三倍體的最早祖先親本,對香蕉黑條葉斑病具一定抗性。Davey等[8]利用Illumina HiSeq 2000 II對PKW進行測序,通過將PKW gDNA讀數映射到A基因組中提取共有序列和De novo組裝分別得出341.4、339.3 Mb的基因組序列,注釋蛋白編碼基因36 638個,獲得的B基因組的序列大小是A基因組的79%,與A基因組存在大量序列差異,每23.1?bp存在1個純合單核苷酸多態性(SNP),且每55.9 bp存在1個雜合SNP,表明香蕉基因組的高度雜合。將香蕉PKW基因組讀數與已報道的A基因組進行映射比對,共發現PKW重復區域占B基因組的26.85%(108.1 Mb),且A、B基因組中miRNA數量較接近,B基因組中存在一定數量的新miRNA。異源多倍體香蕉基因在所有染色體基因分布的差異性,及A和B基因組重復序列表征在分子遺傳學研究中具有重要價值,譜系特異的多樣化機制和基因組多樣性,為后續更加深入理解種間或種內三倍體香蕉雜種代謝研究提供了寶貴的參考資源,彌補了B基因組研究的空白。但由于從頭組裝和映射讀取使得組裝質量和注釋基因文庫有效性較低。
近期,金志強團隊Wang等[9]對B基因組進行了更高質量的組裝,利用Illumina HiSeq 2000結合PacBio SMRT、Illumina NovaSeq 6000、Hi-C獲得492.77?Mb的Scaffold,覆蓋全基因組的95%,最終組裝了430 Mb的全基因組序列。在11條染色體上,注釋蛋白編碼基因35 148個,86%的基因與轉錄組數據匹配。A、B基因組的基因家族擴張和收縮分析顯示,與其他測序的基因組相比,在A和B基因組中顯著擴張的基因家族分別有83和33個,相反,這些擴張的家族又在對立基因組中顯著收縮。為研究多倍體香蕉中亞基因組的進化、遺傳多樣性和亞基因組的功能差異,進一步比較了A和B基因組,發現它們的分化發生在全基因組復制之后。而多倍體香蕉中亞基因組的功能分化主要是由A和B基因組之間染色體重排和基因缺失的結構變異等造成。三倍體粉蕉(Musa ABB group, cv Pisang Awak)在乙烯生物合成和淀粉代謝通路中的相關基因家族顯著擴張,并且在同源三倍體的B亞基因組中表現出更廣泛的同源基因表達優勢。B基因組的高質量測序為A、B及同源多倍體香蕉的進化研究提供了新的見解,同時解析了B基因組相關功能基因在香蕉果實成熟過程的演變與調節。
野生近緣種含有栽培種的有益等位基因,是未來香蕉育種的重要基因庫。有研究顯示,中國亞熱帶地區廣泛分布的香蕉野生近緣種云南香蕉(阿寬蕉)M. itinerans,是芭蕉屬中最具FocTR4抗性和耐寒性的物種之一,這為香蕉育種中的抗病性和抗寒性提供了寶貴的資源[30]。2016年Wu等[10]利用Illumina Hiseq 2000對阿寬蕉進行測序,從頭組裝獲得462.1 Mb基因組序列,覆蓋75.2%的全基因組(615.2 Mb),預測蛋白編碼基因32 456個,雜合率為0.25%,注釋蛋白編碼基因占比86.9%,非編碼RNA中注釋了345個miRNA、977個tRNA、278個核糖體RNA(rRNA)和299個小核RNA(snRNA)。組裝后質量評估顯示GC含量分布多在38.8%左右,與A基因組分布一致。同時,韋恩聚類分析發現阿寬蕉與A基因組含共有直系同源基因家族2727個,揭示兩基因組具有更高的相似性。
1.1.2??龍眼??龍眼是無患子科(Sapindaceae)熱帶亞熱帶名貴特產水果,其果實風味獨特、富含酚類等次生代謝物質,藥用保健價值高。由于龍眼的遺傳雜合性較高,常規育種手段改良其遺傳特性耗時長、穩定性差。賴鐘雄課題組Lin等[11]利用Illumina HiSeq?2000全基因組測序組裝了“紅核子”龍眼基因組序列445?Mb,雜合度為0.88%;并基于13個栽培龍眼種質登錄的全基因組de novo從頭測序,組裝全長471.88?Mb的基因組圖譜,覆蓋106.4%的全基因組,配對末端測序獲得273.44倍的覆蓋度,注釋蛋白編碼基因310?07個,其中262?61個基因組成149?61個基因家族,非蛋白編碼?RNA中共注釋359個miRNA、212個rRNA、506個tRNA和399個snRNA。Scaffold N50和Contig N50分別為566.62?kb和26.04?kb,表明龍眼基因組組裝質量高。SNP和插入缺失位點(InDel)分別為357737與23225。利用比較基因組學結合轉錄組分析,揭示了龍眼基因組的結構及其進化規律,同時明確了龍眼富含酚類等次生代謝物質及對植物病原體產生抗性的機制。
1.1.3??番木瓜??番木瓜是熱帶亞熱帶地區經濟作物,其富含維生素A和木瓜蛋白酶,營養價值和藥用價值較高。番木瓜與擬南芥同屬于十字花目(Brassicales),在被子植物進化史上與擬南芥祖先相同[31]。轉基因(抗環斑病毒)栽培種SunUp雌株的全基因組測序[5]是商業抗病毒轉基因果樹的首次測序,該基因組測序大小372?Mb,3倍測序深度覆蓋75%的全基因組,組裝基因組大小為271?Mb,雜合度為0.06%。注釋基因數量為24 746個,已知DNA轉座子的豐度相對較低(0.2%),轉錄因子家族和超家族數量為2438個,非蛋白編碼RNA中注釋tRNA和snRNA分別為388和47個,總體數量及多數家族數目均比擬南芥和其他常見熱帶植物少。
通過與現統計的主要熱帶植物的比較發現(表1),番木瓜基因組大小及基因數量最低,功能基因僅包含少量抗病相關基因,Ming等[5]認為是由多代近親人工栽培繁殖導致番木瓜進化出特殊防御機制。進化分析結果顯示,番木瓜與擬南芥在7200萬年前分歧進化后,其進化分支較保守,基因譜系中基因組復制事件較少,甚至未發生。值得注意的是,盡管在大多數生物合成途徑中基因數量減少,但番木瓜中預測與控制生長和繁殖相關的MADS-box家族成員的數量(205個,占基因組數量的47%)明顯高于其他測序植物基因組中的水平(橡膠中在基因組僅占比12.5%[17])。番木瓜特異性基因顯著擴增,對有關番木瓜淀粉積累運輸、種子傳播媒介的吸引、長日照適應、抗環斑病毒、纖維素與木質素合成、性別決定等基因研究具重要作用。番木瓜作為典型轉基因植物,其核基因組中有3個位置與葉綠體插入、拓撲異構酶I識別位點密切相關,這對解析轉基因植株中目的基因插入、表達及功能研究具重要意義。
1.1.4??菠蘿??菠蘿為鳳梨科(Bromeliaceae)喜光植物,是世界第二大熱帶水果,同時屬于景天酸代謝途徑(CAM)植物。CAM途徑是指生長在熱帶及亞熱帶干旱及半干旱地區的一些肉質植物(最早發現在景天科植物)所具有的一種光合作用固定二氧化碳的附加途徑,其葉片氣孔白天關閉,夜間開放。由于菠蘿同高粱以及水稻等禾草植物共有一個遙遠的祖先,菠蘿成為禾谷類作物基因組研究的最優對照組。Ming等[5]利用F153品種、MD-2和1個野生品系雜交并進行了測序,組裝了382?Mb的基因組,占基因組估計總長526 Mb的72.6%,并構建了25條染色體。通過與已測序的禾本科植物共線性分析發現,菠蘿基因組少了一次古老的全基因組復制事件(WGD),即菠蘿在歷史上經歷了2個全基因組復制而禾草植物中存在3次這種復制。研究人員重建了單子葉植物的7條原始染色體,推測出了從古到今的核型變化,在菠蘿中第1次WGD使7條原始染色體變成14條,而后其中2條5號染色體轉到了其他染色體上,使得染色體剩下12條。第2次基因組復制事件使12條染色體再次加倍變成24條,最后經歷了一些融合和裂變,成為25條染色體。
另外,Ming等[5]對其中發生的景天酸代謝光合作用機制進行了詳細的分析,首先結合轉錄組數據鑒定出了38個參與景天酸代謝途徑的基因,并觀察CAM相關的基因在夜間和白天是如何表達的,最終挖掘到了最重要的CA基因,它在菠蘿里存在3個拷貝(α、β和γ)。其中βCA基因明顯可以看出晝夜節律,在夜間和早晨有較高的表達量,而在下午到晚間表達量降低。在βCA基因中,找到了1個CCA1的結合位點,這個結合位點可以結合兩個晝夜節律的關鍵基因CIRCA DIAN CLOCK ASSOCIATED 1(CCA1)和LATE ELONGATEDHYPOCOTYL(LHY)。即通過這個結合位點,可以控制CA基因的表達量,從而控制整個通路,使之與氣孔的開放、閉合同步。除此之外,還有其他的有關晝夜調控的順式作用元件都有在光合作用基因的拷貝中發現富集,說明CAM光合作用受晝夜節律基因順式作用元件的調控[5]。這項發現為C3作物通過基因改造景天酸光合代謝創造新的抗旱節水作物奠定了基礎。
2016年Redwan等[13]對重要商業菠蘿品種MD-2進行了基因組測序,通過使用二代和三代2個測序平臺,即PacBio長測序讀取和Illumina精確短讀取相結合,獲得了估計基因組99.6%的覆蓋率,注釋27 017個蛋白質編碼基因,確定了占基因組45.21%的重復序列。此外,菠蘿果成熟RNASeq文庫的差異表達揭示了與乙烯合成途徑中相關的轉錄本,發現它們在參與調節菠蘿非躍變型果實的成熟過程中發揮著重要作用。該項研究通過以MD-2菠蘿基因組為例子,通過2種測序手段對1個復雜的雜合基因組進行測序,證明了混合技術相結合既經濟又準確,為了解植物復雜生物學過程提供了更加可行的方法。
1.1.5??椰子??椰子為棕櫚科(Arecaceae)喬木,是重要的熱帶水果及油料作物,在熱帶地區近百個國家廣泛種植。椰子繁育周期較長,有高種、矮種和介于兩者間的雜交種椰子3種生態型。高種椰子高度異交、種植范圍商品性最大;矮種椰子高度自交、營養生長周期較短;中間型的雜種椰子則具有生長周期短的雜種優勢。
中國熱帶農業科學院牽頭的研究團隊利用Illumina HiSeq 2000測序技術完成“海南高”椰子的全基因組測序工作,最終組裝了2.20?Gb,讀取深度173.32倍,覆蓋90.91%的全基因組和96.78%的基因編碼區,注釋蛋白編碼基因28 039個。基因組注釋結果顯示,72.75%的椰子基因組由轉座因子組成,其中長末端重復序列(LTRs)反轉錄轉座子元件占最大比例(92.23%),這一數量遠高于之后的矮種椰子[14-15]。K-mer分析顯示椰子是一種低雜合度、高比例重復序列的二倍體植物。在椰子中共鑒定出119個反向轉運蛋白基因和67個離子通道基因,2個基因家族均發生了顯著擴張,涉及與椰樹耐鹽脅迫有關的Na+/H+反向轉運蛋白、與椰漿中脂肪酸積累相關的肉毒堿/酰基肉堿轉位酶、椰汁中鉀離子積累相關的鉀依賴性鈉-鈣交換蛋白和鉀通道基因。同時進化關系顯示這2個基因家族的多數亞家族的數目與擬南芥相當,均能與擬南芥中的功能基因相聚集。
近期,Lantican等[15]利用Illumina Miseq組合PacBio SMRT對矮椰子品種Catigan Green Dwarf進行測序,測序深度15倍組裝2.15 Gb基因組,覆蓋97.6%的全基因組。注釋蛋白編碼基因34?985個,注釋基因占總預測基因數量的85.3%,高于“海南高”高種椰(81.2%)。同時矮種椰子基因組結構高度純合且更簡單,基因組大小遠低于高種椰。高種椰和矮種椰基因組中均發現大量與椰樹抗逆性及生物合成相關的基因擴張。Lantican等[15]通過對棕櫚科椰子、油棕[23]、棗椰[22]之間的基因組變異及共線性分析發現,3種植物的基因組大小(2.15~2.42、0.66~0.67、1.8?Gb)和染色體數目(32、32、36)差別較大,油棕基因組中與棗椰特有的Scaffolds共線的重復基因顯示,油棕與棗椰的祖先為多倍體物種,在發現矮種椰與高種椰的全基因組比對高度共線的同時,還指出椰子樹起源于一種常見的多倍體祖先的再二倍化。基因組中所存在的海量信息為椰子功能基因組的挖掘、農藝性狀的解析及全基因組關聯分析提供了參考體系。
1.1.6??榴蓮??榴蓮為錦葵目錦葵亞科巨型熱帶常綠喬木,其果實極具經濟價值,是東南亞特有的熱帶著名水果之一,素有“水果之王”之稱,因具特殊濃郁氣味而聞名。新加坡研究團隊Teh等[16]利用PacBio首次對Musang King榴蓮基因組進行de novo組裝,153倍測序深度得到183 Gb的數據量,最終組裝獲得榴蓮基因組大小為715?Mb,K-mer分析和流式細胞儀預估基因組大小分別為738和800 Mb,雜合度為1.14%。利用CHiCAGO技術將組裝成的contig連接成Scaffold,Scaffold N50為22.7 Mb,利用Hi-C技術將Scaffold掛載到染色體水平,最終將榴蓮基因組組裝成30條染色體,掛載率為95%。通過聯合從頭注釋和轉錄組共發現榴蓮含有注釋基因45?335個,其中42?747個基因可以被同源或已知蛋白數據支持。GO注釋到35?975個基因,多數基因富集到防御反應、果實發育、碳水化合物和脂質代謝通路中。榴蓮中包含了90.3%的高保守核心蛋白,其中68.1%為單拷貝,22.2%為重復基因。獨立重復基因的保守基因暗示榴蓮在進化過程中經歷了1次WGD。且在進化關系上,再一次證實了榴蓮與棉花間的進化分歧遠晚于可可的錦葵亞科進化順序[32]。榴蓮譜系中的WGD導致與榴蓮揮發物相關途徑的擴展和多樣化,例如涉及硫處理(包括MGL)、脂質揮發物和乙烯的途徑。榴蓮中這些基因的上調可能與榴蓮氣味中的重要成分VSC的產生增加有關,從而導致榴蓮氣味,榴蓮的復雜香氣可能與榴蓮果實成熟有關。該研究將基因組、轉錄組和代謝組相結合,揭示了榴蓮特殊香氣的可能分子機制,打通了結構基因組、比較基因組、功能基因組研究的鏈條,對后續的基因組研究,尤其是涉及物種特異的次級代謝產物功能分析具有指導意義。
1.2熱帶經濟作物
1.2.1 ?橡膠??橡膠樹是天然橡膠生產的主要來源,作為熱帶地區重要的經濟作物,其產生的膠乳和橡膠木材均具有重要商業價值,在東南亞出口貿易市場占主要份額[33]。橡膠樹的基因組研究起步較晚,落后于大戟科的其他物種。高通量測序結果加深了對橡膠樹遺傳資源的理解,而全基因組測序則彌補了在基因組非編碼區信息的空白[17]。
馬來西亞研究團隊Rahman等[17]利用Roche?454、Illumina和SOLiD技術首次對橡膠樹進行全基因組測序,13倍覆蓋度最終組裝了橡膠樹RRIM 600的1.1 Gb基因組序列,Scaffold N50大小為2972?bp。橡膠樹基因組DNA高度重復(約78%),多為長末端重復反轉錄轉座子,這也為橡膠基因組的組裝增加了難度。預測基因68 955個,KEGG注釋蛋白編碼基因52?825個,非編碼RNA中含729個tRNA。系統發育分析表明橡膠樹與木薯在進化上關系密切,二者具有相同祖先,這與橡膠樹葉綠體基因組揭示的結果一致[34]。但其測序研究中序列覆蓋度低,且缺乏基于fosmid或BAC等較大的插入文庫,導致基因組組裝欠佳。
2016年,Tang等[18]基于RRIM 600的測序,采用Illumina GA2和Hiseq 2000對中國廣泛種植的橡膠栽培種Reyan7-33-97進行全基因組測序,測序深度94倍覆蓋93.8%全基因組(1.46?Gb),最終組裝了1.37?Gb的高質量基因組序列,Scaffold N50為1.28?Mb,注釋蛋白編碼基因43?792個,非編碼RNA中注釋了167個rRNA、591個miRNA、697個tRNA和219個snRNA。組裝比對顯示由于品種間的差異導致馬來西亞RRIM 600與Reyan7-33-97基因組差異較大,存在25.2?Mb的未匹配序列。對另外5個品種(PR107、Reyan8-79、RRIM600、Wenchang11和Yunyan77-4)的重測序獲得1.41~1.55?Gb全基因組序列,組裝的84 241個轉錄本與基因組高度匹配,說明基因組組裝質量較好;另一方面,基于SNP的系統發育顯示品種之間的遺傳關系與其育種歷史關系密切。通過高質量基因組裝配聯合轉錄組學數據進行分析,構建了多個與膠乳生物合成相關的基因家族,尤其發現了REF/SRPP家族顯著擴張,豐富了膠乳生長發育生理學及乙烯刺激膠乳生物合產機制的認識。同樣,在馬來西亞橡膠樹基因組中,生長素基因家族成員數量較少,乙烯響應元件結合因子(ERF)相關基因數量占較大比例,這與RRIM 600中發現的乙烯促進膠乳生物合成的結果相吻合。橡膠基因組信息的揭示為改善橡膠樹乳膠的高生產能力和品種遺傳選育提供了良好的基礎。
1.2.2??木薯??木薯為大戟科多年生灌木,是生長在非洲、美洲、亞洲熱帶地區的高淀粉類塊根經濟作物和生物能源[19]。其抗干旱、耐貧瘠、低投入、高產出的特性,使之成為三大洲超7億人的碳水化合物主要攝入來源[20]。常規育種手段無法突破由木薯異交及廣泛的熱帶地理分布而導致的基因組高度雜合的障礙[35]。塊根含氰酸毒素而需長時間浸泡漂洗才可食用、易受細菌性和病毒性病害,以及收獲后易變質等缺點制約著其種植農業的經濟發展[36-38]。木薯基因組測序工作始于2003年,僅取得約700?bp的序列。與轉座子相關的重復序列在木薯臨近基因間散布,以及作為遠緣雜交種的木薯由于具有等位基因變異、SNP和結構多態性而令每個位點的單一參考序列推導復雜化,成為木薯基因組組裝中的難題。
2009年11月,由Roche 454 FLX與FLX+超長讀取技術完成了近交木薯品系AM560-2的基因組測序(http://www.phytozome.net/cassava.?php/),預測基因組大小為770?Mb,組裝532.5?Mb的Scaffolds,覆蓋70%的木薯基因組和96%的蛋白編碼基因,注釋蛋白編碼基因30?666個,可變剪接3485個[19]。
隨后在2014年,由中國熱帶農業科學院熱帶生物技術研究所的研究團隊利用Illumina HiSeq 2000和Roche 454 GSFLX對野生祖先種W14和栽培種KU50的基因組序列及之前報道的AM560基因組序列進行了比較分析,W14和KU50基因組大小和測序覆蓋度分別為742?Mb/58.2%、495?Mb/66.7%,組裝注釋蛋白編碼基因數量分別為34?483和38?845[20]。基于非編碼RNA在木薯野生亞種和栽培種中的分布情況,發現W14和KU50非蛋白編碼RNA中較大比例為長鏈非編碼RNA(lncRNA),分別占基因組大小的12.6%和30.1%。W14、KU50與AM560基因組非蛋白編碼基因分別共注釋143/126/146個miRNA、861/707/743個tRNA、337/192/237個rRNA、139/106/89個snRNA,可看出野生亞種W14基因組中注釋的非編碼RNA均低于栽培種。這3個基因組序列和注釋的轉錄組的比較分析,揭示了野生和栽培木薯在自然選擇過程中,基因組中與脅迫相關、光合產物運輸、淀粉高效積累及氰基化合物生物合成途徑基因的進化特征,闡明了木薯進化馴化及基因組功能,為后續木薯基礎生物學研究及遺傳育種改良提供了重要理論基礎。
1.2.3??棗椰??棗椰是棕櫚科(Arecaceae)的第一個被公布基因組的物種,是中東和北非地區廣泛種植的木本抗旱經濟作物之一,其樹齡可達百年,無性繁殖,多為雌雄異株,具有重要的經濟價值和歷史文化意義。但由于棗椰生長周期長,且在棗椰生長早期階段難以區分雌株和雄株而限制了棗椰育種的發展。Al-Dous等[21]利用Illumina GAIIx對Khalas雌株進行平行測序,SOAPde novo組裝獲得381?Mb的基因組序列,覆蓋預估棗椰基因組大小(658 Mb)的60%和90%的基因,預測蛋白編碼基因28?890個,雜合率為0.7%。同時對另外8個品種進行測序,利用比較基因組學分析并揭示了350萬個SNP,其中有37個SNP能夠用于棗椰品種區分,除此之外還確定了與棗椰性別相關的基因組區域,為棗椰性別鑒定及遺傳多樣性研究提供了重要的數據支撐。
此后,Bourgis等[39]利用Roche 454 (GS FLX Titanium System) 的焦磷酸測序數據對油棕和椰棗果皮進行了比較轉錄組學和代謝組學研究。緊接著Al-Mssallem等[22]利用Roche 454、GSFLX和SOLiD對Khalas棗椰進行了測序,獲得的高通量讀數覆蓋棗椰預估基因組(671.2?Mb)的90.2%,最終組裝獲得558.02?Mb基因組序列,注釋蛋白編碼基因41?660個,非編碼RNA中注釋了414個tRNA、677個rRNA、62個snRNA。遺傳多樣性分析表明,棗椰抗逆性和糖代謝相關基因在SNP密度相對較低的染色體區域富集。研究揭示了棗椰基因組的倍增與進化,以及棗椰果實糖類代謝和累積的過程和機制,聯合基因組和轉錄組數據為棗椰及棕櫚科植物基因組的進一步研究奠定了重要基礎。此外,該研究團隊還對棗椰的產能和光合作用的細胞器(線粒體與葉綠體)基因組,以及棗椰基因模型和棗椰果實發育分析進行了重要研究。
Hazzouri等[40]以Al-Mssallem等[22]組裝的Khalas基因組為參考基因組,利用Illumina HiSeq 2500對來自12個國家的62種棗椰樹的基因組進行了全基因組重測序,平均測序深度為20.8倍,得出栽培棗椰中第一個完整的超過717萬個高質量的SNP綜合目錄。利用全基因組SNP及比較基因組揭示了物種遺傳和表型多樣性可能機制,有望應用于棗椰重要農藝性狀改良。另外確定了棗椰果實顏色多態性的等位基因,發現棗椰和油棕進化上雖有差異,但存在遺傳平行性,可共享遺傳信息促進二者的育種改良。
1.2.4??可可??可可是重要的熱帶經濟作物,是巧克力的原材料,同時也是錦葵科(Malvaceae)最早完成基因組測序的物種。高品質可可市場需求高,但傳統風味可可品種產量低抗病性差,改良育種成為必然需要。Argout等[6]利用Roche 454 GS FLX、Illumina GAIIx和Sanger測序技術對多代自體受精而高度純合的Belizean Criollo基因型B97-61/B2的基因組進行了測序,產生了26 Gb原始數據,組裝出25 912個Contig和4792個Scaffold,總長326.9 Mb,占可可基因組預估大小(430 Mb)的76%。注釋蛋白編碼基因28 798個,其中23 529個(82%)錨定在10條染色體上,非編碼RNA中含83個miRNA。可可在進化過程中經歷從古六倍體祖先的21條染色體進化到實際數量上的10條染色體的重組。同時發現黃酮類和萜類化合物等相關基因家族在進化過程中發生擴張,與可可風味品質及抗性關系密切,為可可改良育種提供了優良的候選基因。
1.2.5??油棕??油棕是產量最高的油料作物,被譽為“世界油王”。2016年公布的油棕基因組數據中,研究者采用了Illumina HiSeq?2500和Miseq,Roche 454等二代高通量測序技術,對東南亞重要的高產母本厚殼Dura材料進行了全基因組測序,組裝出了10?971個Scaffold,長度為1.701?Gb的基因組,覆蓋了94.49%的高質量油棕基因組序列草圖[24]。并且對17種油棕主要組織器官進行深度轉錄組測序,預測了近36?105個高度可靠的油棕基因,并獲得了1800萬個SNP,在不同地理區域的油棕中,研究者發現它們之間存在較高的基因變異,而在東南亞的Dura和Pisifera油棕樹中則存在較低的變異。并在油棕的基因組中連鎖圖上繪制了10 000個SNP分子標記。此外,在東南亞油棕育種群體中發現了高連鎖不平衡(LD),這表明LD作圖在這一重要油料作物中可能是可行的。
從Dura基因組中共鑒定出566個R基因,遠遠少于水稻基因組中1085個R基因數量。雖然水稻基因組的大小僅為油棕的25%,但R基因的平均Ka/Ks(1.7)遠高于油棕基因組中所有基因的平均Ka/Ks(1.4),表明油棕中R基因具有很強的正向選擇[24]。這些研究結果為加速遺傳改良和研究重要油棕性狀表型變異的機制提供了寶貴的資源。
1.2.6??咖啡??咖啡是世界上消費人群最大的飲料之一,種植面積超過1100萬hm2,世界商業咖啡生產樹種主要為2種,分別為異交高度雜合的二倍體羅布斯塔種(Coffea canephora)和優勢種異源四倍體阿拉比卡(C. arabica)。由法國研究團隊Denoeud等[25]利用Roche 454 GS FLX和Sanger以30倍覆蓋度產生了710?Mb基因組序列,以Illumina GAIIx測序數據60倍覆蓋度改進組裝得到25 216個Contig和13 345個Scaffold,總長度為568.6 Mb,占全長(710 Mb)的80%,注釋蛋白編碼基因25 574個。幾種特異性基因家族,如參與咖啡因生成的N-甲基轉移酶(NMTs)、防御相關基因以及參與次級代謝物生物合成的生物堿和黃酮類相關基因在羅布斯塔咖啡中顯著擴張。同時,咖啡中編碼NMT合成咖啡因的途徑與可可、茶存在差別,這些基因通過連續串聯重復擴張,使得咖啡中咖啡因含量高居多種植物之首。該研究通過對羅布斯塔咖啡的基因組結構分析,確定了植物譜系中咖啡因生物合成的趨同進化,并將咖啡作為菊亞綱被子植物中基因組結構演變的參考物種,也能夠幫助咖啡適應氣候變化。
由于阿拉比卡咖啡基因庫較小,其遺傳改良進程因此而受限。鑒定能夠控制咖啡因含量的相關基因,將有助于育種過程中使用分子標記有選擇地進行性狀基因遺傳改良。為獲取咖啡因含量相關的SNP,Tran等[26]從232個基因型群體中選擇了具極端表型的18個基因型(咖啡因含量極高或極低)進行DNA群體測序。同時,結合137倍Illumina HiSeq 2000和6倍PacBio測序深度對阿拉比卡咖啡K7品種進行基因組測序,通過SOAPde novo組裝獲得76?409個Scaffold,總長度為1448 Mb,高于預估的1300?Mb。此外,超過99%的轉錄組序列能比對到基因組上,確定了超過89%的完整BUSCO,表明高倍性雜合的阿拉比卡咖啡基因組質量較好。以咖啡相近物種番茄基因組數據作為參考,預測注釋基因99 829個(數量是二倍體羅布斯塔咖啡的4倍)。鑒定了1444個與咖啡因含量相關聯的非同義SNP,進一步基于KEGG代謝通路分析,發現嘌呤代謝為最常見途徑,同時發現66個與咖啡因含量相關的SNP,其中10個與參與咖啡因生物合成通路上底物轉化酶相關。該研究揭示了咖啡中關于咖啡因含量性狀復雜的遺傳背景,為阿拉比卡咖啡遺傳改良提供了優良的數據基礎。
1.2.7 ?香莢蘭??香莢蘭[Vanilla fragrans(Salisb.) Ames]是一種名貴的食用香料,被譽為“香料皇后”。據2015年2月8日《光明日報》報道,福建農林大學聯合國家蘭科植物種質資源保護中心(深圳)宣布完成了深圳香莢蘭基因組的測序。這意味著香莢蘭成為第一個完成測序的蘭科藤本植物,同時為揭示蘭科植物起源和研究其系統演化過程及提高香莢蘭的產量和品質奠定了重要基礎。
1.2.8 ?瑪卡??瑪卡(Lepidium meyeniiWalp, 2n=8x=64)是十字花科草本植物,生長在秘魯中部海拔4000~4500米的山區,被譽為“南美人參”、“秘魯人參”,具有很好的藥用和經濟價值,目前在我國云南和四川也廣泛種植。2016年瑪卡的高質量基因組組裝結果公布[41]:研究者組裝了743?Mb的基因組,覆蓋了估計基因組的98.93%,Contig和Scaffold?N50序列的分別為81?Kb和2.4?Mb。注釋了96?417個編碼蛋白基因,轉座元素占比47.65%。通過對瑪咖與親緣關系較近的十字花科植物的比較基因組學研究表明,瑪卡基因組發生了2次WGD。瑪咖基因及其家族通過WGD參與非生物脅迫反應、激素信號通路和次生代謝物生物合成。WGD導致許多重復基因被保留并且隨后發生了進化,這解釋了瑪咖在高海拔環境下的形態和生理變化(即葉片形狀變小和春化喪失)。此外,還鑒定了一些陽性選擇下的重復瑪卡基因具有形態適應(MYB59)和發育(GDPD5和HDA9)功能。總的來說,八倍體瑪卡基因組揭示了WGD在安第斯山脈植物高海拔適應性中的重要作用[41]。
1.3藥用植物
1.3.1 ?鐵皮石斛 ?鐵皮石斛是蘭科(Orchidaceae)石斛屬名貴珍稀瀕危藥材,極具觀賞和藥用價值,其富含多糖、生物堿和氨基酸等化學成分,具有降血糖、抗氧化和抗腫瘤等藥理作用[42]。近年來,有關石斛屬藥理成分提取工藝改進和功能基因挖掘鑒定的研究日益豐富[43-46]。基因組測序工作對深層次分析鐵皮石斛性狀及分子育種尤為重要。
Yan等[27]結合第二代Illumina Hiseq 2000和第三代PacBio SMRT測序技術首次組裝了云南普洱人工自交的GREEN F3代鐵皮石斛1.35?Gb的基因組序列,覆蓋94%的全基因組和91.5%的基因編碼區,Scaffold?N50和Contig N50大小分別為25.1?kb和76.5?bp,注釋蛋白編碼基因34?699個,非蛋白編碼RNA中共注釋396個rRNA、545個tRNA、16個sRNA、89個snRNA和1005個miRNA。鑒定了鐵皮石斛基因組中一些重要生物學特征,如多個與抗旱性及真菌共生相關基因家族的擴張、與轉運相關基因(蛋白質轉運、有機物質轉運和細胞內蛋白質轉運)進化速率加快、藥用成分生物合成途徑相關基因,并確定了蘭花完整的花序基因集。但由于測序選材為人工自交品系,使得基因組組裝復雜化。
之后,Zhang等[28]利用第二代Illumina HiSeq 2000技術對采自云南廣南縣同物異名的野生鐵皮石斛(Dendrobium catenatum)進行全基因組測序,繪制出高質量的鐵皮石斛基因圖譜,最終組裝1.01 Gb的基因組,覆蓋93%的全基因組和97%的基因編碼區,Scaffold N50和Contig N50大小分別為391 kb和33.1 kb,最終注釋蛋白編碼基因為28 910個,有74.9%的基因與轉錄組數據的匹配,非編碼RNA中注釋了248個rRNA、310個tRNA、144個snRNA和49個miRNA。基因組大小及基因數量均低于GREEN F3代鐵皮石斛。Yan等[27]和Zhang等[28]的測序結果均顯示出石斛屬基因組高度雜合,兩者SNP分別為5?432?657與5?758?781,雜合率分別為0.48%和0.63%。且2個基因組的測序組裝結果表明石斛基因組中與抗性、多糖生物合成相關基因存在大量串聯重復而顯著擴張。更重要的是,鐵皮石斛的測序工作能為大型復雜基因組的從頭測序和組裝提供具成本效益的參考。
1.3.2 ?辣木、丹參和三七??近幾年來,云南農業大學建立的云南省生物大數據重點實驗室,以現代分子生物學技術為研究手段,選取云南特色生物資源為研究對象,進行全基因組測序,完成了辣木(Moringa oleiferaLam.)[47-48]、丹參(Salvia miltiorrhiza Bge.)[49]和三七[Panax notoginseng(Burk.)?F.?H.?Chen][50]基因組相關分析,為藥材的育種、藥理研究、病蟲害防治等提供了重要的分子生物學依據。
2.1抗性(R)基因
抗性(R)基因能夠幫助植物產生對多種病原體和害蟲的抗性,在植物病原體感知、宿主防御和細胞周期進展中起關鍵作用[51]。多為編碼具有細胞質核苷酸結合位點-羧基末端富含亮氨酸重復序列(NBS-LRR)結構域的特定蛋白質組,NBS-LRR基因家族在植物基因組中相當豐富,約占總基因組的0.6%至約2%[51-52]。基于N-末端和C-末端結構域的結構,進一步劃分為N-末端結構域或不具有CC(卷曲螺旋)/TIR(Toll-白細胞介素受體)基序、C末端結構域含或不含有LRR(富含亮氨酸的重復)基序等[53]。
基于轉錄組分析(表2),龍眼基因組中含有大量差異表達的植物病原體抗性基因,包括編碼NBS和NBS-LRR蛋白的基因,其數量分別為122和258個,數量高于番木瓜(26/20)、鐵皮石斛(83/47)、香蕉(117/89)。番木瓜中NBS型R基因數量最少[5]。香蕉基因組序列中,防御相關基因NBS基因含有117個,NBS-LRR為89個,CC-NBS-LRR為27個。對香蕉的比較基因組研究中[10],在A、B、阿寬蕉基因組中分別鑒定出117、93、62個編碼NBS-基因,研究結果顯示編碼NBS基因數量隨著各種質棲息地從潮濕熱帶到涼爽亞熱帶的過渡而減少,即與緯度上升密切相關。另一方面,單子葉植物中多不含有TIR-NBS-LRR型R基因,研究比較發現這種現象在香蕉基因組中同樣存在。羅布斯塔咖啡中NBS基因存在大量基因復制,該基因家族中,42個NBS基因分布于8號染色體上,且36個NBS基因存在于基因簇中,研究推測可能是由于連鎖基因家族的重復和分化進化而來[25]。
2.2次生代謝產物及活性成分相關基因
龍眼基因組中富含酚類化合物,酚類化合物主要通過莽草酸、苯丙烷類和類黃酮合成途徑衍生。Lin等[11]通過比較轉錄組學和全基因組分析顯示,龍眼基因組中3大途徑結構基因顯著擴張的是DHS、SDH、F3'H、ANR和UFGT等基因家族,顯著較少的結構基因為PAL、CHS和F3'5'H等基因家族,這些結構基因家族均具組織特異性。其中,PAL參與木質素合成,在龍眼細胞壁中扮演重要角色,CHS參與花芽和種子中黃酮類色素合成,F3'H和F3'5'H在龍眼花色形成中起主要作用,ANR和LAR在果皮和種子中高表達、果肉中低表達表明龍眼果實的單寧組分較高。此外龍眼R2R3-MYB基因數量達94個,與擬南芥已知參與類黃酮合成的R2R3-MYB基因同源的有4個。這都為后續深入開展龍眼中次生代謝物質的研究提供了平臺和機遇。黃酮類化合物參與植物多種生長發育過程,原花青素是在可可種子中大量存在的類黃酮聚合物,可可基因組中編碼二氫黃酮醇-4-還原酶(DFR)及參與類黃酮生物合成途徑的直系同源基因大量擴增,是可可種子中富含原花青素的重要原因[6]。
萜類化合物作為初生和次生代謝產物在植物中功能眾多,除維持植物生長發育外,作為次生代謝產物在植物防御反應和信號傳遞過程中起重要作用[54]。鐵皮石斛基因組中含有植物萜烯合成酶基因(TPS)39個,可分為7個亞家族,其中被子植物特異分支TPS-a亞家族在進化過程中經歷大量串聯復制而快速擴增[28]。菠蘿基因組中共鑒定出5個亞家族的21個TPS成員,串聯重復同樣是菠蘿TPS 基因重復的主要原因[55]。研究表明TPS-a亞家族成員多表達為倍半萜合成酶,在棉屬植物中同樣在祖先基因發生串聯復制后而顯著擴增[54]。而可可基因組中TPS含57個,其亞類中單萜和倍半萜數量較大,其中芳樟醇合成酶(單萜)和杜松烯合成酶(倍半萜烯)家族顯著擴增,成為優良的可可昆蟲抗性反應候選基因[6]。
多糖具抗氧化、增強免疫性等多種功能,其生物合成機理復雜,植物體內多糖合成與積累相關基因及其分子機制可利用基因組注釋信息結合轉錄組學挖掘解析。鐵皮石斛中存在2種主要的藥用多糖,葡甘露聚糖(GM)和半乳葡甘露聚糖(GGM)。Zhang等[28]從鐵皮石斛基因組發現糖基轉移酶(GT)家族的13個類纖維素合成酶A(CslA)基因,該基因在鐵皮石斛基因組中經歷串聯重復而顯著擴增,認為其合成酶糖基轉移與擬南芥相同來參與GM骨架合成。He等[56]基于D. offcinale基因組,利用數字基因表達譜分析鑒定出8個CslA參與甘露聚糖生物合成。
2.3脅迫響應及生長發育相關基因
基于基因組信息挖掘植物中與生長發育聯系密切的基因家族成為近幾年的研究熱點,家族鑒定研究層出不窮。Li等[57]基于橡膠樹基因組公開信息,共鑒定了81個WRKY基因,對廣泛參與調節植物生長發育、抵抗生物或非生物脅迫過程的WRKY基因家族進行全基因組分析,表明HbWRKY蛋白可能參與天然橡膠生物合成的轉錄調控。馮新[58]基于A基因組和B基因組,對栽培蕉中與抗逆相關的SOD基因家族進行了系統鑒定,探討了SOD在香蕉抵抗多種非生物脅迫和激素處理下調控機制。類似的研究還包括龍眼LAC家族[59]、香蕉Ran家族[60]、香蕉β-1,3葡聚糖酶基因[61]、野生蕉果皮顏色差異研究[62]和野生蕉低溫響應機制研究[63]。菠蘿中參與景天酸代謝光合作用中CA基因[5]、果實成熟的過程中的乙烯相關基因[13]等的挖掘為創造新的抗旱節水作物及果實的風味品質奠定了基礎。木薯基因組中參與脅迫響應和生長發育的基因資源和功能研究為提高作物在脅迫、光合產物運輸、淀粉高效積累等途徑提供了重要的理論基礎[20]。鐵皮石斛基因組中一些具重要生物學特征的基因家族,如與抗旱性及真菌共生、轉運相關、藥用成分生物合成途徑相關基因為遺傳工程育種和藥用成分的開發利用、規范產業發展研究提供重要資源和基礎[27-28]。綜上,通過植物基因組測序并從中挖掘重要農藝性狀的基因,為改良作物的遺傳特質提供了重要的數據支撐。
從本文統計的13種已完成全基因組測序的熱帶植物分析結果可以看出,雖然熱帶植物基因組的測序和組裝均面臨一定程度的困難,但各植物的基因組均有較高的組裝質量。且部分植物目前已生成獨立基因組數據庫面向研究人員公開,如香蕉全基因組數據庫(https://banana- genome-?hub.southgreen.fr)、木薯全基因組數據庫(https://?cas sa vagenome.org)、菠蘿基因組數據庫(http://?pin e apple.angiosperms.org/pineapple/html/index.?html)[64]等。基于基因組數據信息,通過生物信息學分析技術和高通量測序技術,能夠深入解析物種起源,挖掘改良遺傳育種和控制植物性狀等相關基因,為熱帶植物基因組學的研究提供序列數據參考。多倍體基因組內各單倍型序列相似性較高,使得同源多倍體組裝到染色體水平的難度加大。如荔枝、枇杷、火龍果和芒果等植物基因組測序還未完成,其中芒果基因組的研究目前主要集中在基因組大小測定、變異分析以及微衛星標記[65-66],未來在前列技術研究基礎上有望揭示全基因組信息。第三代測序中Hi-C(染色質構象捕獲)技術掛載到染色體水平能夠為解決這種難題提供技術支持,利用最新的ALLHiC算法組裝多倍體、高雜合等復雜基因組[67-68]。同時,對于異源多倍體基因組的組裝,使用WGS和超高密度連鎖作圖的組合方法也能解決其組裝障礙[69-70]。這都可為植物重要性狀相關基因的發現、克隆、功能驗證和進化分析方面的研究提供極大便利。
隨著全基因組測序技術的快速發展,測序成本大大降低、測序速率顯著提高,高通量測序技術應用范圍更廣。擺脫單一基因組研究而深入基因組關聯分析研究,更重要的是,如同香蕉基因組測序對野生近緣種香蕉進行測序組裝,利用日益優良的測序技術深度挖掘重要野生近緣物種,將極大促進熱帶或更多地區野生植物寶貴基因資源的保護和利用,壯大奧秘的植物基因資源庫。
參考文獻
[1]Sanger F, Air G M, Barrell B G,?et al.Nucleotide sequence of bacteriophage φX174 DNA[J]. Nature,?1977, 265(5596): 687-695.
[2]The Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plantArabidopsis thaliana[J]. Nature, 2000, 408(6814): 796-815.
[3]Jaillon O, Aury J?M, Noel B,et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla[J]. Nature, 2007, 449(7161): 463-467.
[4]Velasco R, Zharkikh A, Troggio M,et al. A high quality draft consensus sequence of the genome of a heterozygous grapevine variety[J]. PLoS One, 2007, 2(12): e1326.
[5]Ming R, Hou S, Feng Y,et al. The draft genome of the transgenic tropical fruit tree papaya (Carica papaya Linnaeus)[J]. Nature, 2008, 452(7190): 991-996.
[6]Argout X, Salse J, Aury J,et al. The genome ofTheobroma cacao[J]. Nature Genetics, 2011, 43(2): 101-108.
[7]DHont A, Denoeud F, Aury J-M,et al. The banana (Musa acuminata) genome and the evolution of monocotyledonous plants[J]. Nature, 2012, 488(7410): 213-217.
[8]Davey M W, Gudimella R, Harikrishna J A,et al. A draftMusa balbisiana genome sequence for molecular genetics in polyploid, inter- and intra-specificMusahybrids[J]. BMC Genomics,?2013, 14: 683.
[9]Wang Z, Miao H?X, Liu J?H,?et al.Musa balbisianagenome reveals subgenome evolution and functional divergence[J]. Nature Plants, 2019, 5(8): 810-821.
[10]Wu W, Yang Y?L, He W?M,et al. Whole genome sequencing of a banana wild relativeMusa itineransprovides insights into lineage-specific diversification of theMusa genus[J]. Scientific Reports, 2016, 6: 31586.
[11]Lin Y?L, Min J?M, Lai R?L,et al. Genome-wide sequencing of longan (Dimocarpus longan Lour.) provides insights into molecular basis of its polyphenol-rich characteristics[J]. GigaScience,?2017, 6(5): 1-14.
[12]Ming R, Vanburen R, Wai C M,et al. The pineapple genome and the evolution of CAM photosynthesis[J]. Nature Genetics, 2015, 47(12): 1435-1442.
[13]Redwan R M, Saidin A, Kumar S V. The draft genome of MD-2 pineapple using hybrid error correction of long reads[J]. DNA Research,?2016, 23(5): 427-439.
[14]Xiao Y, Xu P, Fan H,et al. The genome draft of coconut (Cocos nucifera)[J]. GigaScience,?2017, 6(11): 1-11.
[15]Lantican D V, Strickler S R, Canama A O,et al.De novogenome sequence assembly of dwarf coconut (Cocos nuciferaL. ‘Catigan Green Dwarf) provides insights into genomic variation between Coconut types and related palm species[J]. G3: Genes, Genomes, Genetics, 2019, 9(8): 2377-2393.
[16]Teh B T, Lim K, Young?C H,et al.The draft genome of tropical fruit durian (Durio zibethinus)[J]. Nature Genetics, 2017, 49(11): 1633-1641.
[17]Rahman A Y?A, Usharraj A O, Misra B B,et al. Draft genome sequence of the rubber treeHevea brasiliensis[J]. BMC Genomics, 2013, 14: 75.
[18]Tang C, Yang M, Fang Y?J,et al. The rubber tree genome reveals new insights into rubber production and species adaptation[J]. Nature Plants, 2016, 2(6): 16073.
[19]Prochnik S, Marri P R, Desany B,et al. The cassava genome: Current progress, future directions[J]. Tropical Plant Biology, 2012, 5(1): 88-94.
[20]Wang W Q, Feng B X, Xiao J F,et al. Cassava genome from a wild ancestor to cultivated varieties[J]. Nature Communications, 2014, 5(1): 5110.
[21]Al-Dous E K, George B, Al-Mahmoud M E,et al.De novogenome sequencing and comparative genomics of date palm (Phoenix dactylifera)[J]. Nature?Biotechnology, 2011, 29(6): 521-527.
[22]Al-Mssallem I S, Hu S, Zhang X,et al. Genome sequence of the date palmPhoenix dactyliferaL.[J]. Nature Communications. 2013, 4(1): 2274.
[23]Singh R, Ong-Abdullah M, Low E L,et al. Oil palm genome sequence reveals divergence of interfertile species in Old and New worlds[J]. Nature, 2013, 500(7462): 335-339.
[24]Jin J, Lee M, Bai B,et al. Draft genome sequence of an eliteDurapalm and whole-genome patterns of DNA variation in oil palm[J]. DNA Research, 2016, 23(6): 527-533.
[25]Denoeud F, Carretero-Paulet L, Dereeper A,et al. The coffee genome provides insight into the convergent evolution of caffeine biosynthesis[J]. Science,?2014, 345(6201): 1181-1184.
[26]Tran H T M, Ramaraj T, Furtado A,et al. Use of a draft genome of coffee (Coffea arabica) to identify SNPs associated with caffeine content[J]. Plant Biotechnology Journal,?2018, 16(10): 1756-1766.
[27]Yan L, Wang X, Liu H,et al.The Genome ofDendrobium officinaleilluminates the biology of the important traditional Chinese orchid herb[J]. Molecular?Plant, 2015, 8(6): 922-934.
[28]Zhang G Q, Xu Q, Bian C,et al. TheDendrobium catenatumLindl. genome sequence provides insights into polysaccharide synthase, floral development and adaptive evolution[J]. Scientific Reports, 2016, 6: 19029.
[29]Belser C, Istace B, Denis E,et al. Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps[J]. Nature?Plants, 2018, 4(11): 879-887.
[30]Li W M, Dita M, Wu W,et al. Resistance sources toFusarium oxysporumf. sp.cubensetropical race 4 in banana wild relatives[J]. Plant Pathology, 2015, 64(5): 1061-1067.
[31]Wikstr?m N, Savolainen V, Chase M W. Evolution of the angiosperms: calibrating the family tree[J]. Proceedings of the Royal Society of London. Series B: Biological Sciences, 2001, 268(1482): 2211-2220.
[32]Alverson W S, Whitlock B A, Nyffeler R,et al.Phylogeny of the core Malvales: evidence fromndhFsequence data[J]. American Journal of?Botany, 1999, 86(10): 1474-1486.
[33]Prabhakaran Nair K P. The agronomy and economy of important tree crops of the developing world[M]. Burlington: Elsevier,?2010.
[34]Tangphatsornruang S, Uthaipaisanwong P, Sangsrakru D,et al. Characterization of the complete chloroplast genome ofHevea brasiliensisreveals genome rearrangement, RNA editing sites and phylogenetic relationships[J]. Gene, 2011, 475(2):104-112.
[35]De Carvalho R, Guerra M. Cytogenetics ofManihot esculentaCrantz (cassava) and eight related species[J]. Hereditas. 2002, 136(2): 159-168.
[36]Boher B, Verdier V. Cassava bacterial blight in Africa: the state of knowledge and implications for designing control strategies[J]. African Crop Science Journal, 1994, 2(4): 505-509.
[37]Reilly K, Bernal D, Cortés D F,et al. Towards identifying the full set of genes expressed during cassava post-harvest physiological deterioration[J]. Plant Molecular Biology, 2007, 64(1-2): 187-203.
[38]Patil B L, Fauquet C M. Cassava mosaic geminiviruses: actual knowledge and perspectives[J]. Molecular Plant Pathology. 2009, 10(5): 685-701.
[39]Bourgis F, Kilaru A, Cao X,et al. Comparative transcriptome and metabolite analysis of oil palm and date palm mesocarp that differ dramatically in carbon partitioning[J]. Proceedings of the National Academy of Sciences of the United States of America, 2011, 108(44): 12527-12532.
[40] Hazzouri K M, Flowers J M, Visser H J, et al. Whole genomere-sequencing of date palms yields insights into diversificationof a fruit tree crop[J]. Nature Communications,2015, 6: 8824.
[41] Zhang J, Tian Y, Yan L, et al. Genome of plant maca(Lepidium meyenii) illuminates genomic basis for high- altitudeadaptation in the central Andes[J]. Molecular Plant,2016, 9(7): 1066-1077.
[42] 孫 恒, 胡 強, 金 航, 等. 鐵皮石斛化學成分及藥理活性研究進展[J]. 中國實驗方劑學雜志, 2017, 23(11):225-234.
[43] 王叢巧, 王培育, 郭艷芳, 等. 晝夜溫差處理下鐵皮石斛原球莖松柏苷和紫丁香苷含量的測定[J]. 熱帶作物學報,2019, 40(2): 261-268.
[44] 林小蘋, 賴鐘雄. 不同光質條件下鐵皮石斛多糖含量與磷酸烯醇式丙酮酸羧化酶基因表達變化[J]. 熱帶作物學報,2017, 38(5): 838-842.
[45] 黃曉君, 聶少平, 王玉婷, 等. 鐵皮石斛多糖提取工藝優化及其成分分析[J]. 食品科學, 2013, 34(22): 21-26.
[46] 蔡璨璨, 李 卿, 段承俐, 等. 鐵皮石斛Csl 基因家族生物信息學及表達分析[J]. 基因組學與應用生物學, 2019,38(5): 2159-2166.
[47] Tian Y, Zeng Y, Zhang J, et al. High quality reference genomeof drumstick tree (Moringa oleifera Lam.), a potentialperennial crop[J]. Science China Life Sciences, 2015, 58(7):627-638.
[48] Chang Y, Liu H, Liu M, et al. The draft genomes of fiveagriculturally important African orphan crops[J/OL]. GigaScience,2019, 8(3). https://doi.org/10.1093/gigascience/giy152.
[49] Zhang G, Tian Y, Zhang J, et al. Hybrid de novo genomeassembly of the Chinese herbal plant danshen (Salviamiltiorrhiza Bunge)[J]. GigaScience, 2015, 4: 62.
[50] Chen W, Kui L, Zhang G, et al. Whole-genome sequencingand analysis of the Chinese herbal plant Panax notoginseng[J]. Molecular Plant, 2017, 10(6): 899-902.
[51] DeYoung B J, Innes R W. Plant NBS-LRR proteins inpathogen sensing and host defense[J]. Nature Immunology,2006, 7(12): 1243.
[52] Mun J H, Yu H J, Park S, et al. Genome-wide identificationof NBS-encoding resistance genes in Brassica rapa[J]. MolecularGenetics & Genomics, 2009, 282: 617-631.
[53] McHale L, Tan X, Koehl P, et al. Plant NBS-LRR proteins:adaptable guards[J]. Genome Biology, 2006, 7(4): 212.
[54] 李 威. 雷蒙德氏棉和亞洲棉萜類化合物合成關鍵基因家族的全基因組鑒定和系統發育研究[D]. 杭州: 浙江大學, 2014.
[55] Chen X, Yang W, Zhang L, et al. Genome-wide identification,functional and evolutionary analysis of terpene synthasesin pineapple[J]. Computational Biology and Chemistry,2017, 70: 40-48.
[56] He C, Zhang J, Liu X, et al. Identification of genes involvedin biosynthesis of mannan polysaccharides in Dendrobiumofficinale by RNA-seq analysis[J]. Plant Molecular Biology,2015, 88(3): 219-231.
[57] Li H L, Guo D, Yang Z P, et al. Genome-wide identificationand characterization of WRKY gene family in Hevea brasiliensis[J]. Genomics, 2014, 104(1): 14-23.
[58] 馮 新. 香蕉SOD 基因家族的全基因組鑒定及功能分析[D]. 福州: 福建農林大學, 2016.
[59] 徐小萍, 陳曉慧, 呂科良, 等. 龍眼漆酶家族成員全基因組結構與功能分析[J]. 應用與環境生物學報, 2018, 24(4):833-844.
[60] 張雅玲, 方智振, 賴鐘雄. 香蕉Ran 家族基因的全基因組分析[J]. 江西農業大學學報, 2015, 37(1): 157-162.
[61] 陳芳蘭. 野生蕉β-1,3 葡聚糖酶基因克隆及抗寒相關功能分析[D]. 福州: 福建農林大學, 2016.
[62] 鄧素芳. 基于RNA-Seq 的野生蕉(Musa itinerans)果皮顏色差異形成的分子機制研究[D]. 福州: 福建農林大學,2018.
[63] 劉煒婳. 基于全轉錄組學的野生蕉(Musa itinerans)低溫脅迫響應機制研究[D]. 福州: 福建農林大學, 2018.
[64] Xu H M, Yu Q Y, Shi Y, et al. PGD: Pineapple genomicsdatabase[J]. Horticulture Research, 2018, 5: 66.
[65] 柳 覲, 李開雄, 孔廣紅, 等. 云南芒果種質基因組大小測定與變異分析[J]. 熱帶亞熱帶植物學報, 2015, 23(4):386-390.
[66] Ravishankar K V, Dinesh M R, Nischita P, et al. Developmentand characterization of microsatellite markers in mango(Mangifera indica) using next-generation sequencing technologyand their transferability across species[J]. MolecularBreeding, 2015, 35(3): 93.
[67] Zhang J, Zhang X, Tang H, et al. Allele-defined genome ofthe autopolyploid sugarcane Saccharum spontaneum L.[J].Nature Genetics, 2018, 50(11): 1565-1573.
[68] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware,chromosomal-scale autopolyploid genomes based on Hi-Cdata[J]. Nature Plants, 2019, 5(8): 833-845.
[69] Chapman J A, Mascher M, Buluc A, et al. A whole-genomeshotgun approach for assembling and anchoring the hexaploidbread wheat genome[J]. Genome Biology, 2015, 16: 26.
[70] Ming R, Man Wai C. Assembling allopolyploid genomes: nolonger formidable[J]. Genome Biology, 2015, 16: 27.