劉聲傳, 許應芬, 魏杰, 鄢東海, 陳智雄, 徐霖, 劉燕*, 周玉鋒*
(1.貴陽學院生物與環境工程學院, 貴陽 550005;2.貴州省農業科學院茶葉研究所, 貴陽 550006)
多數白化茶樹(Camellia sinensis)資源的春季新梢具有高氨基酸、低茶多酚含量等特性, 是生產高品質綠茶的優質原料[1]。茶樹的遺傳背景復雜、遺傳變異較高。目前, 選育的白化茶樹品種較少, 但仍呈逐年增加趨勢。因此, 研究分析白化茶樹種質資源的遺傳多樣性、親緣關系和群體結構, 揭示其遺傳特性, 對白化茶樹種質鑒定、資源利用和品種選育具有重要意義。
目前, 白化茶樹資源的選育主要基于農藝性狀及茶葉生化成分、感官品質等, 這些性狀易受環境影響, 且鑒定周期較長, 極大地限制了白化茶樹資源的開發和利用[2-3]。高效、準確、穩定的DNA分子標記已廣泛應用于種質資源的鑒定、遺傳多樣性及輔助育種等研究。其中, 單核苷酸多態性(single nucleotide polymorphisms,SNP)標記由于其數量多、多態性豐富等特點被廣泛用于茶樹等多種植物的親緣關系分析、遺傳多樣性評價和遺傳圖譜構建等[4-6]。隨著分子生物技術快速發展, 利用高通量測序技術可以快速獲得大量SNP。基于ⅡB型限制性核酸內切酶的高通量測序2b-RAD(2b-restriction site-associated DNA)技術具有建庫流程簡單、重復性和標簽代表性高、成本低、假陽性 率 低 等 優 點[7-8], 已 在 玉 米(Zea mays)[9]、梨(Pyrus communis)[10]、甜瓜(Cucumis melo L.)[11]、丹參(Salvia miltiorrhiza)[12]等多種植物上應用。在茶樹資源研究中, 利用該技術構建了常綠茶樹品種‘龍井43’和‘白毫早’F1群體的SNP高密度遺傳連鎖圖譜, 定位了與類黃酮相關的數量性狀位點(quantitative trait locus, QTLs)[13]。但關于利用2b-RAD等簡化基因組測序技術研究白化茶樹種質多樣性的研究尚未見報道。為此, 本研究以3份常綠茶樹品種(系)為對照、20份白化茶樹品種(系)為研究材料, 利用2b-RAD技術進行高通量簡化基因組測序, 開發SNP標記, 解析白化茶樹品種(系)的遺傳多樣性、親緣關系和群體結構, 為白化茶樹種質鑒定、資源利用和育種等提供理論依據。
23份供試茶樹種質資源均為無性系, 樹齡3~5年, 種植于貴州省農業科學院茶葉研究所湄潭資源圃(27°45′48″N, 107°29′22″E, 海拔778 m), 生境管理一致, 其品種(系)信息、葉片大小和春季新梢葉色詳見表1。

表1 23份茶樹資源來源、葉片大小及其春季新梢葉色Table 1 Origin, leaf size and color of spring young shoot among 23 tea germplasms
1.2.1 DNA提取和檢測 于2020年秋, 每份種質采集15株新梢混合, 置于50 mL無菌離心管, 液氮速凍, 帶回實驗室于-80℃冰箱保存備用。采用植物DNA試劑盒(DP305, 北京天根生化科技有限公司)提取基因組DNA, 利用Nanodrop 2000檢測提取物的質量和含量。DNA產物保存于-20℃備用。
1.2.2 2b-RAD文庫構建和測序質量分析 參照2b-RAD五標簽串聯技術[14], 采用標準型5"-NNN-3"接頭構建文庫。文庫質控合格后, 在Illumina Hiseq Xten平臺進行Paired-end測序, 由上海歐易生物科技有限公司完成。利用Pear 0.9.6軟件拼接原始測序數據(raw reads), 剔除無酶切識別位點序列、N堿基比例大于8%的序列和低質量序列(質量值低于Q30的堿基數超過整條序列堿基數的15%)。
1.2.3 全基因組范圍SNP篩查和分型 根據有參考基因組的RAD分型方法對標記進行基因分型[15]。從‘舒茶早’茶樹參考基因組序列(http://tpia.teaplant.org/web/Download/Genomic_data/CSS_ChrL ev_20200506_Genome.fas.gz)中提取包含BsaXI酶切位點的標簽作為參考序列, 利用SOAP軟件將各樣本的高質量測序數據(high-quality reads)與參考序列進行比對[16], 獲得用于分型的unique標簽數目(3×<測序深度<500×);然后利用最大似然法對SNP標記進行分型。分型完成后, 為保證后續分析的準確性和嚴謹性, 對分型結果進一步過濾, 剔除只含有1種等位基因的位點、基因組堿基為N的位點、1個標簽內多于2個SNP的標簽、同一位置2種分型的位點、所有樣品中低于80%個體可以分型的位點、最小等位基因頻率低于0.01的位點及等位基因大于2的位點。
采用軟件Plink 2.0進行主成分分析;利用Vcftools 0.1.14軟件計算SNP位點的觀測雜合度(observed heterozygosity, Ho)、期 望 雜 合 度(expected heterozygosity, He)、多 態 信 息 含 量(polymorphism information content, PIC)、有效等位基因數(number of effective alleles, Ne)和核苷酸多樣性(Pi);利用Genepop 1.0.5軟件計算遺傳分化系數(Fst)和遺傳距離(genetic distance, GD);分別利用Admixture 1.3.0軟件、Treebest 1.9.2軟件分析群體結構、構建系統進化樹。
Fst的大小表示群體間遺傳分化程度, 取值范圍為0~1, 其中, 0<Fst≤0.05表示群體間無分化;0.05<Fst≤0.15表示中度分化;0.15<Fst≤0.25表示高度分化;Fst>0.25表示極大分化[17]。
如表2所示, 23個樣本共獲得576 193 750條高質量reads, 平均每個樣本25 051 902, 高質量reads占比均大于92%, 表明文庫的測序質量較好。23個樣本共獲得4 486 606個唯一標簽, 平均為195 069, 標簽平均測序深度為16.02×。

表2 文庫構建質量Table 2 Quality of sequencing library
經過濾篩選, 從23個樣本中共得到56 498個多態性SNPs位點用于后續分析。篩選的多態性SNPs在染色體上分布較均勻;位于基因間區、內含子區、外顯子區、基因上游區和下游區的SNPs占比 分 別為65.63%、13.71%、5.71%、6.74%和8.04%(圖1)。

圖1 多態性SNP在染色體和基因組上的分布Fig.1 Distribution of polymorphic SNP in 15 chromosomes and genome
如圖2所示, SNPs存在6種變異類型, 轉換(37 829)與顛換(18 669)的比值為2.03, 由此表明, SNPs變異多發生在嘌呤與嘌呤或嘧啶與嘧啶之間的轉換;位于基因外顯子區的SNPs中有1 774個同義突變、1 970個錯義突變、43個無義突變。

圖2 SNP的變異類型Fig.2 Variation type of SNP
2.4.1 群體結構分析 主成分分析(圖3)和系統進化樹結果(圖4)表明, 23份種質被劃分為3個類群, 類群Ⅰ僅包含MTB種質, 該種質由云南鳳慶大葉茶(父本)與貴州鎮寧團葉茶(母本)雜交選育而成;類群Ⅱ包含GYL、QM815、QJY、QJY2、STL、TC16共6份種質, 均為來自貴州的地方種質;類群Ⅲ包含T1~T15和FD共16份種質, 其中, 14份來自浙江, 另2份分別來自安徽、福建, 屬于江南亞種或武夷亞種。

圖3 SNP基因型主成分分析Fig.3 Principal component analysis based on SNP genotype

圖4 23份茶樹種質基于SNP標記的系統進化樹Fig.4 Polygenetic tree of 23 tea germplasms based on SNP
Admixtrue軟件分析結果(圖5)表明, 根據K值最低交叉驗證錯誤率的分群數確定最優分群數為2, 說明23份種質被分為2類。GⅠ包括7份來自貴州的種質, GⅡ包括1份安徽種質、1份福建種質和14份浙江種質;且GⅠ和GⅡ間無交叉現象。由此表明, 地理位置相近的種質間親緣關系較近。

注:品種(系)編號同表1。Note:Code of cultivar(strain)is same as Table 1.
2.4.2 遺傳多樣性及遺傳分化 基于系統發育樹對不同類群種質的遺傳多樣性進行分析, 結果(表3)顯示, 類群Ⅰ的He、Ho、PIC、Ne和Pi分別為0.088、0.176、0.066、1.176、0.176;類群Ⅱ的He、Ho、PIC、Ne和Pi分 別 為0.064、0.129、0.048、1.129、0.129;類群Ⅲ的He、Ho、PIC、Ne和Pi分別為0.058、0.116、0.044、1.116、0.116。He、Ho、PIC、Ne和Pi均為類群Ⅰ>類群Ⅱ>類群Ⅲ, 表明類群Ⅰ、類群Ⅱ的遺傳多樣性高于類群Ⅲ, 呈現出一定的地域性差異。

表3 基于系統發育樹不同類群種質的遺傳多樣性Table 3 Summary statistic of genetic diversity for different groups of germplasm based on polygenetic tree
如表4所示, 類群Ⅰ和類群Ⅱ、類群Ⅲ的Fst分別為0.12、0.23, 分別呈現中度、高度遺傳分化水平, 地理位置相近的種質間親緣關系較近, 地理位置較遠的種質間遺傳差異較大。

表4 不同類群茶樹種質的遺傳分化系數和遺傳距離Table 4 Pairwise Fst and genetic distance of different group
本研究基于2b-RAD簡化基因組測序技術在茶樹全基因組水平上成功開發出大量SNPs, 利用篩選出的56 498個有效SNPs分析了白化茶樹種質的遺傳多樣性、親緣關系和遺傳結構, 為進一步進行白化茶樹種質分類、鑒定和分子育種等提供了基礎數據。
實際雜合度、期望雜合度、多態信息含量、有效等位基因數和核苷酸多樣性等是評價遺傳多樣性的重要指標[18]。23份茶樹種質SNP標記的遺傳多樣性水平較高, 其中, 類群Ⅰ的遺傳多樣性最高;其次為類群Ⅱ;類群Ⅲ的遺傳多樣性最低。本研究中23份種質的遺傳多樣性低于前人白化茶樹品種[19]、常綠茶樹種質[20]、古茶樹[21]的遺傳多樣性。此外, 從表達序列標簽數據庫中開發出的茶樹SNP標記的遺傳多樣性指數也高于本研究2b-RAD技術開發的SNP標記, 但均低于SSR標記的遺傳多樣性指數[22], 在甜瓜、蘋果中也發現類似的現象[11,23-24]。因此, 不同標記方法檢測的遺傳多樣性結果之間可能難以進行縱向比較, 但同種標記下, 各種群間的遺傳多樣性可進行橫向比較, 因此, 通過多角度和多層次解析作物的遺傳多樣性可能更為全面[24]。
綜合主成分分析和系統發育樹結果, 23份種質被劃分為3個類群, 類群Ⅰ為1份來自貴州的大葉種(父母本分別來自貴州、云南), 類群Ⅱ包含來自貴州地方群體種的6份種質;類群Ⅲ包含來自浙江的14份種質和來自安徽、福建的2份種質。遺傳多樣性參數均表現為類群Ⅰ>類群Ⅱ>類群Ⅲ, 呈現出明顯的地域性差異。黃福平[25]利用ISSR標記分析59份中國栽培型茶樹種質資源的遺傳多樣性, 發現云、貴、川3省品種資源的遺傳多樣性較高, 其次為來自粵、桂的品種資源, 閩、浙、贛種質資源的遺傳多樣性較低。周炎花[26]利用EST-SSR標記分析了554份茶樹種質資源的遺傳多樣性, 也得到了類似結果。遺傳多樣性的高低是評價物種對環境適應能力和物種進化潛力的重要依據[27]。本研究結果表明, 貴州白化茶樹種質的環境適應能力可能強于皖、浙、贛的白化茶樹種質。貴州為茶樹起源地之一, 地理生態環境復雜多樣, 境內野生茶樹、地方種豐富且分布廣泛, 從而造就了貴州茶樹種質資源較高的遺傳多樣性及適應能力[28]。遺傳分化系數(Fst)是衡量群體間遺傳分化程度的重要參數[29]。本研究中類群Ⅰ與類群Ⅱ、類群Ⅲ的Fst分別為0.12、0.23, 呈現中、高度遺傳分化水平。貴州地勢高低不平、土被不連續、生境高度片斷化, 從而易導致居群間遺傳分化較高[30]。本研究中貴州的7份資源分別來自貴州黔南、黔北和黔東北, 地理隔離在一定程度上引起遺傳分化。此外, 栽培型茶樹主要由大理茶、大廠茶、厚軸茶、禿房茶演化而來[31]。貴州分布有大廠茶、厚軸茶、禿房茶等原始型野生茶樹, 且大面積種植貴定鳥王種、都勻毛尖種、湄潭苔茶、石阡苔茶等地方種[28,32], 這些因素也可能造成了類群Ⅰ與類群Ⅱ存在中度遺傳分化。類群Ⅰ、類群Ⅱ和類群Ⅲ相距較遠, 地理隔離導致彼此間基因交流程度低, 因而出現了中、高度分化, 群體遺傳結構分析也表明這些種質之間無交叉現象。在群體結構分析中, Admixture分析結果與主成分分析和系統進化樹分析結果存在差異, 可能是MTB的父、母本分別來自云南、貴州, 與另外6份貴州茶樹種質具有一定的親緣關系, 且與MTB、QM815來自同一縣, 存在趨同進化, 因而在Admixture分析中將其歸為一類。綜上所述, 貴州白化茶樹品種(系)的遺傳多樣性較高;不同地理來源的白化茶樹種質間存在較高的遺傳分化, 為白化茶樹分子育種等提供了理論依據。