繆娜娜,丁明全,楊思晴,戎均康
(1.浙江農林大學林業與生物技術學院,浙江臨安 311300; 2.浙江農林大學農業與食品科學學院,浙江臨安 311300)
小麥(TriticumaestivumL.)是世界上播種面積最大、產量僅次于玉米(ZeamaysL.)和水稻(OryzasativaL.)的第三大糧食作物,提供人類約20%的能量,其蛋白質和脂肪含量比其他農作物更豐富[1]。由于當前推廣的栽培小麥品種大多來源于少數核心種質,使得小麥育種資源的遺傳多樣性顯著下降[2-3]。從小麥野生近緣種中挖掘和利用新的優質基因資源是豐富普通小麥遺傳背景的有效途徑。
野生二粒小麥是普通小麥A和B染色體組的供體,具有粒大、蛋白質含量高和貯藏蛋白遺傳多樣性豐富等優良性狀,并含有豐富的遺傳變異,能夠抵抗多種生物和非生物脅迫[4]。Garvin等[5]在野生二粒小麥中定位了Qfhs.ndsu-3AS和Qfhs.fcu-7AL等多個抗赤霉病相關的基因,可用于小麥赤霉病抗性的改良。Uauy等[6]在野生二粒小麥中發現籽粒蛋白質含量基因GPC-B1,能夠顯著提高小麥的蛋白質含量及鋅、鐵等微量元素含量,提升幅度超過10%~15%,對小麥品質改良具有重要價值。以上研究均表明,利用野生二粒小麥改良栽培小麥具有非常重要的理論和現實意義。
以普通小麥品種中國春(Chinese Spring,CS)為背景的野生二粒小麥材料TTD140染色體臂置換系(chromosome arm substitution line,CASL)是由以色列Weizmann科學院Feldman教授利用常規雜交結合細胞學鑒定等方法創制的[7]。利用這套材料已鑒定到很多優良或特異性狀,如CASL7AS/CASL4BS/CASL7AL的千粒重明顯高于CS[8],CASL2BS晚熟且與光周期基因Ppd-B1緊密連鎖[9]。由于CASL是通過CS端體與TTD140雜交后再和相應CS端體多次回交產生,因此在非置換染色體臂上仍然會有野生二粒小麥片段殘余。Zhou等[9]通過749個SSR標記鑒定該套CASL材料,其中277個在CS與TTD140間存在多態性,在非置換染色體上檢測到25個沒有被CS置換的TTD140染色體片段。由于小麥基因組巨大,常規分子標記在小麥材料之間多態性較低,因此不能有效監測所有置換區段[7-9];本研究利用轉錄組測序結合SNP分析技術,不僅可以從全基因組水平研究基因的表達,還可以更準確地了解染色體臂置換系每條染色體的遺傳組成。因此,本研究利用三個CASL材料和中國春進行RNA測序,比對CS參考基因組序列,分析純合SNP在染色體上的分布,最終確定野生二粒小麥置換區段的大小和位置,以期為CASL的鑒定提供新的有效手段。
中國春(CS)及其染色體臂置換系材料CASL3AL、CASL7BS和CASL4AL由Feldman等[7]創制。2016年10月將試驗材料種植于浙江農林大學試驗田,每個材料連續種兩行,行間距約30 cm。拔節期每個材料取10株最上部展開葉混合,用錫箔紙包好,置于液氮中冷凍保存待用。
1.2.1 RNA提取
使用RNAprep Pure Plant Kit試劑盒(TIANGEN,北京)提取葉片組織總RNA,選取28S∶18S=2∶1,OD260/280值1.8~2.0,總量大于1 μg的樣品進行建庫。
1.2.2 轉錄組測序
1.2.3 RNA-Seq分析步驟
通過分析變異位點在染色體上的分布來判斷野生二粒小麥的置換區段。分析步驟如下:
(1)去除測序原始讀段raw reads的測序接頭序列(fastp 0.19.5[10]),過濾掉低質量reads,并去除3'末端和5'末端低質量的堿基,得到高質量clean reads;
(2)以CS基因組“IWGSC RefSeq v1.0”(https://urgi.versailles.inra.fr/download/iwgsc/IWGSC_RefSeq_Assemblies/v1.0/)[1]為參考基因組,使用Hisat2[11]建立索引,并將clean reads比對到參考基因組上,提取唯一比對short reads,將比對后的SAM文件進行排序(GATK4.0:SortSam);
(3)過濾標記PCR擴增過程中產生的重復reads(GATK4.0:Markduplicates[12]),添加接頭文件(Picard:Add Or Replace Read Group);
(4)建立索引,檢測SNP變異位點(Samtools,GATK4.0:Haplotype Caller);
(5)對上述SNP位點進行硬過濾(GATK 4.0:Variant Filtration[13]),過濾標準為QUAL<60.0,QD<2.0,MQ<40.0,FS>60,SOR> 3.0,MQRankSum<-12.5,ReadPosRankSum< -8.0,DP<10;
(6)重復上述流程對每個CASL材料進行SNP變異的檢測,使用Excel軟件統計每個材料純合(基因型為1/1)SNP數量及其在染色體的 分布;
(7)獲取CASL材料每個基因的表達量FPKM(Fragments per kilobase of transcript per million fragments mapped)(HTseq[14]:htseq-read),閾值為FPKM≥1。
1.2.4 SSR引物設計與標記多態性驗證
SSR分子標記來源于GrainGenes 3.0網站(https://wheat.pw.usda.gov/GG3/),或根據發布的中國春和野生二粒小麥Zavitan的參考基因組(https://wheat.pw.usda.gov/graingenes_downloads/Zavitan/)信息,通過MISA[15](MicroSAtellite identification tools,http://pgrc.ipk-gatersleben.de/misa/misa.html)軟件對上述檢測出的置換區段的序列進行SSR位點的預測,標準為二核甘酸重復次數不低于6次,三、四、五核苷酸重復次數不低于5次。然后,用Primer 3.0(http://primer3.ut.ee)根據鑒定出的SSR位點批量設計引物,并通過e-PCR 2.3.12驗證引物的特異性。設計好的引物由上海華大生物公司合成。
使用CTAB法提取TTD140、CS和CASL3AL的葉片基因組DNA。PCR反應體系為15 μL,包含11.25 μL ddH2O、1.5 μL 10×Buffer、1 μL DNA、0.40 μL上下游引物、0.25 μL dNTPs、0.2 μL TakaraTaq酶。PCR反應程序為: 94 ℃預變性5 min;94 ℃變性30 s,58 ℃復性 30 s,72 ℃延伸 30 s,30個循環;72 ℃延伸 7 min, 4 ℃保存。使用10%聚丙烯酰胺凝膠電泳檢測TTD140和CS之間的SSR標記多態性。
1.2.5 SNP位點驗證
在3A染色體SNP突變位點密集區域設計兩對特異性引物(表1)并進行PCR擴增。PCR體系為50 μL,包含19.5 μL ddH2O、25 μL GCbuffer、2 μL DNA、1 μL上下游引物、1 μL dNTPs、0.5 μL LaTaq酶。PCR反應程序為: 94 ℃預變性7 min;94 ℃變性30 s,62 ℃復性 30 s,72 ℃延伸1 min,35個循環;72 ℃延伸 7 min, 4 ℃保存。將TTD140、CS和CASL3AL基因組中的擴增產物直接割膠回收送生工生物工程(上海)股份有限公司測序。PCR產物目的片段約650 bp左右,使用MEGA7.0對這三個材料的擴增序列和CS/TTD參考基因組目標序列進行比對。

表1 SNP驗證引物序列Table 1 Primer sequence for SNP verification
經檢測,三個CASLs和CS的RNA總量為164~344 ng·μL-1,18S和28S條帶清晰且條帶亮度比值28S∶18S=2∶1(圖1),OD260/280在 1.8~2.0之間。本研究4個樣品的RNA在測序后共產生315 290 370個raw reads,過濾后得到 303 606 610個clean reads。質控后四個材料Q20都大于96%,Q30約91%,說明測序原始數據質量可靠。將clean reads與中國春參考基因組比對,發現四個樣品93.17%~95.56%的short reads能比對到參考基因組上,唯一比對(Unique mapped)率為81.60%~84.24%,非唯一比對(Multiple mapped)率為6.22%~9.00%,8.19%~10.57%的short reads未比對上(表2)。比對結果說明絕大多數的short reads可以比對到參考基因組上進行后續分析。

泳道M:Marker; 泳道1~4:CASL3AL、CASL4AL、CASL7BS和CS。
Lane M:Makers; Lanes 1-4:CASL3AL, CASL4AL, CASL7BS and CS.
圖1 CASLs與CS總RNA質量瓊脂糖凝膠檢測結果
Fig.1Detection of total RNA from CASLs and CS with agarose gel

表2 高通量測序短片段(short reads)與參考基因組序列的比對率Table 2 Mapping rate of the short reads to the CS reference genome sequences
CASL間SNP數量分析發現,每個CASL材料的表達基因數量不同,但每條染色體上表達基因數量占表達基因總數的百分比大致相同(表3)。表達基因在染色體上的分布呈現從著絲粒向端粒逐漸增加的趨勢(圖2d,f,h和j)。但不同CASL材料之間SNP的數量和其在染色體分布存在很大不同(圖2c,e,g和i)。CASL3AL、CASL7BS和CASL4AL分別有1 940、2 594和 6 037個SNP。SNP主要集中在CASL材料的置換染色體3A,7B和4A上(圖2)。其中CASL3AL的79.6%SNP分布于3A染色體的108-750 Mb區間,表明不僅3A染色體的整個長臂被置換,同時短臂上靠近著絲粒約200 Mb的區段也被TTD140置換(圖2e);CASL7BS的 85.20%SNP主要集中在7B的0~510 Mb和5A上的30~460 Mb之間(圖2g),表明除置換染色體7B外,5A上也有430 Mb的區段來自于TTD140。CASL4AL的SNP分布復雜(圖2i),34.6%的SNP分布在染色體4A的40~710 Mb區段。余下的65.4%SNP位點分布在其他11條染色體,如7B上的713個SNP分布于0~570 Mb區段,5B的696個SNP分布在長臂近末端410~675 Mb的區段;還有9條染色體含有超過100個SNP,分布于染色體端部100 Mb內。有趣的是,CASL4AL較多的SNP分布在D組染色體亞組上,如475個SNP分布于5D上的530~566 Mb,347個SNP分布于7D上的13~46 Mb之間。
為了驗證SNP分析鑒定出的CASL染色體組成的可靠性,在3A染色體上新設計222對SSR標記,其中77對在CS和TTD140間存在多態性;加上20對具有多態性的公共分子標記(barc、wmc、gwm、cfa系列),共計97對。這些標記覆蓋整條3A染色體,標記間平均距離約7.83 Mb。用這些標記驗證CASL3AL的置換區段,檢測到TTD140帶型的84對標記集中在短臂上靠近著絲粒的P0409標記和長臂上的P2089標記之間區段(108~750 Mb)(圖3),沒有檢測到TTD140條帶的標記則集中在P0008-P0400標記之間(0~108 Mb),說明3A染色體的108~750 Mb區段來自于TTD140,檢測到TTD140帶型的SSR標記分布區間與上述RNA-seq分析出的SNP分布區域(圖2e:3A)相吻合,證明使用RNA-seq結合SNP分析技術鑒定CASL材料的染色體組成是可靠的。

表3 表達基因在染色體上的分布Table 3 Distribution of expressed genes on chromosomes
括號內的數據為每條染色體上表達基因數量占表達基因總數的百分比。
The data in bracket are the percentage of the number of expressed genes on each chromosome to the total number of expressed genes.
為驗證SNP位點,設計了兩對引物對SNP富集區域進行擴增,其中引物3A_SNP_1在CS和CASL3AL的擴增產物測序結果顯示重疊峰,可能是該引物特異性不高導致PCR產物不純引起的,引物3A_SNP_2測序結果正常。將引物3A_SNP_2在CS、CTTD140和CASL3AL基因組中擴增產物的序列與TTD和CS參考基因組進行比對,其中320 bp序列中存在7個SNP(圖4),本研究所用CS的序列和CS參考基因組一致,CASL3AL和TTD140的序列與Zavitan參考基因組一致,證明CASL3AL的該段DNA序列來自于TTD140。

a:小麥染色體長度及其著絲粒位置(顏色較淺的為長臂,顏色較深的為短臂);b:小麥注釋基因在染色體上的分布;c:中國春材料的純合SNP分布;d:中國春材料表達基因分布(FPKM≥1);e:CASL3AL上純合SNP的分布;f:CASL3AL材料表達基因的分布(FPKM≥1);g:CASL7BS上純合SNP的分布;h:CASL7BS料表達基因的分布(FPKM≥1);i:CASL4AL上純合SNP的分布;j:CASL4AL材料表達基因的分布(FPKM≥1)。
a:Length and centromeric position of chromosome in wheat(lighter colors indicate the long arm and dark colors indicate short arm); b:The distribution of annotated genes on chromosomesin wheat; c:The distribution of homozygous SNP in Chinese Spring; d:The distribution of genes expressed in Chinese Spring(FPKM≥1); e:The distribution of homozygous SNP in CASL3AL; f:The distribution of gene expressed in CASL3AL( FPKM≥1 ); g:The distribution of homozygous SNP in CASL7BS; h:The distribution of gene expressed in CASL7BS(FPKM≥1); i:The distribution of homozygous SNP in CASL4AL; j:The distribution of gene expressed in CASL4AL(FPKM≥1).
圖2 表達基因和SNP在染色體上的分布
Fig.2 Distribution of SNPs and expressed genes on chromosomes

P0058等為SSR標記,標記間間距為物理距離,深灰色區域代表CASL3AL中來自TTD140的染色體片段。
P0058,etc. are SSR markers. Intervals between SSRs are physical distance. The bar with dark grey represents the fragment from TTD140 in CASL3AL.
圖3 CASL3AL與CS間多態性SSR分子標記在3A染色體上的分布
Fig.3 Distribution of SSR polymorphic molecular markers between CASL3AL and CS on chromosome 3A

CS_reference為IWGSC Ref Seqv1.0參考序列;CS為中國春測序結果;TTD_reference為Zavitan參考序列;TTD為TTD140;CASL3AL為染色體臂置換材料。
CS_reference is IWGSC Ref Sqv1.0 reference sequence; CS is the sequencing result of Chinesse Spring;TTD_reference is the Zavitan reference sequence; TTD is TTD140; CASL3AL is a chromosome arm substitution material.
圖4 CS/TTD140/CASL3AL測序片段與參考基因組的比對結果
Fig.4 Comparison of sequencing fragments of CS/TTD140/CASL3AL with reference genome
CASL材料是由CS端體與TTD140雜交,然后經CS端體多次回交選育而成,理論上非置換臂還會存在少量的TTD染色體片段沒有被CS替換。Millet等[7]使用RFLP和SSR分子標記對以普通小麥品種Bethlehem(BL)為背景的CASL染色體組成進行了鑒定,發現在非置換染色體上確實有一定量的TTD存在;Zhou等[8]利用多態性SSR標記對以CS為背景的CASL材料的染色體組成進行了鑒定,也在非置換染色體上發現了少量TTD片段。本研究采用轉錄組測序結合SNP分析法,檢測三個CASL材料中的TTD置換片段。三個CASL材料的大多數SNP存在于置換染色體臂和靠近著絲粒附近約200 Mb的另一條臂上,此外,CASL7BS在非置換臂5A染色體上檢測到約430 Mb的TTD片段,CASL4AL在11條非置換染色體上也檢測到TTD片段。本研究在置換染色體上檢測到的TTD片段范圍比Millet等[7]和Zhou等[8]檢測到的片段范圍更精確,同時在非置換染色體上檢測到了更多的TTD片段。這可能是因為Millet等[7]和Zhou等[8]所用的SSR標記檢測具有一定的局限性,如Zhou等[8]用749對SSR標記只篩選到277對多態性標記用于TTD置換片段的檢測,平均每條染色體13對,明顯偏低。這表明使用傳統的SSR分子標記檢測置換區段存在一些不足,如標記多態性低、鑒定過程費工費時、標記覆蓋密度低等。而利用轉錄組數據獲得的SNP分布廣且相對均勻,檢測更可靠。但該方法也存在一些不足,如轉錄組數據具有時間、組織、空間特異性等特點,可能還有部分TTD置換區段無法被檢測到。為此,可在取樣時取多株不同時期不同部位的樣品混合測序,以達到全面鑒定置換區段的效果。綜上所述,本研究對置換材料的供體片段的鑒定提供了快速、準確的方法,具有較高的應用價值。