張小紅,彭 瓊,鄢 錚
(福州市農業科學研究所,福州 350018)
甘薯[Ipomoea batatas(L.)Lam.]被認為是最具潛力的高產救荒糧食作物,具有易種植、自然適應性廣、抗逆性強等優點[1]。由于甘薯富含淀粉,能源產量較高,因此也被當作一種新型能源作物,用于燃料乙醇的生產[2]。中國作為甘薯的主要生產國,種植面積與產量早已超越其他國家,分別占全球總量的36.65%和63.84%[3]。但是,目前中國甘薯多數育成品種的遺傳組成都具有‘勝利百號’和‘南瑞苕’的成分,主栽品種種間遺傳基礎過于狹窄,不利于甘薯品種的遺傳改良,同時也制約著甘薯新品種的選育進程[4-5]。因此,對甘薯品種的遺傳多樣性進行分析,有助于明確甘薯種質的差異,鑒定和評估優質甘薯種質資源,了解甘薯品種間的親緣關系及遺傳背景,對甘薯的遺傳改良與新品種選育具有現實意義。
DNA分子標記是目前研究物種遺傳多樣性、鑒定物種種質資源、構建遺傳圖譜最高效可靠的方法,具有傳統標記所沒有的優勢,在植物中已經得到了廣泛的應用[6-9]。近年來,隨著基因組學和分子生物學的迅速發展,利用具有高通量特性的轉錄組測序技術實現了分子標記的大規模挖掘,基于轉錄組測序的DNA分子標記技術也因此受到了極大的關注[10]。目前,以轉錄組測序為基礎開發的分子標記主要為簡單重復序列標記(Simple Sequence Repeats,SSR)和單核苷酸多態性標記(Single Nucleotide Polymorphsm,SNP)[10-11]。SSR作為第二代微衛星分子標記技術,因其數量豐富、多態性高、重復性好、易于檢測等優點,成為植物基因組分析的重要來源[12]。SNP 是由單個核苷酸變異引起的DNA序列多態性,具有位點密度高、分布廣泛、代表性強、遺傳穩定等特點,被認為是逐步取代過去其他分子標記的新一代分子標記技術[13-14]。
由于甘薯是一種異源六倍體植物,遺傳背景復雜,且存在自交不親等問題,僅根據表型性狀比較判斷,難以真實反映其遺傳差異和親緣關系,而DNA分子標記具有穩定性好、多態性高且不受客觀環境影響等特點,因此已作為甘薯種質資源研究及遺傳鑒定的一種重要手段[15-16]。Wang 等[17]基于甘薯轉錄組測序數據,獲得了8294 個SSR 重復位點,并設計了1060 對SSR 引物用于甘薯多態性評價和遺傳圖譜構建。張超凡等[18]通過對12 對SSR 引物進行PCR 擴增,分析了31 份湖南甘薯品種的遺傳多樣性。Xie 等[19]從紫薯的轉錄組測序分析中搜索到851個潛在的SSR。Zhao等[20]利用高通量測序對紫肉甘薯‘京薯6號’及其高花青素的突變體進行轉錄組分析,從7547個Unigenes中鑒定出2349個潛在的SSR 標記用于多態性研究。許家磊從‘徐781’和‘徐薯18’的轉錄組測序數據中挖掘到1386 個SNP 候選位點,并檢測了這些候選SNP 位點,提出了甘薯SNP 分子標記適合的檢測方法,可以用于甘薯SNP分子標記的開發[10]。
因此,鑒于SSR 和SNP 標記具有共顯性遺傳、檢測方便和多態信息含量高等特點,本研究基于甘薯轉錄組的測序數據,對潛在的SSR位點和SNP位點進行挖掘及特征分析,以此完善甘薯分子標記,為今后甘薯的種質資源評估、遺傳圖譜構建和分子標記輔助育種等方面的研究提供有力參考。
供試材料耐鹽甘薯品種‘榕薯819’和不耐鹽甘薯品種‘榕薯910’均由福州市農業科學研究所提供。
將經200 mmol/L NaCl 溶液處理0、3、6 天的不同基因型甘薯樣品進行Illumina 高通量測序(測序委托北京組學生物科技有限公司完成)。測序完成后,對原始數據(Raw data)進行過濾,再采用Trinity[21]組裝軟件對Clean reads 進行序列組裝,共獲得157252 條Unigenes,總長度為90649057 bp,平均組裝長度為576 bp。后續SSR及SNP分析均基于該Unigenes庫進行。
采 用MISA(http://pgrc.ipk-gatersleben.de/misa/misa.html)對Unigenes 進行SSR 檢測,鑒定SSR 類型,再根據SSR兩端互補序列,利用Primer3[22]進行SSR引物設計。以Unigene作為模板用e-PCR[23]做電子PCR,去除有多處比對的引物以保證設計引物擴增的唯一性。
利用針對RNA-Seq的STAR軟件[24]比對每個樣本的Reads 與Unigene 序列,使用GATK 軟件[25]識別測序樣品與Unigene 間的單堿基錯配,識別潛在的SNP 位點。GATK 識別標準為:(1)35 bp 范圍內連續出現的單堿基錯配不超過3 個;(2)經過序列深度標準化的SNP質量值高于30。
利用MISA 對Unigenes 進行SSR 分析,統計結果如表1 所示,甘薯轉錄組共獲得157252 條Unigenes 序列,序列總長度為90649057 bp,平均長度為576 bp。按照搜索標準,在157252 條Unigenes 序列中共發現SSR 位點33192 個,分布在24323 條Unigenes 中,發生頻率(含SSR 的Unigenes 數與總Unigenes 數之比)為15.47%。其中,6271 條Unigenes 含有超過1 個以上的SSR 位點。甘薯轉錄組中SSR 位點出現頻率(SSR 數目與總Unigenes的數目比值)為21.11%。SSR 位點的平均出現頻率為0.37 個/kb,即每2.73 kb 堿基序列就出現1個SSR位點。
研究共鑒定出全部6 種SSR 類型,涉及類型較為豐富,且各類型的出現頻率和所占比率各不相同(表1)。其中單核苷酸重復SSR 18718 個,雙核苷酸重復SSR 8121 個,三核苷酸重復SSR 5565 個,四核苷酸重復SSR 601個,五核苷酸重復SSR 129個,六核苷酸重復SSR 58 個,分別占總SSR 數量的56.39%、24.47%、16.77%、1.81%、0.39%以及0.17%。

表1 SSR分析結果統計
在甘薯轉錄組SSR 中,重復基元的種類較多,共觀察到120 種重復基元(表2)。其中單核苷酸重復基元有A/T、C/G 兩種,且A/T 數量最多,為18391 個,占SSR 總數的55.41%。雙核苷酸重復基元有4 種,所占比例最高的為AG/CT,共3706 個(11.17%)。三核苷酸重復基元有10 種,AAT/ATT 和AAG/CTT 數量最多,分別有1606 個(4.84%)和1325 個(3.99%)。四核苷酸、五核苷酸和六核苷酸重復基元則分別有28 種)、40 種和36 種,除AAAT/ATTT之外(231 個,0.69%),其余核苷酸重復基元數量均在100個以下,占比不足1%。

表2 甘薯轉錄組的SSR重復基元類型分布
由表3 可以看出,甘薯耐鹽轉錄組SSR 重復基元中,單核苷酸重復基元的重復次數主要集中在10~12次,且在5~9次重復中并無重復基元,而其他核苷酸重復基元的重復次數則主要分布在5~8次之間。從表中可以看出,SSR 基元重復次數最多的為10 次,有6256個,其次為6 次,有4139 個。從總體趨勢上看,SSR 重復基元數是隨著重復次數的增加而遞減。

表3 甘薯轉錄組SSR重復基元的重復次數分布 次
由表4 可見,本研究中SSR 長度變化范圍主要分布在10~553 bp之間。其中長度在12~20 bp的SSR數量最多,共14075個,占總數的49.01%。其次為21~30 bp,共有SSR 3647 個,占總數的12.70%。長度在41~50 bp 和50~60 bp 的SSR 則分別有573 個和390 個,占比3.28%和2.00%。而長度分布在61~70 bp 以及71~80 bp的SSR占比最少,均不足1%,分別為0.80%(229個)和0.65%(188 個)。長度大于80 bp 的SSR 則有1873個,占總數的6.52%。由此可見,甘薯耐鹽轉錄組SSR主要集中在10~20 bp之間,多態性中等。

表4 甘薯轉錄組SSR重復序列的長度分布
篩選出可應用的甘薯SSR,利用Primer 3 進行SSR引物設計,結果顯示,研究共獲得符合標準的引物15411 對,其中多態性較高的SSR(長度在20 bp 以上)共獲得3175對引物。部分引物序列參見表5。

表5 甘薯轉錄組部分SSR引物序列
研究利用GATK 軟件識別測序樣品潛在的SNP位點,在157252 條Unigenes 中挖掘到7691906 個SNP位點,SNP的分布密度為0.08個/bp,即平均約11.78 bp就會岀現1 個SNP 位點。從表6 中可以看出,轉換類型(Transition)有4729922個,占總數的61.49%,顛換類型(Transversion)有2961984個,占38.51%,轉換類型與顛換類型之比為1.60。在6 種突變類型中,同屬于轉換類型的C/T 和A/G 含量最高,分別為2487774 個和2242148 個,占總數的32.34%和29.15%。剩下的4 種顛換類型所占比例較低,分別為G/T 10.48%(806215個)、A/T 10.22%(785938 個)、C/G 9.31%(716147 個)以及A/C 8.50%(653684個)。

表6 甘薯轉錄組SNP類型統計
近年來,隨著新一代高通量測序技術的快速發展和完善,基于轉錄組測序開發的SSR標記和SNP標記也成為了目前生物界最流行的用于遺傳圖譜構建、基因功能研究、分子標記輔助育種的技術方法[10,26]。目前,國內已有學者對基于甘薯轉錄組測序的SSR分子標記開發進行了研究,但相關報道仍少于其他作物,而SNP分子標記的研究更是處于相對滯后的狀態[27-28]。
本研究基于甘薯轉錄組測序數據,共發現SSR 位點33192 個,出現頻率為21.11%,高于小麥(7.32%)[29]、玉米野生近緣種‘大芻草’(13.31%)[30]、印度南瓜(9.52%)[31]和辣椒(7.83%)[32],同時也高于Wang 等[33](7.28%)、Li(4.88%)等[34]和Zhu(10.38%)等[35]其他學者對甘薯SSR的研究結果,表明本研究中SSR的分布密度較大,數量較為豐富。
在SSR 類型分布特征分析中,本研究共鑒定出全部6種SSR類型,涉及類型較為豐富,且各類型的出現頻率和所占比率各不相同,其中單核苷酸重復SSR所占比重最大,占總數的56.39%,這與火龍果[9]、木荷[36]、李府貢棗[8]等植物的研究結果相同。而鄭燕等[37]在對4 種禾本科植物(二穗短柄草、水稻、玉米、高粱)的SSR研究中發現,三核苷酸重復SSR數量最多,六核苷酸重復SSR 次之。蔣超等[38]研究發現,在金銀花及其變種紅白忍冬中,占主導地位的SSR為二核苷酸重復SSR,其次為三核苷酸重復SSR。由此可見,不同物種間的SSR分布特征相差較大,其原因可能是物種間的基因組大小存在差異。此外,有研究表明,除三核苷酸和六核苷酸主要發生在編碼區以內之外,其余核苷酸類型均與非翻譯區相關[39]。本研究中,甘薯SSR 以單核苷酸為優勢基元,表明該轉錄組Unigenes中包含了更多的非翻譯區信息。在單核苷酸重復基元中,A/T(55.41%)含量明顯高于C/G(0.99%)含量,這一結果符合植物單核苷酸重復基元中A/T 更為豐富這一規律[40]。在二核苷酸重復基元中,AG/CT所占比例最高,為11.17%,這也與前人的研究結果相一致[33]。
SSR分子標記的多態性是判斷其可用性的重要標準,SSR 的長度和重復次數是影響其多態性高低的重要因素[8,41]。當SSR長度在12 bp以下時,多態性較低;長度分布在12~20 bp 之間時,多態性中等;而長度大于20 bp時,多態性較高[8,41]。本研究中,甘薯SSR長度變化范圍主要分布在10~553 bp之間,其中長度在12~20 bp 的SSR 數量最多,共14075 個,占總數的49.01%。長度大于20 bp 的SSR 有7843 個,占總數的27.30%。由此可見,甘薯耐鹽轉錄組SSR主要集中在10~20 bp 之間,多態性中等,而長度大于20 bp 的SSR具有較高的多態性,可以作為甘薯SSR分子標記引物設計的依據。雖然SSR在基因組上的位置不盡相同,但是其兩端序列多是保守的單拷貝序列,因此根據SSR兩端互補序列來設計擴增引物,通過PCR反應將得到的產物進行凝膠電泳,即可顯示SSR位點的多態性。本研究共獲得符合標準的引物15411 對,其中多態性較高的SSR(長度在20 bp以上)共獲得3175對引物,可為后續甘薯SSR多態性分析提供有效數據。
在SNP 特征分析中,研究共獲得7691906 個SNP位點,分布密度為0.08個/bp,即平均約11.78 bp就會出現1 個SNP 位點。SNP 分布密度顯著大于SSR,表明單核苷酸變異在甘薯的基因組中更易發生。其中,轉換類型(61.49%)所占比例明顯高于顛換類型(38.51%),這與大多數植物的研究結果相一致。究其原因在于,DNA 序列中包含了大量的CpG 位點,而CpG 位點的胞嘧啶(C)極易發生突變,被甲基化后可以通過脫氨作用轉化為胸腺嘧啶(T),從而形成了嘧啶和嘧啶之間的替換,使得轉換比例有所增加[42-43]。在6 種突變類型中,同屬于轉換類型的C/T和A/G含量最高,分別占總數的32.34%和29.15%,這與蛇足石杉[7]、火龍果[9]和李府貢棗[8]等植物的研究結果相同。
鑒于甘薯的遺傳背景較為復雜,DNA分子標記以其高穩定性、高多態性等特點已成為甘薯種質資源研究及遺傳鑒定的一種重要手段。本研究基于轉錄組測序技術,結合生物信息學分析等方法,在甘薯中挖掘到大量SSR和SNP位點,豐富了甘薯分子標記類型。在對這些分子標記位點的特征分析中發現,本研究獲得的SSR 和SNP 數量較豐富,出現頻率較高,分布密度較大,具有較高的多態性。此外,獲得的這些SSR 和SNP 標記均來自甘薯轉錄組測序數據,轉錄組來源的SSR和SNP多位于基因編碼區,可獲得與植物抗逆、生長發育等直接相關的功能基因表達信息,這也為甘薯功能基因的挖掘鑒定、分子標記輔助育種、甘薯遺傳結構分析以及遺傳圖譜的構建奠定了理論基礎。