楊 晟,尹譽蓉,王長彪,任永康,牛瑜琦,韓 斌,唐朝暉
(1.山西農業大學農學院,山西晉中 030801; 2.山西農業大學生命科學學院,山西太原 030031)
品種鑒定工作是小麥生產環節中必不可少的關鍵步驟,同時也是保障優良品種優異遺傳性狀充分發揮、防止小麥品種混雜退化的重要舉措[1]。山羊草屬植物富含抗病蟲害相關基因,通過遠緣雜交技術可將山羊草屬中的優異抗性基因轉移至小麥屬植物中,進而提高小麥的抗性[2]。因此,對于山羊草屬植物的區分、鑒定工作會加強小麥遠緣雜交育種工作的目的性和針對性。品種的真實性鑒定,究其根本是品種的基因型鑒定。DNA分子標記作為品種鑒定的有力工具,是基于不同品種DNA序列多態性,通過展示不同品種在基因水平上的差異,來實現品種的真實性鑒定[3]。
簡單重復序列(simple sequence repeat,SSR)是基因組內以1~6個核苷酸為重復單元組成的串聯重復序列[4-6],具有豐富的多態性。相較于其他標記,SSR標記還具有重復性高、覆蓋面極廣等優點[4-5, 7],在小麥品種標準DNA指紋圖譜的構建方面具有巨大潛力[1]。朱巖芳[1]指出,利用分子標記進行作物品種鑒定首先應滿足穩定性好、操作簡單、鑒定快速和經濟的要求。隨著分子標記技術的不斷改進,指紋圖譜的構建工作進展快速。趙 宇等[8]篩選出13個在21份黃瓜材料中顯示多態性的SSR標記,其中mtSSR4標記可對南水3號商品種子進行高精度的品種鑒定。為提高指紋圖譜的直觀性,梁 燕等[9]利用15個SSR分子標記構建了17份山東核桃種質的DNA指紋圖譜,創新生成了品種分子二維碼、條形碼。張 穎等[10]從20個SSR分子標記中篩選出5個標記,構建了48份美洲南瓜種質的數字指紋圖譜,并進一步轉化為可直觀展示等位基因缺失與否的指紋圖譜。
電子PCR(electronic PCR , e-PCR)是一種常用的核苷酸序列電子分析工具,在SSR引物輔助設計方面發揮著重大作用[11]。傳統的SSR引物開發十分繁瑣,耗時、費力且伴有很大的隨機性。熊登坤等[12]通過真實PCR驗證,表明利用電子PCR可以提高SSR多態性引物的篩選效率。此外,前人采用e-PCR輔助設計野生花生[13]、玉米[14]、高丹草[15]基因組的SSR引物,發現有清晰擴增條帶的SSR引物占比均高于80%,也表明e-PCR有助于提高SSR引物的篩選效率。
前人在DNA指紋圖譜的構建方面進展飛速,但在鑒定的標準化方面進展緩慢,且同時著手小麥屬、山羊草屬植物的葉綠體和線粒體DNA指紋圖譜的構建也未見有報道。本研究以小麥屬、山羊草屬共61個葉綠體和13個線粒體的全基因組序列為研究對象,基于e-PCR篩選多態性SSR標記,對部分引物進行真實PCR驗證,并繪制電子指紋圖譜,以期為分子標記鑒定標準化提供新思路。
從美國國家生物技術信息中心(NCBI)的GenBank數據庫(https://www.ncbi.nlm.nih.gov/nuccore)下載小麥屬、山羊草屬共61個葉綠體和13個線粒體的全基因組序列(表1)。用MicroSAtellite(MISA)軟件對葉綠體、線粒體SSR標記進行搜索、預測。葉綠體和線粒體的預測標準一致。預測標準參數設置為:重復基序1~6 bp,且一到六核苷酸基序的最小重復次數分別為10、5、4、3、2、2;復合型SSR中間堿基間隔長度不大于100 bp。根據所要鑒定的SSR側翼序列,將MISA的結果文件導入到Primer 3軟件進行SSR引物的設計。核心參數設置為:引物長度范圍18~22 bp,最適長度20 bp,PCR預期擴增產物大小 50~1 000 bp,退火溫度50~65 ℃,最適退火溫度57 ℃,GC含量45%~50%。

表1 小麥屬和山羊草屬61個葉綠體和13個線粒體基因組的GenBank序列號和全長Table 1 GenBank serial numbers and full length of 61 chloroplasts and 13 mitochondrias genomes in Triticum L.and Aegilops L.

(續表1 Continued table 1)
用e-PCR對SSR引物進一步篩選,擴增產物長度設置為50~1 000 bp,剔除重復的、無明顯多態性的引物,用Powermarker軟件計算引物的雜合度和多態性信息量(polymorphism information content,PIC),挑選PIC值大于0.5的多態性SSR引物;將初篩引物擴增數據再次導入到MapChart中,通過模擬電泳篩選多態性SSR引物。并用MapChart軟件繪制電子指紋圖譜。
從NCBI下載小麥屬、山羊草屬共61個葉綠體和13個線粒體的全基因組序列。將山羊草屬葉綠體全基因組按倍性及所含基因型分為CP.A.D(所包含物種編號:1~21)、CP.A.M(22和23)、CP.A.S(24~41)、CP.A.U(42和43)、CP.A.DC(44和45)、CP.A.UM(46和47)、CP.A.US(48和49);將小麥屬葉綠體全基因組按倍性分為:CP.T.2(50~53)、CP.T.4(54)、CP.T.6(55~61);將13個線粒體全基因組按照屬及倍性分為:MT.A(62)、MT.T.4(63和64)、MT.T.6(65~74)。按以上分組順序對葉綠體、線粒體全基因組的SSR位點頻率進行統計,以上13個分組中,平均每Mb所含SSR位點數目為3 139~4 150,兩個SSR位點之間的平均距離為0.269~0.313 kb(表1)。7個山羊草屬葉綠體全基因組分類中,CP.A.UM的SSR位點出現頻率最高,平均每Mb所含SSR位點數目為3 714個,兩個SSR位點的平均距離為0.269 kb;CP.A.D的SSR位點出現頻率最低,平均每Mb所含SSR位點數目為3 402個,兩個SSR位點的平均距離為0.294 kb。3個小麥屬葉綠體全基因組分類中,CP.T.2的SSR位點出現頻率最高,平均每Mb所含SSR位點數目為3 652個,兩個SSR位點的平均距離為0.274 kb;CP.T.4的SSR位點出現頻率最低,平均每Mb所含SSR位點數目為3 406個,兩個SSR位點的平均距離為0.294 kb。
本研究中相同屬的SSR位點數量與物種的倍數并無太大的關系,主要與基因組長度有關,對于同一屬的物種,在相同參數設置下,物種的基因組越長,每Mb所含SSR位點的數目就越大。在山羊草屬的二倍體物種中,CP.A.M組葉綠體全基因組序列中SSR位點的出現頻率均高于CP.A.D、CP.A.S和CP.A.U三組;在山羊草屬的四倍體物種中,CP.A.UM組葉綠體全基因組序列中SSR位點的出現頻率也最高,說明在山羊草D、M、S、U四個基因組中,SSR位點在M基因組中的出現頻率最高,同時也說明SSR位點數目可能與基因組的類型相關。將擬斯卑爾脫山羊草葉綠體全基因組(編號27~32)與線粒體全基因組(編號62)、普通小麥葉綠體全基因組(編號55~60)與線粒體全基因組(編號65~68)、中國春葉綠體全基因組(編號61)與線粒體全基因組(編號69)序列中SSR位點的出現頻率進行比對后發現,同一物種中,線粒體全基因組序列中SSR位點的出現頻率要遠小于葉綠體全基因組序列,進一步印證了植物線粒體在植物三套遺傳體系(線粒體基因組、葉綠體基因組和核基因組)中的保守性最高。
分析發現,除二核苷酸重復基序外,單核苷酸至六核苷酸重復基序在葉綠體基因組和線粒體基因組中均有分布。每個物種的單核苷酸至六核苷酸重復基序都有其優勢重復序列,在所有的葉綠體、線粒體全基因組中,五核苷酸重復基序在整個SSR位點中占比最高,在13個分組中所占比例為57.32%~74.32% ;六核苷酸重復基序在整個SSR位點中所占比例次之,介于19.81%~ 34.06%之間,一核苷酸至四核苷酸重復基序在整個SSR位點中共占比5.02%~10.93%。CP.A.S、CP.T.6、MT.A和MT.T.6分組中的SSR基序重復特征見表2。從圖1可以看出,小麥屬和山羊草屬的葉綠體、線粒體SSR標記主要以2次重復的五核苷酸和六核苷酸重復基序為主。所以,小麥屬和山羊草屬的進化水平或突變頻率相差不大。

表2 CP.A.S、CP.T.6、MT.A、MT.T.6組不同全基因組序列中SSR位點的重復基序數目Table 2 Number of SSR repeat motifs in different whole genome sequences of CP.A.S, CP.T.6, MT.A and MT.T.6

圖1 基于74個全基因組不同基序重復次數熱圖Fig.1 Heat maps based on different motif repeats of 74 whole genomes
將e-PCR產物長度參數設置為50~1 000 bp,對Primer 3軟件設計的28 129對葉綠體全基因組引物、18 487對線粒體全基因組引物進行擴增產物大小、擴增產物數目預測,基于e-PCR的結果,剔除一些重復的、無明顯多態性的引物。將初步篩選到的277對引物擴增產物大小數據格式調整為 Boulder-IO,然后導入到Powermarker軟件,計算引物的雜合度和PIC值,最終挑選出PIC值大于0.5的11對理想多態性SSR引物(表3);將初篩引物擴增數據再次導入到MapChart軟件中,通過模擬電泳,再次篩選出19對多態性SSR引物。兩次共篩選出30對多態性引物(表4)。其中,來源于二倍體和四倍體山羊草葉綠體全基因組的引物分別有16和2對;來源于四倍體和六倍體小麥葉綠體全基因組的引物分別有5和2對;來源于六倍體小麥線粒體全基因組的引物有5對。選取引物CP-T和CP-10對13個材料進行真實PCR驗證,發現引物擴增條帶清晰,多態性顯著(圖2),說明e-PCR在引物篩選、多態性驗證方面具有重要作用。

表3 PIC值大于0.5的11對SSR引物的基本信息Table 4 Basic information of 11 SSR primers with PIC value greater than 0.5

表4 篩選到的30對多態性SSR引物的序列Table 4 Sequences of 30 polymorphic SSR primers screened

M1和M2:Marker; 1:硬粒小麥(AABB);2:一粒小麥(AA);3:小黑麥(AAGG);4:豫麥47;5:豫麥21;6:山羊草(DD);7:中國春;8:并麥1號;9:AE510;10:AE502;11:AE508;12:RM206;13:RM241。M1和M2:Marker;1:Durum wheat(AABB);2:Einkorn wheat(AA);3:Triticale(AAGG);4:Yumai 47;5:Yumai 21;6:Aegilops(DD);7:Chinese Spring;8:Bingmai 1;9:AE510;10:AE502;11:AE508;12:RM206;13:RM241.圖2 SSR標記CP-9和CP-10的擴增結果Fig.2 Amplifiication results of SSR markers CP-9 and CP-10
e-指紋圖譜,就是利用軟件將e-PCR的引物擴增結果進行可視化。以mt-1、cp-2 SSR引物為例,引物mt-1可以在13個線粒體全基因組中特異性識別出GenBank編號為AP013107的線粒體全基因組,也可以識別出GenBank編號為AP013106和MW846284的線粒體全基因組,進一步通過其他引物檢測,便能將二者區分開來(圖3);引物cp-2可以在61個葉綠體全基因組中,特異型的識別出GenBank編號為MK348611.1的葉綠體全基因組(圖4)。引物的擴增數據則可以通過二維碼的方式附加在電子指紋圖譜的后面,如mt-1、cp-2的擴增信息通過圖5可進行掃描查看,進一步豐富電子指紋圖譜的內容。

M: Marker; 1: AP008982; 2: AP013051; 3: AP013052; 4: AP013053; 5: AP013106; 6: AP013107; 7: EU534409; 8: GU985444; 9: MH051716; 10: MW846283; 11: MW846284; 12: NC_022714; 13: NC_036024.圖3 mt-1引物在13個線粒體全基因組中的電子指紋圖譜Fig.3 Electronic fingerprint of mt-1 primer in 13 mitochondrial whole genomes

M: Marker; 1: JQ740834.1; 2: JQ754651.1; 3: KC912690.1; 4: KC912693.1; 5: KC912694.1; 6: KF534489.1; 7: KF534490.1; 8: KJ614404.1; 9: KJ614405.1; 10: KJ614406.1;11: KJ614412.1; 12: KJ614413.1; 13: KJ614414.1; 14: KJ614415.1; 15: KJ614416.1; 16: KJ614417.1; 17: KJ614418.1; 18: KJ614419.1; 19: KJ614420.1; 20: KM352501.1; 21: LC621194.1; 22: LC621195.1; 23: LC621350.1; 24: MG958544.1; 25: MG958547.1; 26: MG958548.1; 27: MG958549.1; 28: MG958553.1; 29: MK348601.1;30: MK348610.1; 31: MK348611.1; 32: MN223975.1; 33: MN223976.1; 34: MN223977.1; 35: MN223978.1; 36: MN258078.1; 37: MN258079.1; 38: MN258080.1; 39: MN258081.1; 40: MN258082.1; 41: MN258083.1; 42: MN258084.1; 43: MN258085.1; 44: MN258086.1; 45: MN258087.1; 46: MN258088.1; 47: MN258089.1; 48: MN258090.1; 49: NC_021760.1; 50: NC_021762.1; 51: NC_022133.1; 52: NC_022135.1; 53: NC_023096.1; 54: NC_023097.1; 55: NC_024815.1; 56: NC_024816.1; 57: NC_024830.1; 58: NC_024831.1; 59: NC_024832.1; 60: NC_046696.1; 61: NC_046697.1 .圖4 cp-2引物在61個葉綠體全基因組中的電子指紋圖譜Fig.4 Electronic fingerprint of cp-2 primer in 61 chloroplast whole genomes

圖5 mt-1、cp-2引物的擴增信息二維碼Fig.5 Mplification information QR codes of mt-1 and cp-2 primers
SSR分子標記具有低成本、速度快、準確性高等優點,是作物品種鑒定較為理想的分子標記之一[5]。傳統SSR分子標記的開發不僅浪費物力財力,且具有一定的盲目性。針對這一難題,史通麟[16]首先構建了苦蕎基因組的(CT)n和(GT)n富集文庫,以此為基礎開發了苦蕎SSR引物;鄭玉瑩等[17]基于轉錄組測序數據開發了SSR分子標記;熊登坤等[12]通過e-PCR對SSR引物進行篩選,并證實e-PCR對SSR分子標記的開發具有促進作用。以上三種方法均在一定程度上降低了SSR分子標記的開發難度,其中e-PCR的作用最明顯,但經過e-PCR的篩選,部分引物在電泳時仍會出現條帶模糊的現象,原因之一可能小麥基因組較為復雜,且使用的小麥材料與小麥基因組數據之間有一定的差異[18]。總體來說,e-PCR具有廣泛的適用性和可期的前景。
本研究對小麥屬、山羊草屬共61個葉綠體和13個線粒體的全基因組進行了SSR位點信息分析,結果顯示,同屬物種在同一參數設置下,基因組越長,SSR位點的數目就越大;SSR位點數目可能與基因組的類型相關,在山羊草D、M、S、U四個基因組中,M基因組的SSR位點出現頻率最高;同一物種中,線粒體全基因組中SSR位點的出現頻率要遠小于葉綠體全基因組,進一步證實了植物線粒體在植物三套遺傳體系(線粒體基因組、葉綠體基因組和核基因組)中的保守性最高;植物線粒體、葉綠體基因組均以2次重復的五核苷酸和六核苷酸重復基序為主,同一種類型基序的 SSR 位點, 基序重復次數與SSR數目成反比。這與仇靜靜[13]的研究結論一致。本研究中由于所設引物大小固定,所以并未對“SSR引物的長度越長,可篩選多態性SSR引物的可能性越高”這一規律進行驗證。在中國,農作物DNA指紋數據庫構建所采用的技術、標準、軟件等各不相同,同一農作物存在若干不同的DNA指紋數據庫,且大多數據庫之間存在不能兼容的現狀[19]。
本研究所開發的電子指紋圖譜中,Marker最下端為0 bp,相鄰條帶間相差100 bp,通過Marker可以快速鑒定一些擴增產物大小差別較大的作物品種。電子指紋圖譜與傳統指紋圖譜和數字指紋圖譜相比,對Marker進行了統一,對擴增信息進行了富集,使檢索更加方便、快捷,更符合農作物品種快速、精確鑒定的要求。科研人員可通過電子指紋圖譜所提供的完備的引物擴增信息,來相互使用所需引物,選擇適宜的電泳體系。本研究基于e-PCR分析結果,進行了電子指紋圖譜的繪制,并通過真實PCR檢測,構建了可視化SSR電子指紋圖譜,不僅可提升引物的流通性,減少各個團隊之間因引物的重復開發而導致的資源浪費,而且可改變DNA指紋數據庫不兼容的現狀。