孫 玥, 楊秀榮, 郭彥麗, 李軍玲, 李月嬌, 孫淑琴, 路 信, 劉燕清, 佟 卉, 孫林靜, 劉靜妍, 張融雪, 王曉靜, 蘇京平, 王勝軍, 趙習樸, 閆雙勇
(1.天津市農業科學院農作物研究所/天津市農作物遺傳育種重點實驗室,天津 300384;2.天津市農業科學院植物保護研究所,天津 300384)
QTL-seq是一種選取分離群體中極端表型單株,按表型值的高、低構建DNA混合池,然后分別對不同合混池進行高通量測序,通過比較池間SNP的頻率差異進行數量性狀位點(QTL)定位的方法。該方法利用20~50個極端表型單株混合測序,可以將QTL定位到2 Mbp以上區間。QTL-seq已經廣泛應用于主要的糧食作物、經濟作物及蔬菜等植物重要性狀的QTL分析中。目前,已經開發出專門用于QTL-seq分析的工具軟件。QTL-seq 分析后,一般需要利用傳統作圖方法進行QTL的驗證與分析,或者直接利用QTL區間的分子標記進行分子標記輔助育種,以及進一步縮小區間進行QTL精細定位等。所以特定區間的分子標記開發是QTL-seq后續研究中的重要環節。高通量測序后能提供QTL區間內非常豐富的變異信息,但目前還未見把特定區間的變異信息轉化為分子標記的相關報道。
對高通量測序數據進行序列變異分析后會產生標準的序列變異格式的文件(variant call format,簡稱VCF),VCF文件記錄了序列變異信息。根據該文件提供的序列變異信息可以方便地進行特定區間的分子標記開發。目前,SNP和InDel是2種最常用的分子標記。但SNP的檢測需要特殊的設備,檢測成本相對比較高,而InDel標記是一種以PCR片段長度多態為基礎的分子標記,操作簡單,結果可靠,大多數實驗室都能進行檢測。已經廣泛應用到植物基因定位、分子標記輔助育種等研究中。因此,本研究側重于InDel標記的開發,編寫了專門用于InDel標記開發的腳本程序,利用該程序可以根據VCF文件提供的變異信息,簡單迅速地開發出水稻基因組任意區間的InDel標記。本研究在筆者所在課題組前期QTL-seq研究的基礎上,開發了7個不同作圖群體及QTL區間的708對Indel標記,覆蓋基因組區間12.5 Mbp,平均每 17.6 kb 有1個長度差異8 bp以上的InDel標記。選擇其中95個標記進行PCR和電泳驗證,旨在提供一種有效的特定區間分子標記開發方法,在水稻重要農藝性狀QTL分子標記輔助選擇及圖位克隆中發揮重要應用價值。
2019年獲得7個用于株高及抽穗期QTL分析,來自不同組合的QTL定位群體:1542、1610、2342、2459、2791、2904、2441,并在2019年于天津市農業科學院農作物遺傳育種實驗室進行后續試驗。
每個群體各取5個極高和極低表型值的單株葉片,按Xin等報道的簡單DNA提取方法進行DNA提取。
PCR循環程序:94 ℃變性5 min,55 ℃退火 30 s,72 ℃延伸3 s,循環30次。PCR引物見表1。用8%聚丙烯酰胺凝膠進行垂直電泳,銀染顯色。

表1 本研究PCR引物

表1(續)
腳本程序在linux(ubantu 18.04系統)運行。系統中需要配置的軟件有vcftools,用于提取VCF文件中特定染色體區間的變異信息;blastdbcmd用于根據染色體及位置信息提取部分序列;blastn-outfmt 6用于產生表格格式的blastn結果,用系統工具awk確定部分序列的拷貝數;用primer3的命令行版本進行引物設計。數據處理過程中還需要用到sed、grep等系統命令。利用這些命令建立shell腳本文件,分子標記開發時,針對不同情況在shell腳本文件修改相應的參數,進行不同材料和區間的分子標記開發。分子標記開發時只需要執行1次腳本程序就能獲得特定區間的InDel標記。
本研究的InDel標記開發流程如圖1所示。首先利用工具vcftools從VCF文件中,根據染色體和變異位置信息提取出需要進行標記開發的InDel位點;然后,根據InDel位點的位置信息從水稻品種日本晴參考基因組irgsp1.0中用命令blastdbcmd提取變異位點上、下游100 bp的部分序列(blast 2.6.0);獲得的序列進一步用blastn和參考基因組進行序列比對,根據序列比對結果,挑選單拷貝序列,用primer3進行引物設計,獲得InDel標記。

上述從變異位點的選擇到引物設計的過程,可以利用一個腳本程序一步完成。進行不同區間的分子標記開發時,只需要修改腳本程序中幾個關鍵的參數就可以完成。需要修改的關鍵參數為VCF文件、染色體、開發標記染色體起點區間、染色體終止區間、InDel大小等。程序運行后產生的結果文件如表2所示。其中包含標記的位置、引物序列、PCR片段長度等關鍵信息。

表2 通過腳本程序獲得的InDel標記信息簡表
總共對來自7個不同群體的7個不同基因組區間進行InDel標記開發,具體標記開發及驗證結果見表3??偣搏@得片段長度差異在8 bp以上的InDel標記引物708對,覆蓋區間總大小為 12.52 Mbp,平均每17.6 kb有1個符合篩選條件的InDel標記。InDel標記的分布和材料組合及特定的區間有關。根據后續研究的需要和InDel標記的位置選擇95個標記,進行試驗驗證,總共獲得60個多態標記。不同的群體多態標記頻率從45%到90%不等,平均多態頻率為63%。

表3 分子標記開發驗證結果
根據本研究開發的腳本程序獲得的PCR引物大多能夠進行較好的PCR擴增(圖2),大多數標記的擴增條帶,在基因型純合的材料中表現為單一條帶。從電泳圖(圖2)中能夠比較清楚地確定材料的基因型,這對后續的圖位克隆、分子標記輔助選擇等研究非常有利。進行分子標記開發的腳本程序中有進行單拷貝序列篩選的步驟,所以大多數的擴增為單拷貝擴增。

本研究建立了一種基于高通量測序數據的簡單快速的InDel標記開發方法。利用該方法可以快速方便地在高通量測序數據的基礎上開發出水稻基因組任意區間的InDel標記。開發出的InDel標記可以方便地應用到分子標記輔助選擇、圖位克隆等后續研究中。隨著高通量測序方法在研究中的應用日益廣泛,對特定區間進行標記開發的需求也逐漸增加,本研究建立的方法為這方面問題的解決提供了一種較好的方案。
InDel標記雖然有操作簡單、鑒定成本低等特點,但在精細定位過程中可能會遇到特定區間標記數量不足的問題,這時可能需要開發基于SNP/InDel的分子標記,例如KASP(kompetitive allele-specific PCR)標記。在本研究的基礎上通過對腳本程序中變異選擇篩選條件及PCR引物設計參數的改變,實現KASP的標記開發用于SNP檢測。本研究分子標記開發過程中引物設計的核心程序是primer3,該程序有非常多的引物設計參數可以調整,所以可以非常方便地在腳本程序中進行參數設置。
根據NCBI網站提供的數據(https://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/),目前有112個植物全基因組序列測定已經完成,可以在相應的網站獲得其全基因組序列。本研究建立的方法可以非常容易地由水稻基因組擴展到其他已經測序植物的基因組,如小麥、玉米等。其中需要調整的主要參數是參考基因組及相應的信息。