賈 婕,馮源恒,楊章旗
(廣西壯族自治區林業科學研究院 國家林業和草原局馬尾松工程技術研究中心廣西馬尾松工程技術研究中心,廣西南寧 530002)
馬尾松(Pinus massoniana)是我國南方主要的鄉土樹種, 具有分布廣、生長迅速和適應性強等特點,在森林資源和松脂產業發展以及森林生態服務功能等方面發揮著重要作用,在創造經濟價值和發揮生態效應方面有重要地位[1]。隨著馬尾松育種研究的深入,越來越多的問題需要從分子機理上進行解析。由于馬尾松尚未開展全基因組測序,基因組及轉錄組數據缺乏,其生長發育的相關研究、遺傳多樣性研究以及分子標記開發和遺傳圖譜構建等研究相對滯后[2]。
全基因組重測序是對已知基因組序列物種的個體進行基因組測序, 并在此基礎上對個體或群體進行差異性分析的一項測序技術。利用全基因組重測序技術可以在全基因組范圍內挖掘單核苷酸多態性(SNP)、插入缺失標記(InDel)、結構變異(SV)和基因拷貝數變異(CNV),其廣泛應用于變異檢測、遺傳圖譜構建、性狀定位和群體進化研究等[3],已經在玉米(Zea mays)[4-5]、水稻(Oryza sativa)[6]、油 菜(Brassica campestris)[7-8]和 辣 椒(Capsicum annuum)[9]等作物中得到了廣泛應用。朱風麗等[10]將韓國赤芝(Ganoderma lucidum)重測序數據與中國赤芝CGMCC 5.0026 參考基因組進行對比,共發現10 607 個基因發生非同義SNP,4 774 個InDel 和1 428 個SV,并找到了與菌絲生長相關的候選基因。張國儒等[11]以基因組重測序為基礎,檢測出大量栽培型加工番茄(Lycopersicon esculentum)‘M82’和潘那利漸滲系‘IL71’兩品系間差異的In-Del 標記位點,利用這些位點序列設計引物后,共檢測出40 對特異性位點,為后期雜種種子純度鑒定提供了依據。
火炬松(P. taeda)是第一個完成全基因組測序的松類樹種,且與馬尾松同為松屬植物。用火炬松基因組為馬尾松分子研究提供參考,可在很大程度上彌補馬尾松無參考基因組的缺憾。本研究通過基因組重測序技術,比較馬尾松與火炬松基因組,探討以火炬松基因組作為馬尾松分子研究參考基因組的可行性。
材料為馬尾松無性系NP7 號,采自南寧市林科所馬尾松種質資源庫,該無性系母株來自廣西壯族自治區寧明縣桐棉鄉那卜村。
火炬松全基因組序列從https://www.ncbi.nlm.nih.gov/assembly/ GCA_000404065.3 網站下載, 數據更新時間為2018年12月。
1.2.1 全基因組DNA提取
采用植物基因組DNA 提取試劑盒(TIAN-GEN,DP305)提取樣本的總DNA。
1.2.2 基因組重測序
對提取的基因組DNA 進行檢測,合格后采用超聲波法將DNA 片段化,將片段化的DNA 進行片段純化、末端修復、3'端加A 和連接測序接頭;用瓊脂糖凝膠電泳進行片段大小選擇,并進行PCR 擴增以形成測序文庫, 對建好的文庫進行文庫質檢,采用Xten 對質檢合格的文庫進行測序;對測序得到的原始reads(雙端序列)進行質量評估,過濾得到Clean Reads,用于后續生物信息學分析。
1.2.3 與參考基因組比對統計
采用bwa軟件[12]將Clean Reads與參考基因組序列進行比對,定位Clean Reads 在參考基因組上的位置,統計各樣品的測序深度和基因組覆蓋度等信息。
統計重測序的Q20、Q30 和GC 含量與參考基因組的比對率(表1)。通過測序,共得到231.27 Gbp的Clean Data,Q30 達到87.61%;拼接得到的馬尾松reads 數目有771 625 883 個,GC 含量38.14%;堿基質量分布基本無AT和GC分離現象。

表1 樣品測序數據評估統計Tab.1 Statistic of sample sequencing data evaluation
將重測序結果與火炬松Ptaeda 2.0 基因組進行比較,發現96.98%的reads 可定位在參考基因組上,60.98%的reads 雙端測序序列均可定位到參考基因組上且距離符合測序片段的長度分布(表2)。結果表明,馬尾松基因組與火炬松基因組匹配率高。

表2 與參考基因組對比結果Tab.2 Comparative results with reference genome
樣品的平均覆蓋深度為8 倍,基因組被覆蓋的較均勻,測序隨機性較好;馬尾松reads 對火炬松參考基因組的覆蓋度為62.59%,覆蓋到參考基因組的區域不高(表3)。

表3 覆蓋深度和覆蓋度比例Tab.3 Coverage depth and coverage ratio
松科(Pinaceae)植物基因組保守性較高,基因組進化緩慢,遺傳信息可以在親緣關系較近的樹種間轉移[13-15]。劉希華等[16]為研究馬尾松4CL基因的遺傳進化及系統發育情況,以馬尾松基因組DNA 為模板,根據NCBI 上登記的21 種松屬植物4CL基因序列進行SNP 對比分析,發現松屬植物在進化過程中,未出現大規模的遺傳分化現象,但松屬植物種間有差異,馬尾松、火炬松、班克松(P.banksiana)和小干松(P.contorta)親緣關系較近。
本研究中,馬尾松基因組與火炬松基因組的匹配率高達96.98%,以火炬松基因組為馬尾松分子研究分析的參考基因組是可行的。羅群鳳等[17]采用高通量測序技術對馬尾松葉綠體基因組進行了測序和組裝,以發表的火炬松序列為參考組,成功組裝出了馬尾松葉綠體基因組。本研究發現,馬尾松reads對火炬松參考基因組的覆蓋度為62.59%,馬尾松reads對火炬松的覆蓋度明顯低于其在火炬松基因組上的定位率,說明測序得到的96%以上的馬尾松序列與火炬松基因組中62.59%的區域高度相似,其余37.41%的區域差異較大。這一方面可能源于在進化過程中火炬松產生了新的基因,這些基因序列是馬尾松所不具備的,從基因的數量和復雜度來說,火炬松高于馬尾松,火炬松的進化地位相對馬尾松更高,這與Liston等[18]和洑香香等[19]對松屬進化關系研究的結論一致。另一方面可能是由于測序與組裝技術不穩定,比如在超聲波片段化時,馬尾松基因組片段不均勻,所得馬尾松reads對馬尾松自身基因組覆蓋不夠,或是因為火炬松參考基因組自身組裝不精確。