曹珂,陳昌文,楊選文,別航靈,王力榮
桃果實單果重及可溶性固形物含量的全基因組選擇分析
曹珂,陳昌文,楊選文,別航靈,王力榮
中國農業科學院鄭州果樹研究所,鄭州 450009
【背景】桃單果重和可溶性固形物含量(SSC)是育種家關注的兩個重要的數量性狀,受到多個微效基因的控制,難以通過單個標記進行早期篩選。全基因組選擇作為一種新穎的數量性狀早期預測工具,在果樹上已經有了初步應用,但其在桃上的應用效果以及影響預測準確性的因素仍需要深入探討。【目的】建立桃單果重和SSC的全基因組選擇技術,為桃高效分子育種技術體系的建立奠定基礎。【方法】以520株訓練自然群體為試材,通過重測序篩選出的48 398個SNP進行分型,在11個全基因組預測模型中分別篩選出兩個數量性狀適宜的模型,進而在56株自然群體和1 145株雜交群體上進行應用。【結果】3類群體的平均測序數據量在1.95—3.52 Gb,測序深度為5.29—10.79×。訓練自然群體經與參考基因組比對,共得到5 065 726個SNP,去除缺失率較高(>20%)、最小等位基因頻率過低(<0.05)的位點后,隨機挑選基因組上48 398個SNP用于訓練群體的全基因組選擇模型構建。單果重預測精度最高的模型是BayesA,SSC預測精度最高的模型為randomforest。分別利用兩個數量性狀最適的模型進行預測,發現在自然群體中,單果重的預測精度為0.4767—0.6141,高于SSC的0.3220—0.4329;而在雜交群體中,單果重的預測精度為0.2319—0.4870,同樣高于SSC的0.0200—0.2793;該結果也表明利用訓練自然群體構建的預測模型在預測自然群體上應用的精度高于雜交群體。進而以單果重為例,發現當育種目標是大果時,全基因組選擇僅需保留17.78%的單株,效率明顯高于單標記和雙標記篩選。同時探討了群體離散程度、遺傳力和群體結構等對預測精度的影響,發現預測精度可能受到上述因子的綜合影響。【結論】本研究篩選出桃果實單果重和SSC適宜全基因組選擇模型,表明該方法的選擇效率明顯高于單標記篩選,研究結果為兩個數量性狀的高效分子輔助育種奠定了理論和技術支撐。
桃;單果重;可溶性固形物含量;全基因組選擇;早期預測
【研究意義】桃是我國主要果樹樹種,栽培面積和產量均居世界首位。進入21世紀,我國育種家利用常規育種技術選育出的品種,逐漸取代了20世紀日本、韓國品種在我國的主導地位。然而,多年生果樹常規育種費時費力,成為限制桃育種水平進步的障礙。隨著分子生物學的發展,分子育種可以有效地提高果樹育種效率,成為實現豐產優質、提高貯運性能、增強抗逆性等果樹育種目標的重要手段[1]。【前人研究進展】在桃上,已有不少重要農藝性狀的優異基因被發掘,且開發出準確的、實用的前景選擇分子標記,如與桃果皮毛有/無性狀相關的位點為第5染色體上第3個外顯子上的一個轉座子插入[2],與肉質相關的位點為第4染色體兩個串聯排列基因和的存在與缺失變異[3],與果形扁/圓共分離的變異為第6染色體上的一個長度為1.67 Mb的染色體倒位[4]。然而,上述性狀均為質量性狀,而育種家更為關注的性狀如單果重、可溶性固形物含量(SSC)和果皮著色等性狀多為數量性狀,由多個基因控制。如Dirlewanger等[5]利用普通桃種質FerjalouJalousia與油桃Fantasia雜交的F2群體,進行連續兩年的農藝性狀評價,將單果重定位在第6連鎖群。QUILOT等[6]利用山桃種質P1908與黃肉油桃Summergrand雜交的BC2群體,將單果重性狀定位在第1、2、4、5和7連鎖群。EDUARDO等[7]利用Contender×Ambra群體,在第4和6連鎖群獲得了年度重復的單果重性狀的數量性狀位點(QTL)。隨后,DA SILVA LINGE等[8]首次采用9 K的SNP芯片,將單果重定位到第1、2、3、5、6和7連鎖群。ZEBALLOS等[9]同樣利用上述芯片,在連鎖群1、4、8上鑒定出了與單果重連鎖的QTL。綜上,在桃的8個連鎖群上,均有單果重QTL定位的報道,根據上述定位結果開發的標記由于遺傳背景狹窄、標記的變異解釋率較低,因此通用性差,難以在其他群體上進行應用。近年來,全基因組選擇作為一種新的目標性狀早期預測工具,在果樹上有了一定程度的應用,該技術利用覆蓋全基因組的高密度分子標記,通過構建預測模型,計算個體的基因組育種值,然后根據育種值的大小進行選擇。該方法可以加快育種進程、降低育種成本,對于遺傳力較低以及難以測量的復雜性狀具有良好的預測效果[10]。該方法在動物[11]遺傳育種中發揮了重要作用,在作物[12]和林木[13]上的應用處于初級階段。在蘋果上,KUMAR等[14]利用來自4個母本和2個父本雜交的包含1 120個單株的雜交群體,采用包含8 000個SNP的Infinium SNP芯片進行基因分型,然后采用RR-BLUP和Bayesian LASSO模型進行果實性狀的育種值估計。研究發現,兩種方法所得到的預測準確性比較相似,均在0.7—0.9。以RR-BLUP方法為例,SSC的預測準確性最高,其次為果實硬度和可滴定酸(TA),最低是食用果肉時的收斂性。研究認為,標記的數量、基因組連鎖不平衡水平會影響全基因組選擇的準確性。MURANTY等[15]利用包含20個全同胞家系的977個蘋果單株為訓練群體,以5個全同胞家系的1 390個單株為預測群體,采用BayesCπ模型,分析了全基因組選擇對10個果實相關性狀的預測效果;結果發現,在這些性狀中,平均預測準確度最高的為果皮著色百分比,其次為果皮著色、果實大小、外觀鮮艷程度和果皮銹斑等,預測能力較弱的有著色類型、采前落果和裂果率等指標,表型分布的離散程度及遺傳力大小是影響全基因組選擇預測準確性的重要因素。在桃上,BISCARINI等[16]以來自意大利、法國和西班牙的11個雜交群體的1 147個單株作為訓練群體,對單果重、SSC和TA的3—5年的表型數據進行了全基因組選擇分析,選擇9 K IPSC芯片中的6 076個SNP的分型結果,結合GBLUP模型進行育種值預測。研究發現,在不同群體中,SSC的預測準確性最高,達到0.72,其次是TA的0.65,最低是單果重0.6。研究結果顯示,群體數量和表型變異越大,預測的精度越高。在梨上,MINAMIKAWA等[17]選擇包含86個品種的自然群體和16個全同胞系的765個單株的雜交群體為材料,完成了18個性狀的表型評價,進而利用1 506個SNP的基因型分型結果進行全基因組選擇分析,發現當自然群體和雜交群體合并在一起,能夠明顯提高育種值預測的準確性。在杏上,NSIBI等[18]利用1個包含153個單株的來自杏Goldrich×Moniqui的F1群體進行全基因組選擇分析,表型為連續2年的果實相關性狀,基因型數據來自簡化基因組測序產生61 030個SNP的分型信息。該研究利用6個模型估算10個性狀(單果重、乙烯含量、果皮底色、可滴定酸、3種糖組分、2種酸組分以及果形指數)的育種值,發現6個性狀中,RR-BLUP模型的預測準確度均高于其他5個模型。研究同時發現,隨著訓練群體數目從總數的25%增加到75%,預測準確性持續增加;而標記數目從50增加到6 103個(10%的總標記)標記時,預測準確性持續增加;之后,標記數目的增加對預測準確性增幅不大。【本研究切入點】綜上,國內外對于果樹甚至桃的全基因組選擇已有研究,但多以雜交群體為主,僅梨上有利用自然群體的報道。同時,許多研究均發現群體數量和標記數量均會影響全基因組選擇的準確性。【擬解決的關鍵問題】本研究以520個桃自然群體的單株為試材,利用高達50 K的SNP分型結果,以單果重和SSC為例,探討在桃上進行數量性狀全基因組選擇的應用效果,并分析影響預測準確性的因素,為桃高效分子育種技術體系的建立奠定基礎。
參考王力榮[19]的方法,測定3類群體果實成熟期的單果重和SSC,并鑒定了2個質量性狀(果形扁/圓和果皮毛有/無);其中,單果重為10個果實的平均值,SSC為3個果實的平均值。自然群體的表型性狀分別在2012、2015和2016年進行采集,雜交群體的表型性狀則分別在2019、2020和2021年進行采集。利用訓練群體進行模型構建時,所用的表型為2012、2015和2016年的平均值。
3個群體的基因型評價采用相同方法,即取幼嫩葉片,采用CTAB法[20]提取總的基因組DNA,經過瓊脂糖電泳質檢合格后,參考GenoBaits DNA-seq Library Prep試劑盒的使用說明構建重測序文庫,文庫質量檢測合格后,利用華大MGI-2000/MGI-T7測序平臺進行測序,測序模式為PE150模式。測序所得的raw reads,經測序數據質控即使用fastp軟件[21]去除接頭和低質量的reads后獲得clean reads,使用BWA軟件[22]將clean reads與參考基因組進行比對,繼而使用GATK軟件[23]的UnifiedGenotyper模塊獲得每個個體的SNP信息。
利用表型數據和篩選后的基因型數據,首先使用R軟件包(rrBLUP)的kin.blup函數估算遺傳方差(σG2,genetic variance)和誤差方差(σE2,error variance),然后估計各性狀的遺傳力。其公式為:h2=σG2/(σG2+σE2)。
使用GCTA軟件[24]基于過濾后的SNP信息,進行主成分分析(PCA),獲得各個PC的方差解釋率及樣本在各個PC中的得分矩陣,從SNP信息中提取的關鍵信息按照效應從大到小分為PC1、PC2、PC3...,以表征群體結構信息。
本研究采用11種模型,包括rrblup、svmrbf、svmpoly、randomforest、pls、gblupD、gblupA、BayesA、BayesB、BayesC、BayesLasso,對訓練群體的基因型數據和表型數據進行訓練,并通過5-fold交叉驗證計算預測精度,然后對預測群體進行表型值預測。所有模型均使用R語言包實現,其中rrblup使用mix.solve,svmrbf和svmpoly使用kemlab,randomforest使用randomForest,pls使用plf,gblupD和gblupA使用kin.blup函數,BayesA、BayesB、BayesC和BayesLasso均使用BGLR。
另外,5-fold交叉驗證具體方法為:將訓練群體隨機分成5份,其中4份作為訓練集,剩余1份作為測試集,每一份抽樣均有機會作為測試集,并且計算測試集的真實值與預測值間的皮爾森相關系數。重復交叉驗證4次,最終的相關系數均值作為預測精度()。
在訓練自然群體中,篩選單果重和SSC性狀預測精度最高的模型,然后用該模型估計預測自然群體和雜交群體的基因組育種值。最后,計算預測群體的估計值和真實值得到皮爾森相關系數,用來評價全基因選擇模型在桃兩個數量性狀上的應用效果。
本研究所用的群體共3類。如表1,訓練自然群體為520個單株,而預測自然群體數目為56株、預測雜交群體1 145株。單個樣本的平均測序數據量在1.95—3.52 Gb,測序深度為5.29—10.79×,與參考基因組比對后,覆蓋度為78.22%—89.58%。
為促進幼果快速膨大、減少畸形果與落果、提早上市,可以噴施赤霉酸5~6 mg/L+蕓苔素0.02~0.03 mg/L。
所有樣本共檢測出5 065 726個SNP,去除缺失率在20%以上的位點后剩余4 254 657個SNP,繼續去除最小等位基因頻率小于0.05的位點后剩余3 231 646個SNP,然后采用隨機挑選的方法,選擇48 398個SNP用于后續訓練群體的全基因組選擇模型構建。這些SNP在桃不同染色體的分布如表2所示,SNP密度平均每Mb達到214.44個,分布密度最高的為第4染色體,密度最低的為第5染色體。

表1 本研究中所用材料的重測序結果

表2 用于全基因組選擇分析的SNP在染色體上的分布
觀察SNP在不同染色體上的分布(圖1),發現在第2染色體的3—5 Mb、第4染色體的0—1 Mb和23—25 Mb存在密度較高的熱點區域,這些密度較高的區域與前人報道的SNP在基因組上的分布[25]一致。
如圖2所示,訓練群體的兩個表型性狀為正態分布,呈現數量性狀的典型特征。單果重的變異系數為31.43%,高于可溶性固形物的14.20%。
兩類預測群體的表型分布如圖3所示。在自然群體中,2012與2015及與2016年的重復單株較少,因此沒有計算其重復性。2015與2016年間的單果重相關性為0.73,達到顯著水平;而SSC的相關性僅為0.16,且不顯著。在雜交群體中,2019和2021年的單果重相關性最高,達到0.81(<0.01);2020與2021年相關性也較高,2019與2020年相關性不顯著,表明環境對2019年的單果重性狀影響較大;而SSC則以2019與2020以及與2021年間顯著相關,暗示2021年的SSC性狀受環境影響較為明顯。

圖1 篩選后的SNPs在桃基因組上的分布

圖2 訓練群體兩個數量性狀的表型分布

表格中顯示為3年性狀的相關性The values in the table indicate the correlation between phenotypes evaluated in different years
利用前期鑒定出的48 398個SNP,基于訓練群體進行5-fold交叉驗證,計算每個模型的預測精度。
如圖4所示,單果重性狀采用不同模型的預測精度均高于SSC,在11個模型中,單果重預測精度最高的模型是BayesA,精度為0.6017;最低為svmrbf,精度僅為0.4576。SSC預測精度最高的模型為randomforest,精度達到0.4306;最低為svmpoly,精度僅為0.2607。
分別用最適宜的模型進行兩類預測群體的育種值估計,并比較其與真實觀測值的相關性。其中,自然群體(圖5)3年的單果重表型與預測值的相關性為0.4767—0.6141,高于SSC的0.3220—0.4329,其中單果重以2012年預測最準確,SSC則以2015年的準確度最高。

圖4 兩個數量性狀采用不同預測模型的預測精度

圖5 預測自然群體兩個數量性狀的預測值與觀測值的相關性分析
對于雜交群體(圖6),研究發現無論是單果重還是SSC,其準確度較自然群體均有所下降,尤其是SSC,不同年份的預測精度低至0.0200—0.2793。
由于2019年度的單果重性狀進行全基因組選擇的精度較高,因此,以該年度數據為例,比較其與單個標記進行篩選的效率。如圖7所示,在單標記方法中,本研究使用的是筆者團隊前期鑒定出的不同年份關聯程度最高的兩個標記Chr6: 2 281 398 bp和Chr6: 3 296 344 bp[26],從結果可以看出,Chr6: 2 281 398 bp的CC基因型表型與CG基因型沒有差異,而CG基因型與GG基因型的表型差異顯著性值為2.5E-07。Chr6: 3 296 344 bp的AA基因型與AG基因型的表型同樣無顯著差異,而AG基因型與GG基因型的表型差異顯著性值達到2.4E-16,即區分效率高于Chr6: 2 281 398 bp。
與單標記難以區分優勢等位基因型的雜合與純合類型不同(如Chr6: 2 281 398 bp的CG和CC,以及Chr6: 3 296 344 bp的AG和AA),根據全基因組選擇的預測值可將雜交群體分為3個類群,且類群間的差異均達到顯著水平(<0.05)。
進一步將上述兩個單果重的分子標記組成9種單倍型,結果發現,7種單倍型(Chr6: 2 281 398 bp和Chr6: 3 296 344 bp分別組成的CG:AG、CC:AA、GG:AG、GG:AA、CG:AA、CC:AG和CC:GG)的單果重較大,但類型間并沒有明顯差異;單倍型CG:GG的單果重表現為中等,而單倍型GG:GG的單果重最低(圖8)。
前人研究認為,性狀的遺傳力是影響全基因組選擇精度的重要因素[27-30],因此,本研究評價了單果重和SSC的遺傳力,并以兩個質量性狀(果形扁/平和果皮毛有/無)為對照,隨機選擇gblupA模型進行育種值的估計。結果顯示,遺傳力最高的為果形(0.8185),其次為單果重(0.7021)和果皮毛(0.6866),最低為SSC(0.2815),而預測精度從高到低依次為果皮毛(0.8293)、果形(0.7300)、單果重(0.5986)和SSC(0.4064)。即在兩個數量性狀間,遺傳力較高的性狀其表型預測精度較高;但當與質量性狀比較時,盡管單果重的遺傳力高于果皮毛,但其預測精度卻低于后者;同時,在兩個質量性狀之間,遺傳力與全基因組選擇的預測精度同樣不一致。

圖6 預測雜交群體兩個數量性狀的預測值與觀測值的相關性分析

圖7 單果重單標記篩選與全基因組選擇的效率比較

不同小寫字母表示處理間差異顯著(P<0.05) Different lowercase letters indicate significant differences between treatments (P<0.05)
群體結構也會影響預測精度[31],在本研究中,以雜交群體表型評價最完善的2020年單果重數據為例,首先進行單個雜交群體的單果重預測育種值與觀測值的相關性分析(表3),發現不同群體的相關性差異較大,分布在-0.15—0.26。在相關性為負值的群體中,既有群體大小為27的小群體,也有單株數目達到97的中等群體。
由于本研究是根據自然群體的預測育種值與表型進行比較而篩選精度較高的全基因組選擇模型,并進行隨后的應用驗證。因此,以自然群體為背景,與上述20個雜交群體一起進行PCA分析。如圖9所示,相對于其他群體,群體2、4、5和13與背景群體的遺傳距離較遠,其預測育種值與觀測值的相關性較低,分別為0.03、-0.03、-0.15和-0.04;但群體7、11、14、15和19與自然群體的親緣關系并不遠,其預測育種值與觀測值的相關性卻仍為負值。
單果重和SSC是桃重要的育種目標性狀,研究其早期選擇技術體系對其分子育種具有重要的實踐意義。理論上,全基因組選擇技術將有效地提高數量性狀的選擇效率。例如本研究比較了單標記和全基因組選擇對單果重早期選擇的影響,發現當采用單標記時,如以大果為育種目標,則需要保留純合或雜合的優勢等位基因,以應用Chr6: 3 296 344 bp為例,需要保留72株,占整個群體的40.68%;當采用雙標記時,需要保留7種單倍型,共71株,占整個群體的42.77%,與采用單標記的應用效率相比沒有明顯提升。而采用全基因組選擇,僅需保留預測育種值最高的一類,約32株,占整個群體的17.78%,篩選效率顯著提高。前人研究同樣表明全基因組選擇的效率高于分子標記輔助選擇[32-33]。
本研究以單果重和SSC為例,發現單果重預測精度高于SSC,同時利用自然群體構建的模型更適宜預測自然群體。對于雜交群體預測準確率稍低的原因,推測可能是其遺傳背景與訓練自然群體較遠;然而,當比較不同的雜交群體時,卻發現預測精度與該單個群體和訓練自然群體間的親緣關系遠近無關(圖9);對于訓練群體與預測群體的遺傳相關性對預測精度的影響,需要后續進行更加深入的研究。
對于影響全基因組選擇效率的其他因素,前人有不少研究。如MURANTY等[15]在蘋果上的研究表明,遺傳力大小是影響全基因組選擇預測準確性的重要因素。而在桃上,BISCARINI等[16]發現在單果重、SSC 和可滴定酸(TA)共3個性狀中,雖然TA的遺傳力最高(平均0.53),但預測精度最高的卻為SSC(平均0.72)。本研究同樣發現,無論是將數量性狀與質量性狀進行比較或者是比較兩個質量性狀,全基因組選擇的預測精度與遺傳力均不呈正相關。同時,MURANTY等[15]和BISCARINI等[16]分別在蘋果和桃上均認為表型的離散程度越大,預測的精度越高。本研究中,單果重的變異系數高于SSC,但其是否為單果重性狀預測精度高于SSC的主要原因仍有待探討,筆者更傾向于認為單果重有主效基因而SSC不明顯[26],這可能是單果重性狀預測精度高的主要原因。此外,在本研究中,由于全基因組選擇的預測模型構建基于自然群體3年的平均值,在進行應用時,如果實測的表型值易受環境影響,在理論上會與預測的育種值差異較大。因此,本研究試圖探討全基因組預測精度與表型值在年度間相關性的關系,在預測雜交群體中,盡管2019年的單果重相對其他年份受到環境影響更加明顯,然而該年度的表型預測精度卻最高,達到0.4870。最后,本研究也探討了群體結構對預測準確性的影響,同樣表明影響全基因組選擇精度的因素復雜多樣。此外,在前人研究[12]中提到的分子標記密度以及訓練群體樣本大小等影響全基因組選擇準確率的因素,本研究并沒有關注,有待開展更廣泛深入的研究以歸納總結。

表3 不同雜交群體單果重的預測育種值與2020年觀測值的相關性分析
對于全基因組選擇的適用范圍,本研究在分析遺傳力對預測準確性的影響時,加入了兩個質量性狀,即果皮毛有/無和果形扁/圓,發現這兩個性狀的預測精度分別為0.8293和0.7300,低于采用單標記進行篩選的準確率(分別為92.86%和100%)[34]。該結果再次表明,全基因組選擇對難以測量的復雜性狀具有良好的預測效果,對于主效基因和關鍵變異明確的質量性狀,反而過度考慮了其他無效變異的效應,降低了育種值估計的準確性。

圖9 共20個雜交群體的PCA分析
本研究通過對訓練自然群體進行基因分型,篩選了桃果實單果重和可溶性固形物含量(SSC)的適宜全基因組選擇模型,并在預測自然群體和雜交群體上進行應用。研究發現單果重預測精度最高的模型是BayesA,SSC預測精度最高的模型為randomforest。在不同模型下,單果重的育種值估計精度均高于SSC。以單果重為例,對數量性狀進行全基因組選擇的篩選效率明顯高于單標記。
[1] 苑兆和, 陳立德, 張心慧, 趙玉潔. 果樹分子育種研究進展. 南京林業大學學報(自然科學版), 2021, 45(4): 1-12.
YUAN Z H, CHEN L D, ZHANG X H, ZHAO Y J. Advances in molecular breeding of fruit trees. Journal of Nanjing Forestry University (Natural Science Edition), 2021, 45(4): 1-12. (in Chinese)
[2] VENDRAMIN E, PEA G, DONDINI L, PACHECO I, TERESA DETTORI M, GAZZA L, SCALABRIN S, STROZZI F, TARTARINI S, BASSI D, VERDE I, ROSSINI L. A unique mutation in agene cosegregates with the nectarine phenotype in peach. PLoS ONE, 2014, 9(3): e90574.
[3] GU C, WANG L, WANG W, ZHOU H, MA B Q, ZHENG H Y, FANG T, OGUTU C, VIMOLMANGKANG S, HAN Y P. Copy number variation of a gene cluster encoding endopolygalacturonase mediates flesh texture and stone adhesion in peach. Journal of Experimental Botany, 2016, 67(6): 1993-2005.
[4] GUO J, CAO K, DENG C, LI Y, ZHU G R, FANG W C, CHEN C W, WANG X W, WU J L, GUAN L P, WU S, GUO W W, YAO J L, FEI Z J, WANG L R. An integrated peach genome structural variation map uncovers genes associated with fruit traits. Genome Biology, 2020, 21(1): 258.
[5] DIRLEWANGER E, PRONIER V, PARVERY C, ROTHAN C, GUYE A, MONET R. Genetic linkage map of peach [(L.) Batsch] using morphological and molecular markers. Theoretical and Applied Genetics, 1998, 97(5/6): 888-895.
[6] QUILOT B, WU B H, KERVELLA J, GéNARD M, FOULONGNE M, MOREAU K. QTL analysis of quality traits in an advanced backcross betweencultivars and the wild relative species. TAG Theoretical and Applied Genetics Theoretische Und Angewandte Genetik, 2004, 109(4): 884-897.
[7] EDUARDO I, PACHECO I, CHIETERA G, BASSI D, POZZI C,
VECCHIETTI A, ROSSINI L. QTL analysis of fruit quality traits in two peach intraspecific populations and importance of maturity date pleiotropic effect. Tree Genetics and Genomes, 2011, 7(2): 323-335.
[8] DA SILVA LINGE C, BASSI D, BIANCO L, PACHECO I, PIRONA R, ROSSINI L. Genetic dissection of fruit weight and size in an F2peach [(L.) Batsch] progeny. Molecular Breeding, 2015, 35: 71.
[9] ZEBALLOS J L, ABIDI W, GIMéNEZ R, MONFORTE A J, MORENO M A, GOGORCENA Y. Mapping QTLs associated with fruit quality traits in peach [(L.) Batsch] using SNP maps. Tree Genetics & Genomes, 2016, 12: 37.
[10] 倪海枝, 王引, 顏幫國, 陳方永. 果樹基因組輔助育種技術研究現狀與展望. 分子植物育種, 2021, https://kns.cnki.net/kcms/detail/46. 1068.S.20210416.1640.009.html.
NI H Z, WANG Y, YAN B G, CHEN F Y. Research status and prospects of genomics-assisted breeding technology in fruit trees. Molecular Plant Breeding, 2021, https://kns.cnki.net/kcms/detail/46. 1068.S.20210416.1640.009.html. (in Chinese)
[11] 張順進, 寇浩瑋, 丁曉婷, 劉賢, 蔡雯雯, 張子敬, 施巧婷, 茹寶瑞, 雷初朝, 黃永震. 全基因組選擇技術在反芻動物遺傳育種中的研究進展及其應用. 農業生物技術學報, 2021, 29(3): 571-578.
ZHANG S J, KOU H W, DING X T, LIU X, CAI W W, ZHANG Z J, SHI Q T, RU B R, LEI C Z, HUANG Y Z. The research progress and application of genomic-wide selection in ruminant genetics and breeding. Journal of Agricultural Biotechnology, 2021, 29(3): 571-578. (in Chinese)
[12] 劉海嵐, 夏超, 蘭海. 全基因組選擇技術在作物育種中的研究進展. 華北農學報, 2022, 37(增刊): 51-58.
LIU H L, XIA C, LAN H. The research progress of genomic selection in breeding of crops. Acta Agricultrae Boreali-Sinica, 2022, 37(Suppl): 51-58. (in Chinese)
[13] 張苗苗, 王軍輝, 盧楠, 麻文俊, 王楠, 吳夏明. 林木全基因組選擇研究現狀和應用. 世界林業研究, 2021, 34(4): 26-32.
ZHANG M M, WANG J H, LU N, MA W J, WANG N, WU X M. Research progress and application of whole genome selection in forest tree breeding. World Forestry Research, 2021, 34(4): 26-32. (in Chinese)
[14] KUMAR S, CHAGNé D, BINK M C A M, VOLZ R K, WHITWORTH C, CARLISLE C. Genomic selection for fruit quality traits in apple (× domestica Borkh.). PLoS ONE, 2012, 7(5): e36674.
[15] MURANTY H, TROGGIO M, BEN SADOK I, AL RIFA? M, AUWERKERKEN A, BANCHI E, VELASCO R, STEVANATO P, VAN DE WEG W E, DI GUARDO M, KUMAR S, LAURENS F, BINK M C A M. Accuracy and responses of genomic selection on key traits in apple breeding. Horticulture Research, 2015, 2: 15060.
[16] BISCARINI F, NAZZICARI N, BINK M, ARúS P, ARANZANA M J, VERDE I, MICALI S, PASCAL T, QUILOT-TURION B, LAMBERT P, DA SILVA LINGE C, PACHECO I, BASSI D, STELLA A, ROSSINI L. Genome-enabled predictions for fruit weight and quality from repeated records in European peach progenies. BMC Genomics, 2017, 18: 432.
[17] MINAMIKAWA M F, TAKADA N, TERAKAMI S, SAITO T, ONOGI A, KAJIYA-KANEGAE H, HAYASHI T, YAMAMOTO T, IWATA H. Genome-wide association study and genomic prediction using parental and breeding populations of Japanese pear (Nakai). Scientific Reports, 2018, 8: 11994.
[18] NSIBI M, GOUBLE B, BUREAU S, FLUTRE T, SAUVAGE C, AUDERGON J M, REGNARD J L. Adoption and optimization of genomic selection to sustain breeding for apricot fruit quality. G3: Genes Genomes Genetics, 2020, 10(12): 4513-4529.
[19] 王力榮, 朱更瑞. 桃種質資源描述規范和數據標準. 北京: 中國農業出版社, 2005: 54-76.
WANG L R, ZHU G R. Descriptors and Data Standard for Peach (L.). Beijing: China Agriculture Press, 2005: 54-76. (in Chinese)
[20] MURRAY M G, THOMPSON W F. Rapid isolation of high molecular weight plant DNA. Nucleic Acids Research, 1980, 8(19): 4321-4326.
[21] CHEN S F, ZHOU Y Q, CHEN Y R, GU J. Fastp: An ultra-fast all-in-one FASTQ preprocessor. Bioinformatics, 2018, 34(17): i884-i890.
[22] LI H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. 2013: arXiv: 1303.3997. https://arxiv.org/abs/1303. 3997.
[23] MCKENNA A, HANNA M, BANKS E, SIVACHENKO A, CIBULSKIS K, KERNYTSKY A, GARIMELLA K, ALTSHULER D, GABRIEL S, DALY M, DEPRISTO M A. The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data. Genome Research, 2010, 20(9): 1297-1303.
[24] YANG J, LEE S H, GODDARD M E, VISSCHER P M. GCTA: A tool for genome-wide complex trait analysis. American Journal of Human Genetics, 2011, 88(1): 76-82.
[25] VERDE L, ABBOTT A G, SCALABRIN S, JUNG S, SHU S Q, MARRONI F, ZHEBENTYAYEVA T, DETTORI M T, GRIMWOOD J, CATTONARO F,. The high-quality draft genome of peach () identifies unique patterns of genetic diversity, domestication and genome evolution. Nature Genetics, 2013, 45(5): 487-494.
[26] CAO K, LI Y, DENG C H, GARDINER S E, ZHU G R, FANG W C, CHEN C W, WANG X W, WANG L R. Comparative population genomics identified genomic regions and candidate genes associated with fruit domestication traits in peach. Plant Biotechnology Journal, 2019, 17: 1954-1970.
[27] HERNANDEZ C O, WYATT L E, MAZOUREK M R. Genomic prediction and selection for fruit traits in winter squash. G3: Genes Genomes Genetics, 2020, 10(10): 3601-3610.
[28] HONG J P, RO N, LEE H Y, KIM G W, KWON J K, YAMAMOTO E, KANG B C. Genomic selection for prediction of fruit-related traits in pepper (spp.). Frontiers in Plant Science, 2020, 11: 570871.
[29] LI Y L, RUPERAO P, BATLEY J, EDWARDS D, KHAN T, COLMER T D, PANG J Y, SIDDIQUE K H M, SUTTON T. Investigating drought tolerance in chickpea using genome-wide association mapping and genomic selection based on whole-genome resequencing data. Frontiers in Plant Science, 2018, 9: 190.
[30] WIMMER V, LEHERMEIER C, ALBRECHT T, AUINGER H J, WANG Y, SCH?N C C. Genome-wide prediction of traits with different genetic architecture through efficient variable selection. Genetics, 2013, 195(2): 573-587.
[31] CALUS M P L, VEERKAMP R F. Accuracy of multi-trait genomic selection using different methods. Genetics Selection Evolution: GSE, 2011, 43(1): 26.
[32] HEFFNER E L, JANNINK J L, IWATA H, SOUZA E, SORRELLS M E. Genomic selection accuracy for grain quality traits in biparental wheat populations. Crop Science, 2011, 51(6): 2597-2606.
[33] HEFFNER E L, JANNINK J L, SORRELLS M E. Genomic selection accuracy using multifamily prediction models in a wheat breeding program. The Plant Genome, 2011, 4(1): 65-75.
[34] CAO K, ZHOU Z K, WANG Q, GUO J, ZHAO P, ZHU G R, FANG W C, CHEN C W, WANG X W, WANG X L, TIAN Z X, WANG L R. Genome-wide association study of 12 agronomic traits in peach. Nature Communications, 2016, 7: 13246.
Genomic Selection for Fruit Weight and Soluble Solid Contents in Peach
CAO Ke, CHEN ChangWen, YANG XuanWen, BIE HangLing, WANG LiRong
Zhengzhou Fruit Research Institute, Chinese Academy of Agricultural Sciences, Zhengzhou 450009
【Background】Fruit weight and soluble solid content (SSC) are two important quantitative traits in peach which are of importance to breeders. However, performing early prediction using a single marker is challenging as the traits are controlled by multiple minor genes. Genomic selection, a novel genome-wide tool, has been applied in fruit crops and can potentially enhance the breeding efficiency of these quantitative traits. However, its effects in peach and influencing factors require further investigation.【Objective】Establish a whole-genome selection technology system for peach single fruit weight and SSC, and laid a methodological foundation for the establishment of efficient molecular breeding technology system for peach.【Method】The objectives of this study were to assess the accuracy of prediction of peach fruit weight and SSC in natural and hybrid populations using genomic selection. Here, a training population of 520 individuals was selected. Using genotypic data for 48 398 single nucleotide polymorphisms (SNPs) obtained from the resequencing results of the above training population, a total of 11 genome-wide prediction models were built to select the optimum model for fruit weight and SSC. Subsequently, the genomic breeding values of a small natural population of 56 individuals and 29 hybrid populations comprising a total of 1 145 seedlings were calculated.【Result】The average sequencing data of each variety of the three groups was 1.95-3.52 Gb, and the sequencing depth was 5.29-10.79×. The sequencing data of the training natural population was aligned with the reference genome, and a total of 5 065 726 SNPs were obtained. After removing the SNPs with a high missing rate (>20%) and minor allele frequency of <0.05, a total of 48 398 SNPs on the genome were randomly selected for constructing whole-genome selection models for the training population. The models with the highest prediction accuracy for fruit weight and SSC were BayesA and randomforest, respectively. Using the above two models, it was found that the goodness of fit between the predicted breeding values and observed phenotype of fruit weight was 0.4767-0.6141, which was higher than that of SSC (0.3220-0.4329) in the natural populations. In hybrid populations, the prediction accuracy of fruit weight was 0.2319-0.4870, which was also higher than that of SSC (0.0200-0.2793). The results also showed that the prediction model constructed by training natural populations was more accurate in predicting natural populations than hybrid populations. Taking fruit weight as an example, it was also found that only 17.78% of the seedlings needed to be retained by genomic selection when targeting large fruit. Genomic selection was significantly more efficient than single and double marker selection. Furthermore, the effects of population dispersion, heritability and population structure on prediction accuracy are also discussed. The results indicated that prediction accuracy may vary and be affected by a combination of several factors.【Conclusion】In this study, a suitable genomic selection model for peach fruit weight and SSC was screened, and it was confirmed that the prediction efficiency of genomic selection was significantly higher than that of single marker selection. The results indicated the potential of genomic prediction in accelerating breeding progress of these two quantitative traits in peach.
peach; fruit weight; soluble solid contents; genomic selection; early prediction

10.3864/j.issn.0578-1752.2023.05.011
2022-04-28;
2022-09-09
中國農業科學院科技創新工程專項(CAAS-ASTIP-2020-ZFRI)
曹珂,Tel:13673618358;E-mail:wyandck@126.com。通信作者王力榮,Tel:13700883956;E-mail:wanglirong@caas.cn
(責任編輯 趙伶俐)