李浩東,閔祥玉,周 雅,張禾垟,鄭軍軍,劉琳玲,王 平,王艷梅,楊福合*,王桂武*
(1.中國農業科學院特產研究所,長春 130112; 2.吉林省梅花鹿產業研究院,長春 130600)
我國不僅擁有悠久的梅花鹿飼養歷史,還擁有最大的梅花鹿飼養群體,是梅花鹿遺傳育種的主戰場[1]。特別是在2020年,梅花鹿被列入《國家畜禽遺傳資源品種目錄》[2],使得養鹿迎來了大發展。其主產品鹿茸具有極高的醫學和藥用價值,明代李時珍在《本草綱目》上就有關于鹿茸的記載,稱其“善于補腎壯陽,生精益血,補髓健骨”。而且鹿肉、鹿鞭等也能很好的契合健康的主題。但長期以來,梅花鹿的選育都以鹿茸為主要經濟目的,重茸輕肉,而忽略了對肉用鹿品種的培育。鹿肉性溫和,有補脾益氣、溫腎壯陽的功效,瘦肉多、結締組織少,蛋白質含量豐富、脂肪少,具有極高的營養價值。目前,鹿肉在國內擁有廣闊的市場,但肉用鹿尚無專門化的品種,在市場及飯店出售的鹿肉多為老弱病殘的淘汰鹿,品質不佳,安全性難以保證[3]。
在傳統育種中,畜禽的選配主要是利用表型以及經驗來進行的,后過渡到以最佳線性無偏預測(best linear unbiased prediction,BLUP)為主通過評估畜禽育種值來進行選擇的方法[4]。隨著高通量測序技術的快速發展和測序成本降低使得畜禽育種已經進入分子育種階段,分子標記輔助選擇(marker assisted selection,MAS)的應用使畜禽遺傳改良有了長足的進步。但由于經過功能驗證用于畜禽遺傳改良的功能基因與分子標記較少,且較多分子標記對遺傳變異比例解釋太低,限制了分子輔助標記的應用[5-6]。2001年,Meuwissen等[7]提出了基因組選擇的概念,全基因組選擇(genomic selection,GS)被作為是全基因組范圍內的標記輔助選擇,是當下畜禽遺傳育種的主流策略[8],相較于基于系譜的估計育種值(estimated breeding value, EBV),利用覆蓋全基因組的標記位點估計的基因組估計育種值(genomic estimated breeding value, GEBV)更加準確[9]。統計模型是基因組選擇的核心,極大地影響了基因組預測的準確性和效率。根據統計模型的不同,可以分為以GBLUP為代表的直接法[10]和以貝葉斯為代表的間接法[11]。牛[12-13]、豬[14-15]、雞[16-17]等動物育種相繼進入基因組選擇育種時代。尤其是在奶牛育種中,基因組選擇已在美國[18-19]、澳大利亞[20-21]、英國[22-23]、新西蘭[24-25]等國家廣泛應用,并取得了明顯的遺傳進展。
目前,梅花鹿的選育工作還停留于傳統的育種方法。由于梅花鹿尚未完全馴化,仍具有一定野性,導致生產性能測定難度極大,并且大多數養殖場系譜記錄混亂甚至無系譜記錄,而基因組選擇的優勢在于能夠降低測定難度以及利用全基因組的標記位點構建親緣關系替代系譜,提高育種值估計的準確性,縮短時代間隔。隨著梅花鹿由小戶散養向集約化養殖的轉變,基因組選擇是提高整體生產水平的最佳選擇。因此,本試驗基于梅花鹿的生長相關性狀來評估各種模型預測的準確性,以探究在梅花鹿群體中實施基因組預測的可行性。
本研究動物群體來自吉林省長春市雙陽某梅花鹿繁育場2014—2019年所產純種梅花鹿,共計261只。其中公鹿96只,母鹿165只。測定的生長性狀包括體重(body weight)、體高(body height)、體斜長(body length)、管圍(shin circumference)、胸圍(chest girth)、臀端高(high hips)。利用Excel對表型數據進行預處理,刪除表型的缺失值和異常值(平均值±3倍標準差)。通過R語言中的GLM函數校正性別和出生年份。梅花鹿表型描述性統計見表1。

表1 梅花鹿體重與體尺指標的表型統計量
采取頸靜脈采血的方式抽取血液用于基因組DNA的提取,將樣品送至博瑞迪生物技術有限公司,利用本團隊開發的梅花鹿液相40K育種芯片[26]進行基因分型。芯片分型共得到了92 246個SNPs位點,使用PLINK(V1.90)軟件[27]對分型結果進行質量控制,質量控制標準:1)個體SNP檢出率>90%;2)SNP檢出率>90%;3)最小等位基因頻率≥5%;4)哈代溫伯格平衡P<1×10-6。最終獲得261個個體的84 059個SNPs位點用于后續分析。
使用ASReml4.1.0軟件[28]通過約束最大似然法進行方差組分的估計與遺傳力的計算?;谌蚪MSNP信息構建親緣關系G矩陣,通過加性遺傳方差除以總方差計算性狀遺傳力。計算公式如下:

1.3.1 基因組最佳線性無偏預測(GBLUP) GBLUP通過SNP信息構建分子親緣關系矩陣(G矩陣)替代基于系譜信息構建的關系矩陣(A矩陣),該方法由 Vanraden[29]提出。該方法的統計模型如下:
y=Xb+Zg+e



1.3.3 嶺回歸最佳線性無偏預測法(RRBLUP) RRBLUP是間接法的代表。Whittaker等[32]為了解決標記效應誤差的問題,因而提出的一種改良的最小二乘法,類似于GBLUP法。其將標記效應作為隨機效應,假定標記效應服從正態分布,利用混合線性模型求解標記效應的總和即為個體育種值。RRBLUP模型的計算使用R語言環境下的RRBLUP包進行[33]。
對以上6種方法通過5-fold交叉驗證的方法來評價GEBV的估計準確性,先將梅花鹿群體隨機分成5個獨立的子集,然后依次將每個子集作為驗證群體,并假定其表型未知,同時利用其余4個子集做參考群體來預測驗證群體的GEBV。預測能力為表型與GEBV間的相關性。為避免遺傳力對預測準確性的影響,將表型與GEBV間的皮爾遜相關系數除以相應性狀遺傳力算術平方根作為 GEBV 準確性的評價指標[34]。計算公式為:
其中,y表示校正后的表型值,h2表示性狀遺傳力。對每個性狀的驗證進行10次重復,最后用相關系數的平均值作為模型準確性的評估指標。
利用全基因組SNP信息構建親緣關系矩陣,建立混合線性模型,通過約束最大似然法對梅花鹿生長相關性狀的加性遺傳方差、環境方差、遺傳力以及標準誤進行估計。結果表明,梅花鹿群體重與體尺性狀的遺傳力范圍為0.15(胸圍)~0.50(臀端高)。其中,管圍與臀端高的遺傳力分別為0.43、0.50,屬于高遺傳力;體重、體高與體斜長的遺傳力分別為0.22、0.30、0.27,屬于中等遺傳力,而胸圍的遺傳力為0.15,屬于低遺傳力。各性狀方差組分和遺傳力及標準誤估計見表2。

表2 梅花鹿生長相關性狀的方差組分和遺傳力估計
通過5-fold交叉驗證,利用GBLUP、Bayes A、Bayes B、Bayes C、Bayes Lasso、RRBLUP六種基因組選擇模型對生長相關性狀的預測準確性進行評估,將表型與GEBV間的皮爾遜相關系數除以相應性狀遺傳力算術平方根作為 GEBV 準確性的評價指標。
2.2.1 梅花鹿體重基因組選擇預測準確度 如表3所示:體重的預測準確度分別是0.231、0.143、0.121、0.123、0.086、0.077。在體重中,GBLUP預測準確性最高,Bayes A、Bayes C、Bayes B和Bayes Lasso次之,RRBLUP最低。
2.2.2 梅花鹿體高基因組選擇預測準確度 如表3所示:體高的預測準確度分別是0.205、0.324、0.339、0.329、0.310、0.336。在體高中,Bayes B預測準確性最高,RRBLUP、Bayes C、Bayes A和Bayes Lasso次之,GBLUP最低。
2.2.3 梅花鹿體斜長基因組選擇預測準確度 結果如表3所示:體斜長的預測準確度分別是0.256、0.336、0.333、0.338、0.314、0.314。在體斜長中,Bayes C預測準確性最高,Bayes A、Bayes B、RRBLUP和Bayes Lasso次之, GBLUP最低。
2.2.4 梅花鹿管圍基因組選擇預測準確度 如表3所示:管圍的預測準確度分別是0.197、0.222、0.230、0.222、0.223、0.217。在管圍中,Bayes B預測準確性最高,Bayes Lasso、Bayes A、Bayes C和RRBLUP次之, GBLUP最低。
2.2.5 梅花鹿胸圍基因組選擇預測準確度 如表3所示:胸圍的預測準確度分別是0.190、0.601、0.593、0.579、0.529、0.583。在胸圍中,Bayes A預測準確性最高,Bayes B、RRBLUP、Bayes C和Bayes Lasso次之, GBLUP最低。
2.2.6 梅花鹿臀端高基因組選擇預測準確度 如表3所示:臀端高的預測準確度分別是0.192、0.318、0.319、0.318、0.311、0.325。在臀端高中,RRBLUP預測準確性最高,Bayes B、Bayes A、Bayes C和Bayes Lasso次之,GBLUP最低。

表3 基于6種基因組選擇模型對梅花鹿生長相關性狀的預測能力與準確性
如表3所示,預測能力的范圍為從0.036(RRBLUP法中體重)到0.233(Bayes A法中胸圍)。在GBLUP中,各性狀的預測能力由高到低依次為臀端高、體斜長、管圍、體高、體重、胸圍;在Bayes A與Bayes B中,各性狀的預測能力由高到低依次皆為胸圍、臀端高、體高、體斜長、管圍、體重;在Bayes C、Bayes LASSO與RRBLUP中,各性狀的預測能力由高到低依次皆為臀端高、胸圍、體高、體斜長、管圍、體重。有大量研究表明,基因組選擇的預測能力與性狀的遺傳力估計值呈正相關關系[35-37]。為了探索遺傳力與預測能力之間的關系,對遺傳力與預測能力進行回歸分析。如圖1所示,6種基因組選擇模型的相應回歸系數為0.144(GBLUP)、0.074(Bayes A)、0.101(Bayes B)、0.1(Bayes C)、0.153(Bayes Lasso)、0.132(RRBLUP)。

圖1 6種基因組選擇模型的預測能力與遺傳力回歸分析
本研究利用基因組數據對梅花鹿體重體尺性狀進行了遺傳力估計,并系統的探討了以GBLUP為代表的直接法模型和以Bayes類方法為代表的間接法對生長相關性狀基因組選擇的預測能力與預測準確性。利用基因組信息基于GBLUP通過約束最大似然法對方差組分進行估計,進而計算遺傳力。遺傳力的估計受動物群體種類、群體大小以及標記密度等因素的影響。但在本研究中,動物群體以及大小等因素是固定存在的,因此均已無法探討,但已將性別與年齡作為固定效應加入遺傳力的估計中。在本研究中,體尺性狀的遺傳力均為首次估計。其中,管圍與臀端高屬于高遺傳力;體重、體高與體斜長屬于中等遺傳力,而胸圍屬于低遺傳力。基于全基因組SNP信息構建的親緣關系估計的梅花鹿體重遺傳力遠低于周世朗等[38]基于系譜構建的親緣關系估計的遺傳力,這可能有兩方面原因:1)模型高估了顯性遺傳方差,因此低估了加性遺傳方差,導致遺傳力的估計偏低[39];2)全基因組SNP信息構建的親緣關系矩陣相較于系譜構建的親緣關系矩陣能夠更加準確的反映個體間的遺傳關系[40]。在基于系譜構建的親緣關系中,共同的環境組分會導致高估加性遺傳方差,使得遺傳力的估計偏高[41]。因此,在對梅花鹿生長相關性狀進行遺傳評估時,利用基因組信息構建親緣關系矩陣會更加準確。
本研究基于5-fold交叉驗證對GBLUP、Bayes A、Bayes B、Bayes C、Bayes Lasso、RRBLUP六種基因組選擇模型預測的準確度進行了比較,分析了不同模型對不同性狀的適用性。由于交叉驗證分組存在隨機性,單次的交叉驗證不具有代表性。驗證過程中,重復的次數越多,預測的準確性更高。本研究對各個性狀的驗證進行10次5-fold交叉驗證重復,用以校正評估的準確性。在體重中,GBLUP法的預測準確度均優于Bayes類與RRBLUP法。證明在樣本量較少的情況下,GBLUP的預測準確度并非一定低于間接法[42];Bayes B在各個性狀中的預測準確性都較高,可能是由于模型假設更加符合數量性狀的遺傳結構。它假設有效應位點比例為1-π,通常為0.05左右;Bayes A在體重、體斜長、胸圍等低遺傳力性狀中預測準確度優于Bayes B。因而在低遺傳力性狀中,首選Bayes A進行預測是最佳選擇;體重、體高、體斜長、管圍、胸圍、臀端高預測準確度最高的分別為GBLUP、Bayes B、Bayes C、Bayes B、Bayes A、RRBLUP。因此,在基因組選擇中進行模型選擇時并沒有統一的標準,要根據性狀的遺傳結構選擇最適合的模型才能使得預測更加精準。
本研究利用6種基因組選擇模型探討了對體重體尺性狀的預測能力,并對遺傳力與預測能力進行了回歸分析。研究發現,性狀遺傳力的高低會影響基因組選擇預測的準確性[25-27]。在GBLUP中,各個性狀遺傳力與預測準確性大致呈正相關關系,這與相關研究結果相一致。但在Bayes類方法與RRBLUP中,低遺傳力的胸圍卻擁有較高的預測準確度,原因可能是梅花鹿的特殊性導致,尚未完全馴化,具有較大的野性,在鹿群進食過程中飼料營養不均衡,使得鹿只胸圍的變異系數較大,導致在進行遺傳力估計時高估了環境方差,導致遺傳力的估計偏低。因此,在梅花鹿的實際生產過程中,要更加注意飼養管理,以達到鹿只的體況均勻。既能保障生產水平的提高,同時也能提高基因組選擇預測的準確性。
本研究以梅花鹿作為研究群體,對梅花鹿體重體尺性狀進行了遺傳力估計,并基于5-fold交叉驗證對GBLUP、Bayes A、Bayes B、Bayes C、Bayes Lasso、RRBLUP六種基因組選擇模型進行了基因組選擇分析。研究發現,體重、體高、體斜長、管圍、胸圍與臀端高的遺傳力分別為0.22、0.30、0.27、0.43、0.15、0.50,且性狀遺傳力的高低對基因組預測準確性有重要影響。體重、體高、體斜長、管圍、胸圍、臀端高預測準確度最高的分別為GBLUP、Bayes B、Bayes C、Bayes B、Bayes A、RRBLUP。說明在實際生產中,沒有能夠完全適應所有性狀的模型,必須根據預測的準確性以及預測的時效性來特異的選擇最佳模型。本研究為梅花鹿生長相關性狀的基因組選擇與實際應用提供了重要的參考信息。