楊 瓊,劉青云,李強勇,彭 敏,楊春玲,童艷梅,曾地剛,陳秀荔,陳曉漢,趙永貞
基于人工神經網絡的凡納濱對蝦分子標記育種值預測
楊 瓊,劉青云,李強勇,彭 敏,楊春玲,童艷梅,曾地剛,陳秀荔,陳曉漢,趙永貞
(廣西壯族自治區水產科學研究院/廣西水產遺傳育種與健康養殖重點實驗室,廣西 南寧 530021)
【】探討逆傳播人工神經網絡(BPANN)算法用于預測分子標記育種值的可行性。采用高通量測序技術對284尾F1代凡納濱對蝦及其父母本進行特定長度擴增片段測序(SLAF-seq),隨機取200尾對蝦樣品的數量性狀基因座(QTL)基因型和體質量數據,構建BPANN預測模型,利用該模型分別對其余84尾凡納濱對蝦進行體質量性狀預測。構建了1個高密度的單核苷酸多態性(SNP)遺傳連鎖圖譜,鑒定出6個與體質量相關的QTL,對此QTL的BPANN育種值預測結果顯示,育種值的平均誤差為0.032 0±0.006 4,低于貝葉斯線性回歸模型預測的平均誤差值(0.046 2±0.005 6)。BPANN用于預測凡納濱對蝦分子標記育種值效果良好。
人工神經網絡; 凡納濱對蝦; 分子標記; 育種值
新品種選育是動物養殖業最重要的工作之一。分子標記輔助選擇(Marker-assisted selection,MAS)技術可直接選擇基因型進行育種,顯著提高選育效率[1]。MAS主要用分子標記構建高密度遺傳連鎖圖譜,再鑒定與目標性狀關聯的數量性狀基因座(QTL)。用QTL選擇育種時需準確預測分子標記基因型組合的育種值。傳統的分子標記育種值的預測方法主要是線性回歸分析,如嶺回歸分析(Ridge regression,RR)、貝葉斯估計(Bayesian estimation,BE)、最佳無偏預測(Best linear unbiased prediction,BLUP)等[2]。嶺回歸線性預測忽略了分子標記與目標性狀的交互作用和非線性[3]。貝葉斯預測、BLUP預測等模型允許通過差異收縮估計分子標記效果,可更靈活描述復雜分子標記與目標性狀的關系[4]。人工神經網絡(Artificial neural network,ANN)是一種由大量處理單元連接組成的非線性、自適應數據處理算法,可模仿人類神經單元網絡進行分布式并行信息處理[5]。逆傳播人工神經網絡(Back propagation artificial neural network,BPANN)是目前應用最廣泛的神經網絡[6]。近年來ANN已廣泛用于構建非線性復雜問題的優化解計算模型[7-9],在小鼠[10]、奶牛[11]和小麥[12]等物種分子標記育種值預測方面已取得一定進展,但在水產動物分子標記育種值預測方面未見報道。
凡納濱對蝦()又稱南美白對蝦,是世界上養殖產量最大的蝦種。生長性狀是對蝦最重要經濟性狀之一,構建凡納濱對蝦遺傳連鎖圖譜并鑒定生長性狀的QTL,開發用于育種的分子標記,建立預測分子標記育種值方法,對凡納濱對蝦新品種選育較為重要。過去遺傳圖譜構建主要基于隨機擴增多態性DNA(RAPD)、限制性片段長度多態性(RFLP)、擴增片段長度多態性(AFLP)、簡單序列重復(SSR)和簡單序列重復區間(ISSR)等[13-14]傳統分子標記,這些標記生成的遺傳圖譜密度相對較低。隨著高通量測序技術的發展,基因分型測序(GBS)、限制性位點相關DNA測序(RAD-seq)、特定長度擴增片段測序(Specific length amplified fragment sequencing,SLAF-seq)等第2代測序技術開始用于構建單核苷酸多態性(Single nucleotide polymorphism,SNP)遺傳連鎖圖譜,這些標記比傳統標記更密集,更一致,更有效,成本更低[15]。
本研究采用第2代高通量測序技術對凡納濱對蝦進行SLAF-seq,構建SNP遺傳連鎖圖譜,鑒定體質量相關QTL,構建BPANN預測模型并進行分子標記育種值預測,探討BPANN用于預測分子標記育種值的可行性,為凡納濱對蝦MAS育種提供基礎。
凡納濱對蝦由廣西水產科學研究院凡納濱對蝦遺傳育種中心提供。用人工授精方法,使1尾雄性親蝦和1尾雌性親蝦交配,孵化的F1代群體用作遺傳連鎖圖譜的作圖群體。
隨機采集作圖群體的284尾凡納濱對蝦及其父母本,用電子稱測量體質量,用剪刀剪下背部的肌肉,放入液氮中保存。
用海洋動物基因組DNA提取試劑盒(天根生物,中國)提取肌肉DNA。用NanoDrop分光光度計和瓊脂糖凝膠電泳對DNA進行定量。
用HaeⅢ和Hpy166Ⅱ消化對蝦的基因組DNA,將測序接頭通過T4連接酶連接到消化獲得的DNA片段,PCR擴增這些片段,純化擴增產物。在Illumina HiSeq系統上進行SLAF測序。對原始測序讀數進行質量控制,以獲得高質量序列。將高質量序列與凡納濱對蝦基因組(https://www.ncbi.nlm.nih. gov/genome/?term=Vannamei)比對,鑒定基于SNP的多態性SLAF標記。將多態性的SLAF標記用HighMap軟件構建遺傳連鎖圖譜[12]。使用R/qtl軟件包進行QTL分析,每個數據集的檢測限(limit of detection,LOD)閾值基于排列組合測試(1 000個排列組合,< 0.05)建立。LOD值高于此閾值的QTL是顯著的QTL。估計QTL解釋的表型變異:1–10–2LOD/n(為樣本數)[16]。遺傳圖譜構建和QTL分析由百邁客生物技術公司(北京)進行。
每個QTL LOD值選擇最大SNP作為分子標記,并隨機選擇作圖群體的200個凡納濱對蝦樣品,SNP基因型及體質量數據分別用于構建BPANN預測和貝葉斯線性回歸(Bayesian linear regression)模型[3]。
BPANN預測模型:用MATLAB7.0的人工神經網絡程序包構建BPANN模型,該模型包括1個輸入層、2個隱含層和1個輸出層(圖1)。用凡納濱對蝦樣品SNP基因型及體質量數據訓練神經網絡1 000次。

w、v、u分別為各層的各個單元的連接權;Y為輸出的值
貝葉斯線性回歸預測模型:用R/BLR程序包(http://cran.r-project.org/web/packages/BLR/index.html)建立貝葉斯線性回歸預測模型(Bayes A):?=+1i1+2i2+e,其中是總體平均值,Y為群體中第個體的表型值(= 1, 2, 3, ...,),1和2為分子標記基因型,對于QQ基因型,1= 1,2= 0;對于Qq基因型,1= 0,2= 1;對于qq基因型,1= -1,2= 0;為分子標記的遺傳效應;為殘差。分別用建立的BPANN預測模型和貝葉斯線性回歸預測模型對剩余的84尾凡納濱對蝦進行體質量預測,比較兩者的預測效果。
SLAF測序產生439.77 Gb數據,平均30為95.81%,有57.83%的序列被成功匹配到凡納濱對蝦基因組(數據已上傳NCBI數據庫,登錄號:PRJNA545592)。結果表明,SLAF文庫的構建和測序正常。過濾并聚類所有序列,鑒定出807 505個SLAF標記,用SLAF的多態性標記構建遺傳連鎖圖譜。結果共有17 338個SLAF標記定位在遺傳連鎖圖譜上。總圖距為6 360.12 cM,標記間平均圖距為0.37 cM,包含44個連鎖群。
利用遺傳圖譜,對凡納濱對蝦體質量性狀進行QTL分析。LOD閾值確定為5.2,在連鎖群7和16鑒定了2個與體質量相關的QTL(圖2)。

灰色橫線顯示LOD閾值The grey horizontal line shows the LOD threshold
Fig .2 Quantitative trait loci for weight in
為用更多分子標記進行預測分析,將LOD降至3.5,鑒定得6個QTL。在6個鑒定的體質量相關的QTL區間中,分別取LOD最大的6個SLAF標記(Marker10241515、Marker4729146、Marker2125004、Marker3571091、Marker1700932、Marker4067002)。剩余84尾對蝦的標記基因型數據育種值(體質量)預測結果見表1。表1可見,貝葉斯線性回歸預測的平均誤差為0.046 2 ± 0.005 6,BP神經網絡預測的平均誤差為0.032 0 ± 0.006 4。

表1 用貝葉斯線性回歸和BP神經網絡預測的凡納濱對蝦育種值
與傳統的育種方法相比,分子標記輔助育種可提高育種效果,加快育種進程。本研究用SLAF-seq構建凡納濱對蝦的高密度遺傳圖譜,相鄰標記間平均距離為0.37 cM,而用RAPD、FLP和SSR開發的凡納濱對蝦遺傳圖譜的相鄰標記間平均距離為1 ~ 5 cM[17-20],本研究構建的凡納濱對蝦遺傳連鎖圖譜密度更高。本研究的遺傳連鎖圖譜包括44個連鎖群,與之前報道的凡納濱對蝦遺傳連鎖圖譜的連鎖群數量一致[21],表明凡納濱對蝦有44對染色體。本研究鑒定了2個與生長相關的QTL,而之前報道的凡納濱對蝦生長相關QTL數量不同[21],可能由所用凡納濱對蝦群體不同,QTL閾值不同所致。
準確預測分子標記育種值對于分子標記輔助選育較為重要。González-Recio等[22]用人工神經網絡預測基于全基因組數據的荷斯坦種公牛壽命,發現比用貝葉斯算法更準確。Okut等[10]用人工神經網絡預測使用密集分子標記的小鼠體質量指數,認為人工神經網絡至少與其他預測方法效果相當,其捕獲非線性關系的潛在能力對研究復雜基因控制的數量性狀較為有用。Yao等[23]用人工神經網絡算法識別影響奶牛采食量的QTL,顯示了機器學習方法的巨大靈活性。Ehret等[24]使用人工神經網絡預測德國奶牛的產奶育種值,預測效果與GBLUP(基因組最佳線性無偏預測)相當。本研究進行了284尾凡納濱對蝦及其父母本的SLAF測序,并利用其中200個樣品的分子標記基因型數據和體質量數據建立了貝葉斯線性回歸預測和BP神經網絡預測模型。利用模型對剩余的84個樣品進行6個分子標記育種值的預測,結果表明BP神經網絡預測的誤差小于貝葉斯預測,這可能是因為本研究采用的6個分子標記間存在非線性疊加關系,而BP人工神經網絡算法有很強的預測復雜非線性關系的能力[6]。本研究結果顯示了人工神經網絡算法在分子標記育種值預測的潛力。不過,本研究神經網絡預測誤差仍較大,這可能與分子標記數量較少有關;同時,本研究用于建模的樣本和用于預測的樣本來源于同一群體,因此可能會存在預測準確性偏高的問題。此外,神經網絡算法類型、隱含層數量、神經單元數量、用于機器訓練的樣本選擇等均對預測的效果有一定的影響,還需進一步研究優化。
本研究應用高通量測序技術構建了高密度的凡納濱對蝦遺傳連鎖圖譜,鑒定了生長相關的QTL,并探索應用神經網絡預測分子標記育種值的可行性,結果表明,BPANN用于預測凡納濱對蝦分子標記育種值效果良好。本研究結果可為凡納濱對蝦分子標記輔助育種研究提供基礎數據。
[1] 孫效文, 魯翠云, 賈智英, 等. 水產動物分子育種研究進展[J]. 中國水產科學, 2009, 16(6): 981-990.
[2] MEUWISSEN T H E, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps[J]. Genetics, 2001, 157(4): 1819-1829.
[3] OKUT H, WU X L, ROSA G J M, et al. Predicting expected progeny difference for marbling score in Angus cattle using artificial neural networks and Bayesian regression models[J]. Genetics, Selection, Evolution: GSE, 2013, 45(1): 34.
[4] GIANOLA D, DE LOS CAMPOS G, HILL W G, et al. Additive genetic variability and the Bayesian alphabet[J]. Genetics, 2009, 183(1): 347-363.
[5] ARYA S, HO CHUNG Y. Artificial neural network estimation of data and channel characteristics in free-space ultraviolet communications[J]. Applied Optics, 2020, 59(13): 3806-3818.
[6] YAO L T, ZHONG Y F, WU J Y, et al. Multivariable logistic regression and back propagation artificial neural network to predict diabetic retinopathy[J]. Diabetes, Metabolic Syndrome and Obesity: Targets and Therapy, 2019, 12: 1943-1951.
[7] CHON K H, COHEN R J. Linear and nonlinearmodel parameter estimation using an artificial neural network[J]. IEEE Transactions on Bio-Medical Engineering, 1997, 44(3): 168-174.
[8] ZHANG W, BAO Z M, JIANG S, et al. An artificial neural network-based algorithm for evaluation of fatigue crack propagation considering nonlinear damage accumulation[J]. Materials (Basel, Switzerland), 2016, 9(6): 483.
[9] TALEBI N, NASRABADI A M, MOHAMMAD- REZAZADEH I, et al. nCREANN: nonlinear causal relationship estimation by artificial neural network; applied for autism connectivity study[J]. IEEE Transactions on Medical Imaging, 2019, 38(12): 2883-2890.
[10] OKUT H, GIANOLA D, ROSA G J M, et al. Prediction of body mass index in mice using dense molecular markers and a regularized neural network[J]. Genetics Research, 2011, 93(3): 189-201.
[11] GIANOLA D, OKUT H, WEIGEL K A, et al. Predicting complex quantitative traits with Bayesian neural networks: a case study with Jersey cows and wheat[J]. BMC Genetics, 2011, 12: 87.
[12] LIU D Y, MA C X, HONG W G, et al. Construction and analysis of high-density linkage map using high-throughput sequencing data[J]. PLoS One, 2014, 9(6): e98855.
[13] MAUGHAN P J, BONIFACIO A, JELLEN E N, et al. A genetic linkage map of quinoa () based on AFLP, RAPD, and SSR markers[J]. TAG Theoretical and Applied Genetics Theoretische and Angewandte Genetik, 2004, 109(6): 1188-1195.
[14] KUIPER M T. Building a high-density genetic map using the AFLP technology[J]. Methods in Molecular Biology (Clifton, N J), 1998, 82: 157-171.
[15] SUN X W, LIU D Y, ZHANG X F, et al. SLAF-seq: an efficient method of large-scale de novo SNP discovery and genotyping using high-throughput sequencing[J]. PLoS One, 2013, 8(3): e58700.
[16] BROMAN K W, GATTI D M, SIMECEK P, et al. R/qtl2: software for mapping quantitative trait loci with high-dimensional data and multiparent populations[J]. Genetics, 2019, 211(2): 495-502.
[17] GARCIA D K, DHAR A K, ALCIVAR-WARREN A. Molecular analysis of a RAPD marker (B20) reveals two microsatellites and differential mRNA expression in[J]. Molecular Marine Biology and Biotechnology, 1996, 5(1): 71-83.
[18] PéREZ F, ORTIZ J, ZHINAULA M, et al. Development of EST-SSR markers by data mining in three species of shrimp:,, andbirdy[J]. Marine Biotechnology (New York, N Y), 2005, 7(5): 554-569.
[19] ANDRIANTAHINA F, LIU X L, HUANG H. Genetic map construction and quantitative trait locus (QTL) detection of growth-related traits infor selective breeding applications[J]. PLoS One, 2013, 8(9): e75206.
[20] ZHANG L S, YANG C J, ZHANG Y, et al. A genetic linkage map of Pacific white shrimp (): sex-linked microsatellite markers and high recombination rates[J]. Genetica, 2007, 131(1): 37-49.
[21] YU Y, ZHANG X, YUAN J, et al. Genome survey and high-density genetic map construction provide genomic and genetic resources for the Pacific White Shrimp[J]. Scientific Reports, 2015, 5: 15612.
[22] GONZáLEZ-RECIO O, WEIGEL K A, GIANOLA D, et al. L2-Boosting algorithm applied to high-dimensional problems in genomic selection[J]. Genetics Research, 2010, 92(3): 227-237.
[23] YAO C, SPURLOCK D M, ARMENTANO L E, et al. Random Forests approach for identifying additive and epistatic single nucleotide polymorphisms associated with residual feed intake in dairy cattle[J]. Journal of Dairy Science, 2013, 96(10): 6716-6729.
[24] EHRET A, HOCHSTUHL D, GIANOLA D, et al. Application of neural networks with back-propagation to genome-enabled prediction of complex traits in Holstein-Friesian and German Fleckvieh cattle[J]. Genetics, Selection, Evolution: GSE, 2015, 47(1): 22.
Prediction of Breeding Value of Molecular Markers inUsing Artificial Neural Network
YANG Qiong, LIU Qing-yun, LI Qiang-yong, PENG Min, YANG Chun-ling, TONG Yan-mei, ZENG Di-gang,CHEN Xiu-li,CHEN Xiao-han, ZHAO Yong-zhen
(/,530021,)
【】To explore the feasibility of the back propagation artificial neural network (BPANN) algorithm for predicting the breeding value of molecular markers,【】High-throughput sequencing technology was used to perform specific length amplified fragment sequencing (SLAF-seq) on 284 F1 generation ofand their parents, and the QTL genotype and weight data of 200 shrimp samples were randomly selected to construct a BPANN prediction model. The model was used to respectively predict the weight traits of the remaining 84 shrimps.【】A high-density single nucleotide polymorphism (SNP) genetic linkage map was constructed, and 6 weight-related QTLs were identified, and used to predict breeding values by the BPANN. The average error of the breeding value predicted by the BPANN prediction model was 0.032 0 ± 0.006 4, which was lower than the average error value of the Bayesian linear regression model (0.046 2 ± 0.005 6).【】The BPANN algorithm has a good effect on predicting the breeding value of molecular markers in.
artificial neural network;; molecular marker; breeding value
楊瓊,劉青云,李強勇,等. 基于人工神經網絡的凡納濱對蝦分子標記育種值預測[J]. 廣東海洋大學學報,2022,42(3):122-126.
Q959.223+.633
A
1673-9159(2022)03-0122-05
10.3969/j.issn.1673-9159.2022.03.016
2021-11-09
廣西創新驅動發展專項資金項目(桂科AA17204080);國家現代農業產業技術體系廣西創新團隊建設任務書(nycytxgxcxtd-14-01);國家蝦產業技術體系建設任務書(CARS-48)
楊瓊(1968―),女,學士,高級工程師,主要研究方向為科技管理。E-mail: 421059417 @qq.com
趙永貞(1978―),男,博士,研究員,研究方向為水產遺傳育種。E-mail:fisher1152002@126.com。
(責任編輯:劉慶穎)