999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因型特征提取方法影響基因組選擇預(yù)測(cè)準(zhǔn)確性的研究

2024-09-22 00:00:00吳華煊杜志強(qiáng)
畜牧獸醫(yī)學(xué)報(bào) 2024年6期
關(guān)鍵詞:特征提取

摘 要:旨在探索并評(píng)估6種不同的單核苷多態(tài)性(single nucleotide polymorphisms,SNP)基因型特征提取方法。本研究分析比較了6種方法:主成分分析(principal component analysis,PCA)、基因主成分分析(gene-principal component analysis,gene-PCA)、SNP位點(diǎn)間皮爾遜相關(guān)系數(shù)(SNP-pearson correlation coefficient,SNP-PCC)、連鎖不平衡(linkage disequilibrium,LD)、全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)和隨機(jī)抽樣(random sampling,RS),在兩組數(shù)據(jù)(北京鴨,542個(gè)樣本,SNP位點(diǎn)數(shù)39932;杜洛克豬,2549個(gè)樣本,SNP位點(diǎn)數(shù)230884)3組表型(北京鴨體長(zhǎng)(body length)、杜洛克豬背膘厚(backfat thickness)和乳頭數(shù)(teat number))上的GEBV預(yù)測(cè)準(zhǔn)確率。發(fā)現(xiàn)SNP-PCC結(jié)合5種GS方法(GBLUP、BayesA、BayesB、BayesC、Bayesian Lasso),在北京鴨數(shù)據(jù)獲得相對(duì)可靠的預(yù)測(cè)精度,在豬背膘厚和乳頭數(shù)表型獲得最高平均預(yù)測(cè)準(zhǔn)確性(提升5%,達(dá)到32.3%),并顯著提升計(jì)算效率(平均提升5~7倍)。綜上,本研究發(fā)現(xiàn)選擇合適的特征提取方法可以有效提升GS的預(yù)測(cè)準(zhǔn)確性和計(jì)算效率,為深入研究不同特征提取方法對(duì)GS預(yù)測(cè)準(zhǔn)確性的影響奠定了基礎(chǔ),并為其在育種實(shí)踐中應(yīng)用提供了參考。

關(guān)鍵詞:基因組選擇;特征提取;預(yù)測(cè)準(zhǔn)確性

中圖分類號(hào):S813.1

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):0366-6964(2024)06-2431-10

收稿日期:2023-11-08

基金項(xiàng)目:安徽省畜禽聯(lián)合育種改良項(xiàng)目(2021-2025)

作者簡(jiǎn)介:吳華煊(1998-),男,江西上饒人,碩士生,主要從事動(dòng)物遺傳育種研究,E-mail:2021710855@yangtzeu.edu.cn

*通信作者:杜志強(qiáng),主要從事動(dòng)物遺傳育種與繁殖研究,E-mail:zhqdu@yangtzeu.edu.cn

Methods of Genotype Feature Extraction InfluenceAffecting the Prediction

Accuracy of Genomic Selection

WUHuaxuan,DUZhiqiang*

(College of Animal Science and Technology,Yangtze University,Jingzhou434025,China)

Abstract:The purpose of this study was to explore and evaluate6different methods for extracting genotype feature of single nucleotide polymorphisms(SNP).Six methods were analyzed and compared:principal component analysis(PCA),gene-principal component analysis(gene-PCA),SNP-Pearson correlation coefficient(SNP-PCC),linkage disequilibrium(LD),and genome-wide association study(GWAS)and random sampling(RS).The prediction accuracy of GEBV in2sets of data(Beijing duck,542samples,SNP loci39932; Duroc pig,2549samples,SNP loci230884)and3sets of phenotypes(Beijing duck body length,Duroc pig backfat thickness and teat number)was evaluated using random sampling.Results showed that SNP-PCC combined with5GS methods(GBLUP,BayesA,BayesB,BayesC,and Bayesian Lasso)achieved relatively reliable prediction accuracy for the Pecking duck body length phenotype and achieved the highest average prediction accuracy in pig backfat thickness and nipple countteat number phenotypes(increased by5%,reaching32.3%),and significantly improved computational efficiency(on average5-7times faster).In summary,this study found that selecting appropriate feature extraction methods can effectively improve the accuracy and computational efficiency of GS prediction,laying the foundation for in-depth research on the impact of different feature extraction methods on GS prediction accuracy,and providing reference for their application in breeding practice.

Key words:genomic selection; feature extraction; prediction accuracy

*Corresponding author:DU Zhiqiang,E-mail:zhqdu@yangtzeu.edu.cn

基因組選擇(GS)是現(xiàn)代動(dòng)植物遺傳育種和基因組學(xué)研究中的重要領(lǐng)域之一[1]。GS旨在分析高通量基因組學(xué)和表型數(shù)據(jù)如單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)等遺傳變異標(biāo)記,計(jì)算個(gè)體基因估計(jì)育種值(GEBV),以期縮短世代間隔,提高動(dòng)植物的遺傳改良效率,加快選育進(jìn)展[2-6]。計(jì)算GEBV的常用方法如最小二乘法、嶺回歸-最佳線性無(wú)偏預(yù)測(cè)(ridge regression best linear unbiased prediction,RR-BLUP)、貝葉斯(Bayesian)方法等主要用于估計(jì)等位基因的遺傳效應(yīng)[3]。此外,基因型數(shù)據(jù)的特征選擇或提取(feature selection or extraction)會(huì)構(gòu)建出不同的基因組關(guān)系矩陣(GRM),從而影響GEBV的準(zhǔn)確性,例如基因組最佳線性無(wú)偏預(yù)測(cè)(genomic best linear unbiased prediction,GBLUP)通過(guò)比較個(gè)體間SNP的等位基因相似度來(lái)構(gòu)建GRM矩陣[7]

隨著基因組重測(cè)序技術(shù)的發(fā)展和成熟,高維基因組學(xué)數(shù)據(jù)統(tǒng)計(jì)分析成為了GS中的一個(gè)核心問(wèn)題。已有研究表明,基因組學(xué)數(shù)據(jù)的特征提取不僅可以提高預(yù)測(cè)的準(zhǔn)確性,還可以加快計(jì)算速度和效率[8-10]。機(jī)器學(xué)習(xí)方法在特征提取和基因組選擇中存在著潛在優(yōu)勢(shì),如復(fù)雜數(shù)據(jù)模式識(shí)別和處理能力[11-13]。然而,如何構(gòu)建一種簡(jiǎn)單且高效的特征提取方法,提高GS的預(yù)測(cè)準(zhǔn)確性仍有待深入研究[13-16]

本研究聚焦于探索并評(píng)估針對(duì)基因型數(shù)據(jù)的特征提取技術(shù),旨在構(gòu)建一個(gè)既準(zhǔn)確又高效的GS方法。研究結(jié)果將為進(jìn)一步算法開發(fā),并應(yīng)用于動(dòng)物育種實(shí)踐奠定基礎(chǔ)。

1 材料與方法

1.1 數(shù)據(jù)來(lái)源

本研究選擇兩批數(shù)據(jù)共3組表型,分別為北京金鴨有限公司提供的北京鴨(使用相同的飼料喂養(yǎng),保持相同的光照條件)[17],和中國(guó)農(nóng)業(yè)大學(xué)提供的杜洛克豬數(shù)據(jù)[18]。北京鴨數(shù)據(jù)包含542個(gè)樣本,表型為體長(zhǎng)(body length)。豬數(shù)據(jù)包含2549個(gè)樣本,共計(jì)兩組表型:背膘厚(backfat thickness)和乳頭數(shù)(teat number)。

使用PLINIK(v1.90b6.21)對(duì)數(shù)據(jù)進(jìn)行初步質(zhì)控:-mind和-geno參數(shù)設(shè)定為0.02過(guò)濾掉基因型缺失率為大于2%的個(gè)體和SNP位點(diǎn);-maf=0.05過(guò)濾掉最小等位基因(minor allele frequency,MAF)小于0.05的位點(diǎn);-hwe=1×10-4過(guò)濾哈迪-溫伯格(Hardy-Weinberg)平衡檢驗(yàn)中P值小于1×10-4的SNPs;最后使用Beagle(v5.2)填充缺失基因型。

1.2 特征提取

特征提取是數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要概念,目的是將高維、復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為低維形式,同時(shí)保留重要的數(shù)據(jù)特性。通過(guò)特征提取,可以降低計(jì)算復(fù)雜度、減少噪音對(duì)模型的影響,并提高算法的效率和性能[19]

本研究包括以下6種特征提取的方法:主成分分析(PCA)、基因PCA(Gene-PCA)、SNP位點(diǎn)皮爾遜相關(guān)系數(shù)(SNP-PCC)、連鎖不平衡(LD)、全基因組關(guān)聯(lián)分析(GWAS)和隨機(jī)抽樣(RS)。

1.2.1 PCA

PCA首先計(jì)算數(shù)據(jù)的協(xié)方差矩陣,然后找到協(xié)方差矩陣的特征值和對(duì)應(yīng)的特征向量。選擇具有最大特征值(即最大方差)的前k個(gè)特征向量。并利用這些特征向量將原始數(shù)據(jù)矩陣轉(zhuǎn)換到一個(gè)新的空間中,從而完成降維。

1.2.2 基因PCA

基因PCA是PCA中專門用于基因數(shù)據(jù)的變種。這些數(shù)據(jù)通常是一個(gè)矩陣,行代表不同的樣本,列代表不同的位點(diǎn),元素是對(duì)應(yīng)位點(diǎn)上的基因型。

本次研究基于機(jī)器學(xué)習(xí)庫(kù)scikit-learn[20](1.1.3)構(gòu)建PCA和Gene-PCA算法。

1.2.3 SNP位點(diǎn)皮爾遜相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)是用于計(jì)算兩組變量之間線性關(guān)系的統(tǒng)計(jì)方法。PCC的取值在-1到1之間,具有以下含義:PCC等于1時(shí)表示兩組變量呈現(xiàn)完全正相關(guān);PCC等于-1時(shí)表示兩組變量之間完全負(fù)相關(guān);PCC等于0則表示兩組變量間不存在線性相關(guān)性。本次研究編寫Python(3.8.0)代碼計(jì)算兩個(gè)SNPs位點(diǎn)之間的相關(guān)性,如果大于0.8,即兩個(gè)SNPs位點(diǎn)間呈現(xiàn)強(qiáng)正相關(guān),則只保留其中一個(gè)位點(diǎn):

PCC(X,Y)=∑ni=1(Xi-X-)(Yi-Y-)∑ni=1(Xi-X-)2ni=1(Yi-Y-)2

其中,Xi、Yi是第i個(gè)元素的觀察值,X-、Y-分別是X、Y的均值。

1.2.4 連鎖不平衡

連鎖不平衡是遺傳學(xué)和基因組學(xué)領(lǐng)域的一個(gè)重要概念[21],描述了兩個(gè)或多個(gè)基因座(基因的位置)之間的非隨機(jī)關(guān)聯(lián)性。使用LD進(jìn)行特征提取的步驟主要如下:1)數(shù)據(jù)集準(zhǔn)備,準(zhǔn)備包含經(jīng)過(guò)初步質(zhì)控的多個(gè)個(gè)體的SNP矩陣,并對(duì)不同的基因型進(jìn)行重編碼(A/A、A/a、a/A、a/a編碼后為0、1、1、2);2)計(jì)算LD,使用r2來(lái)度量SNPs位點(diǎn)之間的LD。D和r2被用于量化兩個(gè)位點(diǎn)(假設(shè)為雙等位基因)的連鎖不平衡(LD):

D=PAiBi-PAi*PBi

r2=D2PAi(1-PAi)PBi(1-PBi

其中,PAi、PBi及PAiBi分別代表在基因座A與B上的第i、j等位基因和PAiBi單倍型的頻率。通常更傾向使用r2而非D,因?yàn)镈可能為負(fù)數(shù)[22-24];3)設(shè)定LD的閾值篩選,常見(jiàn)的LD閾值在0.7~0.9之間,本次研究所選取的LD閾值為0.8,即兩個(gè)SNP位點(diǎn)之間的r2值大于0.8被認(rèn)為存在強(qiáng)烈的LD關(guān)聯(lián),只保留其中一個(gè)位點(diǎn)。

1.2.5 GWAS

GWAS用于鑒定與特定表型特征或疾病相關(guān)的遺傳變異,因此可以作為特征選取的一種方法。本研究基于GCTA線性混合模型,進(jìn)行GWAS特征選取:

y=Xb+Zu+e

其中,y表示表型向量;X表示固定效應(yīng)矩陣;b表示固定效應(yīng)回歸系數(shù)向量;Z表示隨機(jī)效應(yīng)矩陣;u表示SNP位點(diǎn)隨機(jī)效應(yīng)向量,符合正態(tài)分布u~N(0,G),其中,G為隨機(jī)效應(yīng)協(xié)方差矩陣;e為隨機(jī)殘差,遵循正態(tài)分布e~N(0,Iσ2e)。

1.2.6 隨機(jī)抽樣

與其他特征提取方法相比,隨機(jī)抽樣更加簡(jiǎn)單和直觀,不需要進(jìn)行相關(guān)計(jì)算,從而減少分析的復(fù)雜性。此方法適用于初步的探索性分析:當(dāng)研究者不確定哪些位點(diǎn)最有價(jià)值或希望避免主觀選擇時(shí),隨機(jī)抽樣可以提供一個(gè)廣泛的數(shù)據(jù)視角,進(jìn)而找到可能值得關(guān)注的位點(diǎn)。此外,隨機(jī)抽樣還可以作為一個(gè)基準(zhǔn),與其他特征提取方法進(jìn)行對(duì)比,驗(yàn)證這類方法的有效性。

1.3 基因組選擇方法

本次研究采用的基因組選擇方法包括GBLUP、BayesA、BayesB、BayesC和Bayesian Lasso。

GBLUP[25]是基因組選擇領(lǐng)域中的一個(gè)經(jīng)典方法,最早用于家畜遺傳改良。其關(guān)鍵思想是將基因組數(shù)據(jù)與表型性狀進(jìn)行線性組合,用以估計(jì)個(gè)體的遺傳值:

y=Xb+Zu+e

其中,y為性狀向量,X為固定效應(yīng)矩陣,b為固定效應(yīng)系數(shù),Z為SNP位點(diǎn)矩陣,u為隨機(jī)效應(yīng),e為隨機(jī)殘差。GBLUP使用線性模型來(lái)估計(jì)個(gè)體的遺傳值。基因效應(yīng)u被視為隨機(jī)效應(yīng),其分布通常假定為多變量正態(tài)分布。

BayesA使用貝葉斯方法來(lái)估計(jì)每個(gè)SNP位點(diǎn)的效應(yīng)α。與GBLUP不同,BayesA允許不同位點(diǎn)的效應(yīng)不同,因此具有更大的靈活性:

y=Xb+Zα+e

BayesB類似于BayesA,但BayesB引入了稀疏性先驗(yàn),鼓勵(lì)某些位點(diǎn)的效應(yīng)為零。因而,BayesB可以進(jìn)行位點(diǎn)選擇,確定哪些位點(diǎn)對(duì)性狀具有顯著影響:

y=Xb+∑Ni=1Ziαi+e

其中,Zi為SNP位點(diǎn)的設(shè)計(jì)矩陣;αi為每個(gè)SNP位點(diǎn)的效應(yīng)。

BayesC的效應(yīng)參數(shù)αi包括了一個(gè)均勻分布,進(jìn)一步強(qiáng)調(diào)了稀疏性,從而更傾向于將部分位點(diǎn)的效應(yīng)值推向零[26]

y=Xb+∑Ni=1Ziαi+e

Bayesian Lasso通過(guò)后驗(yàn)分布來(lái)估計(jì)參數(shù)向量β的后驗(yàn)概率,進(jìn)而確定哪些特征對(duì)性狀具有顯著影響,哪些特征對(duì)性狀影響較小或沒(méi)有影響。此過(guò)程通常使用貝葉斯推斷方法,如馬爾科夫鏈蒙特卡羅(Markov chain monte Carlo,MCMC)采樣來(lái)實(shí)現(xiàn)。根據(jù)后驗(yàn)分布,得到特征的后驗(yàn)概率,從而進(jìn)行特征選擇:

y=Xβ+e

β表示特征系數(shù)。Bayesian Lasso引入了L1正則化項(xiàng),鼓勵(lì)參數(shù)向量β中的某些系數(shù)為零,從而實(shí)現(xiàn)稀疏性。具體表示為:

本研究使用R語(yǔ)言中的BGLR包(v1.1.0)計(jì)算基因組估計(jì)育種值[27]

1.4 模型評(píng)估

選取皮爾遜相關(guān)系數(shù)(PCC)和均方誤差(mean squared error,MSE)評(píng)估預(yù)測(cè)精度。MSE是一種常用的統(tǒng)計(jì)度量,用于衡量一個(gè)估計(jì)值或模型預(yù)測(cè)誤差的平均平方值:

MSE=1n∑ni=1(yi-y^i2

計(jì)算真實(shí)值yi與預(yù)測(cè)值y^i之間差的平方,最后計(jì)算平均值。MSE值越小,表示模型的預(yù)測(cè)越接近實(shí)際觀測(cè)值,從而越準(zhǔn)確。

1.5 交叉驗(yàn)證

為了評(píng)估模型的泛化能力,采用10次10折交叉驗(yàn)證(10-fold cross-validation)。交叉驗(yàn)證(cross-validation)是一種模型驗(yàn)證技術(shù),首先將數(shù)據(jù)集劃分為10個(gè)子集,選取9個(gè)子集作為訓(xùn)練數(shù)據(jù)(參考群體)來(lái)訓(xùn)練模型,剩下的1個(gè)子集用作驗(yàn)證數(shù)據(jù)(候選群體),驗(yàn)證模型預(yù)測(cè)準(zhǔn)確性,重復(fù)10次。每次選擇1個(gè)不同的子集作為驗(yàn)證數(shù)據(jù),確保所有樣本都被用于驗(yàn)證。最后取10次驗(yàn)證結(jié)果的平均值并計(jì)算標(biāo)準(zhǔn)差[19]

2 結(jié) 果

2.1 特征提取

對(duì)這3組表型進(jìn)行初步統(tǒng)計(jì),結(jié)果見(jiàn)表1,表型均值分別為51.30、10.91、10.72,最大值分別為58.00、19.70、15.00,最小值分別為42.00、5.48、8.00。統(tǒng)計(jì)表型的均值分布頻率,結(jié)果見(jiàn)圖1,可見(jiàn)基本遵循正態(tài)分布,說(shuō)明樣本具有較好的代表性。GWAS分析的曼哈頓圖結(jié)果見(jiàn)圖2。

兩批數(shù)據(jù)的5種特征提取結(jié)果見(jiàn)表2。由表2可知PCA和Gene-PCA保留了較少的SNPs位點(diǎn),LD和SNP-PCC保留的位點(diǎn)數(shù)相似。

2.2 預(yù)測(cè)精確度對(duì)比

所有結(jié)果見(jiàn)圖3。北京鴨體長(zhǎng)性狀,基于GWAS的Bayesian Lasso方法,達(dá)到了0.531的相關(guān)性,預(yù)測(cè)準(zhǔn)確度最高。豬背膘厚,最好結(jié)果是SNP-PCC方法,結(jié)合Bayesian Lasso達(dá)到了0.392的相關(guān)性。豬乳頭數(shù),結(jié)合GBLUP的PCA方法,和基于SNP-PCC的Bayesian Lasso,分別達(dá)到0.339和0.338的相關(guān)性。

表3詳細(xì)列出了每種特征提取方法在3組表型上的平均預(yù)測(cè)精度。結(jié)果表明,北京鴨體長(zhǎng)表型,基于GWAS方法篩選后具有最高的預(yù)測(cè)精度,平均PCC達(dá)到了0.484,但是平均MSE卻為最高值8.701。豬的兩組表型,SNP-PCC都有最高的預(yù)測(cè)精度,相比未經(jīng)特征提取數(shù)據(jù),分別提高了約7.3%和3.1%的預(yù)測(cè)精度。LD方法的預(yù)測(cè)精度僅比SNP-PCC低約1%。SNP-PCC、LD和PCA三者在豬乳頭數(shù)表型上的預(yù)測(cè)精度在標(biāo)準(zhǔn)差范圍內(nèi)。與未經(jīng)特征提取相比,預(yù)測(cè)精度提高了3%~8%。而表現(xiàn)最差的方法為Gene-PCA,平均相關(guān)性不到20%。

2.3 基準(zhǔn)測(cè)試分析

基因組學(xué)數(shù)據(jù)量通常特別龐大,對(duì)計(jì)算性能有很高的要求。為比較不同的特征提取方法在處理這些數(shù)據(jù)時(shí)的性能表現(xiàn),引入基準(zhǔn)測(cè)試分析(benchmark analysis)評(píng)估[28-30]

本研究服務(wù)器配置為:CPU四顆(Intel(R)Xeon(R)CPU E7-4820v4@2.00GHz),共計(jì)80個(gè)線程,1TB運(yùn)行內(nèi)存。對(duì)單次計(jì)算所耗時(shí)間進(jìn)行基準(zhǔn)測(cè)試分析和統(tǒng)計(jì)(表4)。結(jié)果顯示,計(jì)算時(shí)間與位點(diǎn)數(shù)量呈正相關(guān)。位點(diǎn)越多,計(jì)算所消耗的時(shí)間越長(zhǎng)[14]。SNP-PCC方法,其計(jì)算效率可接受,并獲得了最高的預(yù)測(cè)準(zhǔn)確度。Gene-PCA方法,雖然計(jì)算時(shí)間最快,但預(yù)測(cè)準(zhǔn)確度最差。PCA方法,其計(jì)算時(shí)間與Gene-PCA相近。LD方法,雖然預(yù)測(cè)準(zhǔn)確度略低于SNP-PCC方法,但是所需計(jì)算時(shí)間卻是SNP-PCC的1.6倍。

3 討 論

PCA在GWAS和GS中廣泛應(yīng)用[31-34]。盡管本研究表明該方法在GS中具有一定的有效性,但預(yù)測(cè)精度缺乏穩(wěn)定性。這一結(jié)果與Elhaik發(fā)現(xiàn)[35]的研究結(jié)果一致,他發(fā)現(xiàn)PCA在可靠性、穩(wěn)健性和復(fù)現(xiàn)性都存在問(wèn)題,原因在于PCA是一種數(shù)學(xué)變換,而未能考慮基因之間的復(fù)雜互作。因此,僅依賴PCA可能導(dǎo)致結(jié)果不穩(wěn)定,建議在后續(xù)研究中謹(jǐn)慎選擇PCA方法。

Gene-PCA方法相較于其他方法的表現(xiàn)較為不佳,可能原因如下:1)信息平衡:Gene-PCA在強(qiáng)化基因間的相關(guān)性時(shí),可能使得特定基因的變異性受到忽視;2)基因間的互作:Gene-PCA強(qiáng)調(diào)基因組內(nèi)的關(guān)系,但在某些情況下,基因間的互作或通路級(jí)的相互作用可能更加關(guān)鍵。因此簡(jiǎn)單地考慮基因級(jí)別的變異性可能不足以捕捉這些更為復(fù)雜的互作。3)數(shù)據(jù)預(yù)處理與規(guī)范化:不同的PCA方法可能需要不同的數(shù)據(jù)預(yù)處理步驟。如果Gene-PCA的數(shù)據(jù)預(yù)處理與常規(guī)PCA有差異,這可能對(duì)其最終的預(yù)測(cè)結(jié)果造成影響。

LD-adjusted kinship(LDAK)和LD-stratified multicomponent(LDS)兩種模型提出[36]可解決基因組上LD異質(zhì)性導(dǎo)致的GS預(yù)測(cè)精度問(wèn)題。而且發(fā)現(xiàn)LDS模型可以有效消除區(qū)域間LD的異質(zhì)性,提高GS預(yù)測(cè)精度,這與本研究結(jié)果一致。但是,LD主要考慮位點(diǎn)之間的兩兩關(guān)聯(lián),可能無(wú)法捕捉多個(gè)位點(diǎn)之間的復(fù)雜互作[37]

SNP-PCC方法的高預(yù)測(cè)精確度,可能原因如下:1)該方法通過(guò)評(píng)估位點(diǎn)間的相關(guān)性,能夠捕捉到多個(gè)位點(diǎn)之間的互作效應(yīng),可能對(duì)表型具有重要影響。2)通過(guò)考慮相關(guān)性,該方法能反映位點(diǎn)如何在不同的生物學(xué)途徑和網(wǎng)絡(luò)中共同作用,共同影響遺傳特性。這意味著它不僅能夠識(shí)別對(duì)表型有顯著影響的關(guān)鍵位點(diǎn),還能揭示這些位點(diǎn)在生物學(xué)過(guò)程中的作用機(jī)制和相互依賴性[38]。3)該方法不依賴于特定的遺傳模型或生物學(xué)假設(shè),因此具有較高的靈活性和通用性,能廣泛應(yīng)用于不同性狀的遺傳預(yù)測(cè)和多物種之間的比較研究。

GWAS方法,在北京鴨體長(zhǎng)上平均PCC最高,但其平均MSE也最高,表明預(yù)測(cè)值和實(shí)際觀測(cè)表型之間線性關(guān)聯(lián)程度較高,但兩者之間實(shí)際誤差卻較大。基因組選擇僅使用PCC作為評(píng)估指標(biāo)是片面的,需要結(jié)合MSE一起評(píng)估[39]。豬背膘厚的GWAS與SNP-PCC結(jié)果幾乎一致,而乳頭數(shù)的GWAS結(jié)果,相比SNP-PCC與LD等方法表現(xiàn)最差。究其原因,可能是GWAS通過(guò)設(shè)定遺傳模型來(lái)尋找位點(diǎn)與表型之間的關(guān)聯(lián)程度,而且主要考慮具有顯著加性效應(yīng)的位點(diǎn)。然而,復(fù)雜表型受到顯性效應(yīng)和互作效應(yīng)的影響,其遺傳模式通常未知,若簡(jiǎn)單以GWAS來(lái)篩選具有加性效應(yīng)的位點(diǎn)并應(yīng)用于GS,可能不是最佳選擇方案[8]

研究表明減少構(gòu)建GRM的SNPs數(shù)量可以提高預(yù)測(cè)精度[8-10]。如Akbarzadeh等[8]選取10%SNPs位點(diǎn),其預(yù)測(cè)結(jié)果優(yōu)于使用全部位點(diǎn)。可能是由于減少了過(guò)度擬合的風(fēng)險(xiǎn),而且模型可以更好地泛化到新數(shù)據(jù)[40]。然而,選擇的SNP位點(diǎn)不應(yīng)過(guò)少,只有當(dāng)數(shù)量足夠而且恰當(dāng)時(shí),其精度才能超越使用全部位點(diǎn)的方法[8-9]。這也解釋了為什么使用隨機(jī)抽樣方法也能獲得不錯(cuò)的預(yù)測(cè)精度。

使用所有位點(diǎn)時(shí)預(yù)測(cè)準(zhǔn)確度反而較低[26,40-41],可能是因?yàn)槠渲杏性S多位點(diǎn)與目標(biāo)表型的關(guān)聯(lián)性較弱或不存在。包含這些位點(diǎn)將引入噪聲,從而降低預(yù)測(cè)準(zhǔn)確性。此外,沒(méi)有考慮復(fù)雜的基因間互作,特別是非加性效應(yīng)。即使表現(xiàn)較好的SNP-PCC方法,也可能無(wú)法捕獲基因與環(huán)境間的非線性互作。如何將非線性方法(機(jī)器學(xué)習(xí))與SNP-PCC方法相融合將是下一步的主要研究方向之一。

4 結(jié) 論

通過(guò)評(píng)估6種特征提取方法在GS中的應(yīng)用,本研究發(fā)現(xiàn)SNP-PCC方法表現(xiàn)最佳,在所有數(shù)據(jù)上其計(jì)算效率提升了5~7倍。在北京鴨數(shù)據(jù)獲得最低的MSE。在豬背膘厚和乳頭數(shù)平均基因組育種值預(yù)測(cè)準(zhǔn)確度高達(dá)32.3%,相較于每個(gè)方法平均值提升大約5%。研究該結(jié)果為深入研究不同特征提取方法對(duì)GS預(yù)測(cè)準(zhǔn)確性的影響奠定了基礎(chǔ),并為其在育種實(shí)踐中的應(yīng)用提供了參考。

參考文獻(xiàn)(References):

[1]MEUWISSEN TH E,HAYES BJ,GODDARD ME.Prediction of total genetic value using genome-wide dense marker maps[J].Genetics,2001,157(4):1819-1829.

[2]OSTERSEN T,CHRISTENSEN OF,HENRYON M,et al.Deregressed EBV as the response variable yield more reliable genomic predictions than traditional EBV in pure-bred pigs[J].Genet Sel Evol,2011,43(1):38.

[3]ZHAO YS,GOWDA M,LIU WX,et al.Accuracy of genomic selection in European maize elite breeding populations[J].Theor Appl Genet,2012,124(4):769-776.

[4]LIU TF,QU H,LUO CL,et al.Genomic selection for the improvement of antibody response to Newcastle disease and avian influenza virus in chickens[J].PLoS One,2014,9(11):e112685.

[5]BEYENE Y,SEMAGN K,MUGO S,et al.Genetic gains in grain yield through genomic selection in eight Bi-parental maize populations under drought stress[J].Crop Sci,2015,55(1):154-163.

[6]PALAIOKOSTAS C,F(xiàn)ERRARESSO S,F(xiàn)RANCH R,et al.Genomic prediction of resistance to pasteurellosis in gilthead sea bream(Sparus aurata)using2b-RAD sequencing[J].G3(Bethesda),2016,6(11):3693-3700.

[7]MEUWISSEN TH.Accuracy of breeding values of'unrelated'individuals predicted by dense SNP genotyping[J].Genet Sel Evol,2009,41(1):35.

[8]AKBARZADEH M,DEHKORDI SR,ROUDBAR MA,et al.GWAS findings improved genomic prediction accuracy of lipid profile traits:tehran cardiometabolic genetic study[J].Sci Rep,2021,11(1):5780.

[9]LI B,ZHANG NX,WANG YG,et al.Genomic prediction of breeding values using asubset of SNPs identified by three machine learning methods[J].Front Genet,2018,9:237.

[10]PILES M,BERGSMA R,GIANOLA D,et al.Feature selection stability and accuracy of prediction models for genomic prediction of residual feed intake in pigs using machine learning[J].Front Genet,2021,12:611506.

[11]TORADA L,LORENZON L,BEDDIS A,et al.ImaGene:a convolutional neural network to quantify natural selection from genomic data[J].BMC Bioinformatics,2019,20(Suppl9):337.

[12]王萬(wàn)年,陳思佳,郜金榮,等.基于多層感知機(jī)的綿羊限性性狀基因組選擇模擬研究[J].畜牧獸醫(yī)學(xué)報(bào),2023,54(7):2824-2835.

WANG WN,CHEN SJ,GAO JR,et al.Simulation study on genomic selection of sex-limited traits using multilayer perceptron in sheep[J].Acta Veterinaria et Zootechnica Sinica,2023,54(7):2824-2835.(in Chinese)

[13]丁紀(jì)強(qiáng),李慶賀,張高猛,等.比較機(jī)器學(xué)習(xí)等算法對(duì)肉雞產(chǎn)蛋性狀育種值估計(jì)的準(zhǔn)確性[J].畜牧獸醫(yī)學(xué)報(bào),2022,53(5):1364-1372.

DING JQ,LI QH,ZHANG GM,et al.Comparing the accuracy of estimated breeding value by several algorithms on laying traits in broilers[J].Acta Veterinaria et Zootechnica Sinica,2022,53(5):1364-1372.(in Chinese)

[14]AZODI CB,BOLGER E,MCCARREN A,et al.Benchmarking parametric and machine learning models for genomic prediction of complex traits[J].G3(Bethesda),2019,9(11):3691-3702.

[15]WANG KQ,YANG B,LI Q,et al.Systematic evaluation of genomic prediction algorithms for genomic prediction and breeding of aquatic animals[J].Genes(Basel),2022,13(12):2247.

[16]XIANG T,LI T,LI JL,et al.Using machine learning to realize genetic site screening and genomic prediction of productive traits in pigs[J].FASEB J,2023,37(6):e22961.

[17]DENG MT,ZHU F,YANG YZ,et al.Genome-wide association study reveals novel loci associated with body size and carcass yields in Pekin ducks[J].BMC Genomics,2019,20(1):1.

[18]TAN C,WU ZF,REN JL,et al.Genome-wide association study and accuracy of genomic prediction for teat number in Duroc pigs using genotyping-by-sequencing[J].Genet Sel Evol,2017,49(1):35.

[19]GOODFELLOW I,BENGIO Y,COURVILLE A.Deep learning[M].Cambridge:The MIT Press,2016.

[20]PEDREGOSA F,VAROQUAUX G,GRAMFORT A,et al.Scikit-learn:machine learning in Python[J].J Mach Learn Res,2011,12:2825-2830.

[21]SLATKIN M.Linkage disequilibrium-understanding the evolutionary past and mapping the medical future[J].Nat Rev Genet,2008,9(6):477-485.

[22]HILL WG,ROBERTSON A.Linkage disequilibrium in finite populations[J].Theor Appl Genet,1968,38(6):226-231.

[23]HILL WG,MACKAY TF C.D.S.Falconer and introduction to quantitative genetics[J].Genetics,2004,167(4):1529-1536.

[24]SVED JA,HILL WG.One hundred years of linkage disequilibrium[J].Genetics,2018,209(3):629-636.

[25]HENDERSON CR.Best linear unbiased estimation and prediction under aselection model[J].Biometrics,1975,31(2):423-447.

[26]HABIER D,F(xiàn)ERNANDO RL,KIZILKAYA K,et al.Extension of the Bayesian alphabet for genomic selection[J].BMC Bioinformatics,2011,12:186.

[27]PéREZ P,DE LOS CAMPOS G.Genome-wide regression and prediction with the BGLR statistical package[J].Genetics,2014,198(2):483-495.

[28]GRE?OVáK,MARTINEK V,?ECHáK D,?IME?EK P,ALEXIOU Pet al.Genomic benchmarks:a collection of datasets for genomic sequence classification.BMC Genom Data,2023,24(1):1-25.

[29]LUECKEN MD,BüTTNER M,CHAICHOOMPU K,et al.Benchmarking atlas-level data integration in single-cell genomics[J].Nature methods,2022,19(1):41-50.

[30]LI Y,MANSMANN U,DU S,HORNUNG Ret al.Benchmark study of feature selection strategies for multi-omics data.BMC Bioinformatics,2022,23(1):412.

[31]PRICE AL,PATTERSON NJ,PLENGE RM,et al.Principal components analysis corrects for stratification in genome-wide association studies[J].Nat Genet,2006,38(8):904-909.

[32]BEHAR DM,YUNUSBAYEV B,METSPALU M,et al.The genome-wide structure of the Jewish people[J].Nature,2010,466(7303):238-242.

[33]ATZMON G,HAO L,PE′ER I,et al.Abraham′s children in the genome era:major Jewish diaspora populations comprise distinct genetic clusters with shared Middle eastern Ancestry[J].Am JHum Genet,2010,86(6):850-859.

[34]CAMPBELL CL,PALAMARA PF,DUBROVSKY M,et al.North African Jewish and non-Jewish populations form distinctive,orthogonal clusters[J].Proc Natl Acad Sci US A,2012,109(34):13865-13870.

[35]ELHAIK E.Principal component analyses(PCA)-based findings in population genetic studies are highly biased and must be reevaluated[J].Sci Rep,2022,12(1):14683.

[36]REN DY,CAI XD,LIN Q,et al.Impact of linkage disequilibrium heterogeneity along the genome on genomic prediction and heritability estimation[J].Genet Sel Evol,2022,54(1):47.

[37]REICH DE,CARGILL M,BOLK S,et al.Linkage disequilibrium in the human genome[J].Nature,2001,411(6834):199-204.

[38]CLIMER S,YANG W,DE LAS FUENTES L,et al.A custom correlation coefficient(CCC)approach for fast identification of multi-SNP association patterns in genome-wide SNPs data[J].Genet Epidemiol,2014,38(7):610-621.

[39]ZHOU Y,VALES MI,WANG AX,et al.Systematic bias of correlation coefficient may explain negative accuracy of genomic prediction[J].Brief Bioinform,2017,18(5):744-753.

[40]SUBRAMANIAN J,SIMON R.Overfitting in prediction models-is it aproblem only in high dimensions?[J].Contemp Clin Trials,2013,36(2):636-641.

[41]FROUIN A,DANDINE-ROULLAND C,PIERRE-JEAN M,et al.Exploring the link between additive heritability and prediction accuracy from aridge regression perspective[J].Front Genet,2020,11:581594.

(編輯 郭云雁)

猜你喜歡
特征提取
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語(yǔ)音識(shí)別特征提取技術(shù)
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
基于DSP的直線特征提取算法
基于改進(jìn)WLD的紋理特征提取方法
淺析零件圖像的特征提取和識(shí)別方法
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 在线播放91| 欧美午夜视频在线| 国产精品久久久久无码网站| 91久久精品日日躁夜夜躁欧美| 特级精品毛片免费观看| 亚洲a免费| 欧美午夜理伦三级在线观看| 制服丝袜在线视频香蕉| 亚洲精品麻豆| 国产91在线免费视频| 国产va在线观看免费| 99热这里只有免费国产精品| 美女扒开下面流白浆在线试听 | 重口调教一区二区视频| 日本欧美在线观看| 日韩精品久久无码中文字幕色欲| 青草娱乐极品免费视频| 人妻出轨无码中文一区二区| 亚洲天堂成人在线观看| 夜夜爽免费视频| 毛片免费观看视频| 97久久超碰极品视觉盛宴| 亚洲无线国产观看| 国产浮力第一页永久地址 | 国产成年无码AⅤ片在线| 99热线精品大全在线观看| 在线亚洲小视频| 精品国产免费第一区二区三区日韩| 激情亚洲天堂| 国产精品嫩草影院视频| 亚洲天堂首页| 国产高颜值露脸在线观看| 精品撒尿视频一区二区三区| 成人国产免费| 老司机aⅴ在线精品导航| 国外欧美一区另类中文字幕| 欧美区在线播放| 国内丰满少妇猛烈精品播| 日本一区中文字幕最新在线| 亚洲综合极品香蕉久久网| 欧美综合区自拍亚洲综合天堂| 国产第一页屁屁影院| 高清无码一本到东京热| 亚洲精品男人天堂| 成年午夜精品久久精品| 亚洲精品自产拍在线观看APP| 亚洲视频在线网| 露脸国产精品自产在线播| 国产夜色视频| 欧美日韩在线第一页| 亚洲国产一成久久精品国产成人综合| 在线国产欧美| 国产成人综合日韩精品无码不卡| 一个色综合久久| 亚洲天堂视频网站| 欧洲熟妇精品视频| 午夜视频在线观看免费网站| 国产午夜人做人免费视频| 国产精品专区第1页| 2020极品精品国产 | 国产迷奸在线看| 国模视频一区二区| 91最新精品视频发布页| 日本www色视频| 国产玖玖视频| 国产欧美中文字幕| 免费不卡视频| 91在线一9|永久视频在线| 大陆精大陆国产国语精品1024| 国产极品美女在线观看| 97一区二区在线播放| 久操中文在线| 手机精品福利在线观看| 国产偷倩视频| 亚洲乱码精品久久久久..| 亚洲成a人在线播放www| 99人妻碰碰碰久久久久禁片| 免费女人18毛片a级毛片视频| 亚洲另类色| 欧美怡红院视频一区二区三区| 亚洲综合天堂网| 伊在人亚洲香蕉精品播放|