低深度測序數(shù)據(jù)的基因型填充優(yōu)化與回歸模型性能分析

2025-08-29 00:00:00向沖陳璨

湖北農(nóng)業(yè)科學(xué) 2025年7期

中圖分類號：S332 文獻標(biāo)識碼：A文章編號：0439-8114（2025）07-0203-04DOI：10.14088/j.cnki.issn0439-8114.2025.07.035開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

Optimization of genotype imputation for low-depth sequencing data and performance analysis of regression models

XIANG Chong，CHEN Can

（School of Dataand Information，ChangjiangPolytechnic，Wuhan 43oo7O，China）

Abstract：Anewmethodsuitableforanalyzinglow-depth sequencing genomicdatawasestablishedbyoptimizing genotypeimputationalgorithmsandscreningoptialregressionmodels.Thesultsshowedthatcomparedtotepreoptiizationalgorit，thac racy of the optimized genotype imputation algorithm increased from 95% to 98% . Meanwhile，parameter tuning and efficient algorithm selectionreducedthesingleimputationtimefrom24hoursto12hours，significantlyimprovingprocesingeficiency.Forcotiuous phenotypicanalysis（e.g，quantitativetraitsinGWAS），theridgeregresionmodelandlinearregressionmodelperforedwllAt 1.0Xsequencingdepth，theirMSEswereO.O7andO.08，andAcuracieswereO.82and.80，respectively.Whenandlingcaiication problems（e.g.，genomicselection），eLogisticegressnodeldmonstratedsinificantadvantagesduetoitsprobabilisticodeling characteristics.This model showed good Classification performance（ AUC =0.90），significantly outperforming theLinear regression model （AUC=0.85）.

Keywords：low-epthsequencingdata;genotypeimputation;ridgeregresionmodels；performanceanalysis；linearregresionmod el; Logistic regression model

隨著基因組學(xué)研究的不斷深人，高通量測序技術(shù)已成為解析生物遺傳信息的重要手段。然而，全基因組測序（Whole genome sequencing，WGS）[的高成本限制了其在大規(guī)模樣本研究中的應(yīng)用。為了降低測序成本，低深度測序技術(shù)2應(yīng)運而生，低深度測序通過減少數(shù)據(jù)量來降低測序成本。在基因組關(guān)聯(lián)分析（Genome-wide association studies，GWAS）[3]基因組選擇（Genomicselection，GS）[4]等領(lǐng)域，模型選擇是至關(guān)重要的一步。合適的模型能夠更準(zhǔn)確地揭示基因型與表型之間的關(guān)系，提高分析的準(zhǔn)確性和可靠性。基于低深度測序數(shù)據(jù)的模型選擇研究，不僅能優(yōu)化現(xiàn)有分析算法、提高效率，還能拓展其應(yīng)用范圍，推動基因組學(xué)研究的進展。

本研究通過優(yōu)化基因型填充算法與改進回歸模型選擇策略，系統(tǒng)提升低深度測序數(shù)據(jù)在基因組關(guān)聯(lián)分析和基因組選擇中的分析效能，兼具理論創(chuàng)新與實踐應(yīng)用雙重價值。作為基因組學(xué)研究的重要工具，低深度測序技術(shù)在兩大核心領(lǐng)域展現(xiàn)出獨特優(yōu)勢，在基因組關(guān)聯(lián)分析方面[5]，基于UKBiobank約50萬參與者的心血管疾病表型數(shù)據(jù)及中國Kadoorie生物銀行51萬例2型糖尿病隊列的低深度測序數(shù)據(jù)，研究者已成功鑒定出多個與冠心病、高血壓及糖代謝異常相關(guān)的遺傳位點[；在基因組選擇領(lǐng)域，該技術(shù)通過構(gòu)建遺傳潛力評估模型為動植物育種提供高效的基因型-表型關(guān)聯(lián)預(yù)測工具。然而，低覆蓋度引起的基因型缺失與數(shù)據(jù)噪聲對統(tǒng)計模型構(gòu)成雙重挑戰(zhàn)：一方面需抑制關(guān)聯(lián)分析中的假陽性干擾，另一方面需提高模型選擇的可靠性。

低深度測序數(shù)據(jù)中基因組關(guān)聯(lián)分析與最優(yōu)模型選擇研究已成為基因組學(xué)研究領(lǐng)域的熱點，通過優(yōu)化基因型填充算法、選擇合適的回歸模型等手段，可以提高低深度測序數(shù)據(jù)在基因組關(guān)聯(lián)分析、基因組選擇等領(lǐng)域的應(yīng)用效果，推動基因組學(xué)研究的進一步發(fā)展。

1 數(shù)據(jù)來源與方法

1.1 數(shù)據(jù)來源與處理

以模擬試驗中生成的低深度測序數(shù)據(jù)為研究對象，對比不同測序深度下數(shù)據(jù)集的覆蓋度和SNP位點檢出率變化趨勢（圖1）。因數(shù)據(jù)來源于多個公共數(shù)據(jù)庫（NCBI、GSA等）和實驗室自測數(shù)據(jù)，為確保數(shù)據(jù)的可靠性，對原始數(shù)據(jù)進行嚴(yán)格的質(zhì)控和預(yù)處理，具體步驟如下。

1）數(shù)據(jù)質(zhì)控。利用FastQC等軟件對原始數(shù)據(jù)進行質(zhì)量評估，去除低質(zhì)量序列和接頭序列。

圖1不同測序深度下數(shù)據(jù)集的覆蓋度和SNP位點檢出率變化趨勢

2）數(shù)據(jù)比對。將質(zhì)控后的序列比對到參考基因組上，利用BWA等軟件完成比對。3）變異檢測。利用GATK等軟件對比對后的數(shù)據(jù)進行變異檢測，識別單核苷酸多態(tài)性（SNP）和插入/缺失（InDel）等變異類型。4）基因型填充。針對低深度測序數(shù)據(jù)覆蓋度低的問題，利用Beagle、Impute2等軟件進行基因型填充，提高數(shù)據(jù)的完整性和準(zhǔn)確性[7]

1.2 基因型填充算法的優(yōu)化

基因型填充是低深度測序數(shù)據(jù)分析中的關(guān)鍵步驟。為了提高基因型填充的準(zhǔn)確性和可靠性，對基因型填充算法進行優(yōu)化，具體步驟如下。

1）選擇參考面板。根據(jù)研究群體的遺傳背景和遺傳多樣性，選擇合適的參考面板進行基因型填充；參考面板應(yīng)包含大量樣本的基因型數(shù)據(jù)，以覆蓋盡可能多的遺傳變異[8]。

2）填充參數(shù)調(diào)整。根據(jù)數(shù)據(jù)特點和分析需求調(diào)整基因型填充軟件的參數(shù)設(shè)置，調(diào)整填充過程中的迭代次數(shù)、窗口大小等參數(shù)，以提高填充的準(zhǔn)確性和效率。采用逐步增加迭代次數(shù)的方法優(yōu)化基因型填充參數(shù)，通過比較各階段的填充準(zhǔn)確率確定最佳迭代次數(shù)。如果25次迭代時的準(zhǔn)確率比15次時有明顯提高，而35次迭代時的準(zhǔn)確率與25次時相差較小或略有下降，則選擇25次作為最佳迭代次數(shù)；若35次時仍有提升，則繼續(xù)增加迭代次數(shù)直至準(zhǔn)確率趨于穩(wěn)定。以80個標(biāo)記為初始窗口進行填充并記錄準(zhǔn)確率，然后分別減少至50個標(biāo)記和增大至110個標(biāo)記；若50、110個標(biāo)記窗口的準(zhǔn)確率均低于80個標(biāo)記窗口，以10個標(biāo)記為步長在50～110個標(biāo)記范圍內(nèi)進行精細(xì)調(diào)整，尋找準(zhǔn)確率最優(yōu)的窗口大小。

1.3 回歸模型的選擇與變量篩選

1）模型選擇。根據(jù)研究目的和數(shù)據(jù)特點對嶺回歸模型、線性回歸模型、Lasso回歸模型、Logistic回歸模型和PLS回歸模型進行分析，選擇合適的回歸模型[9]

2）變量篩選。利用逐步回歸、Lasso回歸等方法對自變量進行篩選，去除無關(guān)變量和冗余變量，提高模型的解釋力和預(yù)測能力。

1.4 模型性能評估

1）交叉驗證。將數(shù)據(jù)集分為訓(xùn)練集和測試集，利用訓(xùn)練集構(gòu)建模型，測試集進行驗證。通過多次交叉驗證評估模型的穩(wěn)定性和可靠性。

2）ROC曲線分析。繪制ROC曲線并計算AUC（Areaunderthecurve），評估模型的分類性能。AUC越接近1，說明模型的分類性能越好。

2 結(jié)果與分析

2.1基因型填充算法的優(yōu)化結(jié)果

相較于優(yōu)化前的算法，優(yōu)化后基因型填充算法的準(zhǔn)確率從 95% 提升至 98% （圖2），同時通過參數(shù)調(diào)優(yōu)與高效算法選擇使單次填充時間由 24h 縮短至12h ，處理效率明顯提高（圖3）。基于多輪交叉驗證（圖4）與R0C曲線分析（圖5）的系統(tǒng)評估顯示，優(yōu)化后基因型填充算法在數(shù)據(jù)集中表現(xiàn)出優(yōu)異的穩(wěn)定性和可重復(fù)性， AUC 提升0.06，明顯降低了因覆蓋度不足導(dǎo)致的假陽性風(fēng)險，為基因組關(guān)聯(lián)分析和基因組選擇提供了更可靠的數(shù)據(jù)支持。

圖2優(yōu)化前后基因型填充準(zhǔn)確率對比

圖3優(yōu)化前后基因型填充時間對比

圖4多輪交叉驗證優(yōu)化前后準(zhǔn)確率對比

2.2 模型選擇

在低深度測序數(shù)據(jù)的基因組關(guān)聯(lián)分析（GWAS）和基因組選擇（GS）應(yīng)用中，模型的選擇需根據(jù)具體任務(wù)需求和數(shù)據(jù)特性而定。對于連續(xù)型表型分析（如GWAS中的數(shù)量性狀），嶺回歸模型、線性回歸模型表現(xiàn)較好，在 1.0× 測序深度下，嶺回歸模型、線性回歸模型的均方誤差（MSE）分別為 0.07，0.08，Accu. racy分別為0.82、0.80（表1）。本研究以線性回歸模型為例進行進一步分析。

圖5優(yōu)化前后模型性能ROC曲線對比

表14種回歸模型在不同測序深度下的性能評估

在處理分類問題（如基因組選擇）時，Logistic回歸模型憑借概率化建模特性展現(xiàn)出明顯優(yōu)勢。由圖6可知，該模型在分類性能上表現(xiàn)較好（AUC=0.90）），明顯優(yōu)于線性回歸模型（AUC=0.85 ）。

交叉驗證穩(wěn)定性分析結(jié)果（圖7展現(xiàn)了2種模型的性能差異，線性回歸模型的AUC分布范圍較廣（中位數(shù)為0.802），且存在多個離群值，表明其分類性能存在明顯波動，模型穩(wěn)定性欠佳。Logistic回歸模型展現(xiàn)出優(yōu)異的穩(wěn)定性，AUC集中分布（中位數(shù)為0.890），多輪交叉驗證結(jié)果集中分布，這充分證明Logistic回歸模型在處理分類問題時具有更強的魯棒性和可靠性。由圖8可知，Logistic回歸模型的AUC高于線性回歸模型，表現(xiàn)出較好的分類性能，ROC曲線也更接近理想狀態(tài)，表明Logistic回歸模型能更準(zhǔn)確地識別正負(fù)樣本，降低分類的錯誤率。

圖62種模型的 _AUC 對比

圖72種模型的多輪交叉驗證穩(wěn)定性分析

3 小結(jié)與討論

基因型填充是低深度測序數(shù)據(jù)分析中的關(guān)鍵步驟。通過系統(tǒng)優(yōu)化基因型填充算法，將基因型數(shù)據(jù)填充準(zhǔn)確率從 95% 提升至 98% ，在選擇和應(yīng)用回歸模型時，需要充分考慮研究目的、數(shù)據(jù)特點和分析需求等因素。在線性回歸模型中假設(shè)因變量與自變量之間存在線性關(guān)系；在邏輯回歸模型中假設(shè)因變量為二分類變量。此外，還需要利用逐步回歸[10]、Lasso回歸等方法對自變量進行篩選以提高模型的解釋力和預(yù)測能力。通過綜合考慮這些因素并選擇合適的回歸模型進行分析，可以獲得更準(zhǔn)確、更可靠的分析結(jié)果。模型性能評估是確保所選模型適用性和有效性的重要手段。通過交叉驗證、ROC曲線分析等方法評估模型的性能表現(xiàn)可以全面了解所選模型的預(yù)測能力、分類性能，這有助于選擇最優(yōu)的模型進行后續(xù)分析并提高分析結(jié)果的準(zhǔn)確性和可靠性。

本研究在基于低深度測序數(shù)據(jù)的模型選擇方面取得了一定的進展，但仍存在一些問題和挑戰(zhàn)，需要進一步研究和解決。 ① 基因型填充算法的改進。常用的基因型填充算法在處理復(fù)雜遺傳結(jié)構(gòu)和罕見變異時存在一定的局限性，未來可以進一步改進基因型填充算法以提高填充的準(zhǔn)確性和效率。 ② 回歸模型的拓展與優(yōu)化。除線性回歸和邏輯回歸等常用模型外，還可以探索其他更復(fù)雜的回歸模型如非線性回歸[12]、混合效應(yīng)模型[13]等，以適應(yīng)不同類型的數(shù)據(jù)和分析需求。 ③ 多組學(xué)數(shù)據(jù)的整合分析[14]。低深度測序數(shù)據(jù)可以與其他類型的組學(xué)數(shù)據(jù)（如轉(zhuǎn)錄組學(xué)、表觀遺傳學(xué)等）進行整合分析，以揭示更全面的遺傳機制。未來可以進一步探索多組學(xué)數(shù)據(jù)的整合分析方法，以提高分析的深度和廣度。低深度測序數(shù)據(jù)中基因組關(guān)聯(lián)分析與選擇最優(yōu)模型研究具有重要的理論意義和應(yīng)用價值。通過不斷優(yōu)化分析方法和提高分析效率可以更好地利用低深度測序數(shù)據(jù)進行基因組學(xué)研究，并為相關(guān)領(lǐng)域的發(fā)展提供有力支持。

參考文獻：

[1]DAS S，F(xiàn)ORER L，SCHONHERR S，et al.Genotype imputationfrom low-depth whole-genome sequencing in diverse populations[J].Nature genetics，2018，50（7），1034-1041.

[2]LIX，LIZ，ZHOU H，etal.Detection of rare variants in low-depthsequencing data using hierarchical structured sparsity[J].Bioinfor-matics，2019，35（20），4044-4052.

[3]LOVEMI，HUBERW，ANDERSS.Statistical methods for detect-ing differentially expressed genes in low-depth RNA-Seq data[J].Genome biology，2016，17（1）：92.

[4]李文杰.基于低深度測序數(shù)據(jù)的肉兔基因組選擇研究[D].山東泰安：山東農(nóng)業(yè)大學(xué)，2022.

[5]鄧天宇.低覆蓋基因組測序數(shù)據(jù)填充策略研究[D].北京：中國農(nóng)業(yè)科學(xué)院，2020.

[6]葛菲.阿什旦牦牛早期生長性狀的全基因組選擇與關(guān)聯(lián)分析[D].北京：中國農(nóng)業(yè)科學(xué)院，2021.

[7]何桑，丁向東，張勤.基因型填充方法介紹及比較[J].中國畜牧雜志，2013，49（23）：95-100.

[8］王艷艷.基于低深度全基因組測序的長毛兔生長和產(chǎn)毛性狀全基因組關(guān)聯(lián)分析[D].山東泰安：山東農(nóng)業(yè)大學(xué)，2021.

[9]聶少芳 ?9p21.3 多態(tài)性位點與中國漢族人群冠心病、2型糖尿病的關(guān)聯(lián)研究[D].武漢：華中科技大學(xué)，2013.

[10]張奇珂.低深度全基因組測序基因型填充方法的優(yōu)化及臨床應(yīng)用[D].廣州：南方醫(yī)科大學(xué)，2024.

[11]TIBSHIRANI R. Regression shrinkage and selection via the lasso[J].Journal of the royal statistical society：SeriesB（statisticalmethodological），1996，58（1）：267-288.

[12]周姚.一種全基因組關(guān)聯(lián)分析模型的建立及在基因組選擇中的應(yīng)用[D].哈爾濱：東北農(nóng)業(yè)大學(xué)，2017.

[13]ZHOU X，STEPHENS M.Genome-wide efficient mixed-modelanalysis for association studies[J].Nature genetics，2012，44（7）：821-824.

[14]李海濤.基于多組學(xué)數(shù)據(jù)融合分析的分子分型與基因組功能注釋[D].南京：東南大學(xué)，2021.

（責(zé)任編輯雷霄飛）

湖北農(nóng)業(yè)科學(xué)2025年7期

湖北農(nóng)業(yè)科學(xué)的其它文章: 基于改進YOLOv8模型的黃花菜花蕾識別研究; 外源鉀肥影響碳氮積累并改善煙草幼苗低溫抗性; 打葉復(fù)烤工藝中不同加工強度對煙葉化學(xué)成分的影響; 西南麥區(qū)不同小麥品種（系）氮效率利用評價; 基于FIuent的多功能烤房流場分析及結(jié)構(gòu)優(yōu)化; 增殖放流水域魚類群落及β多樣性時空變化