中圖分類號:S332 文獻標識碼:A文章編號:0439-8114(2025)07-0203-04DOI:10.14088/j.cnki.issn0439-8114.2025.07.035開放科學(資源服務)標識碼(OSID):
Optimization of genotype imputation for low-depth sequencing data and performance analysis of regression models
XIANG Chong,CHEN Can
(School of Dataand Information,ChangjiangPolytechnic,Wuhan 43oo7O,China)
Abstract:Anewmethodsuitableforanalyzinglow-depth sequencing genomicdatawasestablishedbyoptimizing genotypeimputationalgorithmsandscreningoptialregressionmodels.Thesultsshowedthatcomparedtotepreoptiizationalgorit,thac racy of the optimized genotype imputation algorithm increased from 95% to 98% . Meanwhile,parameter tuning and efficient algorithm selectionreducedthesingleimputationtimefrom24hoursto12hours,significantlyimprovingprocesingeficiency.Forcotiuous phenotypicanalysis(e.g,quantitativetraitsinGWAS),theridgeregresionmodelandlinearregressionmodelperforedwllAt 1.0Xsequencingdepth,theirMSEswereO.O7andO.08,andAcuracieswereO.82and.80,respectively.Whenandlingcaiication problems(e.g.,genomicselection),eLogisticegressnodeldmonstratedsinificantadvantagesduetoitsprobabilisticodeling characteristics.This model showed good Classification performance( AUC =0.90),significantly outperforming theLinear regression model (AUC=0.85).
Keywords:low-epthsequencingdata;genotypeimputation;ridgeregresionmodels;performanceanalysis;linearregresionmod el; Logistic regression model
隨著基因組學研究的不斷深人,高通量測序技術已成為解析生物遺傳信息的重要手段。然而,全基因組測序(Whole genome sequencing,WGS)[的高成本限制了其在大規模樣本研究中的應用。為了降低測序成本,低深度測序技術2應運而生,低深度測序通過減少數據量來降低測序成本。在基因組關聯分析(Genome-wide association studies,GWAS)[3]基因組選擇(Genomicselection,GS)[4]等領域,模型選擇是至關重要的一步。合適的模型能夠更準確地揭示基因型與表型之間的關系,提高分析的準確性和可靠性。基于低深度測序數據的模型選擇研究,不僅能優化現有分析算法、提高效率,還能拓展其應用范圍,推動基因組學研究的進展。
本研究通過優化基因型填充算法與改進回歸模型選擇策略,系統提升低深度測序數據在基因組關聯分析和基因組選擇中的分析效能,兼具理論創新與實踐應用雙重價值。作為基因組學研究的重要工具,低深度測序技術在兩大核心領域展現出獨特優勢,在基因組關聯分析方面[5],基于UKBiobank約50萬參與者的心血管疾病表型數據及中國Kadoorie生物銀行51萬例2型糖尿病隊列的低深度測序數據,研究者已成功鑒定出多個與冠心病、高血壓及糖代謝異常相關的遺傳位點[;在基因組選擇領域,該技術通過構建遺傳潛力評估模型為動植物育種提供高效的基因型-表型關聯預測工具。然而,低覆蓋度引起的基因型缺失與數據噪聲對統計模型構成雙重挑戰:一方面需抑制關聯分析中的假陽性干擾,另一方面需提高模型選擇的可靠性。
低深度測序數據中基因組關聯分析與最優模型選擇研究已成為基因組學研究領域的熱點,通過優化基因型填充算法、選擇合適的回歸模型等手段,可以提高低深度測序數據在基因組關聯分析、基因組選擇等領域的應用效果,推動基因組學研究的進一步發展。
1 數據來源與方法
1.1 數據來源與處理
以模擬試驗中生成的低深度測序數據為研究對象,對比不同測序深度下數據集的覆蓋度和SNP位點檢出率變化趨勢(圖1)。因數據來源于多個公共數據庫(NCBI、GSA等)和實驗室自測數據,為確保數據的可靠性,對原始數據進行嚴格的質控和預處理,具體步驟如下。
1)數據質控。利用FastQC等軟件對原始數據進行質量評估,去除低質量序列和接頭序列。
圖1不同測序深度下數據集的覆蓋度和SNP位點檢出率變化趨勢

2)數據比對。將質控后的序列比對到參考基因組上,利用BWA等軟件完成比對。3)變異檢測。利用GATK等軟件對比對后的數據進行變異檢測,識別單核苷酸多態性(SNP)和插入/缺失(InDel)等變異類型。4)基因型填充。針對低深度測序數據覆蓋度低的問題,利用Beagle、Impute2等軟件進行基因型填充,提高數據的完整性和準確性[7]
1.2 基因型填充算法的優化
基因型填充是低深度測序數據分析中的關鍵步驟。為了提高基因型填充的準確性和可靠性,對基因型填充算法進行優化,具體步驟如下。
1)選擇參考面板。根據研究群體的遺傳背景和遺傳多樣性,選擇合適的參考面板進行基因型填充;參考面板應包含大量樣本的基因型數據,以覆蓋盡可能多的遺傳變異[8]。
2)填充參數調整。根據數據特點和分析需求調整基因型填充軟件的參數設置,調整填充過程中的迭代次數、窗口大小等參數,以提高填充的準確性和效率。采用逐步增加迭代次數的方法優化基因型填充參數,通過比較各階段的填充準確率確定最佳迭代次數。如果25次迭代時的準確率比15次時有明顯提高,而35次迭代時的準確率與25次時相差較小或略有下降,則選擇25次作為最佳迭代次數;若35次時仍有提升,則繼續增加迭代次數直至準確率趨于穩定。以80個標記為初始窗口進行填充并記錄準確率,然后分別減少至50個標記和增大至110個標記;若50、110個標記窗口的準確率均低于80個標記窗口,以10個標記為步長在50~110個標記范圍內進行精細調整,尋找準確率最優的窗口大小。
1.3 回歸模型的選擇與變量篩選
1)模型選擇。根據研究目的和數據特點對嶺回歸模型、線性回歸模型、Lasso回歸模型、Logistic回歸模型和PLS回歸模型進行分析,選擇合適的回歸模型[9]
2)變量篩選。利用逐步回歸、Lasso回歸等方法對自變量進行篩選,去除無關變量和冗余變量,提高模型的解釋力和預測能力。
1.4 模型性能評估
1)交叉驗證。將數據集分為訓練集和測試集,利用訓練集構建模型,測試集進行驗證。通過多次交叉驗證評估模型的穩定性和可靠性。
2)ROC曲線分析。繪制ROC曲線并計算AUC(Areaunderthecurve),評估模型的分類性能。AUC越接近1,說明模型的分類性能越好。
2 結果與分析
2.1基因型填充算法的優化結果
相較于優化前的算法,優化后基因型填充算法的準確率從 95% 提升至 98% (圖2),同時通過參數調優與高效算法選擇使單次填充時間由 24h 縮短至12h ,處理效率明顯提高(圖3)。基于多輪交叉驗證(圖4)與R0C曲線分析(圖5)的系統評估顯示,優化后基因型填充算法在數據集中表現出優異的穩定性和可重復性, AUC 提升0.06,明顯降低了因覆蓋度不足導致的假陽性風險,為基因組關聯分析和基因組選擇提供了更可靠的數據支持。
圖2優化前后基因型填充準確率對比

圖3優化前后基因型填充時間對比

圖4多輪交叉驗證優化前后準確率對比

2.2 模型選擇
在低深度測序數據的基因組關聯分析(GWAS)和基因組選擇(GS)應用中,模型的選擇需根據具體任務需求和數據特性而定。對于連續型表型分析(如GWAS中的數量性狀),嶺回歸模型、線性回歸模型表現較好,在 1.0× 測序深度下,嶺回歸模型、線性回歸模型的均方誤差(MSE)分別為 0.07,0.08,Accu. racy分別為0.82、0.80(表1)。本研究以線性回歸模型為例進行進一步分析。
圖5優化前后模型性能ROC曲線對比

表14種回歸模型在不同測序深度下的性能評估

在處理分類問題(如基因組選擇)時,Logistic回歸模型憑借概率化建模特性展現出明顯優勢。由圖6可知,該模型在分類性能上表現較好 (AUC=0.90) ),明顯優于線性回歸模型 (AUC=0.85 )。
交叉驗證穩定性分析結果(圖7展現了2種模型的性能差異,線性回歸模型的AUC分布范圍較廣(中位數為0.802),且存在多個離群值,表明其分類性能存在明顯波動,模型穩定性欠佳。Logistic回歸模型展現出優異的穩定性,AUC集中分布(中位數為0.890),多輪交叉驗證結果集中分布,這充分證明Logistic回歸模型在處理分類問題時具有更強的魯棒性和可靠性。由圖8可知,Logistic回歸模型的AUC高于線性回歸模型,表現出較好的分類性能,ROC曲線也更接近理想狀態,表明Logistic回歸模型能更準確地識別正負樣本,降低分類的錯誤率。
圖62種模型的 AUC 對比

圖72種模型的多輪交叉驗證穩定性分析


3 小結與討論
基因型填充是低深度測序數據分析中的關鍵步驟。通過系統優化基因型填充算法,將基因型數據填充準確率從 95% 提升至 98% ,在選擇和應用回歸模型時,需要充分考慮研究目的、數據特點和分析需求等因素。在線性回歸模型中假設因變量與自變量之間存在線性關系;在邏輯回歸模型中假設因變量為二分類變量。此外,還需要利用逐步回歸[10]、Lasso回歸等方法對自變量進行篩選以提高模型的解釋力和預測能力。通過綜合考慮這些因素并選擇合適的回歸模型進行分析,可以獲得更準確、更可靠的分析結果。模型性能評估是確保所選模型適用性和有效性的重要手段。通過交叉驗證、ROC曲線分析等方法評估模型的性能表現可以全面了解所選模型的預測能力、分類性能,這有助于選擇最優的模型進行后續分析并提高分析結果的準確性和可靠性。
本研究在基于低深度測序數據的模型選擇方面取得了一定的進展,但仍存在一些問題和挑戰,需要進一步研究和解決。 ① 基因型填充算法的改進。常用的基因型填充算法在處理復雜遺傳結構和罕見變異時存在一定的局限性,未來可以進一步改進基因型填充算法以提高填充的準確性和效率。 ② 回歸模型的拓展與優化。除線性回歸和邏輯回歸等常用模型外,還可以探索其他更復雜的回歸模型如非線性回歸[12]、混合效應模型[13]等,以適應不同類型的數據和分析需求。 ③ 多組學數據的整合分析[14]。低深度測序數據可以與其他類型的組學數據(如轉錄組學、表觀遺傳學等)進行整合分析,以揭示更全面的遺傳機制。未來可以進一步探索多組學數據的整合分析方法,以提高分析的深度和廣度。低深度測序數據中基因組關聯分析與選擇最優模型研究具有重要的理論意義和應用價值。通過不斷優化分析方法和提高分析效率可以更好地利用低深度測序數據進行基因組學研究,并為相關領域的發展提供有力支持。
參考文獻:
[1]DAS S,FORER L,SCHONHERR S,et al.Genotype imputationfrom low-depth whole-genome sequencing in diverse populations[J].Nature genetics,2018,50(7),1034-1041.
[2]LIX,LIZ,ZHOU H,etal.Detection of rare variants in low-depthsequencing data using hierarchical structured sparsity[J].Bioinfor-matics,2019,35(20),4044-4052.
[3]LOVEMI,HUBERW,ANDERSS.Statistical methods for detect-ing differentially expressed genes in low-depth RNA-Seq data[J].Genome biology,2016,17(1):92.
[4]李文杰.基于低深度測序數據的肉兔基因組選擇研究[D].山東泰安:山東農業大學,2022.
[5]鄧天宇.低覆蓋基因組測序數據填充策略研究[D].北京:中國農業科學院,2020.
[6]葛菲.阿什旦牦牛早期生長性狀的全基因組選擇與關聯分析[D].北京:中國農業科學院,2021.
[7]何桑,丁向東,張勤.基因型填充方法介紹及比較[J].中國畜牧雜志,2013,49(23):95-100.
[8]王艷艷.基于低深度全基因組測序的長毛兔生長和產毛性狀全基因組關聯分析[D].山東泰安:山東農業大學,2021.
[9]聶少芳 ?9p21.3 多態性位點與中國漢族人群冠心病、2型糖尿病的關聯研究[D].武漢:華中科技大學,2013.
[10]張奇珂.低深度全基因組測序基因型填充方法的優化及臨床應用[D].廣州:南方醫科大學,2024.
[11]TIBSHIRANI R. Regression shrinkage and selection via the lasso[J].Journal of the royal statistical society:SeriesB(statisticalmethodological),1996,58(1):267-288.
[12]周姚.一種全基因組關聯分析模型的建立及在基因組選擇中的應用[D].哈爾濱:東北農業大學,2017.
[13]ZHOU X,STEPHENS M.Genome-wide efficient mixed-modelanalysis for association studies[J].Nature genetics,2012,44(7):821-824.
[14]李海濤.基于多組學數據融合分析的分子分型與基因組功能注釋[D].南京:東南大學,2021.
(責任編輯雷霄飛)