


關鍵詞:深度學習;妊娠期糖尿病;深度神經網絡
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2025)03-0031-03 開放科學(資源服務) 標識碼(OSID) :
0引言
妊娠期糖尿病是影響母嬰健康的重要疾病之一,早期預測和干預能夠有效降低疾病風險。傳統妊娠期糖尿病預測方法受到數據處理復雜性與模型預測準確性的限制,導致無法準確預測疾病,進而對母嬰健康造成一定的威脅。深度學習模型具有強大的學習能力,能夠自動提取數據中的有用信息,發現影響妊娠期糖尿病發生的潛在因素。通過構建深度學習網絡模型,可以為妊娠期糖尿病預測提供一種更加準確、可靠的方法,有助于早期發現和管理妊娠期糖尿病,提高醫療資源的利用率。
1 深度神經網絡理論與技術分析
1.1 孤立森林算法
孤立森林算法是一種適用于大數據集的高效異常檢測算法,主要基于集成學習思想,通過構建多棵孤立樹來識別數據集中的異常值[1]。與傳統異常檢測算法相比,孤立森林算法無須對數據集進行標記,具有良好的泛化能力和實時性能[2]。
此算法的計算步驟如下:
本點x是否為異常數據。
1.2 特征選擇相關技術
1) XGBoost算法
XGBoost算法是優化算法的一種,主要基于梯度提升決策樹,主要目的為實現高效、靈活、便攜的機器學習解決方案,通過對弱分類器進行加權組合,不斷迭代以提升模型的預測性能[3]。XGBoost算法的主要計算原理為,在每一輪迭代中根據上一輪的預測結果計算殘差,并針對這些殘差訓練新的決策樹模型,逐步糾正之前的錯誤,不斷提升模型精度。
2) IV值
IV值是信息論當中的一種概念,可衡量一個特征對目標變量的預測能力,IV值越大,特征對目標變量預測能力越強,越有可能成為影響模型性能的關鍵因素[4]。IV值主要以信息增益思想作為基礎,通過對比特征在存在與否的兩種情況下目標變量分布變化評估特征的預測能力[5]。
2 數據收集與預處理
2.1 數據來源與收集方法
本次研究妊娠期糖尿病預測模型的研究數據主要來自于各大醫療機構的電子病歷系統,并從公共衛生機構、實驗室以及相關合作項目中獲取了部分數據,見表1。
該數據集綜合了體檢數據和基因數據,為妊娠期糖尿病預測模型研究提供了數據支持。其中,體驗數據詳細記錄了孕婦的年齡、身高、孕前體重、BMI分類、血壓等重要生理指標;基因數據則深入探索了單核苷酸多態性(SNP) 對妊娠期糖尿病發生的影響。該數據集主要包含1200個樣本,被劃分為訓練集和測試集,每個樣本均具備84個特征屬性,其中體檢特征有28個,SNP特征有55個,用于標識的id特征有1個。每種特征屬性均包括連續型和離散型數據,為模型構建提供了豐富的信息支持。在數據集中,主要采用二元標簽區分患者的健康狀態,0標簽用于健康的患者,1標簽則對應患病的患者。通過對數據集的深入分析發現,無論是哪種狀況的患者,都呈現出均衡分布的狀態,可有效避免模型在訓練中出現偏差,提升模型預測性能。數據集還充分展示了妊娠期糖尿病在孕婦中的分布情況,其中標簽值為0的樣本個數為634 個,標簽值為1的樣本個數為566個,表明本次收集的樣本中患病和未患病孕婦的比例相近,表明妊娠期糖尿病在現實生活中具有普遍性,對模型的泛化能力提出了較高要求。
2.2 數據清洗與標準化處理
數據清洗的主要目的是去除和修正數據中的異常值、重復值和缺失值,具體步驟如下所示。
1) 通過填充平均值、中位數或使用機器學習算法等方式進行預測填充,識別并處理數據中的缺失值。
2) 對重復的數據進行去重處理,確保每一條數據均為唯一的。
3) 檢測并處理異常值,異常值可能由于數據錄入錯誤或設備故障等原因所導致,可通過設定閾值或使用統計方法對其進行識別和修正。
2.3 特征選擇與提取
經過數據清洗與標準化處理后,得到包含73個特征屬性的數據集,其中包括23個體驗特征和50個基因SNP特征。部分特征可能直接影響模型構建和實驗結果的準確性,而另一部分則會影響實驗結果[6]。為有效降低數據對實驗結果的影響,需進行特征選擇,以篩選出真正有價值的特征,提高模型的性能與可解釋性。在進行特征選擇過程中,需系統分析SNP 特征與患病率之間的關系。本次研究工作首先利用XGBoost算法進行深度挖掘,通過模型訓練過程中自動計算得到的特征重要性評分,識別出對預測目標具有影響力的特征子集,并在此基礎上進一步引入IV算法進行補充。針對SNP特征,采用單變量分析IV值進行特征選擇,該方法可直觀反映特征與目標變量之間的關聯程度,從而更好地判斷哪些SNP特征能夠預測妊娠期糖尿病。
1) 利用XGBoost模型優化特征篩選:在構建預測妊娠期糖尿病的模型過程中,借助XGBoost的強大功能,特別是XGBClassifier組件,與事先確定的23項體檢指標進行深入分析,以明確哪些特征在預測結果時最具有影響力。通過算法計算得出每個特征的權重,并對其進行排名。根據分析結果,產次和BMI分類這兩個特征的權重低于10,表明這兩個特征在預測妊娠期糖尿病時貢獻相對較少。為進一步驗證這一結果,本次研究通過查閱相關醫療資料對這兩個特征進行深入的醫學分析,經過綜合考量后決定在后續模型構建中去掉這兩個特征[7]。經過篩選,本次研究選擇了權重值在110以上的特征,經過XGBoost算法篩選后保留了8個最具影響力的特征作為構建妊娠期糖尿病預測模型的關鍵輸入,主要特征包括胰島素抵抗指數、甘油三酯、超敏C-反應蛋白、白細胞、年齡、孕前BMI、高密度脂蛋白和載脂蛋白A1。
2) 利用IV值優化篩選:通過使用IV值來選擇特征,該值可以量化每個SNP特征對目標變量的預測能力,以篩選出對模型性能具有顯著提升作用的特征。IV值在計算時會對每個SNP特征的各個取值進行劃分,計算每個取值的WOE值,并將其轉化為IV值,最終取各個IV值的和作為總IV值[8]。當IV值lt;0.1時,表明該特征的預測能力較弱,對模型貢獻有限;當IV值gt;0.5時,表明該特征的預測能力可疑,可能包含噪聲或與模型預測目標不相關的信息。因此,在進行特征篩選時,需選取IV值在0.1~0.5之間的SNP特征,以確保所選特征具有足夠的預測能力。根據表2可知,經過IV值計算后,本次研究篩選出4個SNP特征,分別為SNP11、SNP34、SNP37和SNP53。這4個特征的IV 值均落在0.1~0.5的范圍內,在模型預測中具有適中的預測能力,是構建有效預測模型的關鍵特征。
3深度學習模型構建
3.1深度學習網絡結構設計
建模結構設計包括數據收集、數據清洗與預處理、特征選擇、模型驗證與測試,以及性能評估與優化。
3.2 模型性能評估指標
評價指標的主要作用是評估模型性能的優劣,在分類任務中可以幫助判斷模型對標簽預測的準確程度,其中優秀模型所生成的預測結果大多數為正確的[9]。在醫學診斷領域,常用的評價指標包括準確率、靈敏度、特異度、精準率以及F1值等。
4 實驗結果分析
采用XGBoost算法和IV值篩選出12個對預測任務極為重要的特征屬性,將其作為模型訓練的新輸入數據。在模型訓練過程中,共劃分了包含1000個樣本的訓練集,以及由200個樣本組成的獨立測試集,進行了詳盡的模型性能評估。為了保證結果的穩健性,實施了10折交叉驗證策略。在進行了共計100次的訓練后,最終觀察到模型在測試集上的準確率穩定在80%左右。
為有效驗證特征選擇方法的有效性,本次實驗比較了不同特征選擇算法下模型的性能。除混合使用XGBoost算法和IV值外,本次實驗還嘗試應用主成分分析(PCA) 和單獨IV值進行特征選擇,結果見表3。
根據表3可知,采用XGBoost與IV值混合特征選擇策略的XGBoost+IV-BNDNN 模型,憑借82.05% 的準確率顯著優于其他方法。
5結論
基于深度學習網絡的妊娠期糖尿病預測模型研究,成功構建了高效且準確的預測模型。通過精細的模型設計和優化,充分利用妊娠期婦女的臨床數據,有效識別糖尿病風險因素。根據實驗結果,模型的預測準確率較高,可為妊娠期糖尿病的早期預警和干預提供有力的技術支持。