999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的早產(chǎn)兒視網(wǎng)膜病變高危因素分析

2023-05-08 23:34:00周鵬程左海維楊倩倩
電腦知識與技術 2023年9期

周鵬程 左海維 楊倩倩

關鍵詞:早產(chǎn)兒視網(wǎng)膜病變;高危因素分析;LightGBM;數(shù)據(jù)預處理;特征優(yōu)化

早產(chǎn)兒視網(wǎng)膜病變(retinopathy of prematurity,ROP) 是一種視網(wǎng)膜血管增殖性眼底疾病,占全世界兒童視力損傷和失明的因素的11%~45.8%[1]。由于ROP的病因和發(fā)病機制復雜,有效治療的時間窗很短,因此需要盡快找到ROP相關高危因素。

影響ROP發(fā)生的因素很多,目前學術界公認的三大高危因素是胎齡、出生體重與氧療[2],分析ROP相關高危因素主要的方法是傾向評分匹配[3~5]、Logistic回歸分析[6-9]和回顧性統(tǒng)計分析等[10~13]等傳統(tǒng)醫(yī)學統(tǒng)計方法,其性能在很大程度上依賴于數(shù)據(jù)集樣本和維度的數(shù)量,所能分析出的高危因素比較淺顯,很難挖掘更深層次的ROP相關高危因素。隨著人工智能的不斷發(fā)展與成熟,機器學習算法為計算機輔助醫(yī)學診斷與分析提供了有效工具。機器學習的優(yōu)點是適合處理高維數(shù)據(jù),對醫(yī)學領域的先驗知識要求較少,評估精度比較高[14]。鑒于此,本文綜合分析ROP相關高危因素分析的研究難點,創(chuàng)新性地將機器學習LightGBM 模型應用到ROP相關高危因素的分析中,基于Light?GBM進行特征優(yōu)化,挖掘ROP更多潛在的相關高危因素,驗證機器學習方法在早產(chǎn)兒視網(wǎng)膜病變領域的應用價值,為醫(yī)生提供診斷參考依據(jù)。

1 算法

1.1 LightGBM

本文考慮到ROP數(shù)據(jù)集具有維度高、樣本少的特點,難于在小樣本數(shù)據(jù)集中挖掘關鍵特征,因此本文使用機器學習應用領域中廣經(jīng)驗證的LightGBM算法進行ROP相關高危因素的建模與分析,主要原因是LightGBM具有運行效率高、內(nèi)存功耗小、模型精度高、特征降維速度快等優(yōu)點。

具體優(yōu)化:因為ROP數(shù)據(jù)分析存在維度很高的問題,需要對模型訓練進行時空開銷的優(yōu)化,本文通過將數(shù)據(jù)存儲在直方圖中從而提升模型的整體訓練效率和降低內(nèi)存的占用;因為按層生長的Level-wise生長策略存在對同一層葉子節(jié)點不加區(qū)分所帶來的一些沒必要地計算開銷的問題,需要對模型訓練過程中的生長策略進行優(yōu)化,本文使用Leaf-wise生長策略選擇增益最大的節(jié)點進行分裂,極大降低模型的計算代價和提高模型的準確度;因為ROP存在數(shù)據(jù)集數(shù)據(jù)有限的問題,需要在樣本少的前提下保持與精度之間的平衡,本文使用單邊梯度采樣算法從減少數(shù)據(jù)量的角度出發(fā),僅使用大梯度樣本和部分小梯度樣本進行信息增益的計算,可以在ROP數(shù)據(jù)集中保持模型的高精度;因為在特征降維時通常需要將部分特征捆綁在一起,為了防止捆綁互斥特征造成信息丟失,本文使用互斥特征捆綁算法進行特征降維的優(yōu)化。

1.2 Noise-student

Noise-student是一種半監(jiān)督學習方法,其基本步驟是先在標記圖像上訓練模型并生成偽標簽,然后在標記和偽標記圖像的組合上迭代訓練生成更大的模型。本文基于Noise-student思想設計最優(yōu)特征集尋找方法,從零開始搭建最優(yōu)特征集,分別進行特征添加特征刪減,根據(jù)評判標準與容錯值(rate) 之差的結果不斷更新最優(yōu)特征集。尋找最優(yōu)特征集的評判標準基于訓練結果受試者工作曲線(Receiver OperatingCharacteristic,ROC) 下方面積大小(Area Under所示。

其中count 為每一輪模型訓練的次數(shù),AUC 為每次模型搭建、訓練、驗證得到的AUC 值。基于Noisestudent思想的特征優(yōu)化方法具體如表1所示。

2 實驗

本文使用LightGBM進行ROP相關高危因素分析的實驗流程結構如圖1所示,依次完成了ROP數(shù)據(jù)集的基本信息分析與數(shù)據(jù)預處理,ROP高危因素分析模型的搭建、訓練與驗證,挖掘高危因素所進行的特征優(yōu)化和對比驗證。

2.1 數(shù)據(jù)集基本信息分析與預處理

數(shù)據(jù)集的質(zhì)量很大程度影響模型的性能,需要對原始數(shù)據(jù)集進行數(shù)據(jù)預處理,本文采用的數(shù)據(jù)來源于醫(yī)院ROP真實臨床檢查結果,時間跨度為2017年2月至2021年5月。為了清楚地了解數(shù)據(jù)集的基本信息,對單變量數(shù)據(jù)的基本信息進行分析,結果表明,數(shù)據(jù)共有141個樣本,數(shù)據(jù)中有“性別12”~“是否治療”共35個特征,數(shù)據(jù)類型有整數(shù)型(10個)、浮點型(34個)、字符型(1個)。

為了清楚地了解ROP數(shù)據(jù)集的分布情況,對數(shù)據(jù)集各特征變量數(shù)據(jù)的統(tǒng)計信息進行分析,結果表明,除了特征“ps”“窒息012”“IVH”的數(shù)據(jù)驗證缺失外,其余特征的數(shù)據(jù)基本完整,此外還得知了該數(shù)據(jù)集各特征的平均值、標準差、最大值、最小值等信息,為數(shù)據(jù)預處理提供參考。

分析數(shù)據(jù)集的基本信息后,發(fā)現(xiàn)存在數(shù)據(jù)缺失、量綱不一致等問題。根據(jù)從數(shù)據(jù)集中識別出來的特征數(shù)據(jù)缺失的情況、數(shù)據(jù)的類型以及缺失值與目標變量的關聯(lián)程度,使用計算該變量非缺失值的平均值進行填充,或直接成列刪除該特征及其所代表的數(shù)據(jù)。對于字符型數(shù)據(jù)則進行數(shù)據(jù)編碼,人為虛設十進制自增的自然數(shù)來反應該特征的不同屬性,從而量化原本不能定量處理的特征。由于部分特征的取值量綱不統(tǒng)一,這將會極大影響估計,為了縮短特征數(shù)據(jù)之間的差距,使數(shù)據(jù)更加趨于正態(tài)分布,同時保持數(shù)據(jù)的完整性,使用區(qū)間縮放法將數(shù)據(jù)集樣本映射到[0, 1]之間。最后對比參照數(shù)據(jù)的分位數(shù)與正態(tài)分布的分位數(shù),查看數(shù)據(jù)是否符合正態(tài)分布,分別繪制特征的直方圖和Q-Q圖,特征“胎齡”預處理后的直方圖和Q-Q圖如圖2和圖3所示。可以看出預處理后特征“胎齡”的數(shù)據(jù)分布近似于正態(tài)分布,QQ圖中的數(shù)據(jù)基本根據(jù)對角線分布,經(jīng)過數(shù)據(jù)預處理后的數(shù)據(jù)集相較于原始數(shù)據(jù)集質(zhì)量已經(jīng)有了很大提升,可以足夠適應接下來的模型訓練。為了方便模型搭建與提高模型分析結果的準確度,本文還進行了設置圖片顯示字體、劃分特征變量與目標變量、忽略代碼警告信息、SMOTE過采樣、切分訓練集與測試集(8:2) 等準備工作。

2.2 模型搭建、訓練、驗證

進行ROP相關高危因素分析的關鍵所在是構建LightGBM 分類模型,使用網(wǎng)格搜索對learning_rate、n_estimators、num_leaves 進行參數(shù)調(diào)優(yōu),其中,learn?ing_rate用于控制模型訓練性能,n_esti mators用于指定算法的迭代次數(shù),num_leaves用于指定一棵樹上的葉子節(jié)點個數(shù),分別設置評估標準為AUC 值和進行5 折交叉驗證。調(diào)優(yōu)后得到的參數(shù)最優(yōu)值如下:learn?ing_rate:0.2,n_estimators:20,num_leaves:10,然后對訓練集進行模型訓練。訓練結束后計算模型的精度和F1值測試模型性能,精度為0.7142,F(xiàn)1值為0.71。為了使得測試的結果更加準確,計算模型的AUC 值。分別搭建1000次LightGBM模型,調(diào)整隨機種子使得每次訓練集和測試集的劃分均不同,并通過控制KS值以防止模型發(fā)生異常。經(jīng)過訓練與驗證后,發(fā)現(xiàn)當隨機種子為547時的LightGBM模型AUC 值最高,為0.8352,而KS 值為0.4942也驗證了該模型的優(yōu)越性能以及確定了模型沒有發(fā)生異常情況。

2.3 特征優(yōu)化

計算原始特征集的特征重要性,以特征重要性≥1 的特征作為候選特征集,初始化rate為0.02,衰減值為0.002。經(jīng)過10輪特征優(yōu)化后,所得到的最優(yōu)特征集為Apgar1、胎膜早破、胎齡、母親年齡、Apgar5、敗血癥(E/L)、貧血E/L、氧時/d、Px、無創(chuàng)/d,且在第9輪后不再發(fā)生變動,其AUCMEAN為0.9189。

2.4 對比驗證

使用LightGBM對最優(yōu)特征集進行模型再驗證,相關評判標準的結果如表2所示。可以看出,模型再驗證的精度相對于優(yōu)化前提高了20.00%,F(xiàn)1 相對于優(yōu)化前提高了21.23%,AUC 值為相對于優(yōu)化前提高了13.42%,KS 值為0.7460,低于0.75說明模型沒有發(fā)生異常。

對特征優(yōu)化過程進行拆分實驗,分別驗證未特征優(yōu)化、僅特征添加和有無增加容錯值的特征優(yōu)化后的最優(yōu)特征集在模型上的性能表現(xiàn),如表3所示。可以看出,增加容錯值的特征優(yōu)化后的最優(yōu)特征集在模型上的性能表現(xiàn)更加準確,其精度、F1、AUC 值都有所提升。

計算最優(yōu)特征集的特征重要性,如表4所示。可以看出,最優(yōu)特征集中的特征按特征重要性從高到低排分別為:Px、氧時/d、無創(chuàng)/d、胎齡、Apgar1、母親年齡、Apgar5、胎膜早破、貧血E/L、敗血癥(E/L),對應的特征重要性分別是18、16、15、14、12、11、9、6、1、0,其中貧血E/L和敗血癥(E/L)相比于其他特征由于特征重要性太低,可能是特征優(yōu)化過程中沒有剔除出去的噪聲。最終得出ROP相關高危因素為Px、氧時、無創(chuàng)、胎齡、Apgar1、母親年齡、Apgar5、胎膜早破,其中氧時與胎齡與學術界公認的結果一致,母親年齡、胎膜早破也符合臨床醫(yī)生診斷經(jīng)驗,而Px、無創(chuàng)、Apgar1、Ap?gar5則是通過機器學習挖掘出的ROP潛在相關高危因素。

3 結論

本文旨在基于機器學習進行ROP相關高危因素分析,對ROP原始數(shù)據(jù)集進行了基本信息分析和數(shù)據(jù)預處理后,建立了基于LightGBM的ROP相關高危因素分析模型,并根據(jù)該模型進行特征優(yōu)化得到ROP最優(yōu)特征集,即ROP相關高危因素,得出以下結論

1) 從數(shù)據(jù)集本身和模型訓練的結果來看,本文使用的徐州醫(yī)科大學附屬醫(yī)院的ROP數(shù)據(jù)集能夠較好地反映ROP的潛在相關風險因素,利用胎齡、出生體重、高氧、氧時等34個特征作為LightGBM模型的輸入特征,可以很好地挖掘出ROP的相關高危因素以及更深層次的潛在風險因素,其中,LightGBM分析模型的精確度達到0.7142,AUC 值達到0.8352,KS 值達到0.4942也證明了機器學習模型在早產(chǎn)兒視網(wǎng)膜病變分析領域處理高維度數(shù)據(jù)集的有效性;

2) 從模型再驗證的結果來看,本研究對最優(yōu)特征集再次進行LightGBM模型搭建、訓練與驗證后,經(jīng)過LightGBM的特征優(yōu)化所得的高危因素相對原始數(shù)據(jù)集的模型預測性能有了大幅提升,驗證了特征優(yōu)化過程的有效性和合理性,所得的最優(yōu)特征集是通過機器學習模型特征優(yōu)化后的ROP相關高危因素,其中大部分因素與臨床醫(yī)生經(jīng)驗一致,并通過對相關高危因素進行特征重要性排名,篩選出了潛在高危因素。

主站蜘蛛池模板: 91国内外精品自在线播放| 久久综合一个色综合网| 欧美中文字幕在线视频| 亚洲福利片无码最新在线播放| 亚洲一区二区三区国产精华液| 一本一道波多野结衣av黑人在线| 毛片国产精品完整版| 色网站免费在线观看| 97在线观看视频免费| 国内老司机精品视频在线播出| 免费一级毛片不卡在线播放| 久久免费精品琪琪| 中文字幕1区2区| 亚洲开心婷婷中文字幕| 国产美女精品一区二区| 免费a级毛片18以上观看精品| 精品無碼一區在線觀看 | 国产精品手机在线播放| 久久国产精品电影| 欧美精品亚洲精品日韩专区va| 精品久久蜜桃| 亚洲综合婷婷激情| 久久免费视频6| 91口爆吞精国产对白第三集| 亚洲精品大秀视频| 在线国产91| 国产无人区一区二区三区| 四虎免费视频网站| 国产网站免费看| 91亚洲免费视频| 国产成人高清在线精品| 免费国产小视频在线观看| 国产精品区视频中文字幕| 成人国产精品视频频| 亚洲欧洲美色一区二区三区| 综合网天天| 国产XXXX做受性欧美88| 国产男女免费完整版视频| 国产一级裸网站| 亚洲侵犯无码网址在线观看| 天堂网国产| 另类欧美日韩| 久草中文网| 国产精品自在在线午夜| 国产chinese男男gay视频网| 中文字幕亚洲精品2页| 午夜精品国产自在| 婷婷亚洲综合五月天在线| …亚洲 欧洲 另类 春色| 亚洲,国产,日韩,综合一区| 日韩一区二区三免费高清| 特级毛片免费视频| 午夜免费视频网站| 国产福利大秀91| 特级欧美视频aaaaaa| 亚洲黄色成人| 国产精品三级专区| 92精品国产自产在线观看 | 有专无码视频| 国产一区二区三区在线观看免费| 日韩天堂网| 亚洲一区免费看| 国产丝袜一区二区三区视频免下载| 国产福利一区视频| 亚洲欧美自拍一区| 亚洲天堂网在线视频| 97综合久久| 中文成人在线| 亚洲精品男人天堂| 青青国产在线| 中文成人在线| 在线播放真实国产乱子伦| 在线无码私拍| h视频在线播放| 亚洲六月丁香六月婷婷蜜芽| 国产超薄肉色丝袜网站| 免费高清a毛片| 久久精品波多野结衣| 全部免费特黄特色大片视频| 亚洲人成网站18禁动漫无码| 中文字幕色站| 国产成人av一区二区三区|