999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于H2O 平臺自動化機器學習的糖尿病視網膜病變預測模型的建立

2023-11-28 03:48:24王慧霞張玉婷朱曼輝
醫學信息 2023年22期
關鍵詞:模型

王慧霞,張玉婷,朱曼輝

(蘇州大學理想眼科醫院斜視與小兒眼科1,病理科2,江蘇 蘇州 215000)

糖尿病視網膜病變(diabetic retinopathy,DR)是最常見且患病率較高的糖尿病(diabetic mellitus,DM)微血管并發癥之一,主要病理改變是視網膜血管閉塞性循環障礙[1]。DR 嚴重威脅著糖尿病患者的生存質量,同時給社會帶來嚴重經濟負擔。早期篩查防治DR,對于改善DM 患者遠期預后至關重要[2]。近年來,國內外學者基于醫院或社區的橫斷面或病例對照研究,利用廣義線性模型算法,建立了一系列預測DM 患者發生DR 的模型及列線圖,展現出較好的預判能力和臨床運用效果[3,4]。廣義線性模型屬于機器學習中發展較早的統計學模型,而今機器學習飛速發展,算法不斷更新,在監督學習中涌現出如支持向量機、決策樹、樸素貝葉斯、人工神經網絡等算法[5]。算法的不斷更迭進步,伴隨而來是對建模者專業知識不斷增長的要求,這大大提高了臨床醫生利用機器學習算法的門檻。自動化機器學習(AutoML)可通過自動化建模和調參程序,大大降低建模人員的工作門檻和負擔[6]。本研究采集本院患者一般資料及實驗室檢查結果,利用H2O 運算平臺推出的AutoML 算法建立預測模型,旨在為DM 人群的DR 篩查提供新的思路。

1 資料與方法

1.1 一般資料 選取2019 年1 月-2021 年1 月于蘇州大學理想眼科醫院就診患者電子病歷數據,采用ICD-10 疾病分類標準進行編碼。納入606 例DM 患者,根據眼底照相分為單純DM(DM 組)303 例及DM合并DR(DR 組)303 例。納入標準:所有患者診斷均符合最新國內臨床指南[1,2]。排除標準:①其他原因導致的高血糖;②合并2 型DM 急性并發癥;③妊娠及哺乳期女性;④合并顯著肝腎功能異常、嚴重的心腦血管疾病或惡性腫瘤等;⑤資料不全者。本研究已獲蘇州大學附屬理想眼科醫院倫理委員會批準(批準號SLER2018112),所有患者均簽署知情同意書。

1.2 臨床及實驗室檢測

1.2.1 人體數據測量 測量并記錄納入人群的身高、體重、血壓(SBP/DBP)、臀圍和腰圍,并計算體質量指數(BMI)和腰臀比(WHR)。采集患者既往病史、服藥史、煙酒史,并通過計算代謝當量商(metabolic equivalent of task,MET)計算體力活動量。

1.2.2 DR 檢查方法 視網膜檢查使用免散瞳眼底數碼照相機(型號:TRC-NW300),由專科技師在攝片暗室進行?;颊哌M入暗室休息5 min,待視覺適應后,由技師應用免散瞳眼底數碼照相機進行拍攝以黃斑為中心的視網膜彩色圖像,每只眼睛拍攝一張照片。照片由對此項研究盲法的眼科醫生進行閱讀。

1.2.3 血清學檢測 獲取所有納入者空腹靜脈血10 ml。將收集的血樣統一離心,立刻上機檢測或儲存于-80 ℃冰箱待檢。血清生化分析采用Mindray 邁瑞800 全自動生化分析儀。檢測項目包括:①糖代謝和胰島素功能相關指標:空腹血糖(FPG)、空腹胰島素(FINS)及糖化血紅蛋白(HbA1c),并計算穩態模型胰島素抵抗指數(HOMA-IR);②肝酶指標:谷丙轉氨酶(ALT)、谷草轉氨酶(AST)及γ-谷氨酰轉肽酶(GGT);③脂質代謝相關指標:三酰甘油(TG)、高密度脂蛋白膽固醇(HDL-C)及低密度脂蛋白膽固醇(LDL-C)。

1.3 評價方法 利用H2O 運算平臺推出的AutoML算法建立針對DR 二分類結局的機器學習預測模型,產生相應預測結果,據此繪制受試者工作特征(ROC)曲線并建立混淆矩陣,計算特異度、敏感度、準確度及誤分類率,評價模型區分能力。

1.4 統計學方法 本研究建模及繪圖軟件包括:R(4.0.4 版)、H2O 包(H2O cluster 版本:h2o_3.32.1.7)、tableone 包(0.13.2 版本)及lime 包(0.5.3 版本)。計量資料以(±s)或[M(P25,P75)]表示,組間比較采用Student'st檢驗或Mann-WhitneyU檢驗。計數資料采用[n(%)]表示,比較采用χ2檢驗。為進一步了解變量在模型中的重要性及分布情況,進行可視化分析,包括Shapley Additive exPlanations(SHAP 分析)、Partial dependence(部分依賴)及LIME 可視化。雙側P<0.05 為差異有統計學意義。

2 結果

2.1 兩組一般及臨床資料比較 DR 組糖尿病病程長于DM 組,吸煙、飲酒、高血壓、脂肪肝比例、腰臀比、BMI 及收縮壓高于DM 組,差異有統計學意義(P<0.05);DR 組 HDL -C 低 于 DM 組,FPG、FINS、HOMA-IR、HbA1c、ALT 和AST 均高于DM 組,差異有統計學意義(P<0.05),見表1。

表1 兩組一般及臨床資料比較[±s,M(P25,P75)]

表1 兩組一般及臨床資料比較[±s,M(P25,P75)]

2.2 模型建立判斷DR 發病風險 將上述單因素分析中存在差異的變量納入AutoML 機器學習工作環境中,利用H2O 平臺進行隨機分組、特征選擇、建模運算及驗證。將606 例DM 患者按照8∶2 比例隨機分組為Train 集(482 例)及Valid 集(124 例)。最佳模型為通用梯度回歸模型(generalized boosted regression model,GBM)。這是一種由多棵決策樹組成的迭代決策樹算法。該模型(基于Train 數據集的5 折交叉 驗 證):Gini 值0.914,R2為0.679,LogLoss 為0.260。模型中各變量的重要性見表2。其中在最佳模型GBM 中,重要性排名前3 的變量(即對模型貢獻的排名)分別為空腹血糖、糖尿病病程及空腹胰島素,其占比均超過10%。

表2 最佳模型中各變量重要性排名

2.3 變量在模型中的作用 在最佳模型GBM 中,各變量的SHAP 特征圖繪制在圖1 中。重要性排名前3 的變量是空腹血糖、糖尿病病程及空腹胰島素。三者在結局二分類中的分布,體現其標準化數值與發病呈正相關趨勢。圖2 為LIME 可視化,顯示是隨機抽取的8 個樣本(DM 組5 例,DR 組3 例),3 個重要變量對預測結果的重要性貢獻。圖3 顯示的3 個變量在模型中的部分依賴圖,可以看出三者與結果基本上呈現的是單調的上升趨勢。

圖1 最佳模型中各變量SHAP 特征

圖2 隨機樣本中變量重要性LIME 可視化

圖3 最佳模型中變量部分依賴圖

2.4 預測模型的區分能力 采用上述獲得的預測模型GBM 繪制預判DR 發病的ROC 曲線并建立混淆矩陣。在Train 數據集中,ROC 曲線下面積為0.942(95%CI:0.921~ 0.963)。利用混淆矩陣得到特異度為0.924,敏感度為0.959,準確度為0.942,誤分類率為0.058。在Valid 數據集中,ROC 曲線下面積為0.831(95%CI:0.764~0.897)。利用混淆矩陣得到特異度為0.828,敏感度為0.833,準確度為0.831,誤分類率為0.169,見表3。

表3 最佳預測模型GBM 在各個數據集中的區分能力

3 討論

隨著機器學習及深度學習的快速發展,選擇合適的模型并根據超參數不斷調整優化模型,這一過程變得十分繁瑣且耗時。此外,它還對建模者的計算機知識提出了較高要求[5]。近幾年,各大科技公司陸續推出自動化學習平臺,如谷歌公司推出的Cloud AutoML、H2O 平臺的AutoML 等[6]。AutoML 可以自動化完成機器學習的前期工作:包括數據準備、編碼、功能選擇/提取以及工程化環境。同時,在模型生成過程中,如模型算法選擇、優化、迭代以及驗證,AutoML 均可在少量代碼基礎上實現。

H2O AutoML 是H2O 平臺提供一種針對自動化工作流程的算法,主要功能涵蓋:輕數據準備、環境建立、模型選擇及優化[6]。其中亮點包括:通過堆疊一組集成學習模型,自動化迭代模型。當前版本H2O AutoML 可建立并交叉驗證以下模型:廣義線性模型、隨機森林、極隨機森林、梯度提升機隨機網格、XGBoosts、深神經網隨機網格以及相關的集成學習。H2O AutoML 的一大特點就是組合堆疊多個集成學習算法,以獲得比從單個成分學習算法更好的預測性能,廣泛運用在監督學習中。許多流行的現代機器學習算法實際上都是集成學習。例如,隨機森林和梯度提升機都是通過組合弱學習算法(例如決策樹)并形成單一、強學習的集成學習法。

近年來,隨著人民群眾飲食結構改變、人口老齡化等因素的影響,我國糖尿病患病率大幅增加。流行病調查顯示[7],我國大陸糖尿病患者中合并視網膜病變約占23%。由于DR 的早期隱蔽性、慢性進展性、不可逆性等特點,目前早期篩查工作仍然面臨諸多困難,選擇基于臨床資料、實驗室檢查的無創性篩查工具是DR 的防治工作重點[8]。DR 的發生發展是一個較復雜的病理生理過程,具體的機制尚不明確[9]。目前觀點認為[10],DM 患者機體能量代謝障礙,特別是胰島素抵抗和糖脂代謝紊亂可誘發視網膜病變。DR 在病程10 年以上的DM 患者中患病率高達80%,是全球中老年人視力喪失的首要病因[11]?;颊唠S著DM 病程的延長,一系列機體能量代謝功能紊亂逐漸發展并加重,其中如高血糖或血糖波動大、脂類代謝紊亂等都被證實是DR 的獨立危險因素。

及時的DR 篩查對于高危病例至關重要,通過全面的眼科檢查與干預,來避免永久性的視力喪失。在過去幾年中,各個國家通過大型流行病學研究提出了綜合各類風險因素的個性化篩查方案,體現了較好的成本-效益比。DCCT 是北美地區一項開展了近40 年的大型隊列研究,該研究提示長病程、高HbA1c、高血壓等是DR 發生發展的獨立危險因素,為基于社區的篩查提供標記工具[12]。有研究[4]報道了一項跨我國多省份的橫斷面研究,發現DM 發病早、病程久、高血壓、高血糖及高HbA1c 是DR 的獨立危險因素;該團隊構建了列線圖模型,為DR 早篩早診提供幫助。基于人工智能的新技術,包括移動設備檢測系統、數字圖像算法等,將在未來改變篩查模式,再次改善成本-效益比[13,14]。

本研究收集單純DM 患者和合并DR 的DM 患者臨床資料及實驗室結果,利用H2O 平臺的AutoML算法進行自動化的變量篩選,發現高血糖、DM 病程、高空腹胰島素等是該地區DR 發生的重要獨立危險因素,這與國內外研究相似[3,4,12]。采用上述因素建立的GBM 預測模型判斷DR 發病,顯示出較好區分能力以及均衡的敏感度和特異度,優于基于線性模型算法的相關報道[3,15]。本研究中的機器學習模型在訓練集和測試集中都展現了良好的特異性,作為一個初篩工具,可以用于社區高危人群的篩選,大大降低眼科衛生機構的工作壓力,避免醫療資源的浪費[16-18]。

本研究報道了利用AutoML 算法處理DM 患者數據,為今后的DR 篩查提供參考和思路。該方法優勢在于:一方面相比較傳統的邏輯回歸等統計模型,提高了模型準確率;另外,使用自動化算法,大大降低了醫務人員利用人工智能技術的門檻,為今后AutoML 在臨床科研領域的應用提供參考[19,20]。本研究樣本是基于我院的單中心數據,利用隨機分組和交叉驗證,具有較高的參考價值。但仍需多中心的外部驗證進一步評估該模型在DR 診斷中的作用。

綜上所述,本次利用AutoML 算法建立的通用梯度回歸DR 患病預測模型可用于DM 人群中DR的篩查。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 狠狠五月天中文字幕| 欧美国产日本高清不卡| 日本午夜三级| 粗大猛烈进出高潮视频无码| 久久精品人人做人人爽电影蜜月| 日韩午夜福利在线观看| 国产亚洲欧美日韩在线观看一区二区| 日韩午夜福利在线观看| 伊人久久福利中文字幕| 久久久久久高潮白浆| 白浆免费视频国产精品视频| 毛片免费在线视频| 亚洲大尺度在线| 国产成人久视频免费| 欧美97欧美综合色伦图| 99久久性生片| 欧美色香蕉| 老司国产精品视频| 毛片久久久| 国产极品美女在线| 人妻丰满熟妇啪啪| 国产区在线看| 97久久超碰极品视觉盛宴| 国产精品免费久久久久影院无码| 色婷婷亚洲十月十月色天| 欧美在线综合视频| 在线免费a视频| 欧美在线综合视频| 久久夜夜视频| 国产精品内射视频| 国产精品视频猛进猛出| 91久久偷偷做嫩草影院电| 日本尹人综合香蕉在线观看| 欧美综合区自拍亚洲综合绿色| 国产成人综合日韩精品无码首页| 国产精品视频猛进猛出| 亚洲av片在线免费观看| 极品性荡少妇一区二区色欲| 波多野结衣久久精品| jizz国产视频| 女人一级毛片| 又爽又黄又无遮挡网站| 国产美女丝袜高潮| 国产成人a在线观看视频| 国产精品第页| 免费看一级毛片波多结衣| 国产精品亚洲综合久久小说| 午夜无码一区二区三区| 午夜性刺激在线观看免费| 亚洲成人77777| 欧美日韩在线亚洲国产人| 免费毛片a| 亚洲第一成年免费网站| 在线视频97| 福利国产微拍广场一区视频在线| 久久精品人人做人人爽97| 99精品久久精品| 日韩亚洲综合在线| 强乱中文字幕在线播放不卡| 在线观看欧美精品二区| 国产精品久久久久久久久| 精品天海翼一区二区| 午夜国产理论| 国产成人无码AV在线播放动漫| 久久夜色精品| 国产成人超碰无码| 萌白酱国产一区二区| 成人韩免费网站| 伊人成人在线| 女人一级毛片| 成人午夜免费视频| 狠狠色成人综合首页| 国产欧美成人不卡视频| 青草精品视频| 特级做a爰片毛片免费69| 在线日韩日本国产亚洲| 免费高清毛片| 国产成人综合亚洲欧洲色就色| 在线看免费无码av天堂的| 毛片视频网址| 欧美无遮挡国产欧美另类| 国产精品成人第一区|