999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理的多模態(tài)糖尿病預(yù)測(cè)模型

2023-08-03 09:18:16高豪俊蔣思清
當(dāng)代醫(yī)藥論叢 2023年14期
關(guān)鍵詞:文本糖尿病模型

高豪俊,蔣思清,吳 健*

(1.浙江大學(xué)醫(yī)學(xué)院,浙江 杭州 310058 ;2.浙江大學(xué)睿醫(yī)人工智能研究中心,浙江 杭州 310000)

糖尿病已成為當(dāng)今時(shí)代最嚴(yán)重和最常見的慢性病之一。2021 年全球糖尿病患者數(shù)量超過5 億人,估計(jì)患病率超過10%,預(yù)計(jì)到2045 年患者數(shù)將超過7億[1]。隨著病情的發(fā)展,糖尿病將引起諸多并發(fā)癥,影響患者的生存質(zhì)量,縮短其預(yù)期壽命,給其家庭和社會(huì)帶來巨大的經(jīng)濟(jì)負(fù)擔(dān)[2-3]。由于此病早期通常沒有癥狀,患者往往不能及時(shí)發(fā)現(xiàn)自身的疾病[4]。而通過相關(guān)早期篩查、及時(shí)干預(yù)可有效預(yù)防或延緩其并發(fā)癥的出現(xiàn)[5-6]。因此,需要開發(fā)一種簡(jiǎn)單有效的篩查方法。目前已經(jīng)有許多研究采用機(jī)器學(xué)習(xí)算法來預(yù)測(cè)糖尿病,如隨機(jī)森林、支持向量機(jī)、決策樹等,并且展現(xiàn)出了優(yōu)秀的區(qū)分能力[7-10]。但這些研究對(duì)于飲酒、運(yùn)動(dòng)量、家族史等危險(xiǎn)因素均是以分類變量的形式作為模型進(jìn)行輸入。而此類信息在現(xiàn)實(shí)電子病歷系統(tǒng)中通常是以自由文本的形式保存,且由于內(nèi)容復(fù)雜,難以直接轉(zhuǎn)換為分類變量。通過模型直接利用這些文本信息更符合現(xiàn)實(shí)場(chǎng)景的需求。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,近年來飛速發(fā)展,在文本、圖像、語音等非結(jié)構(gòu)化數(shù)據(jù)的處理上有著出色的表現(xiàn)[11-12]。Transformer 是目前自然語言處理領(lǐng)域的主流架構(gòu)[13]。本文利用體檢數(shù)據(jù)中的結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù)在Transformer 架構(gòu)的基礎(chǔ)上構(gòu)建多模態(tài)糖尿病預(yù)測(cè)模型,并與其他僅能使用結(jié)構(gòu)化數(shù)據(jù)的模型進(jìn)行對(duì)比。現(xiàn)報(bào)道如下。

1 數(shù)據(jù)來源

數(shù)據(jù)來源為杭州市每天健康體檢與健康管理服務(wù)平臺(tái)的多家醫(yī)院健康體檢數(shù)據(jù)。這項(xiàng)研究獲得了浙江大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)倫理委員會(huì)的倫理審批(倫理審查編號(hào)ZGL202107-4)。所有患者信息均已完成去標(biāo)識(shí)化處理。我們納入2011 年至2020 年有進(jìn)行過葡萄糖耐量試驗(yàn)的體檢記錄,排除了病史中帶糖尿病描述的記錄,最終納入6 家醫(yī)院的共17 976 份體檢記錄。我們選擇其中一家醫(yī)院構(gòu)成數(shù)據(jù)集Ⅱ,作為外部驗(yàn)證集,剩余5 家醫(yī)院共同構(gòu)成數(shù)據(jù)集Ⅰ,用作模型的訓(xùn)練和內(nèi)部驗(yàn)證。

我們依據(jù)糖尿病診斷標(biāo)準(zhǔn)將數(shù)據(jù)分為兩類(0 為未患病,1 為患病),診斷依據(jù)包括:空腹血糖≥7.0 mmol/L、葡萄糖耐量試驗(yàn)中餐后2 小時(shí)血糖≥11.1 mmol/L 或糖化血紅蛋白≥6.5%。

我們采用空腹血糖和既往糖尿病預(yù)測(cè)模型常用的危險(xiǎn)因素來搭建模型,包括性別、年齡、體重指數(shù)、甘油三酯、收縮壓、舒張壓、腰圍、體重、家族史、病史、煙酒史。其中家族史、病史和煙酒史為文本數(shù)據(jù)。

2 方法

我們參照FT-Transformer 的方法對(duì)數(shù)值型和分類型變量進(jìn)行嵌入處理[14],轉(zhuǎn)換為d 維向量表示。對(duì)于文本變量,我們采用中文預(yù)訓(xùn)練的BERT 模型進(jìn)行語義提取[15],再通過一層全連接層轉(zhuǎn)變?yōu)閐 維向量,同嵌入處理后的其他變量拼接后輸入Transformer 模型進(jìn)行分類預(yù)測(cè)。Transformer 模型采用2 層編碼器結(jié)構(gòu)。得益于Transformer 在多個(gè)領(lǐng)域的通用性,該模型可擴(kuò)展其他類型的數(shù)據(jù),我們將其命名為可拓展的糖尿病預(yù)測(cè)模型(extensible diabetes prediction model, EDPM)。

本文采用既往研究中表現(xiàn)較好的MLP、邏輯回歸、隨機(jī)森林、支持向量機(jī)和XGBoost 進(jìn)行對(duì)比[16-17]。所有模型均在數(shù)據(jù)集Ⅰ上進(jìn)行10 折交叉驗(yàn)證,并在數(shù)據(jù)集Ⅱ上進(jìn)行外部驗(yàn)證。由于類別存在明顯的不平衡,我們采用準(zhǔn)確率、F1 分?jǐn)?shù)、受試者工作特征曲線下面積(AUC)來評(píng)估模型性能。

3 結(jié)果

各模型在內(nèi)外部驗(yàn)證集上的表現(xiàn)如表1 所示。只采用結(jié)構(gòu)化數(shù)據(jù)的情況下,傳統(tǒng)機(jī)器學(xué)習(xí)模型的表現(xiàn)最優(yōu),多數(shù)AUC 均達(dá)到0.94。引入本文數(shù)據(jù)后,EDPM 的表現(xiàn)相較無文本有了明顯提升,在外部驗(yàn)證集上的AUC(0.93)超過了其他所有模型,但在內(nèi)部驗(yàn)證集上的表現(xiàn)僅與最佳的機(jī)器學(xué)習(xí)模型相當(dāng)(AUC=0.94)。

表1 各模型在驗(yàn)證集上的表現(xiàn)

4 討論

實(shí)驗(yàn)結(jié)果表明,在只采用結(jié)構(gòu)化數(shù)據(jù)的情況下,傳統(tǒng)機(jī)器學(xué)習(xí)算法依舊是當(dāng)下最優(yōu)的選擇。深度學(xué)習(xí)算法在結(jié)構(gòu)化數(shù)據(jù)上的表現(xiàn)要略差于傳統(tǒng)機(jī)器學(xué)習(xí)模型。可能是由于表格數(shù)據(jù)的內(nèi)容已經(jīng)是經(jīng)過人為篩選得出的,等同于已經(jīng)經(jīng)過了一次特征工程,所以不像圖像和文本數(shù)據(jù)那樣擁有豐富的特征供模型學(xué)習(xí),而且實(shí)驗(yàn)特征數(shù)量較少,使得深度學(xué)習(xí)無法發(fā)揮其在高維復(fù)雜數(shù)據(jù)上的強(qiáng)大學(xué)習(xí)能力。

加入文本后,EDPM 的AUC 有了明顯的提升。可見EDPM 是能夠從文本數(shù)據(jù)中學(xué)習(xí)到與糖尿病相關(guān)的信息的。飲酒、體力活動(dòng)少、紅肉攝入量高等作為糖尿病的重要風(fēng)險(xiǎn)因素[18],由于種類復(fù)雜,難以形成較為簡(jiǎn)單統(tǒng)一的記錄方式。自由文本可攜帶的信息更豐富,對(duì)于醫(yī)護(hù)人員臨床工作的開展也更友好,是當(dāng)下對(duì)此類信息最好的記錄方式。EDPM 可以在不改變臨床醫(yī)護(hù)人員工作習(xí)慣的條件下,提高對(duì)糖尿病患者預(yù)測(cè)的準(zhǔn)確性。EDPM 還具有傳統(tǒng)機(jī)器學(xué)習(xí)所不具備的拓展能力,只要在模型輸入端加上特征提取模塊,就可以實(shí)現(xiàn)不同類型數(shù)據(jù)的多模態(tài)融合。此外,臨床上還有許多文本類型的數(shù)據(jù),如主訴、檢查報(bào)告等。這些都有望成為輔助決策的參考因素,進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性。

當(dāng)然,我們的研究也有一定的局限性。由于進(jìn)行葡萄糖耐量試驗(yàn)的人群大部分是糖尿病高風(fēng)險(xiǎn)人群,導(dǎo)致我們的數(shù)據(jù)中糖尿病患者比例要遠(yuǎn)高于正常人群,分布情況和實(shí)際篩查情況相差較大,可能對(duì)模型的表現(xiàn)造成一定的影響。盡管深度學(xué)習(xí)模型可以產(chǎn)生準(zhǔn)確的預(yù)測(cè),但其可解釋性差,常被視為黑盒模型。臨床醫(yī)生通常會(huì)因?yàn)橥评磉^程不明確而不愿意接受機(jī)器建議[19]。這是未來深度學(xué)習(xí)需要改善的一個(gè)痛點(diǎn)。

猜你喜歡
文本糖尿病模型
一半模型
糖尿病知識(shí)問答
中老年保健(2022年5期)2022-08-24 02:35:42
糖尿病知識(shí)問答
中老年保健(2022年1期)2022-08-17 06:14:56
糖尿病知識(shí)問答
中老年保健(2021年5期)2021-08-24 07:07:20
糖尿病知識(shí)問答
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产乱子伦精品视频| 福利国产在线| 99在线观看免费视频| 91免费国产在线观看尤物| 欧美一级夜夜爽www| 91成人免费观看| 亚洲无码高清视频在线观看| 久久人体视频| 在线亚洲天堂| 亚洲欧洲日韩综合| 亚洲天堂777| 亚洲福利一区二区三区| 粗大猛烈进出高潮视频无码| 在线看片免费人成视久网下载| 欧美午夜一区| 国产va在线| 国产swag在线观看| 国产免费怡红院视频| 欧美视频在线观看第一页| 丁香婷婷久久| 美女被躁出白浆视频播放| 草草线在成年免费视频2| 国产精品无码一区二区桃花视频| 色悠久久综合| 无码丝袜人妻| 欧美国产综合色视频| 日韩欧美国产三级| 四虎影视永久在线精品| 日韩不卡高清视频| 无码久看视频| 精品黑人一区二区三区| 18禁影院亚洲专区| 看国产毛片| 国产h视频在线观看视频| 91福利片| 国产精品久久久久久久久久98 | 国产喷水视频| 欧美一级大片在线观看| 四虎影视无码永久免费观看| 91黄色在线观看| 午夜视频免费试看| 狠狠五月天中文字幕| 欧美成a人片在线观看| 91麻豆久久久| 亚洲欧美另类日本| 91成人在线观看视频| 77777亚洲午夜久久多人| 久久国产精品国产自线拍| 伊人激情综合网| 国产成人无码Av在线播放无广告| 国产精品毛片在线直播完整版| 综合色区亚洲熟妇在线| 国产精品hd在线播放| 中日无码在线观看| 2020精品极品国产色在线观看 | 中文字幕日韩视频欧美一区| 黄色网站不卡无码| 亚洲日本中文综合在线| 人妻21p大胆| 欧美日本在线一区二区三区| 亚洲欧美日韩久久精品| 欧美激情首页| 成人福利视频网| 自慰高潮喷白浆在线观看| 欧美成人二区| 国产精品粉嫩| 国产一区二区精品高清在线观看| 99性视频| 国产伦片中文免费观看| 国产精品美女免费视频大全| 欧美亚洲另类在线观看| 亚洲色婷婷一区二区| 综合色在线| 激情综合激情| 国产成在线观看免费视频 | 国产精品成人观看视频国产| 精品视频91| www.99精品视频在线播放| 青青草原国产一区二区| 精品人妻系列无码专区久久| 国产凹凸视频在线观看| 久久综合丝袜长腿丝袜|