郭 漢,帥仁俊,張 欣,李文煜,李 鑫
(南京工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211816)
因?yàn)镮CU患者的特殊性,醫(yī)院在人員、設(shè)備及技術(shù)上都予以最佳保障,通過(guò)連續(xù)或接近連續(xù)的觀察、診療和監(jiān)護(hù),以達(dá)到良好的醫(yī)療效果[1,2],同時(shí)醫(yī)療費(fèi)用也比較昂貴.ICU患者通常病情危急、病情多變,僅通過(guò)有豐富經(jīng)驗(yàn)醫(yī)生的主觀經(jīng)驗(yàn)及醫(yī)學(xué)手段來(lái)做出重大決策進(jìn)行診療已經(jīng)顯露出一些局限性[3,4].盡管付出了巨大的努力,但每天仍然有很多生命逝去,因此迫切需要將大量重癥監(jiān)護(hù)數(shù)據(jù)庫(kù)利用起來(lái),通過(guò)建立數(shù)據(jù)與疾病之間的聯(lián)系,來(lái)輔助醫(yī)生決策[5],對(duì)ICU患者的死亡率做出更快、更準(zhǔn)確的預(yù)測(cè).
重癥監(jiān)護(hù)室數(shù)據(jù)集樣本數(shù)量及復(fù)雜程度一直保持增長(zhǎng)狀態(tài),同時(shí)ICU數(shù)據(jù)相比起普通的電子病歷數(shù)據(jù)其維度更高、更密集,給機(jī)器學(xué)習(xí)方法提供了有利的條件[5].心力衰竭(heart failure)簡(jiǎn)稱(chēng)心衰,是各種心血管疾病的終末階段,對(duì)機(jī)體多個(gè)重要臟器造成侵襲并影響其正常功能.有將近5%的ICU入院是與心力衰竭相關(guān)的,并且這是導(dǎo)致死亡的主要原因之一.據(jù)有關(guān)報(bào)道,對(duì)不同受試人群調(diào)查,心力衰竭患者在1年內(nèi)全因死亡率達(dá)30%,其中重癥心力衰竭患者在確診后第1年內(nèi)全因死亡率超過(guò)20%[6].因此,預(yù)測(cè)ICU心力衰竭患者死亡率是一個(gè)非常重要的問(wèn)題.醫(yī)生可以根據(jù)預(yù)測(cè)結(jié)果進(jìn)行輔助醫(yī)療,對(duì)于高死亡率的病人,及時(shí)采取有針對(duì)性的診治手段以避免錯(cuò)失最佳治療時(shí)機(jī);對(duì)于低死亡率的病人,減少藥物的過(guò)度使用,也更有益于患者和衛(wèi)生保健資源的合理分配.
隨機(jī)森林[7]是通過(guò)集成學(xué)習(xí)的思想將多棵樹(shù)集成的一種算法,其因具有極好的準(zhǔn)確率、在生成過(guò)程中能夠獲取到內(nèi)部生成誤差的一種無(wú)偏估計(jì)等特點(diǎn),有著廣泛的應(yīng)用前景,可用于市場(chǎng)營(yíng)銷(xiāo)模擬建模,統(tǒng)計(jì)客戶(hù)來(lái)源,保留和流失,也可用來(lái)預(yù)測(cè)疾病的風(fēng)險(xiǎn)和患者的易感性等領(lǐng)域.由于許多合并癥會(huì)導(dǎo)致心衰死亡率的加劇,研究不同合并癥對(duì)ICU患者心衰死亡率的影響,能夠找出更容易預(yù)測(cè)死亡率的患者群.蜂群算法在多變量函數(shù)問(wèn)題中具有較強(qiáng)的優(yōu)化能力,結(jié)合蜂群的覓食行為與隨機(jī)森林思想在真實(shí)ICU病患數(shù)據(jù)集上構(gòu)建模型實(shí)現(xiàn)對(duì)ICU病患的心衰死亡率預(yù)測(cè).本文主要做出了如下貢獻(xiàn):
1)首次在ICU患者心衰死亡率預(yù)測(cè)研究中結(jié)合改進(jìn)的迭代加深搜索蜂群算法和隨機(jī)森林,改善優(yōu)化性能的同時(shí)也極大地提高了模型的性能,有助于更準(zhǔn)確、更快地預(yù)測(cè)心衰死亡率;
2)考慮到不同合并癥會(huì)加劇心衰的死亡率,研究幾種不同合并癥下的心衰死亡率,更易找出死亡率較高的患者群;
3)在真實(shí)的ICU病患數(shù)據(jù)集上驗(yàn)證本文提出方法的有效性.
在過(guò)去幾十年中,大多數(shù)研究都集中在疾病的嚴(yán)重性評(píng)分系統(tǒng)或數(shù)據(jù)挖掘模型[4],這些模型設(shè)計(jì)用于 ICU入院后至少24或48 小時(shí)的風(fēng)險(xiǎn)評(píng)估.一些文章已經(jīng)討論并比較了依賴(lài)專(zhuān)家小組[8]或統(tǒng)計(jì)分析模型的ICU患者的死亡率預(yù)測(cè)模型.ICU 中最常見(jiàn)的危重癥評(píng)分模型雖然都是基于邏輯回歸,但在實(shí)際構(gòu)建模型訓(xùn)練過(guò)程中采用的策略并不同.常用的APACHE[9]和SAPS[10]評(píng)估在實(shí)際建模過(guò)程中就采用不同策略對(duì)疾病嚴(yán)重程度加以預(yù)測(cè).
但基于邏輯回歸的傳統(tǒng)ICU病人死亡風(fēng)險(xiǎn)預(yù)測(cè)模型更新十分緩慢.為了獲得更優(yōu)的預(yù)測(cè)性能,越來(lái)越多的研究從數(shù)據(jù)挖掘角度出發(fā),開(kāi)發(fā)機(jī)器學(xué)習(xí)模型.謝俊卿等[4]為基于本地電子病歷數(shù)據(jù)預(yù)測(cè)ICU患者死亡風(fēng)險(xiǎn)的研究者提供必要的概念、步驟與方法,在臨床醫(yī)生最為熟知的邏輯回歸模型的基礎(chǔ)上,闡述了人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)和支持向量機(jī)三種機(jī)器學(xué)習(xí)模型的基本框架以及優(yōu)劣勢(shì).Awad等[1]強(qiáng)調(diào)了ICU患者早期死亡率預(yù)測(cè)的主要數(shù)據(jù)挑戰(zhàn)并引入了新的機(jī)器學(xué)習(xí)基于重癥監(jiān)護(hù)病房患者早期死亡率預(yù)測(cè)的框架.所提出的方法在重癥監(jiān)護(hù)多參數(shù)智能監(jiān)測(cè)II(MIMIC-II)數(shù)據(jù)庫(kù)中進(jìn)行評(píng)估.Baxt等人[11]認(rèn)為神經(jīng)網(wǎng)絡(luò)特別適合對(duì)復(fù)雜臨床場(chǎng)景進(jìn)行建模,文獻(xiàn)[12]使用C4.5來(lái)構(gòu)建死亡風(fēng)險(xiǎn)預(yù)測(cè)模型.Wong等[13]采用基尼指數(shù)作為其節(jié)點(diǎn)分割規(guī)則生成分類(lèi)回歸樹(shù),但預(yù)測(cè)因素較多時(shí),模型就會(huì)過(guò)于復(fù)雜.Moridani[14]利用SVM構(gòu)建模型預(yù)測(cè)ICU患者中心血管病人的死亡風(fēng)險(xiǎn),結(jié)果表明SVM優(yōu)于人工神經(jīng)網(wǎng)絡(luò)的結(jié)論.任曉紅等[15]探討血清低白蛋白對(duì)老年心力衰竭(心衰)患者院內(nèi)死亡的預(yù)測(cè)價(jià)值,實(shí)驗(yàn)證明血清低白蛋白是預(yù)測(cè)老年住院心衰患者院內(nèi)死亡的強(qiáng)獨(dú)立危險(xiǎn)因素.劉艷玲[15]根據(jù)肝功能指標(biāo)對(duì)于心衰的預(yù)后有關(guān)聯(lián),其中膽紅素指標(biāo)和死亡風(fēng)險(xiǎn)有獨(dú)立關(guān)聯(lián)性,通過(guò)對(duì)患者相關(guān)臨床數(shù)據(jù)進(jìn)行回顧性分析并了解膽紅素系統(tǒng)檢測(cè)手段在對(duì)此類(lèi)疾病死亡風(fēng)險(xiǎn)預(yù)測(cè)的臨床價(jià)值.
國(guó)內(nèi)外學(xué)者已經(jīng)提出了一些針對(duì)心力衰竭死亡率預(yù)測(cè)的機(jī)器學(xué)習(xí)方法,都具有其合理性并起到一定效果.可以發(fā)現(xiàn)對(duì)心力衰竭死亡率的研究,從單純的醫(yī)學(xué)問(wèn)題,逐漸到開(kāi)始利用并分析病人電子病歷的海量數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘,從而采取一系列算法對(duì)心力衰竭死亡率進(jìn)行預(yù)測(cè).隨著ICU數(shù)據(jù)密度更大、質(zhì)量更高的趨勢(shì),以及當(dāng)前急重癥患者評(píng)分模型存在的局限性,利用先進(jìn)的機(jī)器學(xué)習(xí)算法來(lái)對(duì)ICU患者死亡率進(jìn)行預(yù)測(cè)越來(lái)越熱門(mén).但I(xiàn)CU重癥電子病歷中涉及到的信息眾多,如臨床觀察記錄、CT與胸透等掃描記錄、醫(yī)生診斷等,如何根據(jù)病歷轉(zhuǎn)化為標(biāo)準(zhǔn)格式,并分析、篩選出合適的特征來(lái)實(shí)現(xiàn)有效的預(yù)測(cè)是一大難點(diǎn).目前研究的方法只能在一定程度上對(duì)死亡率進(jìn)行預(yù)測(cè),醫(yī)護(hù)人員在大數(shù)據(jù)和人工智能算法的幫助下,結(jié)合自身的臨床經(jīng)驗(yàn),能夠更好地解決醫(yī)學(xué)難題、提升服務(wù)效率.因此本文采用IABC-RF算法對(duì)ICU患者心衰死亡率進(jìn)行預(yù)測(cè),并根據(jù)不同合并癥提出了新的預(yù)測(cè)模型,進(jìn)一步提高對(duì)ICU患者心衰死亡率預(yù)測(cè)正確率.
本文從真實(shí)的ICU病患數(shù)據(jù)集出發(fā),對(duì)數(shù)據(jù)進(jìn)行整理、篩選、清洗、特征提取等一系列數(shù)據(jù)預(yù)處理過(guò)程后,結(jié)合隨機(jī)森林和改進(jìn)蜂群優(yōu)化算法,提出了一種有效的ICU患者心衰死亡率預(yù)測(cè)模型(IABC-RF),預(yù)測(cè)系統(tǒng)框架圖如圖1所示.

圖1 系統(tǒng)框架圖Fig.1 Scheme of the proposed detection system
Karaboga提出的人工蜂群算法(Artificial Bee Colony,ABC)通過(guò)模擬蜜蜂的覓食行為來(lái)解決優(yōu)化問(wèn)題[17].三類(lèi)蜜蜂(雇傭蜂、觀察蜂和偵察蜂)進(jìn)行不同的活動(dòng),實(shí)現(xiàn)信息的共享和交流,從而找到最佳的解決方案,其優(yōu)化過(guò)程為:
1)初始化階段:種群規(guī)模為2N(雇傭蜂數(shù)量=觀察蜂數(shù)量=N),與雇傭蜂對(duì)應(yīng)隨機(jī)產(chǎn)生N個(gè)解向量(蜜源).每個(gè)蜜源Si(i=1,2,…,n)是一個(gè)D維矢量,包含待優(yōu)化的隨機(jī)森林參數(shù).

(1)

3)觀察蜂階段:雇傭蜂與觀察蜂分享食物來(lái)源的信息.觀察蜂重新計(jì)算蜜源的適用性,并計(jì)算被訪問(wèn)蜜源的概率.

(2)
其中,fiti是Si的適應(yīng)度.
4)偵查蜂階段:如果經(jīng)過(guò)一輪嘗試后蜜源量沒(méi)有提高,則雇傭蜂將變?yōu)閭刹榉?偵查蜂將放棄這個(gè)蜜源并生成一個(gè)新的解決方案來(lái)替換它.新蜜源中的每個(gè)參數(shù)都根據(jù)公式(3)創(chuàng)建.
(3)

ABC可以有效地處理多模和多維優(yōu)化問(wèn)題,由于其結(jié)構(gòu)簡(jiǎn)單,易于實(shí)現(xiàn)和出色的性能[18],已成功擴(kuò)展到解決多目標(biāo)優(yōu)化問(wèn)題、二進(jìn)制優(yōu)化問(wèn)題、數(shù)據(jù)聚類(lèi)問(wèn)題以及許多現(xiàn)實(shí)世界的應(yīng)用.但ABC在生成候選蜜源(新解決方案)時(shí),相應(yīng)原蜜源中只有一個(gè)參數(shù)隨機(jī)改變,這種生成模式使得沿軸搜索以及新蜜源將位于相關(guān)原蜜源的鄰域中,這使得擾動(dòng)變小;另一方面,ABC中的“隨機(jī)性”可能無(wú)法利用最佳解決方案或其他優(yōu)越解決方案的信息,并且根本沒(méi)有充分利用有希望的進(jìn)化方向,而且與其他優(yōu)化一樣,ABC的收斂速度較慢.
1https://mimic.physionet. org/gettingstarted/access/
為了彌補(bǔ)原始ABC的缺陷并進(jìn)一步改善其性能,本文提出了迭代加深搜索算法(ID-DFS)框架來(lái)改進(jìn)ABC算法,迭代加深搜索算法是仿廣度優(yōu)先搜索的深度優(yōu)先搜索,既能滿足深度優(yōu)先搜索的線性存儲(chǔ)要求,又能保證發(fā)現(xiàn)一個(gè)最小深度的目標(biāo)結(jié)點(diǎn).在原始ABC的雇傭蜂階段,每個(gè)蜜源通過(guò)其雇傭蜂產(chǎn)生候選食物來(lái)源,這意味著所有食物來(lái)源被分配相同的計(jì)算資源.而在觀察蜂階段,觀察蜂根據(jù)雇傭蜂提供的信息搜索新的食物來(lái)源,這表明質(zhì)量較好的食物來(lái)源將在觀察蜂階段分配更多的計(jì)算資源,該方法的計(jì)算資源分配強(qiáng)調(diào)廣度優(yōu)先搜索(BFS),從而導(dǎo)致ABC擅長(zhǎng)探索但利用率較低.引入ABC的迭代加深搜索算法框架后,在雇傭蜂階段,隨機(jī)選擇的食物來(lái)源將不斷更新,直到它無(wú)法產(chǎn)生更好的食物來(lái)源;在觀察蜂階段,觀察蜜蜂的數(shù)量不再是N,而是α·T(其中T=p·N,p∈(0,1),α∈{1,2,3,…,ceil(1 / p)},參數(shù)α可以控制計(jì)算策略資源分配),只有頂級(jí)T個(gè)精英解決方案吸引觀察蜂搜索,利用隨機(jī)選擇的精英食物來(lái)源(具有高純度值或小目標(biāo)函數(shù)值)連續(xù)產(chǎn)生候選食物來(lái)源,直到不能產(chǎn)生更好的食物來(lái)源.可以發(fā)現(xiàn)經(jīng)過(guò)改進(jìn)后的蜂群算法(IABC),在雇傭蜂階段和觀察蜂階段,食物來(lái)源容易得到改善,這將吸引更多的雇傭蜂和觀察蜂,從而分配更多的計(jì)算資源,同時(shí)食物來(lái)源的質(zhì)量(finess值)在每一代中可能有顯著差異,與輪盤(pán)賭過(guò)程相比,觀察蜂階段的搜索過(guò)程時(shí)間大大縮短.
每個(gè)蜜源矢量Si包含待優(yōu)化的隨機(jī)森林參數(shù),所以每一個(gè)蜜源對(duì)應(yīng)一個(gè)隨機(jī)森林,蜜源量由適應(yīng)度決定,適應(yīng)度越高表示蜜量越多,利用隨機(jī)森林在測(cè)試集上正確分類(lèi)的樣本比例公式(4)來(lái)決定適應(yīng)度f(wàn)iti.
(4)
其中t為測(cè)試集中樣本的數(shù)量,如果蜜源Si成功分類(lèi)第j個(gè)樣本則c(Si,j)=1,否則c(Si,j)=0,對(duì)于第j個(gè)樣本,如果成功分類(lèi)的決策樹(shù)個(gè)數(shù)等于錯(cuò)誤分類(lèi)的決策樹(shù)數(shù)量,則r(Si,j)=1,否則r(Si,j)=0.
為便于呈現(xiàn),基于改進(jìn)蜂群算法的隨機(jī)森林預(yù)測(cè)模型(IABC-RF)偽代碼如表1所示.在使用該算法時(shí),需要確定幾個(gè)控制參數(shù)的值:蜜源的數(shù)量(N)、放棄的條件(limt)、最大迭代次數(shù)(MCN)和搜索空間的上下界(Ub,Lb).在第四節(jié)中,將給出這些控制參數(shù)的實(shí)驗(yàn)值.
為了驗(yàn)證本文提出的方法的有效性,利用麻省理工學(xué)院計(jì)算生理學(xué)實(shí)驗(yàn)室開(kāi)發(fā)的公開(kāi)數(shù)據(jù)集MIMICIII數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn).
本文的實(shí)驗(yàn)環(huán)境為Anaconda5.2,腳本語(yǔ)言使用Python3.6.5,硬件處理器為AMD Ryzen2700X,內(nèi)存32G,運(yùn)行Linux操作系統(tǒng),同時(shí)配備GTX1080Ti顯卡.
表1 基于改進(jìn)蜂群算法的隨機(jī)森林算法(IABC-RF)的偽代碼流程
Table 1 Pseudocode of random forest algorithm based on improved bee colony(IABC-RF)

算法:基于改進(jìn)蜂群算法的隨機(jī)森林算法(IABC-RF)初始化:隨機(jī)生成N個(gè)蜜源,每個(gè)蜜源對(duì)應(yīng)一個(gè)隨機(jī)森林,確定最大迭代次數(shù)(MCN)While 不符合結(jié)束條件 do 選擇前T個(gè)蜜源作為精英解決方案 employed_flag=1 //雇傭蜂階段 for i=1 to N if employed_flag=1 隨機(jī)選取Si中的一個(gè)參數(shù)xji end if 利用公式(1)生成新參數(shù)vji if f(vji)≤f(xji) 將xji用vji代替 counter(s)=0,employed_flag=0 else counter(s)=counter(s)+1,employed_flag=1 end if end for //雇傭蜂階段結(jié)束 onlooker_flag=1 //觀察蜂階段 for i=1 to α·T if onlooker_flag=1 隨機(jī)從T個(gè)精英解決方案選取一個(gè)參數(shù)xji end if 利用公式(1)生成新參數(shù)vji if f(vji)≤f(xji) 將xji用vji代替 counter(e)=0,onlooker_flag=0 else counter(e)=counter(e)+1,onlooker_flag=1 end if end for //觀察蜂階段結(jié)束 if counter(max)>limt //偵查蜂階段結(jié)束 雇傭蜂將變?yōu)閭刹榉?偵查蜂將放棄這個(gè)蜜源并利用公式(3)生成一個(gè)新的解決方案來(lái)替換它 counter(max)=0 end if //偵查蜂階段結(jié)束end while
本文實(shí)驗(yàn)數(shù)據(jù)集采用麻省理工學(xué)院計(jì)算生理學(xué)實(shí)驗(yàn)室開(kāi)發(fā)的公開(kāi)數(shù)據(jù)集MIMICIII[19,20].可在鏈接1獲取.原始數(shù)據(jù)集包含了2001-2012年60000多次住院相關(guān)的數(shù)據(jù).包括人口統(tǒng)計(jì)學(xué),生命體征,實(shí)驗(yàn)室測(cè)試、藥物等.數(shù)據(jù)集由26個(gè)數(shù)據(jù)表組成.本次實(shí)驗(yàn)采用了其中6個(gè)表:PATIENTS,ADMISSIONS,ICUSTAYS,DIAGNOSES_I CD,D_LABITEMS,LABEVENTS.這6個(gè)表說(shuō)明如表2所示.
表2 實(shí)驗(yàn)數(shù)據(jù)表說(shuō)明
Table 2 Description of the experimental datas

數(shù)據(jù)表名稱(chēng)內(nèi)容PATIENTS(病人登記表)病人的基本信息,包含病人的性別、出生及死亡日期ADMISSIONS(住院表)病人入院和出院信息,人口統(tǒng)計(jì)信息,入院來(lái)源等ICUSTAYS(ICU記錄表)病人進(jìn)出ICU出院和已經(jīng)出院的相關(guān)信息DIAGNOSES_ICD(診斷信息表)根據(jù)ICD_9標(biāo)準(zhǔn)的病人確診信息,包含病人編號(hào)等D_LABITEMS(門(mén)診化驗(yàn)詞典表)病人在ICU中實(shí)驗(yàn)室測(cè)試項(xiàng)目ID、名稱(chēng)、縮寫(xiě)等LABEVENTS(門(mén)診檢查記錄表)病人在門(mén)診測(cè)量的項(xiàng)目記錄
本文研究的是重癥監(jiān)護(hù)患者心力衰竭的死亡率,所以用ICD_9代碼從PostgreSQL數(shù)據(jù)庫(kù)中查詢(xún)PATIENTS表并篩選所有診斷為心力衰竭的患者.然后根據(jù)SUBJECT_ID和RAW_ID從其他表篩選出數(shù)據(jù).篩選完成后共有10414名患者有心力衰竭診斷.其中6115名患者不再生存,4299名患者仍然存活.實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)表如表3所示.
表3 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)表
Table 3 Statistics table of experimental data

總?cè)藬?shù)死亡人數(shù)存活人數(shù)訓(xùn)練集83324892(58.71%)3439(41.29%)測(cè)試集20821223(58.74%)860(41.26%)
本次實(shí)驗(yàn)選用了MIMICIII數(shù)據(jù)集中的六個(gè)表.這些數(shù)據(jù)集通過(guò)SUBJECT_ID或者RAW_ID互相連接映射.本文死亡率預(yù)測(cè)為出院30后的死亡率,我們需要對(duì)患者出院后的存活時(shí)間進(jìn)行計(jì)算,并給數(shù)據(jù)集增加標(biāo)簽完成監(jiān)督學(xué)習(xí),此外還需要對(duì)特征進(jìn)行選取.
先給數(shù)據(jù)集增加標(biāo)簽,步驟如下:對(duì)患者的出院存活時(shí)間mortality_time進(jìn)行了計(jì)算,計(jì)算方式為患者的死亡時(shí)間dod與患者的出院時(shí)間dischtime的差值(以天計(jì)),將出院存活時(shí)間大于30以及為空值的標(biāo)記為為存活的.其他的標(biāo)記為死亡的.
D_LABITEMS表列出了所有的化驗(yàn)項(xiàng),LABEVENTS門(mén)診檢查記錄LABEVENTS列出了每個(gè)可用臨床測(cè)量的數(shù)值,日期和患者ID的信息,其中心力衰竭患者做過(guò)的實(shí)驗(yàn)室測(cè)試有345種.為了研究死亡的和存活的對(duì)每個(gè)實(shí)驗(yàn)室測(cè)試項(xiàng)目的差異性,對(duì)所有的實(shí)驗(yàn)室測(cè)試項(xiàng)目進(jìn)行了Mann-Whitney檢驗(yàn),并將按p值進(jìn)行排序,前五個(gè)項(xiàng)目p值排序表如表4所示.其中itemid為實(shí)驗(yàn)室檢驗(yàn)項(xiàng)目標(biāo)號(hào).label為實(shí)驗(yàn)室檢驗(yàn)項(xiàng)目名稱(chēng),N為做了該實(shí)驗(yàn)室檢驗(yàn)項(xiàng)目的患者人數(shù),P-value為Mann-Whitney檢驗(yàn)的p值.結(jié)果中有231種p值小于0.05,有統(tǒng)計(jì)學(xué)差異.
表4 p值排序表
Table 4 Sorted table of p-value

itemidlabel N P-value50852Hemoglobin A1c19272.893341e-24250924Ferritin19043.854427e-12651493RBC17599.394976e-11351516WBC17453.614403e-9950904Cholesterol,HDL19751.294155e-93

圖2 特征重要性排序Fig.2 Ranking of feature importance
部分實(shí)驗(yàn)室測(cè)試項(xiàng)目只有少數(shù)患者進(jìn)行檢查,本實(shí)驗(yàn)將少于3000名患者接受檢驗(yàn)的實(shí)驗(yàn)室檢測(cè)項(xiàng)目刪除,因?yàn)橥幻颊咴诓煌瑫r(shí)間進(jìn)行同一種實(shí)驗(yàn)室測(cè)試項(xiàng)目,所以對(duì)同一個(gè)實(shí)驗(yàn)室測(cè)試項(xiàng)目,同一患者會(huì)有多個(gè)值,本實(shí)驗(yàn)取多個(gè)檢測(cè)結(jié)果的均值.最后對(duì)數(shù)據(jù)進(jìn)行空值,數(shù)據(jù)標(biāo)準(zhǔn)化處理.預(yù)處理完成的數(shù)據(jù)集的維度為55維.
用隨機(jī)森林特征選擇算法對(duì)特征進(jìn)行選取,按照特征的重要性對(duì)55個(gè)特征進(jìn)行排序.特征重要性排序如圖2所示.橫軸為特征名,縱軸為重要性.
為了得到合適的特征數(shù)量m,分別選取了不同的m值進(jìn)行實(shí)驗(yàn),并使用決策樹(shù)算法進(jìn)行預(yù)測(cè).結(jié)果表明當(dāng)選取的特征數(shù)為12的時(shí)候,預(yù)測(cè)模型表現(xiàn)最好,因此本文選取前12個(gè)特征.
根據(jù)表5所示的混淆矩陣,我們可以使用正確率,精確率(查準(zhǔn)率)、召回率(查全率)、F值等評(píng)價(jià)指標(biāo)對(duì)本文提出的方法進(jìn)行評(píng)估.
表5 分類(lèi)預(yù)測(cè)混淆矩陣
Table 5 Classification prediction confusion matrix

實(shí)際類(lèi)預(yù)測(cè)類(lèi)DeadAliveDeadTPFNAliveFPTN




為了充分驗(yàn)證本文提出的ICU患者心力衰竭死亡率預(yù)測(cè)算法的有效性,本文實(shí)驗(yàn)從下面兩個(gè)部分進(jìn)行.
實(shí)驗(yàn)1.基于IABC-RF的ICU患者心衰死亡率預(yù)測(cè)實(shí)驗(yàn)
在本實(shí)驗(yàn)中為了驗(yàn)證本文提出的IABC-RF算法的有效性,我們選取了多種分類(lèi)器模型進(jìn)行比較,分別是C4.5,SVM,Adaboost、NN以及ABC-RF,其中本文提出IABC-RF算法的控制參數(shù)的值為:最大迭代次數(shù)為終止條件,設(shè)置為MCN=15000,N=50,Ub=100,Lb=-100,p=0.1,α=1.優(yōu)化后的隨機(jī)森林模型的最終參數(shù)分別為:決策樹(shù)最大深度:7,投票前子樹(shù)數(shù)量:87,內(nèi)部節(jié)點(diǎn)再劃分最小樣本數(shù)274,葉子節(jié)點(diǎn)最小樣本數(shù)85,RF劃分時(shí)最大特征數(shù)7.
實(shí)驗(yàn)均采用10折交叉驗(yàn)證,每組進(jìn)行5次實(shí)驗(yàn),并記錄五次實(shí)驗(yàn)結(jié)果的均值.實(shí)驗(yàn)結(jié)果如圖3所示.

圖3 實(shí)驗(yàn)1結(jié)果Fig.3 Results of experiment 1
實(shí)驗(yàn)結(jié)果表明,本文提出的IABC-RF算法在重癥監(jiān)護(hù)患者心力衰竭死亡率預(yù)測(cè)上的表現(xiàn)最好,預(yù)測(cè)準(zhǔn)確率達(dá)到了76%.基于ABC-RF算法的重癥監(jiān)護(hù)患者心力衰竭死亡率預(yù)測(cè)準(zhǔn)確率要低一點(diǎn).其中,基于C4.5算法的預(yù)測(cè)模型準(zhǔn)確率最低.
對(duì)隨機(jī)森林算法,ABC-RF算法和本文提出的IABC-RF算法的運(yùn)行速率進(jìn)行對(duì)比,采取了5組數(shù)據(jù)量,分別為600、1200、2000、3500、6000,算法耗時(shí)對(duì)比如圖4所示,隨著數(shù)據(jù)量的增大,本文提出的IABC-RF算法的運(yùn)行速率優(yōu)勢(shì)于其它兩種算法.

圖4 算法耗時(shí)對(duì)比Fig.4 Algorithms time-consuming comparison
實(shí)驗(yàn)2.基于IABC-RF的針對(duì)不同合并癥ICU患者心衰死亡率預(yù)測(cè)實(shí)驗(yàn).
心力衰竭是一類(lèi)廣泛的心臟病,許多合并癥會(huì)導(dǎo)致它的加劇,為了能夠更好的研究不同合并癥對(duì)ICU患者心衰死亡死亡率的影響,找出更容易預(yù)測(cè)死亡率的患者群,本文根據(jù)上述的12個(gè)特征進(jìn)行聚類(lèi).聚類(lèi)方法選用Kmeans,PCA以及t-SNE.實(shí)驗(yàn)結(jié)果表明,Kmeans和PCA并不能很好的將Dead與Alive兩類(lèi)進(jìn)行分簇.通過(guò)t-SNE將12維映射到2維,如圖5所示,圖中XY軸均為坐標(biāo)軸,圖中可以看出,在x∈(-10,-5) 左邊簇與x∈(0,5),y∈(0,5)右上簇兩個(gè)區(qū)域中,Dead(方點(diǎn))的密度明顯遠(yuǎn)大于Alive(原點(diǎn))的密度.對(duì)上述的兩個(gè)區(qū)域內(nèi)患者合并癥進(jìn)行篩選并排序,結(jié)果表明左邊簇中的合并癥主要為腎衰竭類(lèi),右上簇的為膿毒癥類(lèi).因此,本文將合并癥分為三類(lèi),分別為腎衰竭類(lèi)、膿毒癥類(lèi)和其他合并癥.

圖5 2維映射圖Fig.5 2D mapping
表6 實(shí)驗(yàn)2結(jié)果
Table 6 Results of experiment 2

模 型正確率精確率召回率F1值實(shí)驗(yàn)1最佳模型0.76210.86450.71540.7830實(shí)驗(yàn)2模型0.87420.91640.86130.8981
本文構(gòu)建了針對(duì)不同合并癥ICU患者心衰死亡率預(yù)測(cè)模型,該模型構(gòu)建了三個(gè)基于IABC-RF的基分類(lèi)器,分別對(duì)應(yīng)于上述三類(lèi)合并癥.在測(cè)試前,先對(duì)病人的合并癥進(jìn)行分類(lèi),再使用本文的模型進(jìn)行預(yù)測(cè).實(shí)驗(yàn)采用10折交叉驗(yàn)證,每組進(jìn)行5次實(shí)驗(yàn),并記錄五次實(shí)驗(yàn)結(jié)果的均值.實(shí)驗(yàn)結(jié)果如表6所示.
實(shí)驗(yàn)結(jié)果表明,使用本文提出的基于IABC-RF針對(duì)不同合并癥的ICU患者心衰死亡率預(yù)測(cè)模型能夠有效的對(duì)ICU患者心衰死亡率進(jìn)行預(yù)測(cè),其預(yù)測(cè)正確率達(dá)到了87%,能夠用于輔助臨床診斷.
近年來(lái)電子健康記錄廣泛應(yīng)用,大量的臨床數(shù)據(jù)得以完好保存,提高醫(yī)院管理與服務(wù)水平的同時(shí),也給醫(yī)學(xué)研究提供了機(jī)會(huì),其中重癥監(jiān)護(hù)室患者病情預(yù)測(cè)對(duì)幫助醫(yī)生制定醫(yī)療方案、配置醫(yī)療資源、評(píng)估醫(yī)療效果具有重要意義.本文利用真實(shí)的重癥監(jiān)護(hù)數(shù)據(jù)庫(kù),將迭代加深搜索算法(ID-DFS)框架改進(jìn)的ABC算法與隨機(jī)森林相結(jié)合,提出了一種有效的ICU患者心衰死亡率預(yù)測(cè)模型(IABC-RF),并對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理和特征篩選,實(shí)現(xiàn)了對(duì)ICU患者死亡率有效的預(yù)測(cè).接下來(lái)的研究我們將嘗試研究用時(shí)間序列表示的實(shí)驗(yàn)室測(cè)試項(xiàng)目作為深度網(wǎng)絡(luò)輸入的方法來(lái)實(shí)現(xiàn)對(duì)ICU心力衰竭患者的死亡率預(yù)測(cè).
小型微型計(jì)算機(jī)系統(tǒng)2019年12期