999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的血糖變異預測ICU 監護時長研究

2021-02-04 06:53:14耿曉斌程云章
軟件導刊 2021年1期
關鍵詞:分類血糖模型

耿曉斌,程云章,鐘 鳴,李 帆

(1.上海理工大學上海介入醫療器械工程技術研究中心,上海 200093;2.復旦大學附屬中山醫院 重癥醫學科,上海 200032)

0 引言

重癥監護室(Intensive Care Unit,ICU)收治患者往往由于嚴重創傷、感染、大手術或心腦血管疾病等原因,身體處于應激狀態,易出現血糖急劇升高,稱為應激性高血糖(Stress Hyperglycemia)[1]。ICU 患者高血糖一部分是由于既往糖尿病史,另一部分是由于機體應激反應而出現的持續性高血糖或波動性高血糖。

持續性高血糖會導致患者機體免疫力下降、易發生感染、傷口愈合緩慢等問題。波動性高血糖則會誘導氧化應激增強,導致細胞內正常糖代謝途徑受損,多元醇途徑、蛋白激酶C 途徑等旁路代謝過度激活,細胞內產生過量活性氧簇,造成細胞、組織結構功能障礙,進而導致并發癥發生[2]。上述情況不利于重癥患者病情恢復,影響患者預后評價,延長重癥監護時間[3]。

謝陽煌等[4]發現血糖變異是影響ICU 非糖尿病患者預后評價的重要因素,降低患者的血糖波動有利于ICU 患者預后;曾泳萍[5]研究發現,隨著膿毒癥患者病情加重,血糖變異的相關指標也出現上升趨勢;劉娟等[6]發現血糖水平與血糖變異度升高會增加膿毒癥患者死亡風險,對于嚴重應激性高血糖患者應及時進行適當的胰島素治療以緩解病情;衛芳征[7]通過血糖變異度對ICU 重癥結核病患者不良預后關聯研究發現,隨著血糖變異增加,患者機械通氣時間及ICU 重癥監護時間也相應延長。

上述研究通過統計學方法分析重癥患者血糖變異對預后和重癥監護時長影響,但無法定量給出時長預測結果。近年來,機器學習算法因其具有非線性以及泛化能力強等特點而快速發展,越來越多地應用到醫療數據分析中。機器學習過程就是通過訓練數據尋找目標函數,常用算法有K 最近鄰算法(k-Nearest Neighbor,KNN)、決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)、神經網絡、極限學習機等。通過對大量生理和病理醫療數據進行分析,挖掘出隱含的有用信息,可有效輔助醫生進行疾病診斷和病情評估。

本文構建隨機森林模型,對應激血糖影響下的ICU 患者重癥監護時長進行預測,以幫助醫生制定合理的治療計劃,確定最佳出院時間,緩解患者經濟負擔,提高ICU 病床資源利用效率。

1 研究方法

1.1 血糖變異

血糖變異(Glucose Variability,GV)又稱血糖波動、血糖漂移,是指機體的血糖水平在其高峰和低谷間不斷上下起伏的非穩定狀態[8]。GV 可觸發氧化應激以及激發炎癥因子表達,從而引起胰島β 細胞和周圍組織、血管、神經損傷。ICU 患者血管內皮損傷會引起糖尿病慢性微血管及大血管病變,加重心腦血管病情,還可能出現凝血功能異常等問題,延長重癥監護時間[9]。

GV 分為日內變異、日間變異和長期變異。本文為預測ICU 患者監護時常,選取患者進入ICU 第一天的日內血糖變異作為輸入,主要指標有:

(1)血糖平均值(Mean Blood Glucose,MBG)。ICU 患者進食和營養補充沒有固定的時間節點,無法準確獲得其餐前和餐后血糖,故將多次測得的隨機血糖求平均后作為其日內血糖平均值[10]。

(2)血糖標準差(Standard Deviation of Blood Glucose,SDBG)。為多次測得血糖值的標準差,用來描述血糖總體水平偏離平均血糖的幅度。最早1977 年被Tarui 等[11]使用,是評價血糖變異的經典指標。

(3)血糖變異系數(Coefficient of Variation of Blood Glu?cose,CVBG)。是描述血糖離散程度的重要指標,可反映血糖的動態變化情況,其值是血糖標準差與平均血糖比值所得的百分數,CVBG=SDBG×100/MBG。

(4)高血糖發生率(High Blood Glucose Rate,HBGR)。臨床上認為ICU 患者的隨機血糖值高于10mmol/L 即為發生應激高血糖,高血糖發生率定義為高血糖發生次數與血糖測量總次數比值。

(5)低血糖發生率(Low Blood Glucose Rate,LBGR)。由于ICU 患者普遍出現血糖升高現象,其低血糖的閾值界定也相應增大,臨床上認為ICU 患者的隨機血糖值低于5mmol/L 則視作為低血糖,低血糖發生率定義為低血糖發生次數與血糖測量總次數比值。

1.2 ApacheⅡ評分

APACHE 是臨床普遍使用的ICU 患者病情嚴重程度和預后評估標準,全稱為急性生理和慢性健康狀況評分系統(Acute Physiology and Chronic Health Evaluation,APACHE)。APACHE Ⅱ是Knaus 等[12]在1985 年提出的APACHEⅠ升級版,該評分系統由反映急性疾病嚴重程度的急性生理學評分(Acute Physiology Score,APS)和患病前慢性健康狀況評分(Chronic Health Score,CHS)兩部分組成。

APS 包含平均動脈壓、動脈血pH 值、動脈血氧分壓、心率、呼吸頻率和血清肌酐等12 項代表全身主要生理狀況的參數評分。為降低治療措施對評分結果的影響,各項參數取值選擇患者進入ICU 后前24 h 內的最差值,每項參數分值是0~4 分。CHS 主要考察患者進入ICU 前3~6 個月身體狀況,綜合評價患者肝臟、心血管系統、呼吸系統、腎臟和免疫功能抑制的生理情況,給出慢性健康評分。

系統考慮年齡因素對患者預后影響,根據不同年齡分段把分數分為6 檔,最終整合APS、CHS 和年齡后計入APACHE Ⅱ總分。本文選擇APACHEⅡ評分作為模型的一項輸入參數預測患者ICU 時長。

1.3 決策樹

決策樹是一種以實例為基礎的歸納學習算法,屬于非線性有監督學習模型。采用自頂向下、分而治之的遞歸方式,將搜索空間分為若干個互不相交的子集。把樣本實例從根節點排列到某個葉子節點對其進行分類。每個非葉子節點代表一個屬性取值的測試,其分支就代表測試結果;每個葉子節點均代表一個分類,樹的最高層節點是根節點,如圖1 所示。

Fig.1 The decision tree圖1 決策樹

決策樹算法引入信息論中信息熵(Entropy)概念,如果目標屬性具有c 個不同值,那么集合S 相對于c 個狀態的分類熵定義為:

決策樹實現算法有ID3、C4.5 和CART 等。ID3 算法采用信息增益(Information Gain)準則劃分屬性。假定通過屬性劃分樣本集S 產生V 個分支點,v 表示第v 個分支點。分支節點包含樣本數越多,表示該分支節點影響力越大[13]。計算劃分后原始數據集S 獲得的信息增益:

其中,V(A)是屬性A 的值域;Sv是集合S 在屬性A 值等于v 的子集。信息增益越大,表示使用該屬性劃分樣本集D 的效果越好。因此,ID3 算法在遞歸過程中,每次都選擇最大信息增益屬性作為當前的劃分屬性。

為處理連續特征問題以及改善特征選擇方式,Quin?lan[14]提出C4.5 算法,使用信息增益率(Gain Ratio)選擇屬性。信息增益率是使用信息增益與分裂信息量(Split Infor?mation)共同定義的。

其中,分裂信息量定義為:

通過使用信息增益率作為分類標準,克服ID3 算法中信息增益選擇屬性時偏向選擇取值多的屬性的不足。同時C4.5 算法引入悲觀剪枝法(Pessimistic Prunting),使用訓練集生成決策樹并用訓練集進行剪枝,以此處理決策樹過擬合問題。通過對連續特征進行離散化分割還可實現對連續型特征輸入的處理。

為簡化特征選擇時的運算復雜度以及實現決策樹回歸,提出CART 算法(Classification And Regression Tree,CART),采用基尼系數Gini 作為特征選擇指標,Gini 越小,特征分類效果越好。

分類問題中,假設樣本D 中共有K 個類,樣本點屬于第k 類的概率為pk,則概率分布的基尼系數為:

對于樣本D,個數為|D|,根據特征A 的某個值a 把D 分成D1和D2,則在特征A 條件下,樣本D 的基尼系數為:

1.4 隨機森林

隨機森林是一種集成學習算法[15],由Breiman[16]在2001 年首次提出,其實質是一個包含多個決策樹的分類器,這些決策樹采用隨機方法形成,包括對樣本的隨機采樣和分類特征的隨機選取,通過對多個基分類決策樹整合可獲得比單個決策樹更優越的泛化性能[17]。

在構建隨機森林過程中,首先采用自助采樣法(Boot?strap Sampling)對樣本數據進行有回放的重采樣操作。假設集合S 中含有n 個不同樣本x1,x2,…,xn,每次從S 中抽取一個樣本,共抽取n 次形成新的集合S*,則集合S*中不包含某個樣本xi(i=1,2,…,n)的概率為:

當n→∞時,有:

新集合S*與原集合S 的樣本總數都為n,但S*僅包含原集合S 中約1-0.368×100%=63.2%的樣本。隨機森林模型構建如圖2 所示,具體步驟如下:①使用bootstrap 對數據進行重采樣,隨機產生T 個訓練集S1,S2,…,ST;②針對訓練集S1,S2,…,ST生成與之相對應的T 組CART 決策樹C1,C2,…,CT。在每個非葉子節點選擇屬性前,從M 個屬性中隨機抽取m 個屬性作為當前節點的分裂屬性集,并以這m 個屬性中最好的分裂方式對該節點進行分裂;③將測試集X 輸入C1,C2,…,CT中,得到分類結果C1(X),C2(X),…,CT(X);④采用投票辦法將T 個決策樹中輸出最多的類別作為測試集樣本X 所屬類別。

Fig.2 Random forests圖2 隨機森林

隨機森林算法中,不管是對樣本的隨機采樣還是對特征的抽樣甚至對切分點的隨機劃分,都是為了引入偏差,使基分類器之間具有明顯差異,提升模型的多樣性,使模型不會受到局部樣本影響。在處理高維數據、特征遺失數據、不平衡數據時該算法效果良好,模型泛化能力強[18]。

1.5 分類模型性能指標

二分類問題需要根據模型在測試集上的表現衡量模型性能優劣,根據樣本數據真實情況和模型分類結果將樣本分為4 類,混淆矩陣如表1 所示。

根據混淆矩陣得到分類準確率(Accuracy)、精確率(Precision)和召回率(Recall),分別定義如下:

Table 1 Binary classification problems confusion matrix表1 二分類問題混淆矩陣

準確率可從整體上評價模型分類性能,精確率、召回率分別描述模型的精度和覆蓋面,兩者一般情況下相互影響、此消彼長。為兼顧精確率和準確率,取兩者的調和平均數作為評價分類器的綜合指標F1-score,公式如下:

此外,還可通過模型的ROC(Receiver Operating Char?acteristic)曲線和AUC(Area Under Curve)值比較分類性能優劣,通常認為ROC 曲線越靠近坐標軸上方性能越優,AUC 是ROC 曲線下方的面積值,其值越大代表分類準確率越高。

2 實驗數據

2.1 數據來源

本文數據來源于2017-01-01 至2018-12-31 期間在復旦大學附屬中山醫院重癥監護科就診的1 156 名重癥患者,實驗數據已通過相關機構研究與倫理委員會批準。

2.2 數據篩選

實驗患者至少在ICU 病房住滿24h 并有首日血糖測量值,希望通過本預測模型判斷患者是否可以在3 天內轉出ICU 病房。排除原始數據中首日血糖信息不全患者,最終選取1156 位患者的ICU 就診信息作為實驗數據。根據每位患者進入ICU 首日測得的隨機血糖值,分別計算其血糖均值、血糖標準差、血糖變異系數以及高、低血糖發生率,同時獲取患者年齡、ApacheⅡ評分及是否使用呼吸機。結合血糖變異情況共8 個特征參數構成實驗所用數據集,用來預測ICU 患者重癥監護時長。

因樣本數據存在不平衡現象,所以對監護時長大于3天的數據進行部分重復采樣以保證樣本數據平衡[19]。隨機選取總樣本數據的75%作為訓練集,剩余25%作為測試集。數據集輸入參數如表2 所示,具體參數值如圖3 所示,圖中橫軸標簽0 代表3 天內轉出ICU 的患者,標簽1 代表監護時長超過3 天的患者。

Table 2 Model input parameters表2 模型輸入參數

Fig.3 Data sets the input parameters圖3 數據集輸入參數

3 實驗結果及分析

3.1 模型構建

實驗采用Pyhton3.7 編程,在Windows 平臺下運行。以CART 決策樹作為基分類器,使用基尼系數作為特征選取指標構建隨機森林模型,使用訓練集對模型進行訓練,通過十折交叉驗證和網格搜索法調整模型參數。

3.2 參數調優

對已經構建好的隨機森林模型采用默認參數得到測試集分類準確率為83.37%。為減小泛化誤差,提高其在測試集上的表現,需要對參數進行調整[20]。不同的訓練集或不同模型構建方法產生的模型復雜度是不同的,模型復雜度與泛化誤差之間關系如圖4 所示。當模型復雜度過低時出現欠擬合狀態,模型復雜度過高則出現過擬合狀態,兩種狀態都會使模型在測試集上表現變差。通過不斷調整參數改變復雜度,使泛化誤差盡可能接近最低點,此即為參數調優的最終目標。

Fig.4 Model complexity and generalization error curve圖4 模型復雜度與泛化誤差關系曲線

對隨機森林模型進行優化時主要調整兩個參數:隨機森林中決策樹個數(n_estimators)以及每棵決策樹中的隨機特征選取數(max_features)。

(1)調整隨機森林中決策樹個數。首先粗調決策樹個數,如圖5 所示。對n_estimators 在1-200 之間逐10 遞增進行十折交叉遍歷驗證。隨著n_estimators 的不斷上升,模型準確率逐漸穩定,在140 處取得局部最大值。綜合考慮模型復雜度與準確率,選擇140 作為n_estimators 的粗調結果;接著精調決策樹個數,如圖6 所示。對n_estimators 在135-144 之間進行交叉遍歷驗證,選擇準確率最優的點138作為決策樹個數的最終參數,在保證模型準確率前提下盡可能控制算法運行時間。

Fig.5 Random number coarse adjustment result decision tree in the forest圖5 隨機森林中決策樹個數粗調結果

Fig.6 Random number fine adjustment result decision tree in the forest圖6 隨機森林中決策樹個數精調結果

(2)調整max_features。樹的個數確定后,對max_fea?tures 參數進行網格搜索,確定其最優值為2。參數調優后,將測試集輸入模型,得到調整后的最終準確率為84.14%,相比參數調整前的83.37%略有提升。隨機森林模型參數特征重要度如圖7 所示。血糖變異系數(CVBG)、平均血糖(MBG)和年齡是模型中最重要的3 項分類特征,其中,血糖變異系數特征重要度占比最高,達18%,這印證了血糖變異情況是判斷患者能否在3 天內轉出ICU 病房的重要因素。

Fig.7 Random forest model classification feature importance圖7 隨機森林模型分類特征重要度

3.3 實驗對比

分別采用KNN、決策樹以及SVM 模型進行分類預測實驗,與本文構建的隨機森林模型進行對比,根據分類模型評價指標對各分類器性能進行比較[21]。

KNN 分類算法中,近鄰個數值與準確率變化關系如圖8 所示,最終選擇4 為最優近鄰個數,準確率達到63.94%。決策樹算法中,主要參數為決策樹最大深度,其與準確率的變化關系如圖9 所示,選擇最優值25,準確率達到78.77%。SVM 算法中,以徑向基函數(Radial Basis Func?tion,RBF)作為核函數,對懲罰系數C 和gamma 值進行網格搜索,確定其最優參數為:C=10,gamma=0.1,準確率達到81.07%。

Fig.8 KNN parameter adjnstment results圖8 KNN 調參結果

4 種模型分類性能指標對比如表3 和圖10 所示,由實驗結果可以看出,隨機森林在準確率、精確率、召回率和F1-score 上的表現整體優于其它3 種分類算法。圖11 為4種模型的ROC 曲線和AUC 值,隨機森林模型的ROC 曲線位置在最上方,AUC 值也較高[22]。綜合來看隨機森林在預測ICU 患者重癥監護時長中的表現最好,驗證了本文方法的有效性。

Fig.9 Decision tree and results圖9 決策樹調參結果

Table 3 Four kinds of classification model evaluation表3 4 種分類模型評價對比

Fig.10 Four kinds of classification model evaluation圖10 4 種分類模型評價對比

Fig.11 ROC curve and AUC values of the model圖11 模型的ROC 曲線和AUC 值

4 結語

研究ICU 重癥患者死亡風險固然必不可少,但研究ICU 重癥監護時長同樣不容忽視。隨著血糖對重癥患者病情影響研究的深入,醫生希望盡可能減小血糖變異對患者病情的不利影響,讓患者盡快恢復到健康狀態或低風險狀態。根據重癥患者入住ICU 首日血糖變異情況和ApacheⅡ值等相關參數,預測重癥監護時長有助于醫生制定合理的治療計劃、提升醫療資源利用效率。

本文將隨機森林分類模型應用于ICU 患者重癥監護時長分類中,因其良好的分類和泛化能力,相比其它機器學習算法準確率有較大提升,達到84.14%,且各項指標均表現良好。實驗存在以下不足:①研究數據集中樣本個數偏少,對模型的訓練可能存在欠擬合情況;②由于數據本身的局限性,對高、低血糖情況分析還不完善,在特征選擇時出現這兩項指標重要度偏低情況,如果有更多數據則可更好地優化系統,提高模型準確率。

72h 作為臨床治療的一個關鍵時間節點,對合理判斷ICU 患者病情具有重要意義。本文對ICU 時長進行分類,以72h 作為時長分類點,預測患者能否在時間節點內移出重癥監護病房。后續可對患者具體住院天數進行預測,幫助醫生制定治療方案,提高醫療資源利用率。

猜你喜歡
分類血糖模型
一半模型
細嚼慢咽,對減肥和控血糖有用么
保健醫苑(2022年6期)2022-07-08 01:26:34
一吃餃子血糖就飆升,怎么辦?
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
妊娠期血糖問題:輕視我后果嚴重!
媽媽寶寶(2017年3期)2017-02-21 01:22:30
主站蜘蛛池模板: 精品国产网站| 亚洲二区视频| 女人18毛片水真多国产| 成人免费午夜视频| 2021精品国产自在现线看| 国产人在线成免费视频| 国产成人精品一区二区| 一级全黄毛片| 永久在线播放| 欧美精品v欧洲精品| 99久久精品无码专区免费| 试看120秒男女啪啪免费| 国产杨幂丝袜av在线播放| 久草青青在线视频| 国产激情国语对白普通话| 伊人中文网| 日本精品αv中文字幕| 又黄又湿又爽的视频| 香蕉久久国产精品免| 欧美有码在线观看| 国产h视频在线观看视频| 99re这里只有国产中文精品国产精品 | 老熟妇喷水一区二区三区| 一本一道波多野结衣av黑人在线| 午夜精品久久久久久久2023| 亚洲最新在线| 亚洲男人的天堂在线| 国产尤物视频网址导航| 麻豆精选在线| 啪啪啪亚洲无码| 久久精品午夜视频| 99re免费视频| 亚洲综合色区在线播放2019| 亚洲综合专区| 一区二区三区四区精品视频| 国产成人久久777777| 欧美综合区自拍亚洲综合绿色 | 夜夜高潮夜夜爽国产伦精品| 狠狠色成人综合首页| a天堂视频在线| 青青草原国产免费av观看| 亚洲欧美成人影院| 伊人久综合| 亚洲香蕉在线| 91九色最新地址| 国产精品白浆在线播放| 成人噜噜噜视频在线观看| 刘亦菲一区二区在线观看| 欧美色综合网站| 在线观看欧美国产| 亚洲日本精品一区二区| 奇米影视狠狠精品7777| 欧美第九页| 在线视频一区二区三区不卡| 国产欧美网站| 19国产精品麻豆免费观看| 蝌蚪国产精品视频第一页| 亚洲伦理一区二区| 色婷婷电影网| 狠狠色丁香婷婷综合| 伊人91在线| 成人福利在线免费观看| 中文字幕亚洲第一| 久久综合婷婷| 国产成人你懂的在线观看| 日韩亚洲综合在线| 国产丝袜91| 欧美乱妇高清无乱码免费| 国产日本一线在线观看免费| 97在线公开视频| 亚洲人精品亚洲人成在线| 国产国语一级毛片| 欧美成人国产| 99九九成人免费视频精品| 成人国产精品网站在线看| 国产成人精品在线| 欲色天天综合网| 国产精品视频观看裸模| 天天色天天综合网| 久久一日本道色综合久久| 精品亚洲国产成人AV| 九九热免费在线视频|