張婭峰,龔 振
(華南理工大學,廣東 廣州 510641)
“AI+醫療”目前成為熱門領域,將AI技術應用到醫療領域是發展的大趨勢,近年來,許多成功的研究成果發表在《Nature》、《Cell》、《JAMA》、《NEJM》等頂級期刊上,受到了學業界、工業界和監管機構的極大關注。人工智能,特別是深度學習,是開始用于解釋醫學影像和電子健康記錄的主要技術工具之一。而在ICU科室,因為收治患者的特殊性,每位患者都包含大量的實時生命體征數據以及其他干預、實驗室檢查等數據,是人工智能應用的完美場景[1-2]。目前已有大量研究以患者死亡風險作為預測任務進行建模[3-5],因為預測患者的死亡風險,可以合理分配搶救的資源,及早地進行干預以提高患者的生存率,該任務主要根據固定的時間間隔(通常是入ICU后的前24小時)的數據進行預測,不包含患者在整個ICU住院期間不斷產生的臨床數據。一些學者則以特定的疾病發生為預測任務建立預測模型,通常選定的疾病是會對患者生命造成嚴重影響的。Savin等人通過樹學習模型的機器學習方法對NICU(神經重癥監護)醫源性腦室炎、腦膜炎的發生進行預測,并試圖探究主要影響因素[6]。Jawad I等人則對ICU患者感染性休克發生的概率進行預測,建立的感染性休克預警模型,使得患者的ICU存活率得到明顯提升[7]。ICU是臨床科室中數字醫療設備最多的地方。ICU的設備必須配有床邊監護儀、中心監護儀、多功能呼吸治療機、麻醉機、心電圖機、除顫儀、起搏器、輸液泵等。這些數字醫療設備產生的數據、醫護人員操作的數據以及患者在其他科室及實驗室產生的數據使得ICU成為多種信息交匯的地方。通常可以大致分為以下幾大類:(1)人口統計學數據,即患者的姓名、出生日期、出生地等等;(2)生命體征數據包括血壓、體溫、心率、心電等,由儀器自動實時采集,頻率為每五秒鐘記錄一次;(3)實驗室檢驗檢查數據,通常醫生根據患者病情做出是否需要做該項檢驗的判斷,從而產生相應的數據,因此數據頻率不確定,可能是一天也可能是幾天;(4)患者的用藥記錄也包括患者的出入量的詳細記錄。這部分數據大部分由護士實際操作后記錄下來;(5)干預措施,例如氣管插管或者發生搶救行為等;(6)醫生寫的文本格式的病程記錄。而基于這些高維的監測數據,數據源嘈雜,稀疏,異構且結果不平衡,預判患者在何時需要進行干預治療對ICU臨床工作人員來說是一項非常具有挑戰性的工作,在不恰當的時機進行干預可能會對患者造成二次傷害。相比于人類專家,AI算法在執行任務的過程中具有更快的速度、更高的一致性和可重復性,使得臨床醫生和人工智能在共同工作時能產生1+1>2的協同效應。
急性腎損傷(AKI)是重癥監護病房中感染性休克的患者的常見并發癥,通常伴隨較高的死亡率[8-10]。大約70%的AKI患者需要進行腎臟替代治療(RRT),住院死亡率超過60%[11]。連續腎臟替代治療(CRRT)是重癥監護室中一種常見的臨床干預措施。通常使用各種用于代謝,溶質和體液控制的參數來指導治療的開始和終止[12]。CRRT可以提高ICU的存活率,因為它通過調節乳酸鹽的清除,不可測的陰離子以及磷酸鹽和氯化物的含量來糾正代謝性酸中毒。但ICU患者的連續腎臟替代療法(CRRT)的提供情況千差萬別,主要還是基于經驗主義和當地機構的實踐和資源。有經驗的醫生通過長時間在床旁觀察患者實時的生命體征數據可以及時發現患者病情好轉或者惡化的信號,但這個過程非常耗時,并且一位醫生不能同時兼顧多位患者。機器學習算法可以利用所有可用信息來預測每個患者未來可能發生的事件,并且能夠捕獲大量隨時間變化的變量之間的復雜關系。因此該文使用機器學習算法對CRRT干預啟動進行建模預測,從歷史干預的數據中學習,從而形成相應的預警模型,使得醫生能夠在忙于搶救某一患者的同時,也不耽誤對其他患者病情的監測和預警;同時,在適當的時候采取適當的干預措施對于改善敗血癥性休克腎衰竭患者的醫院預后非常重要。

算法的迭代步驟如下:
(1)初始化弱學習器:
(1)
(2)對于m=1,2,…,M:
(a)對i=1,2,…M;計算負梯度,即殘差。

(2)
(b)對rmi擬合一個回歸樹,得到第m棵樹的葉節點區域Rmy,j=1,2,…,J。
(c)對j=1,2,…,J,計算最佳擬合值。

(3)
(d)更新強學習器。

(4)
(3)得到最終學習器。

(5)

該文數據來自于某三甲醫院,該ICU是國家重點專科所在科室,在功能配置、醫療技術和管理方面達到世界先進水平。自重癥醫療信息系統2017年底上線以來,對于患者的數據進行了非常詳實的記錄,主要包括:病人基本信息,生命體征觀察項,導管管理,液體管理,護理記錄,病程記錄等,能夠為該文的研究提供精細化的數據和優質的經驗。截至2019年7月,系統采集了大約752位患者ICU記錄。由于80%患者的住ICU時長少于15天,因此將總時長小于6小時(避免沒有充足的信息用來做決策)以及大于360小時(避免一些病情過重的患者)的患者排除,這樣就可以專注于那些通過干預有機會康復的患者。正如大多數文獻所提到的,該文只考慮每位患者的首次入科的完整記錄。根據這些條件過濾后,最終獲得了522名患者的隊列。
數據預處理是數據挖掘中的關鍵步驟,是指在分析建模之前對數據進行人為處理,數據預處理的質量對后續數據的正確分析具有巨大的影響,甚至決定了最終的性能表現。原始數據往往是臟數據,含有大量的噪聲,數據預處理主要是對原數據進行清洗,篩選出與研究目的相關的數據,并去除噪聲。因此對于符合隊列選擇標準的N個患者隊列中的每個患者n,從重癥信息數據庫中提取以下三個數組:臨床觀察的時間序列xn以及相對應的臨床干預狀態yn,與此同時,還提取了患者靜態人口學相關信息。
(1)臨床觀察數組xn=[xn1,xn2,…,xnt,…,xnT]在每一個時刻有34個變量,其中包含生命體征變量:中心靜脈壓,收縮壓,舒張壓,心率,呼吸頻率,體溫,血氧飽和度,吸氧濃度;實驗室檢查指標:陰離子間隙,肌酐,尿素氮,酸堿度,血紅蛋白濃度,鉀離子濃度,乳酸等以及出入量指標(尿量);生命體征數據由監護儀每5秒鐘產生一次,但是系統通常在5~60分鐘保存一條記錄,實驗室檢查指標通常ICU患者每日至少會抽取動脈血或者靜脈血一次進行檢測從而報告相應的數值。出入量中的尿量值一定程度上能夠反映患者腎功能的狀況,因此通常每小時記錄一次,數值為此刻與上一記錄時刻的時間間隔內患者的尿量累計值。在數據預處理階段,首先將患者的所有臨床觀測記錄在時間軸上進行對齊,時間索引處理為入科小時數;若同一小時內有多個信號測量值,其中生命體征以及實驗室檢查變量取這些測量結果的平均值;對于尿量值,則取多條記錄的總和。對于記錄中的缺失值,采用前向填充法,即用上一時刻的取值替代,直到有新的測量值產生。
(2)患者n的干預狀態yn=[yn1,yn2,…,ynt,…,ynT] 是一個二進制時間序列,每一個ynt表示患者n在t時刻是否進行了干預。一位患者進入ICU后可能會發生多次CRRT干預,該文考慮對患者進入ICU后的首次干預進行預測。
(3)靜態人口學信息sn包含性別、年齡、身高、體重;以入科時記錄為準,并且在患者的該次ICU住院期間不會發生改變。基于患者的身高和體重,計算了一個新的BMI變量。對于其中部分患者身高或者是體重的缺失,采取的方法是分男女分別擬合一個身高與體重的回歸方程用于填補缺失值。對于靜態變量,則將其在每位患者自身的所有時間序列上不斷往后復制。


圖1 數據預處理及特征提取


圖2 采樣方式
該文將臨床干預預測問題抽象為機器學習中的二分類問題,因此采用機器學習中常用的準確率(precision)、召回率(recall)以及F1分數作為實驗的評估指標。準確率是指:對于給定的測試集數據,被分類器判斷為需要干預的樣本中正確的比例。

(6)
召回率即所有實際發生干預的患者中被模型預測對的比重。
(7)
與此同時,F1-Score指標可以看作是準確率和召回率的加權平均,綜合了二者的產出的結果。F1-Score的取值范圍從0到1,1代表模型的輸出最好,0代表模型的輸出最差。該文分別對6種參考模型計算precision、recall以及F1-Score進行分類性能對比[19]。
按照7∶3的比例將所有樣本劃分為建模樣本和測試樣本,為保證模型性能的穩定性,選用5折交叉檢驗方法進行評估。除迭代決策樹模型外,還對比了邏輯回歸、隨機森林、多層感知機、支持向量機四種參考模型,并使用網格搜索方法,對上述模型分別嘗試了72,72,64,72,72種參數組合。實驗報告了每個模型在最優參數組合下的預測結果,如表1所示。

表1 五種機器學習模型結果比較
在使用機器學習的分類問題中,準確率和召回率通常是相互影響的。理想的情況是兩者都取得比較高的值。因此,從綜合結果來看,迭代決策樹的準確率和召回率均在0.8以上,F1分數最高,表現最優。其中,邏輯回歸的結果最差,其性能遠低于迭代決策樹模型,這可能是數據線性不可分造成的。
就臨床干預預測問題而言,目前利用機器學習方法對ICU臨床數據進行干預預測的現有相關文獻大多集中于MIMIC Ⅲ醫療信息市場的重癥監護(MIMIC)數據集[20-21]。有研究表明,基于本地電子病歷數據開發的預測模型的預測性能往往高于基于大隊列研究的預測模型。因此,本研究中的結果基于本地數據,嘗試多種機器學習模型,已經達到一定的準確率和召回率,能夠滿足一定的應用需求,高效的分類算法能夠大大節省臨床醫生們的時間和精力,并提供重要的輔助信息。在未來的工作中,可嘗試使用深度學習的方法處理這類時間序列數據,以便能夠更好地提取和利用時間序列數據中包含的患者信息,提高預測性能。