999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

可解釋機器學習方法在疾病預測中的應用:膿毒血癥患者死亡風險研究

2022-07-13 08:07:18楊豐春
首都醫科大學學報 2022年4期
關鍵詞:特征方法模型

楊豐春 鄭 思 李 姣

(中國醫學科學院/北京協和醫學院 醫學信息研究所 醫學智能計算研究室, 北京100020)

機器學習是指將預測模型與數據進行擬合,或者在數據中識別具有信息性的分組的過程[1]。在面對樣本量巨大或擁有大量特征的數據集時,機器學習方法可以建立自動化的數據分析過程,從數據集中不斷學習知識并逐漸提高對新數據的預測能力。目前,機器學習模型已廣泛應用于疾病預防、診斷、治療和預后的相關預測,如疾病風險預測[2]、患者再次入院預測[3]、死亡預測[4]、藥物相互作用預測[5]和患者護理需求預測[6]等方面,并且取得了良好的預測性能[7]。

將機器學習應用于臨床醫學的主要目標包括:①對預測任務做出準確的預測和判斷;②利用訓練好的模型指導臨床實踐和臨床研究[8]。但是在目前的機器學習應用過程中,大多數研究專注于預測準確性,而忽略了結合具體數據對預測結果進行解釋。由于機器學習模型的復雜性,用于產生最終輸出的過程往往缺乏透明度,模型結果通常很難解釋。此外,在臨床應用中,機器學習模型通常只在一個狹窄的環境中針對特定的疾病進行訓練和評估,并依賴于個人的統計學和機器學習專業技術知識。為了便于醫療工作者理解機器學習模型做出預測的依據,還需要進一步對高度復雜的預測模型進行解釋。模型的高解釋性意味著終端用戶可以更容易理解和解釋未來的預測,機器學習的可解釋性與實現高預測準確性同樣重要[9]。

本文將概述可解釋機器學習方法及其在疾病預測中的工作流程,通過利用臨床結構化數據構建應用實例,并從全局和局部兩個方面對預測模型進行解釋。本研究不關注建立在非結構化數據(如不同類型的醫學圖像、文本或其他基于信號的數據)上的機器學習模型的可解釋性研究。

1 可解釋機器學習方法

1.1 機器學習方法的可解釋性定義

數據挖掘和機器學習場景中,可解釋性被定義為機器學習方法向人類解釋或呈現可解釋的術語的能力[10]。根據不同的機器學習模型在對預測結果的解釋性方面的不同,可以分為具有內在解釋性的機器學習方法和自身解釋性能比較差的機器學習方法。

內在可解釋性是指已訓練好的模型無需額外的信息就可以理解模型的決策過程或決策依據,這類解釋性發生在訓練之前,也稱為事前可解釋性。這類模型有樸素貝葉斯、線性回歸、決策樹、基于規則的方法等。決策樹和回歸模型都只能提供有限的可解釋性,特別是在捕獲數據中的非線性的情況。決策樹由于其圖形化的表示,可以輕松地概覽它復雜的模型運算過程;影響模型預測的最重要的特征往往顯示在樹的頂部,這也可以表示特征在預測中的相對重要性。

不可解釋模型或黑箱模型通常是只關注結果的復雜模型,例如,分類器集成模型或深度神經網絡,這類模型往往可以取得較高的預測準確率。針對這類模型的解釋,往往是在模型訓練好之后進行的,所以也稱之為事后可解釋性。

1.2 機器學習方法可解釋性的分類

對于不可解釋機器學習模型的可解釋方法,可以分為局部可解釋性和全局可解釋性[8]。傳統上,機器學習研究的重點是全局可解釋性,以幫助理解機器學習模型的所有可能輸入和模型所做的所有預測空間之間的關系,相比之下局部可解釋性是幫助理解對特定樣本或訓練后的預測函數的一個小的、特定區域的預測。

模型的局部解釋方法[11]旨在幫助人們理解學習模型針對每一個特定輸入病例的決策過程和決策依據。模型的局部可解釋性以輸入樣本為導向,通過分析輸入樣本的每一維特征對模型最終決策結果的貢獻來實現對決策的解釋。局部解釋技術直到最近才被頻繁使用,它們適合用于沒有解釋性或弱解釋性模型的個性化水平上對預測結果進行特征重要性分析。

局部可解釋性技術(interpretable model-agnostic explanation, LIME)是一種使用簡單的模型來對復雜的模型進行解釋的方法,常用于在解釋黑盒機器學習模型的單個樣本的預測。LIME的原理是產生一個新的數據集(這個數據集是通過對某一個樣本量的數據集合進行變換得到),然后在這個新的數據集上訓練一個可解釋的模型。目標是可解釋的模型在新數據集上的預測結果和復雜模型在該數據集上的預測結果是相似的。該方法表述如下式所示:

f表示原始的模型, 即需要解釋的模型;g表示簡單模型,G是可解釋模型的一個集合, 如所有可能的線性模型;πx表示新數據集中的數據x’與原始數據x的距離;Ω(g)表示模型g的復雜程度。

Shaply值是基于博弈論思想的一種局部解釋方法[12]。其基本的設計思想是:首先計算一個特征加入到模型當中時的邊際貢獻,然后計算該特征在所有特征序列中不同的邊際貢獻,最后計算該特征的Shaply值,即該特征所有邊際貢獻的均值。Shaply值計算的優勢在于能夠反映出樣本中每一個特征對預測結果的影響力,而且還可以指出其影響程度的正負性。

全局可解釋性[13]是指在全局層面上為模型內部的情況提供解析,幫助人們從整體上理解模型背后的復雜邏輯以及內部的工作機制。例如,模型是如何學習的、模型從訓練數據中學到了什么、模型是如何進行決策的等,這要求研究人員能以人類可理解的方式來表示一個復雜模型的訓練過程。有研究[14]顯示,特定群體可解釋性方法應被稱為群體特異可解釋性,在這種方法中,他們只關注與預測結果相關的人口亞群體的特征。全局可解釋性技術[15]:包括置換特征重要性[16]、部分依賴圖[17]和個人條件期望[18]、全局代理模型[19]等。

置換特征重要性:通過計算置換特征后模型預測誤差的增加來衡量特征的重要性。如果置換某特征值會增加模型預測的誤差,則該特征是“重要的”,說明模型依賴于該特征進行預測,如果模型的預測誤差不變則該特征是“不重要的”。部分依賴圖:顯示了單個特征對先前擬合模型預測的結局的邊際效應,預測函數固定在所選特征的值上,并在其他特征上取平均值。部分依賴圖的解釋方式與回歸模型相同。個體條件期望:通過顯示數據集中每個實例的估計功能關系,可以將個體條件期望圖視為部分依賴圖的分解視圖。其中每個實例顯示一條線,顯示當特征發生變化時該實例的預測如何變化。全局代理模型:使用簡單的可解釋機器學習模型(如線性回歸、決策樹)來擬合復雜機器學習模型的預測,它們不需要有關黑盒模型的內部工作過程和超參數設置等信息。使用用于訓練弱解釋性模型的數據集(或具有相同分布的數據集)作為訓練集、該模型的預測結果作為預測值來訓練可解釋模型。評價代理模型與被解釋模型的相似性的計算方式如下:

2 可解釋機器學習方法應用流程

機器學習方法在疾病預測中的應用,可以歸納為如圖1所示的工作流程。

圖1 可解釋機器學習方法在疾病預測過程中的工作流程Fig.1 Workflow of interpretable machine learning methods in disease prediction

①疾病預測問題定義:確定需要待研究的疾病預測問題并進行定義,主要包括確定研究所關注的結局變量以及臨床所關心的與該結局相關的臨床指標;

②數據采集和數據清洗:根據所確定的研究問題來確定需要獲取的數據。對數據進行預處理,使其可以供模型輸入,該過程主要包括對數據進行缺失值的處理、非連續性變量的處理等;③數據集劃分:在機器學習方法中,需要對數據進行劃分,設置訓練集用于機器學習模型的訓練,設置測試集用于機器學習模型性能的驗證;④機器學習模型選擇:依據研究的臨床問題以及獲取的臨床數據,選擇合適的機器學習模型用于臨床任務;⑤模型構建與評估:基于訓練數據集進行模型構建,并在測試集上進行模型性能的評估;⑥機器學習模型解釋:對訓練后的模型決策進行解釋與分析;⑦形成臨床決策參考方案:獲得模型決策方案和模型決策相關的因素,為臨床決策提供參考。

3 應用實例:膿毒血癥患者死亡風險預測研究

3.1 數據來源及模型構建

數據來源于重癥監護醫學數據庫(Medical Information Mart for Intensive Care, MIMIC)-Ⅳ數據庫,MIMIC-Ⅳ數據庫是由麻省理工學院計算生理學實驗室及其合作研究機構創建并維護的大型公開數據庫,收集了2008年至2019年間美國馬薩諸塞州(Massachusetts)波士頓市三級學術醫療中心住院患者的臨床信息,主要包括患者的人口學信息、實驗室檢查值、藥物治療記錄、記錄的生命體征等。在獲得數據使用權限后,筆者從MIMIC-Ⅳ數據庫中獲取膿毒血癥患者的臨床數據,并按照以下標準納入19 903名研究對象:①年齡大于18歲且小于89歲;②重癥加強護理病房(intensive care unit, ICU)住院時間超過24 h;③對于存在多條ICU住院記錄的患者,僅選取最后一條記錄。每名患者包含18個屬性,具體屬性特征名稱及含義如表1所示。本研究利用的研究信息不含有使受試者的身份被直接識別或通過與其相關的識別物識別的信息,屬于免除倫理審查。作為歷史性研究可免除研究對象知情同意。

表1 患者特征名稱及其含義Tab. 1 Patient features and their definition

對于處理好的樣本數據,采用具有內在解釋性的模型(決策樹[20]、邏輯回歸[21])以及不可解釋的集成模型[隨機森林[22],XGBoost[23],輕量梯度提升機(light gradient boosting machine,LightGBM)[15]]來構建膿毒血癥死亡風險預測模型,并對不同模型預測性能進行比較。本文算法使用Python(version 3.8)編程語言基于sklearn(version 1.1.0)機器學習工具包實現。模型評價采用十折交叉驗證得到的準確性(accuracy)、靈敏度(sensitivity)、特異度(specificity)、受試者工作特征曲線下面積(area under curve,AUC)等指標(表2)。相對而言,與具有內在可解釋性的機器學習方法(邏輯回歸模型, 決策樹模型的AUC值分別為0.78,0.79)相比,解釋性較差的集成模型預測性能更好,其中性能最好的是利用LightGBM構建的預測模型(AUC值為0.91),詳見圖2。

圖2 算法模型性能對比Fig.2 Algorithm performance comparison

表2 模型預測性能對比Tab. 2 Comparison of model prediction performance (%)

3.2 模型的可解釋性分析

對預測性能最好的LightGBM模型,分別利用四種全局可解釋性技術(特征重要性、部分依賴圖、個體條件期望、全局代理模型)和兩種局部解釋技術(LIME和Shapley值)對預測結果進行解釋。

3.2.1 全局可解釋技術

1)特征重要性

圖 3顯示了所有輸入特征在膿毒血癥死亡風險預測中的置換特征重要性排名[24]。如圖所示,醫院住院時長是影響膿毒血癥患者死亡風險最重要的特征,其次是重癥監護室看護時間。Charlson合并癥指數、最大排尿量[25]、服用抗生素藥物數量等也是比較重要的影響因素。

2)部分依賴圖和個體條件期望圖

選取特征重要性靠前的四個特征進行分析。圖4顯示了重要特征的部分依賴圖和個體條件期望圖,黃線顯示了住院時間、ICU住院時間、Charlson合并癥指數、最大排尿量對膿毒血癥死亡風險概率的部分依賴圖。圖4中藍線顯示的是該特征個體死亡風險概率的條件期望圖(本實驗隨機挑選50個樣本展示)。圖4A顯示住院時間的特征部分依賴圖可以看出,在總住院時長為20 d以內時,隨著住院時長的增加,膿毒血癥的死亡風險從0.8降低到0.25,然后處于穩定狀態。圖4B顯示ICU住院時長的部分依賴圖呈現出相反的趨勢,在ICU住院時長15 d內,膿毒

圖4 重要特征的部分依賴圖和個體條件期望Fig.4 Partial dependence plots for the highly ranked features

血癥的死亡風險增加,之后保持平穩。圖4C顯示日最大排尿量在2 000 mL之內時,表現出隨著最大排尿量增加,患者死亡風險降低的趨勢。圖4D顯示代表合并癥評分的Charlson合并癥指數,在10分以內也表現出增加死亡風險的趨勢。

3)全局代理模型

使用原始數據集訓練具有內在解釋性的決策樹模型,以LightGBM模型的預測結果作為該模型的結局。本研究通過設置決策樹模型的深度參數(在一定程度上反映了決策的復雜度)來評價不同深度條件下決策樹模型對LightGBM模型的擬合能力。結果顯示(表3),隨著決策樹深度的增加,代理模型的預測能力不斷增加,但達到一定深度后擬合能力不再提升。

表3 代理模型復雜度和與被代理模型相似性的關系Tab. 3 The relationship between global surrogate model complexity and interpretability

3.2.2 局部可解釋技術

由于LIME和Shapley值解釋器是基于實例的解釋器,因此在下文中,基于從測試數據集中隨機選擇的兩個實例來評估這兩個解釋器。展示兩個已被預測模型正確預測的實例,一個來自正確預測為死亡高風險(true positive)組的實例,另一個實例來自正確預測為死亡的低風險(true negative)組。

正確預測的真陽性案例的描述如下:ICU住院時長=14.33 d,普通住院時長=14.42 d,最大尿量=558 mL,通氣狀態等級=4,服用抗生素數量=13,最大吸入量=5。圖5A顯示了利用LIME對該實例的解釋,綠色的特征表示該特征支持預測結果為陽性即死亡,紅色的特征表示該特征不支持預測為死亡。該實例中ICU住院時長大于7.56 d,排尿量小于905 mL,通氣狀態為4,抗生素使用量大于8種,最大吸入量大于1.7,這些特征值會增加死亡概率。圖5B顯示了利用Shaply值對該病例的解釋,也提示該病例的ICU住院天數、最大排尿量、最大吸入量、抗生素使用數量等特征增加了該病例的死亡風險。并且兩個解釋器都認為該病例的住院時長特征不支持預測為死亡。

正確預測的真陰性案例:用LIME解釋時,該實例的描述如下:ICU住院時長=1.5 d,最高體溫=36.67 ℃,最大尿量=2 585 mL,通氣狀態等級=4,最大呼吸頻率=24,Charlson合并癥指數=5。圖5C顯示了利用LIME對該實例的解釋,ICU住院時長、最大排尿量、呼吸頻率、Charlson合并癥指數等特征支持預測死亡風險低。圖5D顯示了利用Shaply值對該病例的解釋,也提示這些特征支持預測結局為低風險。

圖5 模型正確預測案例基于局部可解釋性的可視化解釋Fig.5 Local interpretable of the model’s correct prediction cases

總結兩類模型解釋方法可以得出:從基于LightGBM的膿毒血癥死亡風險預測模型的全局模型解釋分析中可以看出,住院天數、ICU住院天數、Charlson合并癥指數、最大排尿量、抗生素使用數量等是對模型預測結果比較重要的特征。依據部分依賴圖和個體期望可以進一步分析出患者的死亡風險隨著不同特征的具體變化趨勢而變化。例如,ICU住院時長越長、查爾斯死亡指數越高,死亡風險也越高;隨著個體日最大排尿量的增加、住院天數的增加,死亡風險降低。局部可解釋性技術則可以從樣本級別給出個體死亡風險預測的詳細解釋。

全局解釋方法可以使臨床醫生了解在整個特征空間內模型的響應趨勢。相比之下,局部解釋方法可以對特定個體進行基于特征的決策解釋。在實踐中,這兩種方法都可以協助臨床醫生進行醫療過程的有效決策。

4 討論

本文討論了現在臨床環境中使用的機器學習方法的解釋性,根據是否存在內在解釋性,將模型分為具有內在解釋性的模型(事前解釋性)和解釋性差的事后模型。并以膿毒血癥患者死亡風險研究作為研究實例比較不同類型的機器學習方法的預測性能,復雜集成模型擁有較高的預測性能,但是解釋性較差,然后使用機器學習解釋方法分別對模型進行基于人群和個體的解釋。

理解機器學習的工作原理,研究透明的、可解釋且可證明的機器學習技術有助于推動其在各領域的擴展應用。雖然目前的解釋方法可以在人群和個體層面上對機器學習模型的預測結局進行分析解釋,但是解釋結果依然不夠清晰,并且存在因為模型是基于特定人群訓練產生,在模型遷移能力方面往往受限于訓練人群。現有的解釋方法的決策依據多為統計學方法,依賴對機器學習模型的結果再分析解讀,缺乏結合具體臨床意義進行推理的解釋方法。隨著因果推斷技術的發展,該技術被用于臨床數據分析,可以提高決策可解釋性[26]。并且基于圖神經網絡的機器學習方法在臨床結構化數據分析中的應用,提供了基于領域知識圖譜進行機器學習方法解釋的可能性。

利益沖突所有作者均聲明不存在利益沖突。

作者貢獻聲明楊豐春:負責研究設計,數據獲取與分析,論文撰寫;鄭思:負責算法設計、論文撰寫與修改;李姣:負責研究設計,研究方案實施,論文撰寫與修改。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99久久国产自偷自偷免费一区| 很黄的网站在线观看| 久久精品人人做人人爽电影蜜月| 日韩福利在线视频| 成人无码区免费视频网站蜜臀| 亚洲av无码人妻| 波多野结衣久久精品| 国产亚洲精品自在久久不卡| 亚洲国产中文欧美在线人成大黄瓜 | 广东一级毛片| 在线观看无码av免费不卡网站 | 日韩国产高清无码| 亚洲a级毛片| 亚洲欧美日韩天堂| 欧美日韩成人| 天天躁夜夜躁狠狠躁躁88| 亚洲精品国产乱码不卡| 色综合中文综合网| 91蜜芽尤物福利在线观看| 亚洲无码久久久久| 精品国产福利在线| 丰满的熟女一区二区三区l| 亚洲成aⅴ人片在线影院八| 爆操波多野结衣| 色综合热无码热国产| 欧美成人午夜影院| 国产91无码福利在线| 香蕉视频在线精品| 亚洲男人天堂久久| 亚洲天堂网站在线| 亚洲视频一区| 久久久久久久久亚洲精品| 日韩美毛片| 久久窝窝国产精品午夜看片| 青青极品在线| 精品人妻一区二区三区蜜桃AⅤ| 九九这里只有精品视频| 国产一区三区二区中文在线| 久久午夜影院| 欧美日韩中文国产va另类| 欧美综合一区二区三区| 欧美性天天| 久久人妻xunleige无码| 午夜少妇精品视频小电影| 免费国产无遮挡又黄又爽| aⅴ免费在线观看| 白浆视频在线观看| 五月天综合网亚洲综合天堂网| 456亚洲人成高清在线| 91网红精品在线观看| 国内精品视频在线| av在线人妻熟妇| 97av视频在线观看| 六月婷婷激情综合| 中文成人在线| 在线日本国产成人免费的| 亚洲欧美另类中文字幕| 无码精油按摩潮喷在线播放| 国内精品九九久久久精品 | 国产麻豆精品在线观看| 亚洲人精品亚洲人成在线| 黄片在线永久| 毛片免费高清免费| 国产精品久久精品| 亚洲人在线| 国产精品久久久久久久久| 亚洲精品动漫| 国产91在线|日本| 99re视频在线| 男女猛烈无遮挡午夜视频| 2018日日摸夜夜添狠狠躁| 欧美国产在线看| 亚洲第一综合天堂另类专| 99久久无色码中文字幕| 免费看一级毛片波多结衣| 91九色国产在线| 亚洲无码一区在线观看| 88av在线看| 亚洲第一福利视频导航| 美女高潮全身流白浆福利区| 国产高清在线丝袜精品一区| 国产欧美在线|