李楠 鄭嶸炅 揭方榮 朱艷芳 魯曉擘
HBV相關慢加急性肝衰竭(HBV-related acute-on-chronic liver failure, HBV-ACLF)常伴有多臟器功能損害,并發癥多,3個月的病死率高(40%~70%)[1-3]。如何根據臨床表現及實驗室檢查等手段準確判斷HBV-ACLF患者的預后,對于制訂臨床治療策略有很好的指導意義。本研究的目的是采用機器學習中的Bagging算法分析HBV-ACLF短期死亡影響因素并建立HBV-ACLF短期預后模型,比較其與MELD評分對患者短期預后評估的效能。
一、研究對象
收集2010年1月至2017年4月在新疆醫科大學第一附屬醫院感染性疾病中心住院且資料齊全、隨訪至少3個月的HBV-ACLF患者131例,其中男性110例,女性21例,年齡22~81歲。依據電話隨訪3個月生存情況,將其分為生存組和死亡組。HBV-ACLF納入標準:①年齡≥18歲;②有慢性乙型病毒性肝炎(CHB)病史,且HBsAg陽性超過6個月;③近28 d內黃疸進行性加深[總膽紅素(TBil)≥171 μmol/L或者每日上升≥17.1 μmol/L],伴凝血功能障礙[凝血酶原活動度(PTA)≤40%或國際標準化比率(INR)≥1.5],同時伴有腹水和(或)肝性腦病。排除標準:①合并藥物性、酒精性、自身免疫性、脂肪性、代謝性肝病等其他因素肝損害,②合并其他嗜肝病毒感染,③合并妊娠,④合并其他嚴重影響生命的疾病,⑤肝移植術后患者。
二、 觀察指標
收集131例患者診斷HBV-ACLF時的年齡、性別、血白蛋白、血尿素、血肌酐、血鈉、血氨、總膽紅素、間接膽紅素、直接膽紅素、谷丙轉氨酶、谷草轉氨酶、堿性磷酸酶、甲胎蛋白、甘油三酯、膽固醇、高密度脂蛋白、低密度脂蛋白、空腹血糖、血膽汁酸、膽堿酯酶、白細胞、中性粒細胞百分比、降鈣素原、血小板、血漿凝血酶原時間、凝血酶原活動度、國際標準化比值、血漿纖維蛋白原、活化部分凝血活酶時間、確診乙肝時間、乙肝表面抗原定量、HBV DNA、發病時是否使用抗病毒藥物、有無食管胃底靜脈曲張、有無脾大、有無脂肪肝、吸煙史、飲酒史、發病至入院天數。
三、研究方法
Bagging算法(Bootstrap Aggregation,Bagging):Breiman 于1996年提出了著名的Bagging方法,它是改進不穩定學習算法和規則學習算法的準確性的簡單但強大的獨立集成方法之一。該方法主要基于可重復采樣(Bootstrap Sampling)技術,即每次按照一定的概率,以“有放回”的方式重新選取樣本,這樣就可以產生多個具有差異性的樣本子集;然后利用這些不同的樣本子集分別對多個基分類器進行訓練就可以得到具有一定多樣性的集成分類器。 Bagging模型的多樣性策略簡單而有效,可以降低誤差(variance),并且可以避免過擬合。
MELD評分[4]計算公式為:11.2×ln(INR)+3.8×ln(總膽紅素mg/dL)+9.6×ln(血清Cr mr/dL)+6.4×(病原學:酒精性或膽汁淤積性為0,其他為1)。
四、統計學方法
一般資料的分析,通過軟件SPSS.19.0完成,計數資料采用卡方檢驗,計量資料采用t檢驗。Bagging算法通過軟件R 3.4.1進行處理。采用受試者工作曲線( receiver operating characteristic curve,ROC)及曲線下面積( area under the curve,AUC)比較Bagging算法及MELD評分對預后的評估效能。P<0.05為差異有統計學意義。
一、一般資料
本研究共納入131例HBV-ALCF患者,3個月內死亡61例,存活70例,3個月病死率為46.6%。生存組男59人,女11人,死亡組男51人,女10人,兩組性別差異無統計學意義。生存組和死亡組平均年齡分別為(43±11.03)歲和(50±15.28)歲,差異有統計學意義(P<0.05)。
二、Bagging算法結果
HBV-ALCF患者生存狀況為二分類變量(生存和死亡),我們將41個特征變量作為自變量納入Bagging模型來預測作為因變量的HBV-ALCF患者的生存狀況。在本實驗中,數據集被劃分為二部分:訓練集(全部數據)、測試集(10-折交叉驗證方式產生測試集),利用R軟件中的Fold()函數來產生測試集,它將整個數據集分成10份,每次實驗取其中一份作為測試集,剩余的9份作為訓練集,取多次測試準確率的平均值作為最終結果。10-折交叉驗證保證了數據集中的每一個樣本都有機會作為測試集和訓練集。Bagging算法的核心函數為bagging()函數。
圖1顯示了41個特征變量和它們的重要性得分,從中我們可以明顯得出HBV-ACLF短期死亡影響因素順序依次為年齡、凝血酶原活動度、血漿凝血酶原時間、白蛋白、血尿素、血鈉、血小板、甘油三酯、血漿纖維蛋白原、中性粒細胞百分比。利用Bagging算法分類的結果,計算出Bagging模型的準確率為90%,靈敏度90%,特異度90%,誤判率10%,10折交叉驗證數據集的平均誤判率為30.92%。
三、ROC曲線及相關結果
Bagging算法及MELD評分ROC曲線下面積分別為0.9743,0.6985。MELD評分對HBV-ACLF患者3個月病死率預測能力弱,Bagging模型預測能力強。

圖1 Bagging算法特征變量重要性得分
目前,臨床上對HBV- ACLF患者的診療難度較大。很多HBV-ACLF患者對常規藥物治療效果差,往往需要短期內接受人工肝、肝移植等治療。另外,影響該類患者近期預后的因素尚未十分明確。目前臨床上最常用的預后評分模型仍是基于歐美人群(酒精性、藥物性肝病、丙肝為主)終末期肝病建立的評分標準,如MELD評分系統、Child-Pugh分級評分[5-6]、慢性肝衰竭-序貫器官衰竭評估(CLIF-SOFA)評分模型等[7],它們對于HBV- ACLF患者的預后準確性不夠滿意[8-9]。HBV- ACLF患者的病情嚴重程度及預后如何,是否應及早肝移植,亟需準確的預后評估系統進行評估及判斷。
MELD評分被廣泛應用于肝衰竭病人特別是終末期肝病患者的預后評估。MELD評分的優點是無肝性腦病等主觀性指標,血肌酐、血膽紅素及國際標準化比值均以客觀的實驗室檢查作為依據,唯一需要醫師判斷的指標是病因,故結果較為客觀。
本研究中,Bagging模型相比MELD評分法預測效果好(見圖2)。從Bagging模型所得重要性評分可以看出,年齡、凝血酶原活動度、血漿凝血酶原時間、白蛋白、血尿素、血鈉、血小板、甘油三酯、血漿纖維蛋白原、中性粒細胞百分比是影響HBV-ACLF患者預后前十位的重要指標。
年齡及凝血功能對HBV-ACLF患者的預后有重要影響,這在國內、國際的研究中均已得到論證[10-11]。血清白蛋白(Alb)通常被用來評估肝臟合成功能,但患者的基礎營養狀況對白蛋白的水平有一定影響,故臨床上并不能完全以血清白蛋白來評估肝臟合成功能。血尿素氮(BUN)、血鈉(Na)是臨床評價腎功能的重要指標。因BUN的產生受很多因素的影響,如感染、發熱、高蛋白飲食、營養不良等高分解狀態等,而血肌酐(Cr)是由肌肉組織釋放的,較少受疾病及代謝狀態的影響,故目前觀點普遍認為,Cr水平是比BUN更準確的評價腎功能指標。但有研究表明在急性肝損傷發生過程中BUN是比Cr更敏感的指標[12]。考慮因尿素經由肝臟合成,當肝功能異常,BUN的代謝則更容易受到影響。血小板計數主要與以下因素相關:①肝臟、腎臟所產生的促血小板生成素(TPO)的減少;②門脈高壓癥所造成的脾大脾亢,導致血小板被大量清除。脾功能亢進多為肝硬化期或者肝硬化失代償期,故本指標亦提示發病前肝臟基礎功能已明顯損害的患者,預后更差。甘油三酯(TG):當肝細胞受損嚴重時,肝臟參與的內源性脂蛋白代謝途徑明顯受到影響。在既往關于HBV-ACLF的預后因素分析中,鮮少有把甘油三酯列入預后模型的研究,臨床上也極少會考慮甘油三酯對HBV-ACLF患者預后的影響,值得引起注意。中性粒細胞百分比升高往往提示存在細菌感染,慢加急性肝衰竭時患者免疫力下降,易并發肺部感染、腹腔感染等,進一步加重對機體的打擊。
另外,Bagging算法中膽紅素指標的重要性在第11位,與傳統評分系統相比,重要性靠后。考慮因為ACLF診斷中膽紅素的標準每日上升≥17.1 μmol/L,故早期就診且行血液檢驗的患者的膽紅素可能未達到171 μmol/L。另外,目前血液透析等治療手段的臨床應用對血膽紅素值的干預也占重要作用[13]。膽紅素在肝臟瘀滯會使肝細胞功能受損,同時血膽紅素過高也會對大腦及神經系統造成損害,故膽紅素指標仍是評價肝功能及預后的重要指標之一。
機器學習因其智能化的分析模式而在分析數據時占據優勢。越來越多的疾病開始使用機器學習方法構建診斷及預后模型,比如肝性腦病預后因素分析[14]、前列腺癌的診斷及乳腺癌的診斷等。若能實現多中心、大樣本量(>500例)數據訓練,則可以建立準確性更高的預測模型。本研究中,我們希望將來可以納入更多樣本,建立精確的預后評估模型,實現對HBV- ACLF患者的精準的預后判斷。同時我們希望,能夠開發出相關檢測軟件(APP),將給臨床工作帶來便利。