張盼盼,田 晶,楊 弘,李晨昊,閆晶晶,王 可,韓 嬙,張 青,韓清華,張巖波
1)山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室 太原 030001 2)山西醫(yī)科大學第一附屬醫(yī)院心內科 太原 030001 3)山西醫(yī)科大學第一臨床醫(yī)學院 太原 030001
心力衰竭(heart failure,HF)是各種心臟疾病的嚴重表現(xiàn)或晚期階段,死亡率和再住院率居高不下[1-2],全世界估計有2 600萬人受到影響,已成為一個全球性的公共衛(wèi)生問題[3]。HF患者出院后主要不良心血管事件(major adverse cardiovascular event,MACE)發(fā)生率高,預后差,不僅會降低患者的生活質量,還給家庭和社會造成了沉重的經濟負擔,因此做好HF患者MACE的風險預測至關重要。患者報告結局(patient-reported outcomes,PRO)是直接來自患者未經臨床醫(yī)生或他人修改與解釋的關于健康狀況的報告,是對患者各方面健康狀態(tài)的直接測量。本課題組研制出了測量慢性HF患者健康狀況的量表——PRO量表,并對其進行了信度、效度和可行性分析[4-5];然后采用該量表,以隨訪1 a內是否發(fā)生MACE為結局,建立預測模型。隨機森林(random forest,RF)是數(shù)據(jù)挖掘中的經典學習算法,可給出變量的重要得分,增加了模型的可解釋性。Fernandez-Delgado 等[6]在121個UCI數(shù)據(jù)集上比較了179種分類算法的分類性能,結果表明隨機森林表現(xiàn)最優(yōu)秀。本研究通過隨機森林構建基于PRO數(shù)據(jù)的慢性HF患者MACE預測模型,探究PRO數(shù)據(jù)在慢性HF預后研究中的應用價值。
1.1研究對象選取2017年5月至2019年3月在山西醫(yī)科大學第一附屬醫(yī)院和山西省心血管醫(yī)院住院診斷為慢性HF的患者,嚴格按照納入標準和排除標準選擇研究對象。納入標準:①年齡≥18歲;②有典型的慢性HF癥狀(如勞力性或陣發(fā)性呼吸困難、乏力、食欲不振)或體征(如雙下肢水腫、肺部濕啰音、肝頸靜脈回流征陽性);③紐約心臟病協(xié)會(New York heart association,NYHA)心功能分級Ⅱ~Ⅳ級。排除標準:①近2個月發(fā)生急性心血管事件;②由于精神疾病患者或語言障礙和智力障礙等原因不能理解或完成問卷的患者;③拒絕參加本項目的患者。該研究獲得山西醫(yī)科大學倫理委員會批準,患者均簽署知情同意書。
1.2隨訪由經過培訓的課題組成員根據(jù)醫(yī)院PRO問卷調查結果,于患者出院后1 a通過電話隨訪記錄患者1 a內MACE的發(fā)生情況,包括心源性死亡和HF再住院。死亡和再住院是慢性HF人口流行病學研究的主要終點,也是治療效果評價的終點指標,以其定義MACE能較客觀全面反映HF患者的預后情況。利用Epidata軟件,建立慢性HF患者基線和隨訪PRO數(shù)據(jù)庫。對數(shù)據(jù)資料進行雙人獨立錄入,并逐一校正做一致性檢驗。
1.3PRO數(shù)據(jù)集的構建和測量PRO數(shù)據(jù)涉及生理、心理、社會和治療4個領域,量表采用Likert 5級 評分法,以0~4分計分,正向條目正向計分,反向條目反向計分。本研究采用分層抽樣的方法,從1 a內是否發(fā)生MACE的病例中分別抽取2/3樣本組成訓練集用于構建模型,剩下的1/3組成測試集用于評價模型。用t檢驗和χ2檢驗做單因素分析,檢驗水準α=0.05(雙側)。將單因素分析篩選出有統(tǒng)計學意義的變量作為輸入變量,以是否發(fā)生MACE為結局變量,在訓練集中建立隨機森林模型,最終在測試集中評價模型,比較納入PRO數(shù)據(jù)前后模型的預測效果。
1.4隨機森林模型的構建RF是Breiman[7]提出的一種分類和預測模型。本研究在RStudio環(huán)境下,用Randomforest包建立隨機森林模型,通過遍歷比較確定最佳的隨機選擇特征數(shù)目,根據(jù)模型錯誤率與決策樹數(shù)目的關系選擇合適的決策樹數(shù)目建立模型,最小節(jié)點設為1。
1.5評價指標凈重分類改善指數(shù)(net reclassification improvement,NRI)和整體鑒別指數(shù)(integrated discrimination improvement,IDI)與AUC增加值一樣,用于估算增加一種新的危險因素后模型預測效果的改善情況。
NRI實質上測量加入新變量的新模型比較舊模型如何更好地提高重新分類風險概率。公式如下:
NRI=P(up/events)-P(down/events)+P(down/nonevents)-P(up/nonevents)
其中,events表示發(fā)生事件,nonevents表示未發(fā)生事,P(up/events)和P(down/events)代表發(fā)生事件的個體經重新分類后風險向上和向下移動的比例;P(down/nonevents)和P(up/nonevents)則是未發(fā)生事件的個體經重新分類后風險向上和向下的比例。NRI值大于0為正向改善,小于0為負向改善,等于0則無改善。
IDI反映的是預測事件發(fā)生和非事件發(fā)生風險概率的增加值。公式如下:

2.1慢性HF患者出院后1a內影響因素的單因素分析以患者出院后1 a內是否發(fā)生MACE為因變量,住院期間收集的31個基線數(shù)據(jù)為自變量進行單因素分析。具體結果見表1。

表1 影響慢性HF患者出院后1 a內MACE發(fā)生的單因素分析 例(%)
2.2隨機森林模型
2.2.1 遍歷比較確定最優(yōu)mtry值 mtry參數(shù)是隨機森林建模中,構建決策樹分支時隨機選擇特征的數(shù)目,選擇合適的mtry值可以提高模型的分類能力。
未納入PRO數(shù)據(jù):以單因素分析篩選出的除PRO數(shù)據(jù)外的9個變量為自變量,通過遍歷進行9次建模,選擇建模最低錯誤率的mtry值建立模型(圖1),mtry=3時,錯誤率最低為0.387。納入PRO數(shù)據(jù):以單因素分析篩選出含PRO數(shù)據(jù)在內的13個變量為自變量,通過13次建模,在13個錯誤率中選擇最低值對應的mtry值建立模型(圖1),mtry=4時,錯誤率最低為0.210。

圖1 mtry值與錯誤率的關系圖
2.2.2 選擇合適的ntree參數(shù)值 ntree參數(shù)指建模時決策樹的數(shù)量,它決定了隨機森林投票票數(shù)和準確率。
未納入PRO數(shù)據(jù):以mtry=3進行隨機森林建模,并將模型錯誤率與決策樹關系可視化(圖2),當ntree>100時,錯誤率趨于穩(wěn)定,因此設ntree為100。納入PRO數(shù)據(jù):mtry=4進行建模(圖3),當ntree>100時,錯誤率趨于穩(wěn)定,因此ntree設為100。

圖2 未納入PRO數(shù)據(jù)決策樹與錯誤率的關系圖

圖3 納入PRO數(shù)據(jù)決策樹與錯誤率的關系圖
2.2.3 輸入變量重要程度度量 各輸入變量對隨機森林總體預測準確度的影響情況見表2。由表2可知,PRO量表中的生理、治療、心理、社會4個領域和舒張壓得分較高,認為這些變量對隨機森林模型預測準確度影響較大,提示這些指標可能有較大的臨床意義。

表2 輸入變量重要性測度
2.3PRO數(shù)據(jù)對慢性HF患者MACE預測效果的評價用測試集測試模型,結果見表3。由表3可知,納入PRO數(shù)據(jù)的模型預測能力比未納入PRO數(shù)據(jù)模型預測效果好(NRI=0.452,Z=4.381,P<0.001)。納入PRO數(shù)據(jù)后測試集中模型的靈敏度為70.0%,特異度為90.8%,AUC值為0.804,增加了0.226,且NRI和IDI有統(tǒng)計學意義,表明PRO數(shù)據(jù)的增加可顯著提高模型的預測效果,PRO量表在預測慢性HF患者的預后研究中有較高的應用價值。

表3 PRO數(shù)據(jù)對慢性HF患者MACE預測的增加價值
2.4PRO數(shù)據(jù)不同領域對慢性HF患者MACE的預測分析將PRO數(shù)據(jù)生理、心理、社會、治療4個領域分別作為輸入變量,慢性HF患者1 a內是否發(fā)生MACE作為結局變量分別建立4個隨機森林預測模型,比較不同領域對慢性HF患者是否發(fā)生MACE的預測效果,結果見表4。由表4可知,生理領域對慢性HF患者是否發(fā)生MACE的預測效果最佳,該隨機森林模型的AUC值、靈敏度、陽性預測值和陰性預測值最大;其次是治療領的預測效果,其AUC值次之,接下來依次是心理領域、社會領域。

表4 隨機森林模型中PRO不同領域對慢性HF患者MACE預測分析
HF因其高住院率、高死亡率以及它的不可逆轉性,而被國內外學習者廣泛關注,但大部分的研究[9-10]主要探究HF的預后現(xiàn)狀以及它的影響因素分析,且多采用電子病歷數(shù)據(jù)。電子病歷從客觀角度反映了患者的健康狀況,多是醫(yī)生的決策,忽視了站在患者的角度去考慮問題,PRO從患者角度出發(fā),量化和識別患者健康狀態(tài)的各個方面,通過由患者打分的標準化量表將患者視角引入臨床實踐或臨床試驗,已有了較為廣泛的應用[11-12]。隨著現(xiàn)代醫(yī)療環(huán)境的變遷,“以病人為中心”的醫(yī)學模式被廣為接受,這種新型管理方式在改善患者預后、提高依從性及就醫(yī)滿意度方面凸顯出強大的優(yōu)勢,在真實世界里以患者為主體、以量表為橋梁、以干預為手段的PRO受到越來越多的關注,因此探究PRO在疾病預后中的價值具有重要的研究意義。
本研究認為PRO數(shù)據(jù)在慢性HF患者的預后研究中具有較高的應用價值,其生理領域的預后價值最大,其次是治療、心理和社會,這樣有利于醫(yī)務人員有側重地對慢性HF患者的預后進行干預,更多地關注患者的生理狀況,對患者保持一定的生活質量具有較高的實際意義。
隨機森林是一種組成式的有監(jiān)督的學習方法,通過樣本單元和變量的隨機抽樣生成大量決策樹,所有的決策樹依次對每個樣本單元進行分類,所有的決策樹預測類別中的眾數(shù)類別即為隨機森林所預測的這一樣本單元的類別[13]。隨機森林采取了Bagging思想和特征子空間思想,比單一決策樹有更好的抗噪性,且不易產生過擬合,可以顯著提高泛化能力[14]。因其不易過擬合、對缺失數(shù)據(jù)和噪聲不敏感等優(yōu)點,被學者廣泛應用,且不斷改進優(yōu)化算法,使模型越來越穩(wěn)定,預測效果更好。本研究使用隨機森林預測模型既保證了預測的穩(wěn)定性,又保證了預測的精度。
本研究的不足:①研究對象為固定醫(yī)院的患者,選擇偏倚無法避免。②基線數(shù)據(jù)做預測,忽視了時依協(xié)變量對結局的影響。
課題組將從以下兩個方面加以改進:①調查對象范圍擴大,可以擴展到下級醫(yī)院、社區(qū)服務中心等,以期控制選擇偏倚。②可用多水平Cox結合機器學習算法做動態(tài)預測,探究不同時間點時依協(xié)變量對預測效果的影響。