李開濤,白云鵬,郭志剛
近些年,有多個針對心臟術(shù)后危險因素評分系統(tǒng)相繼建立,包括心臟手術(shù)風(fēng)險評分(Parsonnet Score)[1]、歐洲心臟手術(shù)風(fēng)險評分(EuroSCORE)[2]、美國胸外科風(fēng)險評分(STS)[3]等。其中,以EuroSCORE在全球應(yīng)用最廣。EuroSCORE于1999年建立,研究對象源自1995—1999年8個歐洲國家128個中心接受心臟手術(shù)患者[2],在各類文獻(xiàn)中被引用多達(dá)1 300余次[4]。然而,在近些年的報道中發(fā)現(xiàn),EuroSCORE高估了一些主動脈瓣置換和非停跳冠脈手術(shù)患者的病死率[5-6],這可能與心臟手術(shù)、麻醉、灌注和術(shù)后監(jiān)護(hù)的進(jìn)步有很大關(guān)系。為了保證和提高評分模型的預(yù)測性能,EuroSCORE在2012年進(jìn)行了更新,產(chǎn)生了EuroSCOREⅡ。新版本對年齡、腎功能不全等多項危險因素的定義進(jìn)行了精簡和修改[7]。
在中國,EuroSCORE同樣面臨著高估心臟手術(shù)患者院內(nèi)死亡率的問題[8],可能與接受心臟手術(shù)的中國患者數(shù)量急劇增加有關(guān)[9]。因此中國學(xué)者研制出SinoSCORE用于估測冠狀動脈旁路移植術(shù)(coronary artery bypass graft,CABG)術(shù)后院內(nèi)病死率。SinoSCORE的建立基于43家醫(yī)療機(jī)構(gòu)的9 839例CABG患者。在研究系統(tǒng)的內(nèi)部檢驗中,這項評分系統(tǒng)有較好的預(yù)測效能[10]。目前國內(nèi)關(guān)于風(fēng)險評分系統(tǒng)在大樣本CABG患者中應(yīng)用的研究較少,比較不同評分系統(tǒng)預(yù)測效能的研究更是少之又少。本研究通過比較EuroSCOREⅡ和SinoSCORE在中國CABG患者中的預(yù)測效能,旨在尋找出更適于中國人群的風(fēng)險評分系統(tǒng)。
1.1 資料收集 收集天津市胸科醫(yī)院2011年1月—2015年4月行CABG手術(shù)患者信息,排除信息收集不全者。信息包括術(shù)前信息、人口學(xué)信息、臨床信息、手術(shù)信息和院內(nèi)死亡情況,具體如下:(1)性別、年齡、需胰島素維持的糖尿病、腎功能不全、慢性阻塞性肺疾病、外周血管病(動脈病變,包含腹主動脈病變,不包含頸動脈病及膈以上動脈病變)、腦血管意外[(腦卒中引起超過24 h的昏迷;或者超過72 h的中樞神經(jīng)系統(tǒng)障礙(肢體無力、意識障礙、失語、視野喪失等)]、感染性心內(nèi)膜炎等病史。(2)既往心血管手術(shù)情況(不包含膈以下手術(shù)操作)、最近一次心肌梗死何時發(fā)生、不穩(wěn)定型心絞痛(術(shù)前24 h內(nèi))、術(shù)前出現(xiàn)心源性休克(且手術(shù)時仍處于休克狀態(tài))、心肺復(fù)蘇(術(shù)前2周)、持續(xù)性室速/室顫(術(shù)前2周)、左室射血分?jǐn)?shù)(LVEF)、是否有肺動脈高壓、是否使用主動脈內(nèi)球囊反搏(IABP)、手術(shù)緊急狀態(tài)、是否實行心臟瓣膜手術(shù)、是否主動脈瓣手術(shù)、是否三尖瓣手術(shù)、是否二尖瓣手術(shù)、是否施行左房血栓清除術(shù)、是否施行左室壁瘤手術(shù)、是否施行其他心臟手術(shù)(室間隔穿孔修復(fù)術(shù)、心臟腫瘤切除術(shù)、房顫治療手術(shù)、主動脈瘤手術(shù)、先天缺損修補(bǔ)手術(shù))。(3)出院狀態(tài)及術(shù)后30 d隨訪情況,其中院內(nèi)死亡為首要終點。本研究通過天津市胸科醫(yī)院倫理委員會認(rèn)證。
1.2 風(fēng)險評估 每例患者均應(yīng)用EuroSCOREⅡ和SinoSCORE計算其預(yù)測病死率(EuroSCOREⅡ需登錄官網(wǎng)計算,SinoSCORE根據(jù)其計分表格計算)。分別根據(jù)兩種評分系統(tǒng)的預(yù)測病死率將全組患者按照四分位法分為Ⅰ、Ⅱ、Ⅲ、Ⅳ組4個不同的危險分組。EuroSCOREⅡ評分如下,Ⅰ組:預(yù)測病死率≤0.84%;Ⅱ組:0.84%<預(yù)測病死率≤1.16%;Ⅲ組:1.16%<預(yù)測病死率≤1.64%;Ⅳ組:預(yù)測病死率>1.64%;SinoSCORE評分如下,Ⅰ組:預(yù)測病死率≤0;Ⅱ組:預(yù)測病死率<2%;Ⅲ組:預(yù)測病死率<5%;Ⅳ組:預(yù)測病死率>5%。根據(jù)手術(shù)種類將全組患者分為單一行CABG手術(shù)組和CABG聯(lián)合其他心臟手術(shù)組(如瓣膜手術(shù)、先心病手術(shù)、室間隔穿孔修復(fù)術(shù)、心臟腫瘤切除術(shù)、房顫治療手術(shù)等)。
1.3 模型預(yù)測效能評價 評分系統(tǒng)的預(yù)測效能應(yīng)用分辨力和校準(zhǔn)度進(jìn)行分析[11-12]。分辨力是指模型分析院內(nèi)死亡或生存的能力。模型分辨力用受試者工作特征曲線下面積(AUC)評價。當(dāng)AUC≥0.7時認(rèn)為模型可用,AUC≥0.8時模型分辨力優(yōu)[13]。采用Hosmer-Lemeshow(H-L)擬合優(yōu)度檢驗?zāi)P偷男?zhǔn)度。若P>0.05表明模型有較好的校準(zhǔn)度。另外應(yīng)用實際病死率和預(yù)期病死率的校準(zhǔn)點進(jìn)行分析。較理想的校準(zhǔn)預(yù)測在坐標(biāo)圖對角線上,而曲線在對角線之上為高估(實際病死率/預(yù)測病死率<1),在對角線之下為低估(實際病死率/預(yù)測病死率>1)[14-15]。
1.4 統(tǒng)計學(xué)方法 采用SPSS 19.0軟件進(jìn)行統(tǒng)計分析。連續(xù)變量以均數(shù)±標(biāo)準(zhǔn)差(±s)表示,連續(xù)變量2組間比較應(yīng)用t檢驗,多組間比較應(yīng)用方差分析。分類變量用例(%)表示,二分類變量的比較應(yīng)用χ2檢驗,有序分類變量的比較應(yīng)用Mann-WhitneyU檢驗。P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 基本信息 2011年1月—2015年4月在本中心行冠脈搭橋術(shù)后治療的患者共有5 090例。其中583例患者無法獲取有效信息計算風(fēng)險評分,最終入組4 507(88.55%)例患者。患者基本信息見表1。EuroSCOREⅡ不同亞組基本信息比較,除術(shù)前90 d內(nèi)心肌梗死差異無統(tǒng)計學(xué)意義外,其余指標(biāo)差異均有統(tǒng)計學(xué)意義,見表2。SinoSCORE不同亞組基本信息比較,除需胰島素控制的糖尿病、心臟手術(shù)史、活動性感染性心內(nèi)膜炎比例差異無統(tǒng)計學(xué)意義外,其余指標(biāo)差異均有統(tǒng)計學(xué)意義,見表3。不同手術(shù)方式亞組基本信息比較,除需胰島素控制的糖尿病、外周動脈疾病、活動差、慢性阻塞性肺疾病(COPD)、嚴(yán)重的術(shù)前狀態(tài)、左室射血分?jǐn)?shù)、手術(shù)狀態(tài)差異無統(tǒng)計學(xué)意義外,其余指標(biāo)差異均有統(tǒng)計學(xué)意義,見表4。

Tab.1 Baseline characteristics of patients表1 全組患者基線資料
2.2 全組患者預(yù)測效能分析 院內(nèi)實際病死率為1.35%。EuroSCOREⅡ預(yù)測病死率為1.47%(95%CI:1.43~1.50),與 實 際 病 死 率 接 近 。 而SinoSCORE 預(yù)測病死率為 2.86%(95%CI:2.76~2.96),高于實際病死率。全組及不同亞組患者實際和預(yù)測病死率見表5~7。H-L擬合優(yōu)度檢驗提示EuroSCOREⅡ擬合度較差,而SinoSCORE擬合度較好。應(yīng)用實際病死率/預(yù)測病死率比值進(jìn)行校準(zhǔn)度分析,提示EuroSCOREⅡ校準(zhǔn)度接近45°線,僅在實際病死率最高的人群中偏離較多。SinoSCORE的曲線整體偏離45°線,見圖1。在全部患者中,不論EuroSCORE Ⅱ(AUC=0.728>0.70)還是SinoSCORE(AUC=0.716>0.70)都有較好的辨別力,見圖2。
2.3 EuroSCOREⅡ亞組預(yù)測效能 在EuroSCOREⅡ不同風(fēng)險分層亞組中,EuroSCOREⅡ?qū)Β瘛蠼M人群病死率預(yù)測相對準(zhǔn)確,但卻低估Ⅳ組人群的病死率,見表5。在不同術(shù)式分組中,EuroSCOREⅡ略高估單一CABG組患者病死率,而低估CABG聯(lián)合其他手術(shù)者病死率,見表7。H-L擬合優(yōu)度檢驗提示EuroSCOREⅡ在不同亞組間有較好的校準(zhǔn)度。在不同危險等級亞組中,EuroSCOREⅡ僅在Ⅰ組患者中獲得較好的分辨力(AUC=0.707)。不同術(shù)式亞組中,EuroSCOREⅡ僅在聯(lián)合其他心臟手術(shù)中獲得較好分辨力(AUC=0.772)。
2.4 SinoSCORE亞組預(yù)測效能 SinoSCORE高估了Ⅱ~Ⅳ組人群的病死率,卻又低估Ⅰ組患者病死率,見表6。在不同術(shù)式分組中,SinoSCORE皆高估兩個亞組病死率。H-L擬合優(yōu)度檢驗提示SinoSCORE在不同亞組間有較好的校準(zhǔn)度。在不同風(fēng)險分層亞組中,SinoSCORE僅在Ⅱ組患者中獲得較好的分辨力(AUC=0.754)。在不同手術(shù)組別中,SinoSCORE的AUC均小于0.7,提示分辨力較差。
近些年,不同國家研究者們報道了多個研究,均證明EuroSCORE可能高估了心臟手術(shù)患者的死亡率[17-18]。為了解決這一問題,2012年官方更新了最新版本EuroSCOREⅡ[4]。一些研究報道,EuroSCOREⅡ預(yù)測能力強(qiáng)于前者[19]。一些學(xué)者認(rèn)為EuroSCOREⅡ較EuroSCORE提高了50%的預(yù)測能力[20]。與此同時,由于大多心臟手術(shù)風(fēng)險評估系統(tǒng)發(fā)源于歐美國家,對中國人群涉及程度非常有限,因此中國學(xué)者也依據(jù)中國病患基本信息建立了SinoSCORE。
本研究發(fā)現(xiàn),EuroSCOREⅡ會低估Ⅳ組患者的病死率,對于全組患者和其他亞組患者有較好的預(yù)測效度。當(dāng)患者依手術(shù)類型分組時,EuroSCOREⅡ在單一CABG手術(shù)組有較好的預(yù)測能力,但卻會低估合并其他心臟手術(shù)患者的病死率,這與以往的研究報道一致[19]。這些發(fā)現(xiàn)可能是有以下幾點原因:(1)危險模型的形成應(yīng)用的是國際數(shù)據(jù),不能精確預(yù)測特定的人群。盡管EuroSCOREⅡ中集合了不同種族,但模型僅收集了兩個中國醫(yī)療機(jī)構(gòu),因此不能完全適用于所有中國人群。(2)EuroSCOREⅡ是一個回歸模型,排除掉了一些罕見的,但病死率較高的危險因素,例如嚴(yán)重的肝疾病等,這些缺少的危險因素也許會導(dǎo)致預(yù)測偏倚。(3)部分學(xué)者認(rèn)為,EuroSCOREⅡ數(shù)據(jù)收集在5月—7月之間,這一時段患者病死率低于其他季節(jié),因此計算可能低估實際病死率。

Tab.2 Baseline characteristics of the subgroups of patients according to EuroSCOREⅡ表2 EuroSCOREⅡ不同亞組基線資料比較
SinoSCORE除Ⅰ組之外,對全組和其他不同亞組均高估了病死率。而對于Ⅰ組患者可能是由于系統(tǒng)定義體質(zhì)量指數(shù)(BMI)>24定義為-2分,對于Ⅰ組患者總分可能評出0分或甚至負(fù)分,因此,Ⅰ組病死率會被低估。此外,SinoSCORE作為一個權(quán)重相加模型,一些關(guān)鍵數(shù)據(jù)會被忽略,因而預(yù)測性能受到限制。SinoSCORE的建模人群是收集了國內(nèi)不同省份不同醫(yī)療單位的數(shù)據(jù),手術(shù)方法、手術(shù)質(zhì)量和醫(yī)療能力不盡相同。但是由于在本中心絕大部分患者行不停跳冠脈搭橋術(shù),且技術(shù)成熟,因此模型的應(yīng)用有可能出現(xiàn)偏倚[22]。

Tab.3 Comparison of baseline statistics between the subgroups by SinoSCORE表3 SinoSCORE不同亞組基線資料比較
另外,本研究發(fā)現(xiàn),針對全組患者,應(yīng)用H-L擬合優(yōu)度檢驗發(fā)現(xiàn)EuroSCOREⅡ校準(zhǔn)度較差,而Sino SCORE校準(zhǔn)度尚可。但是在之前的文獻(xiàn)中,一些作者對H-L檢測危險系統(tǒng)效能產(chǎn)生懷疑,特別是在一些大樣本研究中并不適合[23]。因此,本研究應(yīng)用實際病死率/預(yù)測病死率比值可以更加直觀地評價系統(tǒng)校準(zhǔn)性[24]。
目前風(fēng)險評分和危險分層已納入《2014 ESC/EACTS心臟血管重建指南》[25],指南中指出目前尚無一個危險評分能精確地預(yù)測單一患者的事件發(fā)生情況。同時所有評分系統(tǒng)模型數(shù)據(jù)都有局限,危險因素的定義和變量都有所不同。因此當(dāng)風(fēng)險評分系統(tǒng)在不同人群中應(yīng)用可能會影響預(yù)測效能。但風(fēng)險評分系統(tǒng)能很好地將病患根據(jù)死亡風(fēng)險分層,對臨床工作具有指導(dǎo)作用;因此,其在患者進(jìn)一步治療的選擇上起著至關(guān)重要的作用。
本研究的不足之處:作為一單中心研究,結(jié)論具有局限性。盡管單中心研究能最大限度地滿足實驗條件的依從性和治療的統(tǒng)一性,但多中心研究可入選大量來自于不同人群和醫(yī)療條件的病患來證實研究的結(jié)論。其次本研究為回顧性研究,一些臨床信
息收集困難,造成信息缺失,并不能完全收集同時期所有患者信息。盡管如此,本研究仍納入了4 507例行心臟手術(shù)治療的病例,這種大樣本病例的研究結(jié)論依然具有意義。

Tab.4 Comparison of baseline statistics between the different surgery subgroups表4 不同手術(shù)方式亞組基線資料比較

Fig.1 The calibration curves of the actual mortality/predictive mortality of the whole group圖1 全組患者實際病死率/預(yù)測病死率校準(zhǔn)曲線

Fig.2 ROC test curves of the whole group圖2 全組患者ROC曲線

Tab.5 Comparison of actual and predicted mortality rates according to EuroSCOREⅡ表5 EuroSCOREⅡ的實際和預(yù)測病死率比較

Tab.6 Comparison of actual and predicted mortality rates according to SinoSCORE表6 SinoSCORE的實際和預(yù)測病死率比較

Tab.7 Comparison of actual and predicted mortality rates according to different surgical methods表7 不同手術(shù)方式的實際和預(yù)測病死率的比較
綜上所述,EuroSCOREⅡ在全組和Ⅰ、Ⅱ、Ⅲ組的患者中能有好的預(yù)測效能,但低估Ⅳ組患者病死率;SinoSCORE高估全組和Ⅱ、Ⅲ、Ⅳ組患者病死率,低估了Ⅰ組患者病死率。本研究顯示風(fēng)險系統(tǒng)應(yīng)著眼于不同心臟疾病、不同的風(fēng)險層次;同時建立風(fēng)險系統(tǒng)統(tǒng)計方法也應(yīng)當(dāng)有所改進(jìn),完善對預(yù)后影響較大但發(fā)生率不高的風(fēng)險因素對預(yù)測效能的影響。