李德關(guān),汪圣毅,劉 虎,張 震,李永翔
直腸癌預(yù)后與患者的總生存期[1]和無(wú)進(jìn)展生存期[2]有關(guān)。對(duì)關(guān)鍵因素進(jìn)行干預(yù)可改善預(yù)后,提高療效[3]。然而,用統(tǒng)計(jì)模型篩選預(yù)后影響因素的過(guò)程中,當(dāng)納入的變量過(guò)多時(shí),數(shù)據(jù)的維度增加,樣本量相對(duì)不足,不利于影響因素的有效篩選,此外,當(dāng)變量之間高度相關(guān)時(shí),可導(dǎo)致維度災(zāi)難的發(fā)生,會(huì)削弱模型的準(zhǔn)確性、穩(wěn)定性[4]。最小絕對(duì)收縮和選擇運(yùn)算(least absolute shrinkage and selection operator,Lasso)可有效篩選變量,已被廣泛應(yīng)用于線性模型的數(shù)據(jù)分析[5]。目前,基于Lasso方法的Cox回歸被廣泛運(yùn)用于腫瘤預(yù)后標(biāo)簽的篩選和風(fēng)險(xiǎn)模型的構(gòu)建[6],較傳統(tǒng)方法有明顯優(yōu)勢(shì)。但在直腸癌的預(yù)后影響因素研究中多用于基因標(biāo)簽的篩選,而臨床和病理變量指標(biāo)篩選后構(gòu)建預(yù)后模型的研究較少。現(xiàn)有研究?jī)H局限于根據(jù)特定的臨床病理特征進(jìn)行分層分析的直腸癌樣本,仍缺乏臨床自然樣本的模型研究。本文收集臨床和病理指標(biāo)數(shù)據(jù),用Lasso-Cox回歸方法分析直腸癌的預(yù)后影響因素,構(gòu)建預(yù)后影響因素的預(yù)測(cè)模型,繪制列線圖,并進(jìn)行綜合評(píng)價(jià),旨在對(duì)直腸癌的預(yù)后研究提供基礎(chǔ)。
1.1 研究對(duì)象收集安徽醫(yī)科大學(xué)第一附屬醫(yī)院2015年1月至2021年5月的599例直腸癌數(shù)據(jù),納入標(biāo)準(zhǔn):①診斷具有病理依據(jù);②臨床資料完整。排除標(biāo)準(zhǔn):①數(shù)據(jù)存在缺失值、異常值;②研究變量中的分類及其亞類不明確或者沒(méi)有被評(píng)估;③分類變量的亞類評(píng)估不正確或者記錄錯(cuò)誤。收集的變量包括:①人口學(xué)特征:性別、年齡、身體質(zhì)量指數(shù);②臨床特征:糖尿病、術(shù)前營(yíng)養(yǎng)評(píng)分(nutrition risk screening, NRS2002)、ASA分級(jí)、血紅蛋白、白蛋白、癌胚抗原、糖類抗原199(carbohydrate antigen199, CA199)、腫瘤至肛緣距離、新輔助化療、手術(shù)時(shí)間、出血量、是否開(kāi)放手術(shù)、造口、術(shù)中輸血、引流量、術(shù)后化療、放療、復(fù)發(fā)、轉(zhuǎn)移、生存時(shí)間;③病理特征:腫瘤直徑、組織學(xué)分級(jí)、遠(yuǎn)切緣距離、血管侵犯、神經(jīng)侵犯、癌結(jié)節(jié)、術(shù)后(T、N、M、TNM)分期。
1.2 變量定義及分組癌結(jié)節(jié)是指術(shù)后病理檢查的腫瘤結(jié)節(jié),衡量癌細(xì)胞浸潤(rùn)和轉(zhuǎn)移的情況,有癌結(jié)節(jié)=1,無(wú)癌結(jié)節(jié)=0;性別:女=0,男=1;糖尿病:無(wú)=0,有=1;新輔助治療:無(wú)=1,化療=2,放療=3;開(kāi)放手術(shù):否=0,是=1;有無(wú)造口:無(wú)=0,有=1;術(shù)中輸血:無(wú)=0,有=1;組織學(xué)分型:高分化腺癌=1,中分化腺癌=2,低分化腺癌=3,粘液腺癌、印戒細(xì)胞癌、其他及未評(píng)估=4;血管侵犯、神經(jīng)侵犯、癌結(jié)節(jié)、術(shù)后化療、放療、復(fù)發(fā)、轉(zhuǎn)移均編碼為:無(wú)=0,有=1;根據(jù)美國(guó)癌癥聯(lián)合委員會(huì)第8版進(jìn)行術(shù)后T、N、M、TNM分期;Tis+T1=1,T2=2,T3=3,T4a+T4b=4,N0=1,N1=2,N2=3,M0=1,M1=2,TNM Ⅰ、Ⅱ、Ⅲ、Ⅳ期分別為1、2、3、4。見(jiàn)表1的第二列。

表1 隨訪的生存組和死亡組的特征比較
1.3 Lasso回歸分析采用Lasso回歸進(jìn)行L1范數(shù)約束,控制lambda(λ)參數(shù)調(diào)整模型的復(fù)雜度,以便進(jìn)行變量的篩選。重新將因子變量的不同分類編碼為整數(shù),啞變量化展平,轉(zhuǎn)為矩陣形式,與連續(xù)變量合并為數(shù)據(jù)框,轉(zhuǎn)為矩陣,glmnet包進(jìn)行Lasso回歸篩選變量。
1.4 Cox回歸分析利用Lasso回歸篩選系數(shù)不為0的變量作為自變量,用rms包的cph函數(shù)進(jìn)行Cox回歸分析,建立患者術(shù)后生存影響因素的Cox回歸模型。
1.5 列線圖的建立與評(píng)估定義time.inc為1年、3年,nomogram函數(shù)繪制Cox回歸的列線圖;利用已建立的Cox回歸模型:h(t,X)=h0(t)exp(β1X1+β2X2+…+βnXn),計(jì)算模型中的線性預(yù)測(cè)值(linear prediction,lp):lp=(β1X1+β2X2+…+βnXn),用lp計(jì)算1年、3年生存的假陽(yáng)性(false positive, FP)、真陽(yáng)性(true positive, TP)值;繪制受試者工作特征曲線(receiver operating characteristic curve, ROC),梯形法則計(jì)算ROC曲線下的面積(area under the ROC curve,AUC);在polspline包中使用hare函數(shù)對(duì)模型預(yù)測(cè)1年和3年生存概率的一致性進(jìn)行檢驗(yàn),繪制校準(zhǔn)曲線,自助抽樣次數(shù)B設(shè)置為200次;使用決策曲線分析(decision curve analysis, DCA)評(píng)估模型的凈獲益情況。

2.1 直腸癌根治術(shù)患者生存組和死亡組的一般特征比較599例的患者年齡22~90歲,中位年齡61歲;其中,男性363例,女性236例;平均隨訪時(shí)間為48.5月; 546例患者生存, 53例患者死亡;生存組和死亡組的臨床特征比較,發(fā)現(xiàn):死亡組患者的年齡較大、BMI較低、術(shù)前營(yíng)養(yǎng)評(píng)分和CA199較高,兩組間差異具有統(tǒng)計(jì)學(xué)意義(均P<0.05);生存組與死亡組之間的術(shù)前新輔助治療、術(shù)中輸血、血管侵犯、神經(jīng)侵犯、癌結(jié)節(jié)、術(shù)后的T、N、TNM分期、放療、術(shù)后是否復(fù)發(fā)轉(zhuǎn)移差異有統(tǒng)計(jì)學(xué)意義(均P<0.05),死亡組的中位生存時(shí)間較短(P<0.001)。見(jiàn)表1。
2.2 Lasso回歸結(jié)果Glmnet函數(shù)的family參數(shù)設(shè)定為Cox,經(jīng)過(guò)壓縮算法,多數(shù)變量的回歸系數(shù)被壓縮為0。見(jiàn)圖1。用10折交叉驗(yàn)證法,繪制均方誤差(mean square error,MSE),隨著lambda(λ)參數(shù)自然對(duì)數(shù)變化的情況,當(dāng)λ最小值為0.016,即其對(duì)數(shù)值為-4.105時(shí),MSE為最低(左側(cè)虛線),右側(cè)虛線為1個(gè)標(biāo)準(zhǔn)誤差內(nèi)的λ值。見(jiàn)圖2。系數(shù)不為0的8個(gè)變量分別為:是否術(shù)中輸血、術(shù)后淋巴結(jié)分期、術(shù)后化療、復(fù)發(fā)、轉(zhuǎn)移、神經(jīng)侵犯、年齡、BMI。

圖1 變量系數(shù)隨lasso回歸參數(shù)的變化

圖2 均方誤差隨Lambda對(duì)數(shù)值的變化
2.3 Cox回歸結(jié)果Cox回歸模型的似然比檢驗(yàn)值為214.6,P<0.01。年齡、BMI、術(shù)中輸血、術(shù)后化療、復(fù)發(fā)、轉(zhuǎn)移是影響直腸癌預(yù)后情況的獨(dú)立因素。見(jiàn)表2。

表2 cox回歸結(jié)果
2.4 列線圖對(duì)Cox回歸模型中的自變量進(jìn)行得分計(jì)和后,用列線圖展示了對(duì)直腸癌患者術(shù)后1年、3年生存率的影響。結(jié)果顯示,與無(wú)神經(jīng)侵犯的患者比較,有神經(jīng)侵犯的患者評(píng)分增加6分。有轉(zhuǎn)移的患者評(píng)分較無(wú)轉(zhuǎn)移患者增加17分。有復(fù)發(fā)患者的評(píng)分較無(wú)復(fù)發(fā)患者增加65分。化療患者較未化療患者評(píng)分減少32分。術(shù)后N分期為3的患者較分期為1的患者增加12分。體質(zhì)量指數(shù)每增加4 kg/m2,模型評(píng)分減少8分。年齡每增加10歲,評(píng)分增加6分。見(jiàn)圖3。

圖3 預(yù)測(cè)直腸癌手術(shù)后1年、3年生存率的列線圖
2.5 模型評(píng)價(jià)通過(guò)重采樣方法估計(jì)預(yù)測(cè)值與觀測(cè)值的一致性概率,得出模型的C指數(shù)為0.950,se=0.011,模型區(qū)分度良好。模型判斷是否死亡的AUC為0.95(95%CI: 0.91~0.99),P<0.01。見(jiàn)圖4。預(yù)測(cè)直腸癌手術(shù)后1年和3年生存率的校準(zhǔn)曲線顯示,模型預(yù)測(cè)概率和實(shí)際概率較為接近,一致性較好。見(jiàn)圖5、圖6。DCA繪圖顯示,DCA曲線遠(yuǎn)離了平行于X軸的決策線斜率為負(fù)數(shù)的虛線,表明凈獲益率顯著高于兩種設(shè)定條件。見(jiàn)圖7。

圖4 模型預(yù)測(cè)術(shù)后死亡的ROC曲線

圖5 模型預(yù)測(cè)術(shù)后1年生存率的校準(zhǔn)曲線

圖6 模型預(yù)測(cè)術(shù)后3年生存率的校準(zhǔn)曲線

圖7 臨床決策曲線
直腸癌手術(shù)后的生存時(shí)間和生存概率受多種因素的影響,既往研究[7]報(bào)告與多種表觀遺傳學(xué)基因標(biāo)簽有關(guān),與臨床、病理因素的關(guān)系尚不明確,并且既往研究結(jié)果大多基于傳統(tǒng)的Cox回歸方法,無(wú)法避免維度災(zāi)難,結(jié)果發(fā)生偏差的可能性較大。采用Lasso-Cox回歸建立高維度數(shù)據(jù)的預(yù)后影響因素模型較傳統(tǒng)單一的Cox回歸方法更加準(zhǔn)確可靠。
利用臨床、病理數(shù)據(jù)構(gòu)建的Lasso-Cox回歸的直腸癌預(yù)后模型較少,本研究利用臨床、病理資料,基于Lasso-Cox回歸方法建立預(yù)后模型,繪制列線圖。模型判斷直腸癌手術(shù)后是否發(fā)生死亡的AUC值為0.95,預(yù)測(cè)準(zhǔn)確性高,校準(zhǔn)曲線的一致性較好,DCA曲線顯示臨床獲益明顯。
本研究發(fā)現(xiàn)多個(gè)因素與術(shù)后死亡存在關(guān)聯(lián),Lasso回歸篩選出8個(gè)變量:術(shù)中輸血、術(shù)后淋巴結(jié)分期、術(shù)后化療、復(fù)發(fā)、轉(zhuǎn)移、神經(jīng)侵犯、年齡、體質(zhì)指數(shù);建立Cox模型后發(fā)現(xiàn):術(shù)中輸血、年齡、復(fù)發(fā)、轉(zhuǎn)移為危險(xiǎn)因素,術(shù)后化療、BMI為保護(hù)因素。對(duì)于醫(yī)院的直腸癌人群,用Lasso-Cox方法進(jìn)行預(yù)后分析的研究較少。對(duì)T3N0M0直腸癌患者的研究[8]發(fā)現(xiàn),年齡、單核細(xì)胞百分比、淋巴結(jié)清掃數(shù)目、神經(jīng)侵犯是直腸癌預(yù)后的獨(dú)立影響因素,與本研究發(fā)現(xiàn)的預(yù)后因素存在差異,可能與納入人群不同有關(guān)。研究發(fā)現(xiàn)[9]化療可以通過(guò)改變細(xì)胞的多種內(nèi)部機(jī)制改變腫瘤相關(guān)特征。對(duì)新輔助治療后行全直腸系膜切除術(shù)的患者的Cox回歸研究[10]發(fā)現(xiàn),與偏瘦人群比較,正常體重、超重患者的無(wú)病生存期的HR小于1。此外,Ⅱ、Ⅲ、Ⅳ期的直腸癌患者中,BMI高的亞組預(yù)后較好[11],與本研究發(fā)現(xiàn)相一致。本研究發(fā)現(xiàn)術(shù)中輸血、復(fù)發(fā)、轉(zhuǎn)移是影響直腸癌根治術(shù)后生存概率的獨(dú)立危險(xiǎn)因素,與既往研究結(jié)果一致[12-14]。本研究發(fā)現(xiàn),年齡每增加1歲,死亡風(fēng)險(xiǎn)增加3.57%,然而有研究[15]發(fā)現(xiàn)年齡對(duì)預(yù)后的作用也存在非線性關(guān)系。因此,用混合效應(yīng)模型、樣條回歸等方法是進(jìn)一步研究的方向。
采用多種方法進(jìn)行模型綜合評(píng)價(jià),可以顯著提高模型的可靠性。本研究聯(lián)合使用ROC曲線、校準(zhǔn)曲線、DCA方法,對(duì)構(gòu)建的模型進(jìn)行評(píng)價(jià)。區(qū)分度優(yōu)于以往的報(bào)告[8]、一致性相當(dāng)、DCA曲線顯示模型獲益較好。本研究利用電子病歷中術(shù)前、術(shù)中、術(shù)后的相關(guān)指標(biāo),建立Lasso-Cox回歸模型和列線圖來(lái)預(yù)測(cè)直腸癌的預(yù)后,指標(biāo)采集方便,可行性高,為直腸癌患者術(shù)后的生存預(yù)測(cè)研究提供了新的思路。然而該研究也存在一定局限性,樣本量有限,僅用再抽樣方法進(jìn)行校準(zhǔn)曲線分析,未來(lái)需要進(jìn)一步增加樣本量,建立訓(xùn)練集、驗(yàn)證集、測(cè)試集,優(yōu)化模型。