汪 泓 陽(yáng) 霞 張紅雁
肝細(xì)胞癌(hepatocellular carcinoma,HCC)是全球癌癥相關(guān)死亡的第三大原因[1]。手術(shù)切除是根治肝癌的重要手段,但患者預(yù)后差異很大[2]。對(duì)肝癌患者預(yù)后精準(zhǔn)評(píng)估,可為治療方案的選擇提供依據(jù),從而延長(zhǎng)其生存期。目前,尚缺乏反映肝癌分子生物學(xué)特征的預(yù)后因子,臨床常用的肝癌預(yù)后分期系統(tǒng)的準(zhǔn)確性有待提高[3-4]。 研究[5-6]表明,從TCGA數(shù)據(jù)庫(kù)中可獲取腫瘤組織的反相蛋白質(zhì)陣列(reverse-phase protein arrays,RPPA),利用高通量的生物信息學(xué)篩選方法有助于精準(zhǔn)找尋和成功鑒定肝癌預(yù)后分子標(biāo)志物以評(píng)估患者預(yù)后[7]。決策樹(shù)分析方法已在預(yù)測(cè)惡性胸膜間皮瘤、重癥急性胰腺炎、急性肝功能衰竭等疾病的預(yù)后中表現(xiàn)出良好的風(fēng)險(xiǎn)分層特性[8-12]。本研究通過(guò)分析TCGA數(shù)據(jù)庫(kù) HCC RPPA數(shù)據(jù),選擇預(yù)后蛋白標(biāo)志物Tubulin α-1B、PAI-1和B-raf用于775例肝癌患者組織免疫組織化學(xué)(immunohistochemistry,IHC)染色,聯(lián)合患者臨床病理信息,采用決策樹(shù)方法構(gòu)建肝癌預(yù)后模型并驗(yàn)證,為臨床判定肝癌患者預(yù)后提供參考。
1.1 一般資料 收集1998年1月至2010年12月中山大學(xué)腫瘤防治中心775 例HCC患者石蠟包埋病理標(biāo)本。納入標(biāo)準(zhǔn):所有病例均病理確診為肝細(xì)胞癌;均為根治性肝癌切除患者,且術(shù)前或術(shù)后未進(jìn)行抗腫瘤治療;患者臨床病理資料齊全、隨訪數(shù)據(jù)完整。臨床病理資料包括年齡、性別、肝炎病史、血清甲胎蛋白、肝硬化情況、腫瘤數(shù)目、大小、分化程度、分期和血管浸潤(rùn)程度等。腫瘤分化程度根據(jù)Edmonson等[13]診斷標(biāo)準(zhǔn)鑒定。TNM分期根據(jù)美國(guó)癌癥聯(lián)合委員會(huì)的分類(lèi)定義[14]。隨訪時(shí)間:第1年每3個(gè)月隨訪1次,隨后2年每6個(gè)月隨訪1次,此后每年隨訪1次。隨訪觀察總生存時(shí)間(overall survival,OS)和無(wú)病生存時(shí)間(disease-free survival time,DFS)。OS定義為從肝癌手術(shù)至患者死亡,或最后一次隨訪的間隔時(shí)間。DFS定義為從肝癌手術(shù)到腫瘤復(fù)發(fā)的間隔時(shí)間。腫瘤復(fù)發(fā)(包括肝內(nèi)復(fù)發(fā)或轉(zhuǎn)移)需通過(guò)超聲、CT或MRI鑒定。最后一次隨訪存活的患者或未診斷出腫瘤復(fù)發(fā)的患者,以及其他原因?qū)е禄颊咚劳霰灰暈閯h失數(shù)據(jù)。
1.2 方法
1.2.1 篩選肝癌預(yù)后蛋白標(biāo)志物 從TCGA數(shù)據(jù)庫(kù)獲得182例肝癌患者的RPPA數(shù)據(jù)、臨床病理及預(yù)后信息。利用Cox比例風(fēng)險(xiǎn)回歸模型進(jìn)行單因素生存分析,計(jì)算風(fēng)險(xiǎn)比(hazard ratio,HR)及95%置信區(qū)間(confidence interval,CI),將差異有統(tǒng)計(jì)學(xué)意義的預(yù)后相關(guān)蛋白納入LASSO回歸分析,篩選出影響肝癌預(yù)后的關(guān)鍵蛋白標(biāo)志物。構(gòu)建LASSO邏輯回歸使用R軟件(版本3.4.3)和“ glmnet ”軟件包[15]。
1.2.2 肝癌組織預(yù)后蛋白標(biāo)志物IHC染色及評(píng)估 將福爾馬林固定、石蠟包埋的病理組織塊和相應(yīng)的HE染色玻片比對(duì)以進(jìn)行組織微陣列(Tissue microarray,TMA)采樣。由病理科具有高級(jí)職稱(chēng)的醫(yī)師閱片并標(biāo)記癌旁肝組織和肝癌組織區(qū)域。將組織重新嵌入新的石蠟塊中,4 μm切片并進(jìn)行后續(xù)IHC染色[16]。兔單克隆抗TUBA1B抗體(ab108629,Abcam)以1∶1 500稀釋。兔單克隆抗B-raf 抗體(ab33899,Abcam)和兔多克隆抗PAI-1抗體(AF5176,Affinity Biosciences)的稀釋度均為1∶200 。
從0~12分對(duì)IHC染色強(qiáng)度和比例進(jìn)行評(píng)分[17]。染色強(qiáng)度等級(jí):0分,IHC無(wú)染色;1分,染色弱;2分,染色適中;3分,染色強(qiáng)。染色比例:0分,沒(méi)有檢測(cè)到陽(yáng)性染色細(xì)胞;1分,<25%的細(xì)胞染色;2分,25%~50%的細(xì)胞染色;3分,50%~75%的細(xì)胞染色;4分,>75%的細(xì)胞染色。IHC分?jǐn)?shù)是通過(guò)強(qiáng)度和比例相乘來(lái)計(jì)算。根據(jù)2位病理科醫(yī)師評(píng)分結(jié)果的平均值確定最終IHC得分。
1.2.3 肝癌患者預(yù)后決策樹(shù)模型的構(gòu)建及驗(yàn)證
1.2.3.1 分組 通過(guò)計(jì)算機(jī)生成的隨機(jī)數(shù)將775例肝癌患者分為訓(xùn)練隊(duì)列544例和驗(yàn)證隊(duì)列231例。訓(xùn)練隊(duì)列中,男性489例,女性55例;年齡13~77歲,平均(49.1±11.9)歲,隨訪0.1~117.1 個(gè)月,中位隨訪時(shí)間18.9 個(gè)月。驗(yàn)證隊(duì)列中,男性199例,女性32例;年齡14~74歲,平均(48.3±12.3)歲,隨訪0.1~118.2個(gè)月,中位隨訪時(shí)間20.4 個(gè)月。
1.2.3.2 建模 使用R軟件(版本3.4.3)和軟件包“rpart”進(jìn)行決策樹(shù)分析。參數(shù)設(shè)置:目標(biāo)變量為肝癌患者預(yù)后,預(yù)測(cè)變量為多因素Cox比例風(fēng)險(xiǎn)回歸分析結(jié)果中肝癌預(yù)后的獨(dú)立預(yù)測(cè)因素,包括腫瘤大小、腫瘤數(shù)目、血管浸潤(rùn)、TNM分期、淋巴轉(zhuǎn)移、Tubulin α-1B、B-raf。通過(guò)ROC曲線計(jì)算預(yù)測(cè)模型的特異度,通過(guò)比較不同模型曲線下面積評(píng)估模型預(yù)測(cè)能力。

2.1 預(yù)后相關(guān)蛋白的確定、表達(dá)及其與臨床病理特征的關(guān)系 從TCGA數(shù)據(jù)庫(kù)290個(gè)蛋白中篩選出21種與肝癌患者總生存時(shí)間相關(guān)的候選蛋白(見(jiàn)圖1A)。利用LASSO邏輯回歸通過(guò)降維鑒定出3個(gè)預(yù)測(cè)標(biāo)志物:Tubulin α-1B、PAI-1和B-raf。Kaplan-Meier生存分析顯示,TCGA數(shù)據(jù)庫(kù)中這3種蛋白標(biāo)志物高表達(dá),則肝癌患者預(yù)后差(見(jiàn)圖1B)。通過(guò)IHC檢測(cè)這3種蛋白在775 例肝癌患者中的表達(dá),結(jié)果顯示Tubulin α-1B 、PAI-1和B-raf 均表達(dá)于肝癌細(xì)胞的胞質(zhì)中(見(jiàn)圖2A、2D、2G)。相比癌旁肝組織,Tubulin α-1B在肝癌組織中表達(dá)上調(diào),并與肝癌患者生存時(shí)間短顯著相關(guān)(見(jiàn)圖2 A~C),而PAI-1或B-raf的表達(dá)在癌旁肝組織和肝癌組織中差異相對(duì)較小 (見(jiàn)圖2 D~F和G-I)。在訓(xùn)練隊(duì)列和驗(yàn)證隊(duì)列中,均可觀察到腫瘤分化、血管浸潤(rùn)和包膜完整與Tubulin α-1B的表達(dá)有關(guān)(表1)。而PA1-1和B-raf的表達(dá)與臨床病理參數(shù)之間幾乎無(wú)相關(guān)性。

圖1 利用TCGA數(shù)據(jù)庫(kù)篩選肝癌預(yù)后相關(guān)蛋白
注:A為T(mén)CGA RPPA數(shù)據(jù)庫(kù)中肝癌預(yù)后相關(guān)蛋白的單因素生存分析;B為T(mén)CGA RPPA數(shù)據(jù)庫(kù)中3個(gè)最重要的肝癌預(yù)后相關(guān)蛋白Tubulin α-1B、PAI-1和B-raf的Kaplan-Meier生存分析

圖2 相關(guān)蛋白與肝癌患者預(yù)后的相關(guān)性
注:A、D、G為癌旁肝組織、低風(fēng)險(xiǎn)肝癌組和高風(fēng)險(xiǎn)肝癌組中Tubulin α-1B、PAI-1和B-raf 蛋白表達(dá);B、E、H為 Mann-Whitney檢驗(yàn)比較癌旁肝組織(N)、肝癌組織(T)以及不同風(fēng)險(xiǎn)組之間Tubulin α-1B、PAI-1和B-raf 的表達(dá)差異;C、F、I為Kaplan-Meier分析775例肝癌患者中Tubulin α-1B、PAI-1和B-raf 表達(dá)與患者總生存時(shí)間的相關(guān)性

表1 Tubulin α-1B表達(dá)與患者臨床病理參數(shù)的關(guān)系[例(%)]
續(xù)表1

參數(shù)訓(xùn)練隊(duì)列驗(yàn)證隊(duì)列例數(shù)低表達(dá)高表達(dá)χ2值P值例數(shù)低表達(dá)高表達(dá)χ2值P值纖維化3.6380.0560.0430.836 陰性9850(51)48(49)4427(61.4)17(38.6) 陽(yáng)性421259(61.5)162(38.5)184116(63)68(37)腫瘤大小(cm)0.1250.7240.4200.517 <512472(58.1)52(41.9)6744(65.7)23(34.3) ≥5396237(59.8)159(40.2)16299(61.1)63(38.9)腫瘤數(shù)目1.0450.3071.2820.257 單個(gè)344199(57.8)145(42.2)14997(65.1)52(34.9) 多發(fā)176110(62.5)66(37.5)8046(57.5)34(42.5)腫瘤分化9.1260.0035.8250.016 高分化4939(79.6)10(20.4)1816(88.9)2(11.1) 中低分化471270(57.3)201(42.7)211127(60.2)84(39.8)TNM分期3.3130.0690.0500.823 I222142(64)80(36)9057(63.3)33(36.7) II~I(xiàn)V298167(56)131(44)13986(61.9)53(38.1)血管浸潤(rùn)5.1220.0244.8060.028 陰性420260(61.9)160(38.1)188124(66)64(34) 陽(yáng)性9949(49.5)50(50.5)4019(47.5)21(52.5)包膜3.9750.0466.5580.010 不完整299167(55.9)132(44.1)13374(55.6)59(44.4) 完整220142(64.5)78(35.5)9468(72.3)26(27.7)淋巴轉(zhuǎn)移0.0750.7840.0000.990 陰性485288(59.4)197(40.6)220138(62.7)82(37.3) 陽(yáng)性3421(61.8)13(38.2)85(62.5)3(37.5)
2.2 Tubulin α-1B 表達(dá)與肝癌患者預(yù)后的相關(guān)性 Tubulin α-1B 高表達(dá)與肝癌患者OS和DFS短高度相關(guān)(見(jiàn)圖2C)。單變量分析顯示,在訓(xùn)練和驗(yàn)證隊(duì)列中,腫瘤大小、腫瘤數(shù)目、包膜完整、血管浸潤(rùn)、淋巴轉(zhuǎn)移 和TNM分期,以及Tubulin α-1B 表達(dá)是肝癌預(yù)后的預(yù)測(cè)因子 。多變量分析表明,在兩個(gè)隊(duì)列中Tubulinα-1B高表達(dá)是肝癌患者預(yù)后差的獨(dú)立預(yù)測(cè)因素。見(jiàn)表2、3。

表2 在訓(xùn)練隊(duì)列中肝癌患者預(yù)后的單因素和多因素分析
續(xù)表2

變量單因素分析多因素分析HR (95% CI)P 值HR (95% CI)P值DFS 年齡 (<49歲 vs ≥49歲)0.790(0.619~1.006)0.056 性別 (女性 vs 男性)0.898(0.599~1.347)0.603 HBV (陽(yáng)性 vs 陰性)1.203(0.874~1.656)0.257 腫瘤大小 (<5 cm vs ≥5 cm)1.147(0.869~1.514)0.333 腫瘤數(shù)目 (單個(gè)vs 多個(gè))1.072(0.822~1.399)0.606 包膜 (不完整 vs 完整)0.945(0.740~1.206)0.648 肝纖維化 (陽(yáng)性 vs 陰性)0.865(0.639~1.169)0.345 甲胎蛋白 (<20 ng/mL vs ≥20 ng/mL)1.391(1.021~1.895)0.0361.296(0.938~1.791)0.116 血管浸潤(rùn) (陽(yáng)性 vs 陰性)1.585(1.157~2.169)0.0041.437(1.029~2.007)0.034 分化程度(高分化 vs 低中分化)1.211(0.813~1.806)0.347 TNM (I vs II-IV)1.137(0.890~1.453)0.304 淋巴轉(zhuǎn)移 (陽(yáng)性 vs 陰性)0.803(0.439~1.471)0.478 PAI-1 (低表達(dá)vs 高表達(dá))0.982(0.757~1.273)0.889 Tubulin α-1B (低表達(dá)vs 高表達(dá))1.394(1.078~1.802)0.0111.323(1.019~1.716)0.035 B-raf (低表達(dá)vs 高表達(dá))1.030(0.784~1.354)0.832

表3 驗(yàn)證隊(duì)列中肝癌患者預(yù)后的單因素和多因素分析
2.3 決策樹(shù)模型驗(yàn)證結(jié)果 依據(jù)肝癌患者存活少于或多于19 個(gè)月(肝癌患者的中位生存時(shí)間)分為預(yù)后不良組或預(yù)后良好組,將其設(shè)為決策樹(shù)目標(biāo)變量。將多變量分析結(jié)果中的獨(dú)立預(yù)測(cè)因素納入決策樹(shù)分析,將其設(shè)為決策樹(shù)預(yù)測(cè)變量。在構(gòu)建的決策樹(shù)模型(見(jiàn)圖3A)中,初始分叉節(jié)點(diǎn)為T(mén)NM分期,Tubulinα -1B 蛋白IHC得分為 4(得分≤4為低表達(dá)組,得分>4為高表達(dá)組)、腫瘤大小和血管浸潤(rùn)為決策樹(shù)的分叉節(jié)點(diǎn)。由此,決策樹(shù)模型分為低風(fēng)險(xiǎn)組(組1a和組1b)、中風(fēng)險(xiǎn)組(組2a和組2b)以及高風(fēng)險(xiǎn)組(組3a和組3b)。預(yù)后好的低風(fēng)險(xiǎn)組具有以下特征之一:①TNM分期I期且Tubulin α-1B 低表達(dá);②TNM分期I期、Tubulin α-1B 高表達(dá)且腫瘤大小< 5 cm。中風(fēng)險(xiǎn)組具有以下特性之一:①TNM分期I期、Tubulin α-1B 高表達(dá)且腫瘤大小≥5 厘米;②TNM分期II-IV期、Tubulin α-1B 低表達(dá)且無(wú)血管浸潤(rùn)。預(yù)后差的高風(fēng)險(xiǎn)組具有以下特征之一:①TNM分期II-IV期且Tubulin α-1B 高表達(dá);②TNM分期II-IV期、Tubulin α-1B低表達(dá)且存在血管浸潤(rùn)。同時(shí),在231例肝癌患者中驗(yàn)證了構(gòu)建的決策樹(shù)模型(見(jiàn)圖3A)。在訓(xùn)練隊(duì)列中,決策樹(shù)模型預(yù)測(cè)預(yù)后的auROC為0.728(95%CI:0.684~0.772)。Cox模型有類(lèi)似的準(zhǔn)確度,auROC為0.742(95%CI:0.699~0.785,P=0.329 )。在驗(yàn)證隊(duì)列中,決策樹(shù)模型和Cox模型也表現(xiàn)出較好的預(yù)測(cè)準(zhǔn)確性,auROC分別為0. 741(95%CI:0.675~0.806)和0.737(95%CI:0.672~0.802,P=0.456)。決策樹(shù)模型、Cox模型及納入CART分析中的臨床病理特征預(yù)測(cè)肝癌患者預(yù)后的能力差異如圖3B所示。在訓(xùn)練和驗(yàn)證隊(duì)列中,決策樹(shù)模型評(píng)估的風(fēng)險(xiǎn)等級(jí)與肝癌患者總生存時(shí)間和無(wú)病生存時(shí)間顯著相關(guān),表明決策樹(shù)模型可預(yù)測(cè)肝癌患者預(yù)后風(fēng)險(xiǎn)(見(jiàn)圖3C)。

圖3 決策樹(shù)預(yù)后模型和驗(yàn)證結(jié)果
注:A表示在訓(xùn)練隊(duì)列(n=544)和驗(yàn)證隊(duì)列(n=231)中使用決策樹(shù)模型區(qū)分肝癌不同風(fēng)險(xiǎn)組。決策樹(shù)的節(jié)點(diǎn)包括TNM分期(根節(jié)點(diǎn))、Tubulin α-1B 、腫瘤大小和血管浸潤(rùn)。組1a和組1b為肝癌低風(fēng)險(xiǎn)組;組2a和組2b為肝癌中風(fēng)險(xiǎn)組;組3a和組3b為肝癌高風(fēng)險(xiǎn)組;B為訓(xùn)練隊(duì)列和驗(yàn)證隊(duì)列中決策樹(shù)模型、Cox模型以及每個(gè)獨(dú)立變量預(yù)測(cè)肝癌患者預(yù)后的ROC曲線;C為訓(xùn)練隊(duì)列和驗(yàn)證隊(duì)列中使用決策樹(shù)模型對(duì)肝癌患者預(yù)后進(jìn)行生存分析
由于肝癌治療手段有限及患者預(yù)后差,臨床醫(yī)生正在考慮開(kāi)發(fā)簡(jiǎn)易實(shí)用的預(yù)后模型,用于治療決策和預(yù)后評(píng)估。本研究構(gòu)建的肝癌組織蛋白表達(dá)與臨床病理數(shù)據(jù)相結(jié)合的綜合預(yù)后模型,可預(yù)測(cè)肝癌患者預(yù)后。模型中臨床病理參數(shù),如TNM分期、腫瘤大小和血管浸潤(rùn),代表了腫瘤的總體特征,而與預(yù)后相關(guān)的蛋白Tubulin α-1B的表達(dá)則在分子水平反映腫瘤的惡性程度。臨床病理參數(shù)與腫瘤組織IHC評(píng)分的組合,不僅可以區(qū)分不同的生存風(fēng)險(xiǎn)組,而且符合分子與細(xì)胞生物學(xué)機(jī)理,更重要是在臨床上簡(jiǎn)易可行。決策樹(shù)模型中鑒定出TNM分期中被忽視的新的患者亞群,同時(shí)也體現(xiàn)出了在判斷腫瘤惡性程度中臨床病理數(shù)據(jù)與腫瘤生物學(xué)標(biāo)記之間的相互作用。
本研究通過(guò)分析TCGA數(shù)據(jù)庫(kù),利用LASSO邏輯回歸,鑒定出3個(gè)肝癌預(yù)后標(biāo)志物:Tubulin α-1B、PAI-1和B-raf。其中PAI-1是一種絲氨酸蛋白酶抑制劑,可抑制纖維蛋白溶酶原激活劑tPA 和uPA[18]。它可調(diào)節(jié)血管內(nèi)纖維蛋白溶解,調(diào)控細(xì)胞侵襲和遷移。PAI-1可促進(jìn)腫瘤血管生成[19]。催乳素可抑制PAI-1 的抗纖溶活性,從而抑制腫瘤的血管形成[20]。PAI-1抑制劑SK-216 可以抑制血管生成,可用于惡性胸膜間皮瘤的治療[21]。B-raf是Raf絲氨酸/蘇氨酸激酶家族的成員之一,是MAPK信號(hào)轉(zhuǎn)導(dǎo)途徑的組成成分,可介導(dǎo)細(xì)胞增殖與遷移[22]。惡性腫瘤的體細(xì)胞突變可激活Raf蛋白亞型[23]。微管蛋白是細(xì)胞骨架的主要成分,其主要生物學(xué)功能與細(xì)胞黏附、運(yùn)動(dòng)、DNA復(fù)制和細(xì)胞分裂有關(guān)[24]。已發(fā)現(xiàn)幾個(gè)微管蛋白家族成員參與腫瘤進(jìn)展[25]。α-tubulin乙酰化的升高增加了乳腺癌的轉(zhuǎn)移潛力[26]。Tubulin α-1B 在肝癌組織中表達(dá)上調(diào)可促進(jìn)肝癌細(xì)胞增殖,且Tubulin α-1B 高表達(dá)與肝癌患者總生存時(shí)間短以及紫杉醇耐藥相關(guān)[27]。本研究即通過(guò)IHC評(píng)估肝癌組織中Tubulin α-1B 中的表達(dá),結(jié)合臨床病理資料,構(gòu)建決策樹(shù)模型來(lái)預(yù)測(cè)肝癌患者的預(yù)后。
本研究通過(guò)CART方法構(gòu)建決策樹(shù)進(jìn)行多變量分析。CART分析是一種機(jī)器學(xué)習(xí)算法,可以通過(guò)使用臨床病理數(shù)據(jù)和生物標(biāo)志物表達(dá)量來(lái)預(yù)測(cè)患者總生存。決策樹(shù)模型與傳統(tǒng)多元回歸方法建模相比具有多項(xiàng)優(yōu)勢(shì)。首先,決策樹(shù)模型不受缺失數(shù)據(jù)限制,例如臨床數(shù)據(jù)部分缺失或IHC染色失敗。統(tǒng)計(jì)結(jié)果適用于所有納入研究的臨床病例。其次,決策樹(shù)模型可以明確輸入變量之間的復(fù)雜的交互作用,并提供“if-then”規(guī)則來(lái)支持判斷和決策。在本研究中,雖然TNM分期主導(dǎo)了決策樹(shù)模型中上級(jí)決策規(guī)則,但生物標(biāo)記物有助于下級(jí)決策的制定。第三,相比于從邏輯回歸衍生出的復(fù)雜模型[28],決策樹(shù)模型使用圖形方式顯示決策方式更加容易理解和應(yīng)用。但本研究仍存在不足之處。首先,CART分析具探索性。納入風(fēng)險(xiǎn)因素的重要性可能被高估或出現(xiàn)模型的過(guò)擬合。其次,由于本研究是回顧性的,可能會(huì)產(chǎn)生一定的數(shù)據(jù)偏差。第三,本組數(shù)據(jù)是單中心的,決策樹(shù)模型的構(gòu)建與驗(yàn)證均在同中心檢測(cè)。因此,需要進(jìn)行更大范圍的多中心前瞻性研究,以改善和進(jìn)一步驗(yàn)證決策樹(shù)模型。
綜上所述,利用肝癌患者的臨床病理信息和預(yù)后相關(guān)蛋白數(shù)據(jù),采用決策樹(shù)方法構(gòu)建肝癌的預(yù)后模型,可用于肝癌患者危險(xiǎn)分層和預(yù)后評(píng)估。