何俊翔 張海燕 李海 張茁(吉林大學中日聯誼醫院 泌尿外科,吉林 長春 30000; 胃腸結直腸外科)
膀胱癌(BC)是全球第九大最常見惡性腫瘤,也是常見的泌尿系統癌癥之一,占男性惡性腫瘤的7%,其中起源于膀胱壁的尿路上皮腫瘤占90%~95%〔1〕。據報道,僅2018年,在全球范圍內有約549 393 例新增BC 患者及199 922 例因BC 死亡的病例〔2〕。目前,臨床上針對BC 的治療手段包括手術、輔助或新輔助化療、化療、免疫治療及靶向治療等,其中70%的BC 在治療后會復發〔3〕。近年來,隨著DNA 測序及對基因表達研究的不斷深入,研究者發現了大量與BC 發病、進展及復發相關的DNA、RNA 和蛋白質生物標志物,無疑為BC 的診斷、靶向治療及預測預后方面提供了新思路〔4〕。通過篩選和識別潛在的生物標志物,以指導早期檢測、預測預后和預測治療效果,極大程度上促進BC 患者精準治療。早期研究證實,P53、成纖維細胞生長因子受體(FGFR)3、人類表皮生長因子受體(HER)2、表皮生長因子受體(EGFR)、磷脂酰肌醇-3 激酶編碼基因(PIK3CA)等多個基因的異常表達與BC 預后密切相關〔5〕。此外,有研究證實細胞程序性死亡配體(PDL)1 及轉化生長因子(TGF)-β 等在腫瘤發病機制中的關鍵作用,并由此衍生出一系列免疫阻斷療法在臨床已取得了可觀的療效。PD-L1 通過與其相應的受體相互作用來抑制免疫反應。程序性死亡受體(PD)-1 在激活的免疫細胞上表達,而PD-L1 在腫瘤細胞上表達。在癌細胞上表達的PD-L1 使細胞毒性T 細胞失活并減弱腫瘤微環境中的免疫監視〔6〕。TGF-β 通過抑制多種免疫細胞〔如細胞毒性T 細胞、樹突細胞(DC)和自然殺傷細胞(NK)細胞〕的增殖、分化,降低這些細胞的免疫能力來促進癌細胞的免疫逃逸,TGF-b 途徑的激活表明患者預后差并導致對免疫阻斷藥物的抗性〔7〕。多項研究均證明免疫治療在膀胱癌的治療進展中有重要作用。本文基于TCGA 公共數據庫,為了構建更準確的預后特征,采用單變量Cox 分析及最小絕對收縮和選擇算子(LASSO)和支持向量機遞歸特征消除(簡稱SVM-RFE)這兩種算法來選擇重要的候選特征RNA。推測這種RNA 特征的有效性是基于對免疫浸潤水平的患者特征的識別,并且這種特征對于臨床BC 患者具有非常準確的預后價值。
1.1 數據收集和處理 BC 患者的轉錄組數據和相關臨床信息均來自 TCGA 數據庫( https:/ /portal. gdc. cancer. gov/)。使用R 包處理下載文件。不合格數據被轉換并剔除。所有數據經過校準、標準化和log2 轉換。本研究將424 個樣本(19 個正常樣本和405 個腫瘤樣本)納入研究,并將實驗分為對照組(正常組織樣本)與實驗組(BC 患者)。
1.2 差異表達基因篩選使用 使用“limma”R 包在兩組之間進行RNA 的差異表達分析。根據調整后的P<0.05 和|Log2差異倍數(FC)|>1 的標準鑒定差異表達的基因。顯著上調或下調的基因用于后續分析。
1.3 機器學習篩選差異基因 將上述的差異基因篩選其|Log2FC|>2 的差異表達基因通過對兩種算法的綜合分析選擇候選預后RNA,這兩種算法包括LASSO 回歸分析及SVM-RFE 算法取其交集基因。在過濾差異表達的RNA 后,R 中的單變量Cox 分析用于確定差異表達RNA 的表達水平與患者總生存期(OS)之間的關聯,P<0.05 被認為具有統計學意義。受試者工作特征(ROC)曲線用于估計預測的準確性和效率。所有生存分析和圖形在R 環境下使用特定的R 包進行。
1.4 基因功能和通路富集分析 使用R 包“clusterProfiler”進行分析,京都基因和基因組百科全書(KEGG)、基因本體論數據庫(GO)對差異表達基因的功能進行注釋。通過GSEA 基因集富集分析對實驗組與對照組樣本進行功能分析。P<0.05 表示功能注釋的顯著豐富。
1.5 免疫浸潤水平分析 為了量化BC 樣本中免疫細胞的比例,使用CIBERSORT 算法,即使用一組參考基因的反卷積算法表達值(具有547 個基因的特征)被認為是每種細胞類型的最小表示,以使用支持向量回歸推斷來自具有混合細胞類型的大塊腫瘤樣本的數據中的細胞類型比例。使用表達數據(ESTIMATE)方法估計惡性腫瘤中的基質和免疫細胞,以推斷腫瘤樣本中基質和免疫細胞的比例,用于計算兩個數值變量之間的相關系數。
2.1 BC 相關RNA 的獲取 TCGA 數據庫中共提取55 141 個RNA 基質表達,使用“limma”R 包分析差異表達基因,共獲得1 668 個顯著差異mRNA(|log2FC|>1,P<0.05)。此外,為獲取差異更顯著的基因將|log2FC|調整為>2,共獲得275 個基因。
2.2 BC 中具有預后作用的RNA 的篩選 為進一步驗證和選擇兩組亞型分類具有顯著特征價值的RNA,采用LASSO 算法和SVM-RFE 來識別275 個顯著差異RNA(|log2FC|>1,P<0.05)。結合LASSO和SVM-RFE 算法篩選出的RNA 后,鑒定出這兩種算法同時選擇的7 個RNA 確定為分類的候選特征基因〔人乳鐵蛋白基因(HLF)、F10、CLEC3B、LINC01082、PGM5-AS1、上皮膜蛋白(EMP)1、基質金屬蛋白酶(MMP)11〕。通過單變量Cox 比例風險回歸分析顯示HLF 的風險比和95%CI分別為1.292 和1.064~1.570(P=0.010);F10 的風險比和95%CI分別為1.302 和1.090~1.556(P=0.004);EMP1 的風險比和95%CI分別為1.286 和1.164~1.421(P<0.001),獲得了3 個RNA(HLF、F10和EMP1)。進一步通過ROC 曲線下面積(AUC)預測其準確性(圖1)HLF、F10 和EMP1 的AUC 分別為0.984,95%CI:0.968~0.995、0.989,95%CI:0.978~0.997;0.956,95%CI:0.923~0.981,最終這3 個RNA為被確定為分類和預后的候選特征RNA。將特征基因的表達量以中位值為界分為高低表達組后,研究其總生存率(OS),K-M 分析結果顯示,低風險組OS 顯著優于高風險組(P<0.05),見圖1。

圖1 HLF、F10 和EMP1 的ROC 曲線和K-M 生存曲線
2.3 免疫細胞浸潤分析 基于TIMER 和CIBERSORT 算法,針對樣本中各種免疫細胞比例進行計算,結果見圖2A。同時,計算樣本中個免疫細胞的相關性見圖2B。然后,評估兩組之間免疫細胞成分的差異。初始B 細胞、記憶性靜息CD4 T 細胞和活化肥大細胞在對照組中的含量高于實驗組,而M0巨噬細胞和M1 巨噬細胞在實驗組中的含量高于對照組。此外,通過Spearman 相關分析,對篩選的特征基因研究其與免疫細胞的相關性并使用棒棒糖圖可視化相關系數,見圖2C。

圖2 免疫細胞浸潤分析
2.4 識別差異基因的生物過程和途徑 為進一步研究差異基因的生物行為,根據|log2FC| >2,P<0.05 的標準進行GO 功能富集分析,KEGG 富集分析,GSEA 富集分析(圖3),結果表明,在多條通路中顯著富集。

圖3 功能分析及富集分析
近年來,臨床上針對BC 的治療僅限于手術和免疫療法或化學療法。目前,對分子改變的廣泛分析導致了新的治療方法〔8〕。因此,針對BC 中癌癥干細胞的治療方面可能是有希望的。本研究結果表明,特征基因存在于肌肉系統過程、染色體分離、染色體分離等參與了細胞膠原的細胞外基質、收縮纖維、肌原纖維等在分子功能方面、差異基因與細胞外基質結構成分、糖胺聚糖結合、肌動蛋白結合等有關。同時在PI3K-蛋白激酶(Akt)信號通路、cGMPPKG 信號通路、ECM-受體相互作用、p53 信號通路、MAPK 信號通路等通路中顯著富集,DO 疾病富集也證實其與多種癌癥有關。
本研究篩選的3 個BC 預后和診斷生物標志物(HLF、F10 和EMP1),有的已被證明是其他人類癌癥的預后生物標志物。先前研究證實,在腎透明細胞癌中存在的晚期和高級別腫瘤中發現了HLF 表達下調。同時,HLF 低表達與腎細胞癌患者的無進展生存期和總生存期較短有關,其高表達與腎癌患者的良好預后相關,這些結果表明HLF 在腎細胞癌中的臨床相關性和潛在的保護作用〔9〕。有文獻報道,HLF 的失調與非小細胞肺癌(NSCLC)的復發和轉移有關,在早期復發的NSCLC 組織中顯著降低的HLF 與NSCLC 患者的早期進展和遠處轉移顯著相關〔10〕。F10 最早于葡萄胎及早孕絨毛的差異cDNA文庫中篩選出的基因片段,與滋養細胞的發生發展及轉移密切相關〔11〕。有研究指出F10 基因通過促進G1/S-特異性周期蛋白(cyclin)D1 的表達加快細胞周期的進展,促進細胞增殖〔12,13〕。蘇曉華等〔14,15〕多項研究觀察到F10 基因通過上調多種MMP,下調MMP 組織抑制物的表達,促進絨癌細胞的增殖及轉移。綜上,F10 作為癌基因,通過調節細胞周期及細胞凋亡,參與了多種腫瘤細胞的增殖分化及轉移進程。EMP1 是一種小的疏水性糖蛋白,包括160 個氨基酸和4 個跨膜結構域〔16,17〕。研究證實其參與細胞增殖,與腦膠質細胞瘤、乳腺癌、鼻咽癌、尿路上皮癌等腫瘤的進展密切相關。研究表明,在鼻咽癌細胞中EMP1 可以誘導細胞凋亡并阻止血管生成,從而阻斷癌細胞的生長和遷移〔18〕。在乳腺癌中也觀察到小葉癌、高度惡性的乳腺癌與導管癌相比,EMP1 表達水平顯著升高〔19〕。此外,EMP1 還與NSCLC 患者的吉非替尼耐藥性相關〔20~22〕。Ahmat-Amin 等〔23〕研究發現EMP1 的細胞內結構域直接與copine-Ⅲ結合,從而觸發由蛋白酪氨酸激酶Src 和Rac 鳥嘌呤核苷酸交換因子Vav2 介導的細胞內信號級聯反應,以激活小GTPase Rac1,從而增強細胞遷移和侵襲性?;谝延醒芯靠芍?HLF、F10 和EMP1 在多種癌癥的進展中均有表達。
綜上,LASSO 和SVM-RFE 算法的結合使篩選的基因更具有特征性,但本研究仍存在不足之處,如僅對數據庫的分析無法具有代表性。因此,在后續的研究中還需要對大量患者進行進一步的研究驗證。