蔣逆立,張 蝶,劉曾晶,胡艷玲,,
1. 廣西醫科大學生命科學研究院(南寧 530022)
2. 廣西醫科大學再生醫學與醫用生物資源開發應用省部共建協同創新中心(南寧 530021)
3. 廣西醫科大學信息與管理學院(南寧 530022)
癌癥是全球嚴重的公共衛生問題,其中肺癌導致的死亡人數最多,約25%癌癥患者死亡歸因于肺癌,其中82%由吸煙導致[1-2]。兩項隨機對照試驗研究顯示低劑量CT 篩查能顯著降低肺癌患者的死亡率[3-4]。結核病(tuberculosis, TB)是全球成年人傳染病的主要死因,每年患病人數達1 000 多萬[5]。呼吸道感染期間細胞炎癥和損傷與癌癥相關,研究顯示,結核病感染與癌癥風險之間存在顯著的正相關,根據肺癌組織學分層分析,肺結核病史與腺癌和鱗狀細胞癌之間存在顯著相關性[6];具有結核分枝桿菌感染史的患者進展為癌癥的可能性更高[7-8]。 結核病惡化為肺癌的原因可能是肺部炎癥和纖維化導致的基因突變或損傷,進而增加了肺癌患病風險[9]。既往研究證實了肺結核患者外周血細胞中的基因表達差異,已鑒定的表達譜也顯示免疫系統的慢性激活,同時干擾素(interferon, IFN)信號傳導明顯激活,通過Janus 酪氨酸蛋白激酶/信號轉導及轉錄激活因子(Janus kinase-sinal transducer and activator of transcription, JAK-STAT)信號通路途徑的促炎信號傳導,以及具有下游反應元件Fcγ 受體(Fc gamma receptors, FcγR)高表達[10-12]。在結核患者中,再刺激誘導的細胞死亡(restimulation-induced cell death, RICD)和T 細胞活化受自然殺傷、T 和B 細胞抗原/淋巴細胞活化分子相關蛋白信號轉導途徑(natural killer, T and B cell antigen/signaling lymphocyte activation molecule-associated protein,NTB-A/SAP)的調節[13]。然而,目前尚缺乏結核相關基因與肺鱗狀細胞癌(lung squamous cell carcinoma, LUSC)預后及免疫浸潤關系方面的研究。本研究旨在基于生物信息學探討結核通路基因表達差異與LUSC 預后及腫瘤免疫微環境的相關性。
基于京都基因與基因組百科全書數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG)(www.kegg.jp/kegg/pathway.html)[14], 獲取結核病感染相關通路(map05152)的138 個基因,包括C3、JNK和TNF等基因。LUSC 患者的臨床數據和基因表達數據來自癌癥基因組圖譜數據庫(The Cancer Genome Atlas, TCGA)(www.cancer.gov/ccg/research/genome-sequencing/tcga)[15]。總樣本為502 例LUSC 患者,剔除年齡、性別、生存狀態、臨床分期等信息缺失的樣本后,最終納入374 例,對患者的表達矩陣數據進行歸一化處理,得到原始表達數據(fragments per kilobase million, FPKM)[16]。
通過單因素COX 分析得到結核通路基因中與LUSC 預后(即生存狀態)相關的關鍵基因,再將單因素分析差異有顯著意義的變量納入多因素COX 分析,篩選與LUSC 預后相關的基因,消除基因間的潛在協同效應和偏倚誤差,得到風險評分、風險分組(風險評分高于均值的患者納入高風險組,低于均值則納入低風險組)及風險比(hazard ratio, HR),構建獨立預后模型。通過森林圖分析該預后模型的風險評分、年齡、性別和腫瘤分期與LUSC 預后的相關性,評估預后模型的風險評分是否受其它臨床變量(性別、年齡、臨床分期等)的影響,并繪制臨床相關性熱圖。使用的R 軟件包有survival、tidyverse、glmnet 和survminer。
通過風險評分、年齡、性別、腫瘤分期分別構建受試者工作特征(receiver operating characteristic, ROC)曲線,并評估風險評分對LSCC 患者預后(2 年、3 年和5 年生存率)的預測敏感性和特異性。基于多因素COX 回歸分析結果,采用列線圖(Nomogram)展示各變量與LUSC 預后之間的關系。使用的R 軟件包有survival、survminer、timeROC、tidyverse、regplot和myplot。
通過CIBERSORT 方法計算不同風險組結核通路基因的LUSC 樣本免疫細胞浸潤,利用線性支持向量回歸的原理對免疫細胞亞型的表達矩陣進行去卷積,估計免疫細胞的豐度,使用的R 軟 件 包 為ggplot2、mmunedeconv、tidyverse、dplyr 和reshape2。通過不同風險分組腫瘤樣本中結核通路基因的表達評估LUSC 腫瘤微環境的組成,并進行單樣本免疫浸潤分析,分析每種免疫細胞富集差異,使用的R 軟件包有genefilter、SVA、GSVA、stringr、ggpubr、ggsignif、pheatmap、ggplot2 和myplot。
本研究納入374 例LUSC 患者,患者的性別、年齡、臨床分期、生存狀態和風險分組等臨床信息見表1。

表1 374例LUSC患者的臨床信息Table 1. Clinical information of 374 LUSC patients
單因素COX 回歸分析篩選得到預后相關基因TGFB2、CASP9、FADD、CEBPB和PLK3,多因素COX 分析結果顯示FADD、PLK3基因與LUSC預后顯著相關(P<0.05),并在高風險組中均為高表達,見表2。

表2 LUSC患者預后相關基因的多因素COX分析Table 2. Multivariate COX analysis of prognostic related genes in LUSC patients
森林圖結果顯示,風險評分和年齡具有獨立預測LUSC 患者預后的能力(P<0.05),進一步對風險分組和相關臨床信息進行相關性熱圖分析,結果見圖1。

圖1 LUSC患者預后的森林圖分析及關鍵基因熱圖Figure 1. Forest map analysis and key gene heatmap analysis of the prognosis of LUSC patients
本研究構建不同臨床特征的ROC 曲線,探索風險評分、年齡、性別和臨床分期對LUSC 患者總生存率的預測準確率,結果顯示風險評分預測模型的曲線下面積(area under the curve, AUC)為0.637,高于其他臨床因素的預測準確率,并驗證了該預測模型對LUSC 患者2 年、3 年及5 年生存率的AUC 值。根據列線圖結果可知,LSCC 患者的預后與風險得分的相關性最高,其次是性別、臨床分期和年齡,見圖2。

圖2 LUSC患者預后的ROC曲線和列線圖Figure 2. The ROC curve and nomogram of the prognosis of LUSC patients
如圖3 所示,通過分析不同風險評分組的腫瘤微環境,計算免疫細胞在各樣本中的富集得分,其中差異有統計學意義的免疫細胞有CD56bright natural killer、central memory CD4 T、effector memeory CD4 T、gamma delta T、myeloid-derived suppressor cell(MDSC)、memory B、natural killer、natural killer T。高風險組內高富集的免疫細胞為CD56bright natural killer、MDSC、memory B,高風險組內低富集的免疫細胞為central memory CD4 T、effector memeory CD4 T、gamma delta T、natural killer、natural killer T。

圖3 腫瘤免疫微環境和免疫細胞的富集得分Figure 3. Tumor immune microenvironment and enrichment score of immune cells
本研究通過COX 回歸分析結核通路基因在LUSC 中的表達情況,篩選出與LUSC 預后相關的基因,分別為CASP9、FADD、PLK3基因。一項薈萃分析顯示,Caspase 9(CASP9)單核苷酸多態性(single nucleotide olymorphisms, SNPs)與癌癥易感性相關[18];CASP9基因在非小細胞肺癌(non small cell lung cancer, NSCLC)中低表達[19],而在高風險組中相對高表達。FAS 相關死亡結構域(fas-associating protein with a novel death domain, FADD)的表達和活性受到復雜網絡的調節,如DNA 甲基化、非編碼RNA 和翻譯后修飾,其失調已被證實與多種類型癌癥的發病機制密切相關,FADD 已被證實參與并調節大多數信號體復合體,已成為先天免疫、炎癥和癌癥進展的新參與者[20-21]。Polo 樣激酶(Polo-like kinase,PLK)基因家族是細胞分裂過程中的重要調節因子,其成員的異常遺傳和表觀遺傳學改變在不同的癌癥中起著不同作用,肺癌亞型中PLK 1/4(Polo-like kinase 1/4)基因過表達但PLK 2/3(Polo-like kinase 2/3)欠表達[22],PLK3在高風險組中相對高表達,敲除PLK3可以減弱磷酸化及致癌性[23]。森林圖顯示CASP9、FADD、PLK3三個基因構建的風險評分預后模型與年齡可以獨立預測LUSC 預后情況,同時ROC 曲線也顯示風險評分預測模型的AUC 值高于年齡、性別和臨床分期,說明該模型的敏感性最好,預測2 年和3年生存率的敏感性和特異性較好。既往研究基于TCGA 和GEO 數據庫構建LUSC 早期患者的ROC曲線,AUC 值也僅為0.67 和0.679[24]。在臨床應用中,臨床醫師可以依靠列線圖,將LUSC 患者的相關信息帶入列線圖,來估計患者1 年、2 年及3 年生存率。國內學者發現吸煙會導致重要基因的甲基化水平發生變化,從而影響LUSC 患者預后[25]。本研究側重結核相關基因表達對LUSC患者預后的影響,并進一步探索腫瘤免疫微環境的變化。
自然殺傷細胞(natural killer cell, NK)被認為是一種相對原始的“殺手”,它們不僅被視為先天免疫的真正參與者,還被視為塑造和影響適應性免疫反應的重要細胞[26]。CD56 bright natural killer 細胞可通過分泌細胞因子起到免疫調節的作用,研究顯示腫瘤內和循環NK 細胞數量的增加與抗西妥昔單抗和抗cd20 單抗治療的良好效果相關[27-28]。而通過結核通路基因顯示出CD56bright natural killer 細胞在LUSC 高風險組中高富集,這可能提示其對放化療具有敏感性。骨髓來源抑制性細胞(myeloid-derived suppressor cells, MDSCs)參與癌癥相關的炎癥反應,是腫瘤免疫微環境中的重要細胞,MDSCs 促進Tregs 的形成,MDSCs 患者死于癌癥的風險幾乎翻了一番[29-30]。B 細胞分別分化為漿細胞或記憶B 細胞來發揮效應或記憶功能,一些研究表明繼發性流感會觸發記憶B 細胞快速遷移和重新定位[31-33],本研究也顯示其在LUSC 高風險組高富集。CD4+T 淋巴細胞是適應性免疫的關鍵因子,可以指導和增強B 細胞和CD8+T 細胞對各種病原體的反應功能[34]。記憶T 細胞通常被分為中央記憶細胞(central memory CD4 T cell, TCM)和效應記憶細胞(effector memeory CD4 T cell, TEM),前者在血液中循環,后者可以從血液遷移到非淋巴組織[35]。研究表明TCM 是唯一與口腔鱗狀細胞癌預后相關的獨立免疫細胞,同時也與頭頸部鱗狀細胞癌的炎性腫瘤微環境和預后改善相關[36-37];在免疫反應過程中T 細胞接受抗原刺激后,經過增殖,分化形成TEM,與靶細胞接觸后釋放的穿孔素導致靶細胞表面形成小孔,從而介導殺傷作用[38]。同時,效應T 細胞還能釋放出免疫活性物質(淋巴因子),如白細胞介素、干擾素等。γ-δT 細胞(gamma delta T cell)是一類非常規的T 淋巴細胞,在宿主防御、免疫監視和免疫系統內穩態中發揮著不可或缺的作用,對于促進淋巴和髓系的炎癥反應和免疫反應也尤為重要[39-40]。自然殺傷T 細胞(natural killer T cell, NKT)和NK 細胞都是先天細胞毒性淋巴樣細胞,產生炎癥因子、細胞因子和趨化因子,它們對腫瘤和微生物免疫應答的作用已被證實[41],在腫瘤細胞的腫瘤微環境中發揮著重要作用,然而在LUSC 高風險分組中低表達,說明其對腫瘤細胞的免疫應答不足,這可能是導致預后不良的重要因素。
雖然本研究發現了結核通路相關基因與LUSC 預后的關系,并通過對LUSC 患者預后進行風險分組,探索了高風險組有富集差異的免疫細胞,但局限于采用生信分析,其結果有待在人群中進一步驗證。未來有望進一步深入研究,尋找結核和LUSC 新的治療靶點,為結核進展為LUSC 患者提供更科學合理的治療方法。