馬俊杰,安韶光,梅靜宇,張磊,張浩軒,陸進
(蚌埠醫學院 1. 臨床醫學院2020級; 2. 檢驗醫學院2019級; 3. 第二附屬醫院腫瘤外科; 4. 基礎醫學院人體解剖學教研室,安徽 蚌埠 233030)
腎細胞癌 (renal cell carcinoma,RCC) 是泌尿生殖系統常見的惡性腫瘤之一,占成人腎臟腫瘤的85% 以上[1]。2020年RCC新發病例達43萬,死亡患者約18萬例[2]。腎透明細胞癌 (kidney renal clear cell carcinoma,KIRC) 是RCC的主要組織學亞型,約占80%[3]。目前,對于早期KIRC患者,手術切除仍然是主要和最有效的治療方法,但發生遠處轉移的KIRC患者手術和放化療效果不明顯,5年生存率<10%,且復發風險較高[4]。因此,挖掘KIRC的新型生物標志物對于患者的診斷與治療具有積極作用。
拓撲異構酶 Ⅱα (topoisomerase Ⅱα,TOP2A) 屬于DNA 解鏈因子,在細胞增殖、DNA 復制以及染色體濃縮和分離等多種生物學過程 (biological process,BP) 中發揮關鍵作用,其表達具有明顯的細胞周期依賴性[5]。TOP2A表達或結構異常時可導致染色體不穩定以及腫瘤的發生,如在卵巢癌和肺癌中TOP2A表達異常導致患者不良預后[6-7],但其在KIRC中的作用目前仍待商榷。因此,本研究旨在通過生物信息學方法分析TOP2A在KIRC中的表達、預后和免疫學等有關分子機制,為KIRC的診斷和治療探索新的生物分子標志物。
KIRC單細胞測序數據來自基因表達綜合數據庫 (Gene Expression Omnibus,GEO) GSE111360隊列的GSM3029087 (p87)、GSM3029088 (p88) 和GSM 3029091 (p91) 3個樣本,根據以下標準過濾樣本中的細胞和基因:(1) 基因表達量200~50 000;(2) 線粒體基因百分比<15%;(3) 表達基因數量200~5 000;(4) ≥3個細胞中表達的基因。其余分析所使用的數據均為各數據庫默認來源。
TOP2A基因差異表達、臨床分期及總生存期(overall survival,OS) 的Kaplan-Meier (K-M) 曲線通過GEPIA (http://gepia.cancer-pku.cn/) 在線工具分析;TOP2A在正常腎組織和KIRC組織中的免疫組化結果應用HPA數據庫進行獲取。
單細胞測序數據通過R包“Seurat”進行分析,首先通過NormalizeData函數對數據進行標準化,再通過FindIntegrationAnchors函數對3個患者樣本識別錨點進行整合,然后通過RunPCA函數計算數據的主成分,選取前20個主成分通過K-最鄰近分布進行聚類分析,細胞類型根據標記基因通過CellMarker數據庫 (http://bio-bigdata.hrbmu.edu.cn/CellMarker/) 和文獻收集進行注釋。
TOP2A基因表達與KIRC免疫細胞浸潤水平之間的相關性通過TIMER2.0 (http://timer.cistrome.org/)分析;利用Sangerbox探究TOP2A基因表達與免疫和基質評分的關系,利用GEPIA2021的EPIC算法分析CD8+T細胞 (cut-off=80%)、CD4+T細胞 (cut-off=60%)、B細胞 (cut-off=84%)、NK細胞 (cut-off=85%)、巨噬細胞 (cut-off=70%) 和調節T (Tregs) 細胞 (cut-off=50%)的浸潤水平與KIRC患者OS的關系。
將TOP2A基因和患者的臨床特征納入Aclbi進行單因素Cox回歸分析,將P< 0.05的因素納入模型進行列線圖的構建,并通過校準曲線和受試者操作特征 (receiver operating characteristic,ROC) 曲線下面積 (area under the curve,AUC) 進行驗證。
通過STRING數據庫檢索TOP2A基因的200個相關表達基因。然后,通過GEPIA2.0篩選 TCGA-KIRC數據集中表達上調的基因 (logFC≥1且q<0.05) 和TOP2A相關基因,共得到586個表達上調基因 (以q值由小到大排序) 和1 000個TOP2A相關基因 (按相關性由大到小排序);最后,各取前200個基因進行韋恩圖繪制,得到11個與TOP2A相關的基因。
將獲得的TOP2A及相關基因導入Aclbi分析其相關性;然后,通過 Sangerbox探究TOP2A及相關基因的基因本體論 (Gene Ontology,GO) 和京都基因與基因組數據庫 (Kyoto Encyclopedia of Genes and Genomes,KEGG) 通路富集;最后,通過Sangerbox以KEGG通路基因集為參考,根據TOP2A基因表達中位值分為高、低表達組,對不同表達組進行基因集富集分析 (gene set enrichment analysis,GSEA)。
將TOP2A及相關基因導入Aclbi在線分析工具進行LASSO回歸分析,將篩選出的基因進行風險評分 (風險評分=基因表達量×系數) 計算,根據風險評分的中位值將患者分為高、低風險組進行下游分析。
單細胞數據通過R4.2.1軟件進行分析,其余分析為各數據庫默認軟件。采用單向方差分析檢驗TOP2A基因在KIRC和正常組織差異表達,不同腫瘤分期表達采用F檢驗比較差異,免疫細胞和上皮細胞差異表達采用Wilcoxon檢驗,采用K-M法和logrank檢測進行生存分析,采用Spearman相關性分析基因表達與免疫細胞浸潤的水平相關性;P< 0.05為差異有統計學意義。
TOP2A在KIRC組織中表達上調,且TOP2A基因的表達水平隨患者臨床分期的增高而增加 (P<0.05,圖1A、1B)。TOP2A基因的高表達水平不利于患者的OS (圖1C);GSEA分析結果顯示,高表達的TOP2A主要富集在細胞周期、不匹配修復和孕酮介導的卵母細胞成熟等與細胞增殖相關通路 (圖1D)。同樣,HPA數據庫結果顯示,TOP2A在腎癌組織中的蛋白質表達上調 (圖1E)。

圖1 TOP2A差異表達、預后和GSEA分析Fig.1 TOP2A differential expression,prognosis and GSEA analysis
根據各聚類的標記基因可將各細胞分為上皮細胞和免疫細胞2種類型 (圖2A、2B),且TOP2A基因在免疫細胞中的表達量高于上皮細胞 (圖2C)。
由于TOP2A基因主要在免疫細胞中表達,進一步對免疫細胞亞型進行聚類。根據各亞型的標記基因,共得到6種細胞類型 NK細胞、CD8+T細胞、常規T細胞、Tregs、B細胞和肥大細胞 (圖2D、2E)。TOP2A在多種免疫細胞中均有表達 (圖2F)。
TIMER2.0數據庫對TOP2A基因表達與各免疫細胞浸潤水平的相關性分析結果顯示,TOP2A與大多數免疫細胞浸潤呈正相關 (圖3A)。GEPIA2021數據庫結果顯示,CD8+T細胞和CD4+T細胞的高浸潤水平與KIRC患者較好的預后相關,而B細胞、巨噬細胞、NK細胞及Tregs細胞在KIRC高浸潤水平均為KIRC患者預后的危險因素 (圖3B)。

圖3 免疫細胞浸潤水平與TOP2A基因表達及患者預后的關系Fig.3 Relationship between immune cell infiltration level and TOP2A gene expression and patient prognosis
將TOP2A及患者的臨床特征納入單因素Cox回歸分析,結果顯示,TOP2A基因可做為KIRC患者預后影響因素 (圖4A),TOP2A基因及患者臨床特征所構建的列線圖可預測KIRC患者的1、3和5年的生存狀況,且隨著列線圖得分的增高,患者的生存率降低 (圖4B)。校準曲線顯示其具有較好的預測準確性 (圖4C),且1年AUC 為0.86、3年AUC為0.80、5年AUC為0.75,表明列線圖可良好地預測患者的生存狀況 (圖4D)。
TOP2A基因的相關基因進行韋恩圖分析,共篩選出12個基因,且TOP2A基因及其相關基因的相關性較高 (圖5A)。對包括TOP2A在內的12個基因進行GO功能注釋和KEGG富集分析,結果顯示,其KEGG通路主要富集在細胞周期、p53信號通路和細胞衰老等 (圖5B);分子功能 (molecular function,MF) 主要包括腺苷酸結合、蛋白激酶活性和微管結合等;細胞構成 (cellular component,CC) 主要包括微管細胞骨架、染色體和微管組織中心等;BP主要包括細胞周期相變的調節、微管細胞骨架組織和細胞器調節等 (圖5C)。

圖5 TOP2A及其相關基因的富集分析Fig.5 Enrichment analysis of TOP2A and its related genes
將TOP2A及其相關基因導入LASSO回歸模型進行10倍交叉驗證,得到最小λ值為0.013 8,篩選出包括TOP2A在內的 9個特征基因,再根據基因表達量及相關系數構建風險評分 (圖6A)。根據風險評分中位值將患者分為高、低風險組,結果顯示,隨著風險評分的增高患者的死亡率增高 (圖6B),與低風險組相比,高風險組的OS顯著縮短 (圖6C)。且該模型預測患者OS ROC的AUC值1年為0.685、3年為0.655以及5年為0.659,具有較好的預測能力 (圖6D)。
KIRC是目前腎臟惡性腫瘤中最常見的組織學亞型,由于腫瘤的高度異質性,KIRC在不同患者中呈現多樣化的臨床表現,且晚期患者對于常見的化療藥物敏感性不高[8-9]。因此,迫切需要新的分子標志物評估患者臨床的治療和預后。目前,TOP2A已被證實與多種惡性腫瘤的進展和不良預后有關[10-11]。但其在KIRC中的相關研究甚少。
TOP2A基因在KIRC組織中的表達顯著上調,并且與患者的不良預后和臨床分期增高有關。此外,高表達的TOP2A主要富集在細胞周期和錯配修復等過程,SMITH等[12]研究發現在腫瘤細胞由靜止期進入細胞周期時,TOP2A的合成激活促進腫瘤細胞的增殖,這可能是其促進腫瘤發生發展的原因之一。差異分析和富集分析結果顯示,TOP2A的表達可能與KIRC的發生、發展和轉移關系密切。
對KIRC患者的單細胞測序數據分析發現,TOP2A基因在多種免疫細胞中表達,且與多種免疫細胞浸潤水平呈正相關,與XU等[13]在腎乳頭狀細胞癌中的研究結果一致。不同的是在KIRC中,各免疫細胞的浸潤水平長期增高反而不利于患者的預后。研究[14]顯示,正常人體中CD4/CD8細胞比例處于特定的范圍,二者的比例失調可導致機體免疫功能的異常。此外,巨噬細胞和B細胞也可能由于其在腫瘤中被誘導產生不同分化表型導致腫瘤細胞的增殖或腫瘤免疫逃避的產生[15-16]。TOP2A的表達不僅有利于KIRC的發生與轉移,還可激活機體的免疫系統。腫瘤微環境是由腫瘤細胞與腫瘤間質細胞、免疫細胞、細胞外基質、血管組織和信號分子等相互作用形成的動態系統,各成分的相對比例改變也可能導致腫瘤侵襲性增高及患者的不良預后[17-18],這可能是TOP2A基因誘導KIRC患者不良預后的原因之一。
總之,本研究基于生物信息學方法探究了TOP2A基因在KIRC的表達和免疫浸潤等有關分子機制,建立了預后風險模型,并應用列線圖預測了TOP2A基因在KIRC中的有關預后作用,表明TOP2A可作為KIRC的預后分子標志物,對臨床治療和預后提供參考。本研究還需要相關的基礎和臨床實驗進行驗證,以便更加準確地探究有關分子機制及預后意義。