鞠銘伊,畢 佳,衛 倩,江龍洋,齊傲霜,宋昕樾,關秋彤,張 明,趙 琳,魏敏杰,孫明立
中國醫科大學藥學院藥理學教研室;遼寧省分子靶向抗腫瘤藥物藥理學研究與評價實驗室;遼寧省腫瘤免疫多肽藥物工程研究中心 沈陽 110122
肝癌在2018年成為全球第六大最常見的癌癥,也是第四大癌癥死亡原因[1-2]。近年來,腫瘤免疫治療在多種癌癥中的應用前景日益樂觀;然而,免疫治療在肝癌中的反應率要比其他癌癥低得多[3]。隨著腫瘤的侵襲,個體對治療的反應能力也有所不同。Mandal等[4]提出,尋找出更精確的免疫治療方法和預測生物標志物是實現個體化腫瘤免疫治療的迫切需求。挖掘新的免疫相關預后標志物對指導肝癌患者的治療過程和延長其生存期具有重要意義。在本研究中,作者對癌癥基因組圖譜(the cancer genome atlas,TCGA)數據庫中的肝癌數據進行分析,篩選出與免疫相關的肝癌預后生物標志物,同時比較肝癌組織和正常組織中這些標志物基因表達的差異。引入GSE14520數據對結果進行驗證,檢測這些標志物對肝癌預后預測的穩定性,并進一步探討這些生物標志物是否可能成為潛在的肝癌治療靶點及其影響患者生存的潛在分子機制,為肝癌的免疫治療提供新的策略。現將結果報道如下。
1.1數據收集①通過TCGA(http://cancergenome.nih.gov/)數據庫下載肝癌患者的轉錄組數據及臨床數據,包含370例肝癌組織樣本以及50例對應的正常組織樣本。排除5例總生存期為0的樣本,總共有365例納入該研究。②通過基因表達匯編(gene expression omnibus,GEO,https://www.ncbi.nlm.nih.gov/geo/)數據庫下載肝癌相關的基因表達數據集GSE14520。GSE14520芯片來源于GPL571和GPL3921兩個平臺,包含245例肝癌患者的轉錄組數據及臨床數據。③通過Immunology database and analysis portal (ImmPort)數據庫得到一個免疫相關基因(IRGs)的列表。④在人類蛋白質圖譜(human protein atlas, HPA,https://www.proteinatlas.org/)數據庫中檢索,以獲得某基因在肝癌組織和正常組織中的差異表達情況。
1.2數據校正及差異表達基因的獲取用R語言“edgeR”軟件包進行原始數據處理,并對原始數據進行背景校正、標準化。差異表達基因(DEGs)需同時滿足|lg2 (fold change)|>2且FDR(矯正后的P值)<0.05。

1.4功能分析及蛋白互作網絡使用DAVID數據庫 (https://david.ncifcrf.gov/) 對DEGs進行GO功能富集分析和KEGG通路分析,以P<0.05為標準。利用STRING數據庫(https://string-db.org/) 繪制基因編碼的蛋白之間的相互作用網絡圖,并通過Cytoscape軟件作圖。
1.5統計學處理采用GraphPad 7.0和SPSS 19.0進行統計分析。生存分析用Kaplan-Meier法繪制生存曲線并進行Log-rank檢驗。檢驗水準α=0.05。利用GEPIA 2.0版網站 (http://gepia2.cancer-pku.cn/#index) 對目的基因的表達與肝癌總生存期的關系以及其在癌組織和正常組織的差異表達情況進行作圖分析。
2.1與肝癌免疫相關的DEGs的初步篩選結果從TCGA數據庫中下載肝癌患者的轉錄組數據及臨床信息,并對原始數據進行校正,最后得到12 464個基因的表達值。差異分析顯示有1 311個基因表達上調,777個基因表達下調(圖1A)。將這些DEGs與IRGs取交集,得到329個與肝癌免疫相關的DEGs(圖1B,1C)。
2.2由9個基因組成的肝癌預后標志物的初步構建結果將初篩的329個基因引入單因素分析中,得到30個與肝癌總體生存期顯著相關的基因。將這30個基因進行多因素分析,最終得到一個由9個基因 (PSMD14、STC2、SPP1、ISG20L2、MAPT、NR6A1、PSME3、HSP90AA1和CSPG5)構成的肝癌預后標志物。由此,作者建立如下預測模型:風險評分=(0.372 07×PSMD14表達值)+(0.176 55×STC2表達值)+(0.065 87×SPP1表達值)+(0.362 12×ISG20L2表達值)+(0.397 52×MAPT表達值)+(0.469 33×NR6A1表達值)+(-0.474 94×PSME3表達值)+(0.243 86×HSP90AA表達值)+(0.297 64×CSPG5表達值)。
對TCGA數據集中的這9個基因的表達數據進一步分析,結果表明這9個基因在肝癌組織中的表達水平均高于正常組織(圖1D)。利用GEPAI 2.0版網站對這9個基因的表達進行驗證,結果顯示在肝癌組織和正常組織中,這些基因的表達水平確實存在差異(圖1E)。

A:TCGA數據庫中肝癌患者DEGs的火山圖;B:與免疫相關的DEGs的火山圖;C:392個與肝癌免疫相關的DEGs;D:9個基因在肝癌和正常組織中的表達情況;E:9個基因在肝癌和正常組織中表達的PCA圖
2.39個基因HPA數據庫驗證結果HPA數據庫中的免疫組化分析結果顯示,PSMD14、STC2、SPP1、ISG20L2、MAPT、PSME3、HSP90AA1和CSPG5在肝癌組織中的表達明顯高于正常組織(圖2)。然而,HPA數據庫沒有記錄NR6A1在蛋白水平的表達情況。

每組圖左為正常組織,右為肝癌組織
2.4cBioPortal數據庫中9個基因的改變情況cBioPortal數據庫分析結果見圖3。在353例肝癌患者中基因突變占3.4%(12例),擴增占11.7%(41例),深度缺失占2.3%(8例),多重改變占1.4%(5例)。熱圖結果顯示PSMD14改變了2.0%,STC2改變了0.8%,SPP1改變了0.6%,ISG20L2改變了11.0%,MAPT改變了1.7%,NR6A1改變了0.6%,PSME3改變了1.7%,HSP90AA1改變了1.7%,CSPG5改變了1.1%。
2.5生存分析利用TCGA 數據庫的365例肝癌樣本的基因表達和臨床數據對由PSMD14、STC2、SPP1、ISG20L2、MAPT、NR6A1、PSME3、HSP90AA1和CSPG5組成的組合標志物的預后風險評估價值進行分析。結果顯示這一標志物與肝癌患者的生存預后密切相關(圖4A),患者的風險評分、生存狀態、基因表達水平見圖4B。運用GSE14520數據集進行驗證分析,結果顯示,在GSE14520數據集中,這9個基因組成的標志物依然與肝癌患者的生存預后顯著相關(圖4C)。患者的風險評分、生存狀態、基因表達水平見圖4D。
2.69個基因的蛋白互作網絡分析和功能注釋分析蛋白互作網絡分析發現,FGF13、IDO1、S100A1和LTB4R是顯著的節點基因(圖5A)。對9個基因的下游靶基因進行GO和KEGG功能注釋分析,結果(圖5)顯示,基因主要富集于免疫應答、胞外區、生長因子激活等生物學過程和功能,主要參與細胞因子受體相互作用等通路。

圖3 cBioPortal數據庫中9個基因的改變情況

A、C:分別為TCGA數據庫和GSE14520數據庫中不同預后標志物表達水平的肝癌患者總生存的Kaplan-Meier生存曲線;B、D:分別為TCGA數據和GSE14520數據庫中患者的風險評分、生存狀態、基因表達水平

A:蛋白互作網絡分析;B:生物過程GO分析;C:細胞成分GO分析;D:分子功能GO分析;E:KEGG分析
雖然免疫治療已被證明對多種癌癥有效,但應用于肝癌的有效率卻遠低于其他癌癥。因此,系統探索免疫基因組以判斷肝癌的預后、提高免疫治療的療效是當務之急。然而從免疫相關基因的角度探究肝癌預后標記物的報道尚少,本研究的主要目的是探索并分析與免疫相關的肝癌預后標志物。
在本研究中,作者首先對來自TCGA數據庫的365例肝癌患者的基因進行差異分析,找出其中的免疫相關差異基因,進行Cox單因素、多因素分析,最后發現了一個由9個基因組成的與免疫相關的肝癌預后標志物。之后,引入GSE14520數據對這一標志物的穩定性進行了驗證,結果表明這一標志物可以穩定的預測肝癌預后。利用HPA數據庫再次證實這9個基因的蛋白表達水平在肝癌組織和正常組織中確實存在差異。
利用STRING數據庫對這9個基因的下游靶基因進行功能分析,結果顯示它們可能與免疫應答、細胞因子受體相互作用等有關,這些都與腫瘤的治療效果密切相關。蛋白互作網絡顯示,FGF13、IDO1、S100A1和LTB4R是顯著的節點基因。
在本研究中,作者找到了一個由9個基因(PSMD14、STC2、SPP1、ISG20L2、MAPT、NR6A1、PSME3、HSP90AA1和CSPG5)組成的肝癌預后標志物。在這9個基因中,除了PSMD14、STC2、SPP1和HSP90AA1,大多數在肝癌腫瘤生物學中還沒有很完善的報道。有研究[5-6]表明, PSMD14與癌癥的生長和轉移有關;且PSMD14地過表達與肝癌患者的不良預后有關。肝細胞癌中過表達STC2與肝細胞癌的發展有關[7-8],可能導致預后不良[9]。SPP1基因在肝癌組織中高表達[10],且可以預測肝癌的預后[11]。 MAPT 被證明可以預測肝癌患者的預后[12]。PSME3與多種癌癥的發生發展有關[13-15],但在肝癌中的作用還沒有被報道。HSP90AA1被證明可作為HCV誘導的肝細胞癌進展的潛在生物標志物[16]。這些研究都與作者的發現相吻合,為預后標志物在肝癌患者中的應用提供了有力支持。
盡管本研究取得了顯著的成果,但也存在一些不足之處:首先,本研究的數據均來源于公開數據集中肝癌患者的基因表達數據和相關臨床特征,但公開數據集的信息有限,因此本研究分析的數據并不全面,可能會導致結果偏倚。其次,對于作者所挖掘出的預后標志物,還沒有在臨床上進行驗證分析,需要進一步的試驗驗證。
綜上所述,在本研究中,作者通過對TCGA和GEO數據庫的肝癌相關數據進行分析,構建了一個能夠預測肝癌患者總體生存期的穩定的預后標志物。這一標志物由9個免疫相關基因組成,分別為PSMD14、STC2、SPP1、ISG20L2、MAPT、NR6A1、PSME3、HSP90AA1和CSPG5。在今后的工作中,我們將結合實驗和臨床數據,進一步明確該預后標志物的臨床可行性。