劉燕群,熊 蓉,肖 婷,楊 燕,劉 康,馮 剛,宋桂芹*
(1. 川北醫學院基礎醫學院 四川 南充 637100;2. 南充市中心醫院·川北醫學院第二臨床醫學院組織工程與干細胞研究所 四川 南充 637000;3. 川北醫學院醫學影像學院 四川 南充 637000;4. 四川馳鼎盛通生物科技有限公司 成都 610000)
肝細胞肝癌(hepatocellular carcinoma, HCC)是原發性肝癌中最常見的類型,約占75%~80%。2018年全球的新發病例約84.1 萬,居惡性腫瘤第六位,約78.2 萬死亡病例,居惡性腫瘤的第四位,發病率和死亡率有逐年增長的趨勢[1]。在中國,肝細胞肝癌發病率和死亡率分別位居惡性腫瘤的第四位和第三位,惡性程度極高[2]。目前,臨床上肝癌的治療手段以外科手術為主,輔以介入治療、放化療及靶向藥、免疫治療的多學科綜合治療。盡管治療方式眾多,由于復發與轉移等因素的影響,肝癌患者的預后較差,5 年生存率低于18%[3-4]。在臨床診療過程中,TNM 分期是評估患者預后情況的經典方法,但由于只能從宏觀層面對患者預后進行分析,有一定的局限性。隨著醫療水平的提高,基因檢測、分子靶向治療等深入臨床,分子水平的預后評判方法是目前的一個研究熱點[5]。
轉移是一個涉及多步驟的復雜生物學過程,是癌細胞從原發部位向外擴散、侵襲的過程,具有直接浸潤、淋巴道轉移及血行轉移等形式[6]。文獻[7-8]發現,轉移是肝細胞肝癌的主要生物學特征之一,也是其預后不良的主要原因。近年來,隨著高通量測序以及生物信息技術的發展,已有越來越多的肝癌預后模型被建立,以協助判斷HCC 患者的預后[9-11],但暫時還沒有關于轉移相關基因的預后模型的報道。因此,本文基于轉移相關基因數據集,結合肝細胞癌(the cancer genome atlas, TCGA)的轉錄組數據和臨床數據,構建關于轉移相關基因的預后預測模型,并驗證該模型的準確性和特異性,以在HCC 的預后預測中發揮作用,對肝癌的臨床診療工作有一定的指導作用。
從TCGA 數據庫下載了374 例HCC 腫瘤樣本和50 例癌旁樣本,ICGC 數據庫下載了 243 例HCC腫瘤樣本和202 例癌旁樣本,臨床信息分別包含年齡、性別、病理分期及患者的生存時間和生存狀態。隨后,將臨床信息不全及生存時間小于30 天的HCC 樣本刪除。從人類癌癥轉移數據庫(the human cancer metastasis, HCMDB)下載了轉移相關的基因[12],其中有1905 個基因在TCGA 數據集有表達值,用于風險模型的進一步構建。
利用“Wilcoxon”秩和檢驗對轉移相關的HCC 表達矩陣進行差異表達分析,設定篩選標準為|log2(FC)| > 2,FDR < 0.05。采用“pheatmap”包繪制了差異表達的火山圖和熱圖。使用“clusterProfiler”包對差異表達的轉移相關基因進行基因本體(gene ontology, GO)功能注釋和京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes, KEGG)通路富集分析,設定矯正后P<0.05 作為富集條件。進行蛋白質互作網絡構建,并利用Cytoscape 軟件可視化互作網絡。最后,通過網絡節點基因篩選TCGA 數據集和ICGC 數據集共同的互作基因。
首先,結合HCC-TCGA 樣本的生存時間和生存狀態,利用單因素Cox 分析方法和Kaplan-Meier篩選有預后意義的轉移相關基因。隨后,為降低模型的擬合度,使用Lasso 回歸對單因素結果進行篩選。最后,將Lasso 回歸結果進行隨機分組,分為TCGA 訓練集(n=172) 和TCGA 驗證集(n=171),采用多因素Cox 分析對TCGA 訓練集構建了預后模型。隨后,按照風險評分公式計算每位患者的風險評分,根據患者風險評分的中位值,將TCGA訓練集和驗證集、ICGC 驗證集的患者分為高風險組和低風險組。采用“survival”“survminer”包及“time ROC”軟件包,分別繪制模型的預后生存曲線、風險評分曲線及時間依賴性受試者工作曲線(receiver operator characteristic, ROC)以評估模型的準確性和特異性。結合患者的臨床信息,采用單因素和多因素Cox 分析各數據集的風險值是否可作為HCC 的獨立預后因子。最后,采用人類蛋白圖譜數據庫(the human protein atlas, HPA)[13]對模型基因的臨床組織表達水平進行了驗證。
采用R 軟件進行統計分析和圖形繪制。差異分析采用“Wilcoxon”秩和檢驗,模型構建采用Cox 分析和Lasso 回歸分析,生存分析采用Kaplan-Meier 分析,P< 0.05 為差異具有統計學意義。
通過差異表達分析,獲得了222 個差異表達基因,其中39 個上調基因,182 個下調基因,如圖1a和1b 所示。將篩選獲得的差異基因進行GO 功能注釋和KEGG 通路富集分析,發現差異表達的轉移基因主要參與調節上皮細胞增生,膠原分解代謝以及間質發育等生物學過程,其產物主要參與染色體固縮,轉錄調節復合體等細胞組分,發揮信號轉導受體激活和生長因子激活等生物學分子功能,如圖2a 所示。KEGG 通路富集分析表明差異表達的轉移相關基因主要參與了細胞因子-細胞因子受體相互作用通路,IL-17 和Hippo 信號通路,如圖2b所示。隨后,為了進一步了解差異基因的相互關系,構建了蛋白質互作網絡(protein-protein interaction networks, PPI)。通過分析,獲得蛋白質互作網絡,刪除了部分單個存在的基因節點。采用Cytoscape軟件進行蛋白質網絡的可視化,共獲得了194 個節點基因,其中紅色表示上調基因,藍色表示下調基因,如圖2c 所示。其中Generatio 是指富集到這個GO 條目的基因數目比上所有富集分析的基因數目。

圖1 癌組織和癌旁組織中轉移相關基因的差異分析


圖2 功能富集分析和構建蛋白質互作網絡
基于蛋白質互作網絡的節點基因,采用單因素Cox 和Kaplan-Meier 分析獲得了53 個預后相關的轉移基因,如表1 所示。為降低模型的擬合度,采用Lasso 回歸分析對預后相關的轉移基因進一步篩選,如圖3a 和3b 所示,將篩選結果隨機分組。TCGA 訓練集納入多因素Cox 分析,構建了包含4 個轉移相關基因的多基因預后模型,如圖3c所示。


圖3 轉移相關的多基因預后模型的構建
根據模型公式分別計算TCGA 訓練集,TCGA驗證集及ICGC 驗證集的風險評分,風險評分=0.36×STC2 表達值+0.23×CDCA8 表達值+0.20×CTHRC1 表達值+0.22×HOXD9 表達值。

表1 經單因素Cox 篩選得到的53 個轉移相關基因

續表
在R 語言環境下,本文首先分析了TCGA 訓練集的風險曲線,生存狀態以及4 個轉移相關基因的表達熱圖如圖4a~4c 所示。結果表明隨著患者的風險評分增加,患者的死亡人數也增加。生存分析結果表明低風險組的患者5 年總體生存率比高風險組患者高,如圖4d 所示,同時采用ROC 曲線進一步分析了該模型的特異性和敏感性,該模型1 年、2 年和3 年的AUC 值分別為0.757、0.760 和0.745,表明該模型能對肝癌患者的生存狀態進行一定的預測,如圖4e 所示。此外,結合HCC 患者的臨床信息,評估該模型是否能作為預測HCC 患者預后的獨立因素。單因素和多因素Cox 分析結果均表明該模型的風險評分能獨立于患者的臨床特征而影響HCC 患者的預后,如圖4f~4g 所示。


圖4 TCGA 訓練集的預后分析
為了進一步驗證該模型的準確性和特異性,在TCGA 驗證集(n=171)和ICGC 數據集(n=230)分別再次進行了驗證。結果表明,TCGA 驗證集的結果與TCGA 訓練集的結果一致,隨著風險評分增加,患者的生存越差,低風險組的患者擁有更好的生存,1 年、2 年和3 年的ROC 曲線的AUC 值分別為0.715、0.748 和0.698,再次驗證了該模型的特異性和敏感性。同時獨立預后分析結果也表明該模型可以作為HCC 患者的獨立預后因素,如圖5 所示。此外,通過分析外部驗證集ICGC,本文也獲得了與TCGA 訓練集和驗證集相同的結果,如圖6 所示。結合HPA 數據庫發現,STC2、CDCA8 及CTHRC1 在肝癌患者臨床組織中高表達,在癌旁組織中低表達,如圖7 所示。同時,據文獻[14]的研究,HOXD9 基因在肝癌組織中高表達,癌旁組織中低表達。


圖5 TCGA 驗證集的預后分析


圖6 ICGC 驗證集的預后分析

圖7 模型基因在組織水平的表達差異
近年來,隨著高通量測序技術的發展和公共數據庫的開放,可通過定量檢測分子預后標記以預測腫瘤的進展。文獻[15] 研究發現轉移相關基因的預后模型在預測胰腺癌患者的預后方面有一定優勢。因此,通過整合多個轉移相關基因來構建轉移相關基因預后模型對HCC 患者的預后進行判斷,將有助于指導臨床決策。
本文采用TCGA 和ICGC 數據庫中的HCC 數據集,結合轉移相關基因數據集,探討HCC 患者轉移相關基因的預后作用。首先,篩選出222 個差異表達的轉移相關基因,并對這些差異基因進行GO 和KEGG 功能注釋,發現主要富集在上皮細胞增生,膠原分解代謝和間質發育等過程,這與肝癌具有高度侵襲和轉移的特性一致,而KEGG 通路富集分析發現主要參與了影響腫瘤細胞侵襲遷移的通路,如細胞因子-細胞因子受體相關作用通路[15],IL-17[16]和Hippo 信號通路[17]。同時,通過PPI 蛋白質互作網絡,篩選出TCGA 與ICGC 共同的節點基因,并逐步建立了風險預后模型。模型性能評估結果顯示TCGA 訓練集、TCGA 驗證集以及ICGC 外部驗證集的分析結果一致。高風險組的患者生存時間和生存狀態都明顯比低風險組患者的生存時間和生存狀態差。各數據集的1 年、2 年和3 年的ROC 曲線均大于0.6,表明該模型具有很好的特異性和敏感性。此外,獨立預后分析結果表明,該模型的風險評分可獨立于其他臨床性狀,作為HCC 患者的獨立預后因素。同時,通過臨床組織水平的驗證,本文發現該模型基因在肝癌組織中的表達水平明顯高于癌旁組織,提示其可能作為促癌基因影響肝癌患者的病情進展。基于上述結果,本文發現該轉移相關基因預后模型可以為HCC 患者的預后提供可靠預測,協助臨床個體化治療方案的制定,并為HCC 的基礎研究提供潛在的研究靶點。
構成該預后模型的4 個轉移相關的基因分別是STC2、CDCA8、CTHRC1 和HOXD9,其中STC2 和HOXD9 在HCC 中已有研究報道。研究發現,斯鈣素-2(STC2) 參與了多種癌癥的發生和發展,如結直腸癌[18]、乳腺癌[19]、肝癌[20]及頭頸部鱗狀細胞癌[21]。文獻[22] 發現STC2 可通過AKTERK 信號通路促進結直腸癌的上皮間質轉化,從而影響結直腸癌患者的生存進展。文獻[19] 發現STC2 可通過PKC/claudin-1 信號通路抑制乳腺癌細胞的遷移和侵襲,有望成為乳腺癌轉移和靶向治療的生物標志物。細胞分裂周期相關蛋白8(CDCA8)作為癌基因,在多種腫瘤中表達上調[23-25],文獻[24]研究發現,過表達CDCA8 基因將促進皮膚黑色素瘤的惡性進展,并導致不良預后。文獻[25] 發現磷酸化的CDCA8 明顯促進了肺癌細胞的生長,并且CDCA8 的過表達與肺癌患者的不良預后密切相關。膠原蛋白的三螺旋重復序列-1(CTHRC1)與腫瘤的發生和轉移密切相關,文獻[26]發現CTHRC1可通過HIF-1α/CXXR4 信號通路促進胃癌的轉移;文獻[27] 表明,CTHRC1 可通過與整合素β3-Akt信號通路相互作用促進子宮肌層的侵襲,還可通過上調巨噬細胞中的趨化因子受體CX3CR1 的表達促進M2 樣腫瘤相關巨噬細胞的浸潤。同時,CTHRC1 可促進宮頸鱗狀細胞癌的淋巴結轉移[28],促進結直腸癌的EMT 轉化[29]以及可激活β3/FAK信號通路促進卵巢癌的轉移[30]。此外,在文獻[14]中,同源框基因9(HOXD9)作為癌基因,在肝細胞癌中高表達,并可直接靶向下游基因ZEB1 調控HCC 的EMT 過程和腫瘤轉移。文獻[31] 也發現miR-205 可直接靶向抑制HOXD9 表達,從而抑制人腦膠質瘤EMT 過程和腫瘤生長。可見,STC2和HOXD9 在HCC 患者中的作用機制已有深入研究,與本文的發現一致,均能影響HCC 患者預后,但暫時缺少關于CDCA8 和CTHRC1 對HCC患者預后的影響研究。本文發現CDCA8 和CTHRC1也參與了HCC 患者的預后判斷,可作為HCC 患者獨立預后因素。
綜上,基于TCGA-HCC 數據集和ICGC-HCC數據集,結合轉移相關基因,本文構建了一個轉移相關基因的預后模型,并驗證了該模型的性能。該模型能預測HCC 患者的預后,其1 年、2 年和3 年的ROC 曲線都顯示了其具有很好的特異性和敏感性,獨立預后分析也表明該模型能作為HCC 患者的獨立預后因素,為HCC 患者的預后提供判斷。但研究尚存在不足,仍需進一步的基礎實驗來闡明該模型基因在HCC 中的作用機制。