徐雅琪, 王艷玉, 張文婧, 韓 梅, 穆華夏, 楊 希, 卜偉曉, 陶子琨, 孔雨佳, 石福艷, 王素珍
(濰坊醫學院公共衛生學院衛生統計學教研室,山東 濰坊 261053)
原發性肝癌是全球第七大常見癌癥,中國原發性肝癌發病率較高、病例數最高[1]。肝細胞癌(hepatocellular carcinoma,HCC)是肝癌的主要類型,約占75%[2]。HCC 主要致病因素是病毒(慢性乙型和丙型肝炎病毒)、代謝(糖尿病和非酒精性脂肪性肝?。⒍拘裕ㄒ掖己忘S曲霉毒素)和免疫系統相關疾?。?]。其中,病毒誘導的遺傳改變、不可逆肝損傷和肝硬化導致乙型肝炎病毒(hepatitis B virus,HBV)相關HCC 患者的預后較差[4],而免疫應答與HBV 感染期間患者的疾病進展有關聯[5]。目前國內外生物信息學研究大多只聚焦于HCC 生物標志物的篩選和關鍵通路的探索方面,關于HBV-HCC 的免疫浸潤分析較少。因此,探討HBV-HCC 免疫細胞浸潤機制,可為進一步研究HBV-HCC 的發病機制提供依據。本研究結合基因表達綜合數據庫(Gene Expression Omnibus,GEO)芯片數據和生物信息學方法,篩選出差異表達基因(differentially expressed genes,DEGs),構建蛋白-蛋白互作(protein-protein interaction,PPI)網絡,采用生存分析方法確定與HBV-HCC相關的關鍵基因,并進行功能通路富集分析,采用“CIBERSORT”軟件包進行HBV-HCC 的免疫細胞浸潤分析,為闡明HBV 促進HCC 發生發展的分子機制、探索HBV-HCC 的關鍵基因和相關功能通路及HBV-HCC 的潛在診斷治療靶點提供依據 。
1.1 數據收集采用美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI) 平 臺 下 載 的GEO (http://www.ncbi.nlm.gov/geo/),選取含有肝癌病因信息的數據芯片GSE121248[6]。芯 片 信 息 為Affymetrix Human Genome U133 Plus 2.0 Array,平 臺 為 GPL570,該芯片分離慢性HBV 誘導的HCC 組織及其癌旁正常組織,并提取總RNA 進行Affymetrix 基因微陣列分析。本研究數據包含70 例慢性HBV 誘導的人HCC 組織和37 例癌旁正常組織。
1.2 DEGs 的篩選采用R 軟件的“limma”數據包對GSE121248 基因組表達譜數據進行標椎化,并篩選DEGs。DEGs 篩選標準:DEGs 的 log2變化倍數(fold changes,FC)的絕對值變化超過1 倍, 且 校 正 后P<0.05, 即| log2FC | >1,AdjustedP<0.05,并采用R 軟件中的“ggplot2”數據包繪制差異分析結果的火山圖和熱圖。
1.3 DEGs 的富集分析采 用 R 軟 件 的“clusterProfiler” 數據包對DEGs 進行基因本體(Gene Ontology,GO) 功能富集分析和京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)信號通路富集分析,以P<0.05 為標準篩選DEGs 主要富集功能和通路,采用“ggplot2”數據包進行可視化處理。其中GO 功能富集分析包括生物學過程(biological process,BP)、分子功能(molecular function,MF)和細胞定位(cellular component,CC)3 個部分。
1.4 PPI 網絡構建和關鍵基因篩選采用STRING 數 據 庫(http://string-db.org/)[7]對 篩選得到的DEGs 構建PPI 網絡,并采用Cytoscape 3.9.1 軟件(http://www.cytoscape.org)對所構建的PPI 網絡進行可視化分析。采用Cytoscape 的插件CytoHubba[8]篩選出最大中心度(maximal clique centrality,MCC)評分前10 位的關鍵基因。關鍵基因表達相關性分析采用STRING 數據庫。
1.5 關鍵基因的驗證性分析基于基因表達水平值的交互式分析 (Gene Expression Profiling Interactive Analysis,GEPIA)數據庫[9](http://gepia.cancer-pku.cn/)對關鍵基因進行驗證分析。以|log2FC| = 1 和P= 0.05 作為截斷標準。采用Kaplan Meier-Plotter 數 據 庫[10](http://kmplot.com/analysis)評估關鍵基因對HCC 患者生存和預后的影響。根據HCC 患者特定基因表達水平的中位值將研究對象分為低表達組和高表達組,采用Kaplan-Meier 生存曲線分析HCC 患者的總體生存(overall survival,OS)率,并計算風險比(hazard ratio, HR) 和95% 置 信 區 間(95% confidence interval,95%CI)。為進一步驗證腫瘤組織和癌旁正常組織中蛋白質表達量的差異,本研究采用人類蛋白質圖譜(Human Protein Atlas,HPA) 數據庫[11]對關鍵基因進行蛋白質表達分析,分析結果采用免疫組織化學圖譜表示。
1.6 免疫細胞浸潤分析采用R 軟件中的“CIBERSORT”數據包比較HCC 和癌旁正常組織中免疫細胞亞型的豐度水平[11]。采用箱線圖比較HCC 和癌旁正常組織中免疫表達分布差異性。以P<0.05 為差異有統計學意義。
2.1 HCC 組織和癌旁正常組織中的DEGs 篩選本研究共篩選出574 個DEGs,其中上調基因173 個(log2FC>1),下調基因401 個(log2FC<-1)?;诓町惐磉_分析的可視化分析結果見 圖1A (火 山 圖) 和 圖1B (前50 個DEGs 的熱圖)。

圖1 HCC 和癌旁正常組織中DEGs 表達水平Fig.1 Expression levels of DEGs in HCC and adjacent normal tissues
2.2 GO 功能富集分析和KEGG 信號通路富集分析對GEO 芯片進行GO 功能富集分析和KEGG信號通路富集分析,并以AdjustP為標準從小到大排列,展示了GO 功能富集分析前10 個功能和KEGG 通路富集分析前27 個通路結果。其中GO 功能富集分析中BP 結果顯示: DEGs 主要富集在小分子代謝、氨基酸分解代謝過程、信號轉導、細胞黏附和分裂、免疫應答及炎癥反應等過程;GO 功能富集分析中CC 結果顯示:DEGs 主要集中在細胞外基質、血液微粒、膠原蛋白三聚物、血漿脂蛋白微粒和紡錘體中央區等部分;GO 功能富集分析結果顯示:MF 與氧化還原酶活性,血紅素結合,鐵、鋅和鈣離子結合及花生四烯酸單加氧酶活性等功能相關。KEGG 信號通路富集分析結果顯示:DEGs 主要富集在視黃醇代謝通路、代謝途徑、藥物代謝-細胞色素P450、細胞色素P450 對外源藥物代謝通路和化學致癌作用、蛋白絲氨酸/蘇氨酸激酶活性和p53 信號通路。見圖2。

圖2 DEGs 的GO 功能富集分析和KEGG 信號通路富集分析Fig.2 GO functional enrichment analysis and KEGG signaling pathway enrichment analysis on DEGs
2.3 DEGs 的PPI 網絡構建和關鍵基因篩選對DEGs 進行PPI 網絡可視化分析,結果顯示:得分最高的前10 個基因分別為細胞分裂周期20(cell division cycle 20,CDC20)、細胞周期蛋白依賴性激酶1 (cyclin dependent kinase 1,CDK1)、細胞周期蛋白A2(cyclin A2,CCNA2)、紡錘體檢測點蛋白(spindle checkpoint protein,BUB1B)、拓撲 異 構 酶Ⅱα (topoisomerase Ⅱα, TOP2A)、Discs 大同源相關蛋白5 (discs large homolog associated protein 5,DLGAP5)、異常紡錘體樣小頭 畸 形 相 關 蛋 白 (abnormal spindle-like microcephaly associated protein,ASPM)、中心體蛋白55(centrosomal protein 55,CEP55)、驅動蛋白超家族11(kinesin superfamily 11,KIF11)和驅動蛋白超家族20A (kinesin superfamily 20A,KIF20A),作為HBV-HCC 的 關 鍵 基 因。且這10 個關鍵基因均為上調DEGs,其PPI 網絡由10 個節點和45 個邊組成,平均局部聚類系數為1,PPI富集P<0.001。對關鍵基因的基因共表達分析結果顯示這10 個關鍵基因表達之間存在一定相關性。見圖3。

圖3 DEGs 的PPI 網絡和關鍵基因的共表達分析Fig.3 PPI network of DEGs and co-expression analysis on key genes
2.4 關鍵基因的驗證性分析與癌旁正常組織比較,本研究篩選的10 個關鍵基因中8 個關鍵基因(CDK1、TOP2A、DLGAP5、ASPM、CCNA2、CDC20、KIF20A 和BUB1B)在HCC 組織中表達水平升高(P<0.01)(圖4)。HCC 組織中CEP55和KIF11 表達水平也高于癌旁正常組織,但差異無統計學意義(P>0.05)。為進一步驗證關鍵基因對肝細胞癌患者生存預后的影響而進行OS 分析,結果顯示:本研究篩選的10 個關鍵基因的高表達與HCC 患者的不良預后均有關聯(P<0.05)(圖5)。HCC 組 織 中CDC20、CDK1、CCNA2、TOP2A、DLGAP5、KIF20A 和KIF11 表達水平明顯高于癌旁正常組織,而HCC 組織和癌旁正常組織中CEP55 表達水平比較差異無統計學意義(P>0.05)。BUB1B 和ASPM 蛋 白 表 達 情 況 在HPA 數據庫中無記錄。HPA 數據庫中免疫組織化學結果見圖6。

圖4 HCC 和癌旁正常組織中關鍵基因表達水平Fig.4 Expression levels of key genes in HCC and adjacent normal tissues

圖5 低和高表達組HCC 患者10 個預后基因的生存曲線Fig.5 Survival curves of 10 prognostic genes of HCC patients in low and high expression groups

圖6 免疫組織化學染色檢測HCC 和癌旁正常組織中預后相關基因的表達情況Fig.6 Expressions of genes related to survival in HCC and adjacent normal tissues detected by immunohistochemistry staining
2.5 免疫細胞浸潤分析結果HCC 組織中M1 巨噬細胞、M2 巨噬細胞、CD4+T 淋巴細胞和CD8+T 淋巴細胞百分率高于癌旁正常組織。HCC組織中M0 巨噬細胞、調節性T 淋巴細胞(Tregs)和靜息NK 細胞百分率高于癌旁正常組織(P<0.05),而γδT 淋巴細胞和活化的肥大細胞百分率低于癌旁正常組織(P<0.05)。見圖7。

圖7 HCC 和癌旁正常組織中免疫細胞豐度分布圖(A)和差異性分析箱線圖(B)Fig.7 Abundances distribution map(A) and differential analysis box diagram (B) of differences of immune cells in HCC and adjacent normal tissues
2.6 10 個關鍵基因的KEGG 信號通路富集分析CDC20、CDK1、CCNA2 和BUB1B 在細胞周期信號通路中富集;CDC20、CDK1 和CCNA2 在病毒致癌作用通路中富集;CDC20、CCNA2 和BUB1B 在人T 淋巴細胞白血病病毒1(human Tlymphocyte leukemia virus-1,HTLV-1) 感染通路中富集,提示CDC20、CDK1、CCNA2 和BUB1B可能在HBV 相關HCC 的發生發展中起主要作用。見表1。

表1 關鍵基因的KEGG 信號通路富集分析Tab.1 KEGG signaling pathway enrichment analysis on key genes
HBV 與HCC 發生之間的生物學過程較為復雜,HBV 感染期間由免疫反應引起的肝臟炎癥導致大多數患者發生肝纖維化和肝硬化,從而促進了HCC 的 發 展[12]。此 外,與 其 他 類 型HCC 比 較,HBV DNA 整合到宿主基因組中會誘導遺傳不穩定性和各種癌癥相關基因的誘變[13]。因此,本研究采用大數據挖掘和生物信息學方法對HBV-HCC 的DEGs 及其相關功能通路進行了探討。
本研究主要針對HBV-HCC 患者共篩選出574 個DEGs,進一步通過PPI 網絡分析得到10 個關鍵基因。另外,基于TCGA 和GTEx 數據庫對所篩選的10 個關鍵基因的差異表達進行了驗證,驗證結果進一步表明所篩選的10 個關鍵基因與HBV-HCC 的發生發展有密切關聯。
本研究結果顯示:DEGs 顯著影響細胞分裂、細胞代謝、免疫應答和炎癥反應。REVILL 等[14]研究顯示:病毒感染細胞的免疫清除和肝細胞再生增加了病毒感染性肝病發展為HCC 的風險。相關流行病學研究顯示:慢性低水平炎癥可顯著增加患癌的風險,相關蛋白的長期異常表達可能誘發生理性疾病和形成潛在的致癌微環境,而腫瘤的發生發展反之影響炎癥反應過程[15-16]。此外,KEGG 通路富集分析結果顯示:DEGs 主要富集在視黃醇代謝通路、細胞色素P450 對外源藥物代謝通路和化學致癌作用等生物過程。該研究與PETTINELLI等[17]研究結論一致,癌癥與異常代謝過程有關,視黃醇代謝改變參與肝纖維化過程。細胞色素P450 系在藥物代謝中起重要作用,GAO 等[18]研究顯示:細胞色素P450 2E1(CYP2E1)參與許多已知環境毒物的代謝和活化,而較高的CYP2E1 活性可能是從肝纖維化到HCC 發生的危險因素;化學致癌是細胞經歷癌基因和腫瘤抑制因子的遺傳學和表觀遺傳學變異的過程[19]。
為深入了解關鍵基因的生物功能,本研究重點分 析了CDC20、CDK1、CCNA2 和BUB1B 這4 個細胞周期與病毒致癌作用相關基因。其中CDC20是APC 的經典激活劑,也是具有調節細胞周期檢查點功能的關鍵E3 連接酶。相關研究[20]顯示:CDC20 在細胞周期的中期和末期異常表達或功能障礙導致有絲分裂停滯的消除,導致癌變的非整倍性。CDK1 是Ser/Thr 蛋白激酶家族的成員,通過與CCNB1 相互作用,在真核細胞周期的G1/S 和G2/M 相 變 中 起 重 要 作 用[21]。相 關 研 究[22]顯 示:CDK1 在HCC 組織中過表達與腫瘤體積大、晚期腫瘤分期、門靜脈侵襲、肝內轉移、分化不良、甲胎蛋白(alpha fetoprotein,AFP) 水平高、Ki-67指數高和患者預后不良等有顯著關聯。CCNA2 在間期結束時激活CDK1 以促進有絲分裂,且CCNA2 過表達已在許多類型的癌組織中被發現[23]。BUB1B 作為關鍵的有絲分裂紡錘體檢查點,在許多腫瘤的發展中起重要作用。研究[24]顯示:BUB1B 促進腫瘤增殖并誘導膠質母細胞瘤的放射抵抗力。
本研究還探討了其他6 個關鍵基因(TOP2A、DLGAP5、 ASPM、 CEP55、 KIF11 和KIF20A)的生物學機制和功能,本研究結果顯示:這6 個基因均與HCC 的發生發展密切相關。有研究[26]顯示:TOP2A 在HCC 組織中的高表達與Ki-67 高表達有關,并且已經發現Ki-67 表達與HCC 組織生長速率和患者預后不良相關[25]。DLGAP5 敲低則通過減少P53 積累來抑制HCC 細胞增殖。而ASPM基因表達與肝炎引起的肝硬化密切相關,表明ASPM 可 能 與 炎 癥 有 關[27]。ASPM 可 能 與HCC 細胞中的KIF11 相互作用,通過Wnt/β-catenin 信號通路促進HCC 的惡性進展[28]。另外,CEP55 過表達與多種腫瘤類型的腫瘤分期、侵襲性、轉移和預后不良相關[29]。KIF20A 在細胞周期的G2期積聚在細胞核中,同樣也通過調節各種信號通路促進細胞增殖、細胞凋亡和轉移[30]。
為進一步探討免疫應答在HBV-HCC 發生發展中的作用,本研究進行免疫浸潤分析,結果顯示:HCC 組織中巨噬細胞、 CD4+T 淋巴細胞和CD8+T 淋巴細胞百分率較高,M0 巨噬細胞、Treg、靜息NK 細胞在HBV-HCC 組織中顯著浸潤,而γδT 淋巴細胞和活化的肥大細胞呈低浸潤。相關研究[31-32]顯示:在自限性急性HBV 感染期間,CD4+T 淋巴細胞和CD8+T 淋巴細胞產生強烈反應以控制和清除HBV,HBV 特異性CD8+T 淋巴細胞通過產生干擾素γ(interferon-gamma,IFN-γ)和腫瘤壞死因子α(tumor necrosis factor-α,TNF-α)或直接殺死受感染的HCC 細胞表現出抗病毒活性。然而,在慢性HBV 感染期間,HBV 的持續存在加速肝組織中Tregs 募集,促進HBV-HCC 免疫逃逸,導致HCC 患者發生門靜脈腫瘤血栓[33]。另外,NK 細胞通過產生炎性細胞因子[白細胞介素4(interleukin-4,IL-4)和白細胞介素13(interleukin-13, IL-13) ] 促 進 肝 星 狀 細 胞(hepatic stellate cells,HSCs) 激活,導致HBV 轉基因小鼠發生自發性肝纖維化[34],HSCs 也上調肝臟中Tregs 水平,這也與纖維化和肝硬化后HCC的發生有關[35]。而γδT 淋巴細胞驅動的髓源性抑制細胞在HBV 耐受肝臟中的積累強烈抑制CD8+T 淋 巴 細 胞 功 能[36]。由 此 可 知,HBV 誘 導 的 免 疫失衡導致了HCC 發生發展,控制和維持免疫平衡成為HBV-HCC 治療的關鍵問題。
本研究篩選出HBV-HCC 發生發展中DEGs 和信號通路,并發現了10 個關鍵基因的高表達與HCC 患者的生存率降低有密切關聯。另外,本研究也初步探討了HBV 病毒感染在非腫瘤肝組織轉化為肝癌組織過程中的分子機制,該結果可為肝癌診治提供一些潛在的治療靶點和實踐依據。然而,由于本研究是基于公開數據庫的生物信息學研究,具有一定的局限性,缺乏驗證關鍵基因的實驗和臨床數據,在后續的研究中,本課題組將結合實驗及臨床數據進一步明確上述10 個關鍵基因在HBVHCC 中的研究價值。