柯丁心 龔拯 劉麗麗 曾周 王斌, 張萬明,,3
(1 青島大學基礎醫學院,山東 青島 266071; 2 青島大學華賽醫學細胞和蛋白質藥物研究院; 3 青島萬明賽伯藥業有限公司)
肝細胞癌(hepatocellular carcinoma, HCC)是最常見的原發性肝癌,在惡性腫瘤中發病率居世界第6位,在腫瘤相關死亡原因中居世界第4位,而且發病率不斷上升[1-2]。其病因常常與乙型肝炎病毒(HBV)或丙型肝炎病毒(HCV)感染、酒精濫用以及非酒精性脂肪肝有關[3]。而肝硬化是各種慢性炎癥和纖維化肝病的終末期,是發展為HCC的高危因素[4]。在過去的10年中,HCC的監測、診斷和治療已經取得了相當大的進展,但患者的病死率仍然很高,因此早期診斷和預后監測對改善患者預后至關重要[3]。實際上由于HCC復雜的病因和高度異質性,預后監測較為困難。肝硬化為一種癌前狀態,通過對肝硬化狀態的深入研究,對于篩選HCC預防和治療的生物標志物或靶點具有重要意義[5-7]。目前雖然已有關于肝癌預后預測模型的研究報道,但基于肝硬化代謝相關基因構建HCC預后預測風險模型的相關研究尚未見報道。本研究擬通過腫瘤基因組圖譜(TCGA)數據庫獲得HCC肝硬化代謝相關基因表達譜,根據LASSO回歸模型篩選風險基因并構建預后預測模型,通過TCGA和國際癌癥基因組聯盟(ICGC)數據庫中的臨床信息驗證模型的準確性,最后通過分析高風險組與低風險組風險差異基因的信號通路和免疫功能,為HCC的臨床治療提供新的潛在靶點。
通過TCGA數據庫下載374例HCC患者腫瘤組織和50例患者癌旁正常組織的mRNA表達譜數據和臨床數據,從ICGC數據庫中獲得HCC患者的RNA-seq數據和臨床資料[8]。同時于Gene Set Enrichment Analysis(GSEA)數據庫篩選HCC組織和癌旁正常組織差異表達的肝硬化代謝相關基因,用于后續分析。
利用R軟件“limma”包對腫瘤組織和癌旁正常組織間的肝硬化代謝相關基因進行Wlicox檢驗差異篩選,其中篩選條件為FDR BH(Benjamini & Hochberg)矯正后的閾值P<0.05且|log2FC|>1。通過單因素Cox生存分析對肝硬化代謝相關基因進行預測價值篩選,后與差異表達基因取交集,獲得與預后相關的肝硬化代謝差異表達基因。

為驗證模型的準確性,首先將該預后預測模型在TCGA數據庫中進行訓練,然后再在ICGC數據庫中進行驗證。方法為:利用R軟件中的“prcomp”包進行主成分分析,即采用主成分分析(PCA)和t分布-隨機鄰近嵌入(t-SNE)方法將分組可視化,以判斷分組的可信性;利用Kaplan-Meier(K-M)方法進行生存分析,評估風險評分與患者生存時間之間的相關性;采用時間依賴性受試者工作特征(ROC)曲線評價模型預后預測的效果,計算曲線下面積(AUC)。利用R軟件中的“rms”和“ggDCA”包繪制校準曲線及臨床決策曲線(DCA),以驗證模型的校準度和臨床適應性。采用單因素和多因素Cox分析檢測風險評分是否可以作為患者獨立預后的預測指標。
采用Wilcoxon檢驗篩選出高風險組與低風險組患者的風險差異基因,并分別在TCGA和ICGC數據庫中進行基因本體(GO)和京都基因與基因組百科全書(KEGG)富集分析,篩選風險差異基因主要富集的功能和通路;然后采用單樣本基因集富集分析(ssGSEA)軟件分析風險差異基因主要富集的免疫細胞和免疫相關通路。
通過Wilcox檢驗篩選TCGA數據庫中腫瘤組織和癌旁正常組織的差異表達肝硬化代謝相關基因,共獲得差異表達基因88個;通過單因素Cox生存分析方法獲得與預后相關的基因19個,將兩者取交集后最終得到7個差異表達基因,分別為細胞色素P450單加氧酶(CYP2C9)、脂肪酸結合蛋白5(FABP5)、脂肪酸結合蛋白6(FABP6)、蘋果酸酶1(ME1)、基質金屬肽酶1(MMP1)、泛醇-細胞色素c還原酶鉸鏈蛋白(UQCRH)、泛醇-細胞色素c還原酶鉸鏈蛋白樣(UQCRHL)。
對上述7個差異表達基因進行LASSO回歸和多因素Cox分析,根據LASSO回歸方法中誤差最小的λ值,最終顯示有5個風險基因被納入預后預測模型,分別為CYP2C9、ME1、MMP1、UQCRH、UQCRHL。由此獲得的風險評分公式為:風險評分=-0.059×CYP2C9+0.123×ME1+0.262×MMP1+0.111×UQCRH+0.306×UQCRHL。
預后預測模型的訓練:根據上述風險評分公式,計算TCGA數據庫中每例患者的風險評分,根據中位值將患者分為高風險組和低風險組。PCA以及t-SNE分析圖顯示,高風險組和低風險組之間交叉較少,分組合理且可信度高(圖1A、B);K-M生存曲線顯示,高風險組和低風險組的生存差異有統計學意義(P=8.518e-5,圖1C);ROC曲線分析示模型預測1年AUC為0.729,2年為0.703,3年為0.658,構建的預后預測模型預測HCC患者預后準確性較高(圖1D);校準曲線表明患者1、3、5年的生存率斜率較接近標準斜率(圖1E);DCA曲線顯示構建模型所用的風險評分相比其他臨床因素預測范圍更大,準確性更高(圖1F);單因素Cox回歸分析表明腫瘤stage分級、風險評分均與HCC患者總生存率(OS)顯著相關,多因素Cox分析顯示風險評分可作為獨立的預后預測因子(圖1G、H)。

A:TCGA數據庫的PCA分析圖,B:TCGA數據庫的t-SNE分析圖,C:高風險組和低風險組的K-M曲線,D:ROC曲線,E:校準曲線,F:DCA曲線,G:單因素Cox分析結果,H:多因素Cox分析結果圖1 預后預測模型在TCGA數據庫的訓練結果Fig.1 Training results of the prognostic model in the TCGA database
預后預測模型的驗證:在ICGC數據庫中,PCA和t-SNE分析結果顯示,高風險組和低風險組分組合理(圖2A、B);K-M生存曲線顯示,高風險組和低風險組的生存差異有統計學意義(P=1.181e-1,圖2C);ROC曲線顯示該預后預測模型具有較優的準確性,且對2、3年患者預后預測的準確性略低于TCGA數據庫(圖2D);校準曲線顯示,患者1、3、5年的生存率斜率較符合標準斜率(圖2E);DCA曲線也顯示構建模型所用的風險評分預測范圍更大,準確性更高(圖2F);單因素Cox及多因素Cox分析表明,性別、stage分級和風險評分可作為獨立預后預測因子(圖2G、H)。

A:ICGC數據庫的PCA分析圖,B:ICGC數據庫的t-SNE分析圖,C:高風險組和低風險組的K-M曲線,D:ROC曲線,E:校準曲線,F:DCA曲線,G:單因素Cox分析結果,H:多因素Cox分析結果圖2 預后預測模型在ICGC數據庫的驗證結果Fig.2 Validation results of the prognostic model in the ICGC database
GO富集分析結果顯示,ICGC數據庫風險差異基因主要富集在細胞外結構組織功能中,在TCGA數據庫中主要富集在細胞吞噬功能中。KEGG富集分析顯示,ICGC數據庫中風險差異基因主要富集在PI3K-Akt信號通路與蛋白聚糖代謝通路方面,TCGA數據庫主要為細胞周期通路方面。
在ICGC數據庫中ssGSEA軟件分析結果顯示,風險差異基因在巨噬細胞的評分差異較大,在免疫相關功能方面與人類白細胞抗原(HLA)及Ⅱ型干擾素應答密切相關。在TCGA數據庫中分析示,風險差異基因與巨噬細胞、主要組織相容性復合體Ⅰ(MHC-Ⅰ)類應答與Ⅱ型干擾素應答密切相關。
肝硬化是由不同的肝損傷機制引起的,可導致肝細胞壞死和肝纖維化,組織學上表現為彌散性結節性再生,導致門脈高壓和肝合成功能障礙[10]。臨床上,肝硬化被認為是一種終末期疾病,是發展成為HCC的高危因素[11]。
本研究首先通過對TCGA數據庫中HCC患者的mRNA表達譜數據和臨床數據進行分析,篩選出與預后相關的肝硬化代謝差異表達基因,采用LASSO回歸分析構建了一個由CYP2C9、ME1、MMP1、UQCRH、UQCRHL構成的預后預測模型,并用TCGA和ICGC數據庫的相關數據進行驗證。驗證過程中,PCA和t-SNE分析顯示預后預測模型對高低風險的分組十分合理。ROC曲線和校準曲線表明該模型具有較好的區分度和校準度,DCA曲線和多因素Cox分析則表明該模型具有優良的臨床適應性,且可作為獨立預后因子應用。這些結果都表明,盡管對于肝癌預后預測模型的研究已有報道,但基于肝硬化代謝相關基因構建HCC預后預測模型仍具有一定臨床價值,需要我們進一步研究。
研究發現,CYP2C9主要參與肝臟的脂質代謝過程[12],可通過下調組蛋白去乙酰化酶抑制食管癌的侵襲和遷移[13],與HCC患者的預后具有正相關性[14]。ME1是一種胞質蛋白,可以催化蘋果酸轉化為丙酮酸,促進煙酰胺腺嘌呤二核苷磷酸生成還原型煙酰胺腺嘌呤二核苷酸磷酸(NADPH),而NADPH是維持癌細胞中氧化還原穩態和脂肪生成的關鍵輔助因子[15]。研究表明,ME1可與線粒體異檸檬酸脫氫酶(IDH2)結合,促進腫瘤生長,而ME1和IDH2的結合被抑制后,可通過破壞線粒體-胞質溶膠NADPH轉運來阻斷代謝補償,探討阻斷ME1和IDH2的結合方法或路徑,可能會成為將來抗癌治療的新研究方向[16]。已經證明,ME1的高表達可通過NADPH方式促進小鼠結直腸癌的生長和轉移,并預示著預后不良,而在胃癌細胞系SGC7901中敲低ME1后可顯著抑制腫瘤細胞的增殖、遷移和侵襲[17]。
研究顯示,在機體正常生理過程中,MMP1可參與細胞外基質(ECM)的分解,在疾病發展過程中,可促進炎癥的發生和腫瘤細胞的轉移[18]。據生物信息學分析顯示,MMP1的敲低可以通過抑制P13K/Akt/c-myc信號通路以及上皮間質轉化來抑制結直腸癌的進展,還可以通過miR-188-5p上調SRY-Box轉錄因子4和細胞周期蛋白依賴性激酶4來促進人口腔鱗狀細胞癌的增殖以及遷移[19]。UQCRH是線粒體電子傳遞鏈多亞基復合體Ⅲ的鉸鏈蛋白[20],定位于線粒體膜并誘導線粒體ROS生成,已發現在肺腺癌、透明細胞腎細胞癌等多種腫瘤組織當中呈現高表達[21]。UQCRHL作為源自UQCRH基因的假基因,具有UQCRH基因相應特征,具有一個開放閱讀框,可產生與UQCRH基因相同或幾乎相同大小的蛋白質,發揮相似作用[22]。
腫瘤的免疫機制研究一直是目前的研究熱點,本研究通過對高風險組和低風險組之間的風險差異基因進行GO和KEGG富集分析,探索高風險組與低風險組在生物學功能、相關代謝途徑及免疫功能之間的差異。富集分析結果顯示這些風險差異基因主要生物學功能為ECM發生發展及細胞吞噬,主要代謝通路為PI3K-Akt信號通路及蛋白聚糖代謝、細胞周期調控等通路,可能為HCC患者預后的預測提供了新的研究方向。同時本研究通過ssGSEA軟件對高風險組與低風險組的風險差異基因進行免疫細胞和免疫功能分析,結果顯示風險差異基因的巨噬細胞評分差異較大,高風險組的MHC-Ⅰ類應答與Ⅱ型干擾素應答功能降低,提示該組患者以MHC-Ⅰ類和Ⅱ型干擾素應答為代表的體液免疫應答減弱,這可能是高風險組預后不良的原因。
綜上所述,本研究基于肝硬化代謝相關基因,篩選出5個與預后密切相關的差異表達基因,可能是HCC臨床治療和預后的潛在靶點;并成功構建了基于這5個基因的預后預測模型,經進一步驗證和分析,該模型可為HCC患者的精準治療和預后評估提供指導。
利益沖突聲明:所有作者聲明不存在利益沖突。
ConflictsofInterest: All authors disclose no relevant conflicts of interest.
作者貢獻:王斌、張萬明、柯丁心、龔拯參與了研究設計;柯丁心、劉麗麗、曾周參與了論文的寫作和修改。所有作者均閱讀并同意發表該論文。
Contributions:WANGBin,ZHANGWanming,KEDingxin, andGONGZhengparticipated in the research design. The manuscript was drafted and revised byKEDingxin,LIULili, andZENGZhou. All the authors have read the last version of the paper and consented submission.