莊偉霞 鄭冰 王謀鋒
隨著醫學信息學的發展,其分支生物信息學在臨床各種疾病尤其是腫瘤方面的應用優勢日益凸顯。利用各類基因數據庫資源和各種計算機分析技術從微觀層面幫助解決臨床醫療問題已成為普遍趨勢。癌癥的治療及預后是臨床最關注的問題。而肝細胞癌(Hepatocellular carcinoma,HCC)是全球癌癥死亡的第二大原因,且由于HCC 早期缺乏典型臨床癥狀和有效的診斷方法,大多數HCC 患者被診斷時已為晚期,再加上HCC 遺傳異質性強、疾病發展迅速等,常導致患者治療效果不佳,預后較差[1]。目前已有研究關注與HCC 預后相關的基因。盡管基因芯片數量龐大、數據面廣,但信息混雜、實驗基礎有限,精準性有待驗證。本研究在此背景下通過生物信息技術對HCC 基因芯片篩選得出差異表達基因,通過各種分析進一步發現與HCC 預后相關的樞紐基因,以期為HCC 的精準治療提供有價值的參考。
1.1 篩選差異表達基因從GEO 數據庫(https://www.ncbi.nlm.nih.gov/geo/)中獲得GSE101685 和GSE 14520 的基因表達譜,GSE101685 基因表達譜納入24 份HCC 樣本和16 份正常肝組織,GSE14520 基因表達譜納入22 份HCC 樣本和14 份正常肝組織,以校正后的P<0.05 和|log2FC|>1 為依據,使用limma R包(http://www.bioconductor.org/)識別每個數據集中的差異表達基因。然后,利用Venn 在線工具獲取兩個數據集之間的重疊基因。
1.2 通過GO 和KEGG 進行功能和通路富集分析使用聚類分析器R 包對DEGs 進行GO 的功能分析和KEGG 的通路分析。它們參與生物過程(BP)、分子功能(MF)、細胞成分(CC)和通路的相關信息可以通過P<0.05 來識別。
1.3 DEGs 的蛋白質相互作用分析與樞紐基因的鑒定為研究DEGs 在蛋白質水平上的相互作用,使用STRING 數據庫構建了DEGs(https://string-db.org/)的PPI 網絡。只有與置信度評分>0.4 的交互作用被認為是顯著性的。Cytoscape 軟件可將PPI網絡可視化,節點間的程度是使用Cytoscape 的插件Cytohubba 來確定的。采用3 種拓撲方法篩選Cytoscape 的細胞插件中的重疊基因,即為樞紐基因。最后通過Venn 在線工具確定重疊的樞紐基因。
1.4 樞紐基因與HCC 預后相關的分析GEPEA 在線工具(http://gepia.cancer-pku.cn/)可以檢測樞紐基因的mRNA 水平及其與疾病分期的關系;HPA(https://www.proteinatlas.org/)可以評估HCC 和正常肝組織中樞紐基因的蛋白水平,Kaplan-Meier 繪圖儀數據庫(https://kmplot.com/analysis/)可以分析樞紐基因與HCC 預后的關系。
2.1 GSE101685 與GSE14520 的DEGs 的鑒定從GEO 數據庫中獲得了2 個HCC 基因表達譜(GSE101685、GSE14520)。然后,將基因表達數據歸一化,用limmaR 包(調整后的P<0.05 和|log2FC|>1)。GSE101685 和GSE14520 的結果分別顯示在火山圖中(圖1A、1B)。分別從GSE101685 和GSE14520 中篩選出了994 個和826 個DEGs。兩個數據集之間重疊的DEGs 包含443 個基因,如Venn 圖(圖1C)所示。

圖1 GSE101685 和GSE14520 的火山圖及韋恩圖
2.2 GO 和KEGG 分析結果為進一步闡明DEGs的功能及其與通路的關系,使用聚類分析器R 包對443 個DEGs 進行了GO 功能分析和KEGG 通路分析。結果表明,進行富集分析后的DEGs 在參與生物工程中與小分子分解代謝過程、羧酸分解代謝過程、有機酸代謝過程、脂肪酸代謝過程等顯著相關(圖2A)。在基因分子功能上DEGs 與輔助因子結合、輔酶結合、單加氧酶活性和雙吡咯結合顯著相關(圖2B)。除CC 外,DEGs 還特別富集于含膠原的細胞外基質、紡錘體、血液微粒和MCM 復合物中(圖2C)。此外,KEGG 通路分析結果顯示,DEGs 在細胞周期、化學致癌、脂肪酸降解、藥物代謝-細胞色素P450 和DNA 復制等方面富集(圖2D)。

2.3 PPI 網絡的構建及樞紐基因的鑒定利用STRING 數據庫,通過構建組合評分>0.4 的PPI 網絡,在蛋白質水平上分析重疊的DEGs 之間的相互作用。利用Cytoscape 軟件構建DEGs 的PPI 網絡,包括408 個節點和3 586 條邊(圖3A)。根據最大團中心性、程度和中間性3 種拓撲分析方法,利用上述PPI 網絡中的 Cytoscape 插件鑒定了樞紐基因。用不同方法列出了前30 個樞紐基因的排序,見表1。通過在線Venn 工具檢測4 個重疊的樞紐基因CCNB1、CDK1、MAD2L1 和NCD80 并進一步分析(圖3B)。

表1 前30 個樞紐基因的排序

圖3 共同DEGs 的PPI 網絡構建圖
2.4 對選定的4 個樞紐基因進行再分析使用GEPIA 在線工具進一步驗證4 個樞紐基因的表達。HCC 樣本中CCNB1、CDK1、MAD2L1 和NCD80 的表達水平顯著高于正常組織(圖4A)。此外,發現4 個樞紐基因在不同的HCC 階段均存在顯著差異(圖4B),說 明CCNB1、CDK1、MAD2L1 和NCD80可能具有作為HCC 治療生物靶點的潛力。此外,在HPA 數據庫中驗證了除NCD80 外的4 個樞紐基因中的3 個。免疫組化結果顯示,HCC 樣本中CCNB1、CDK1 和MAD2L1 蛋白水平高于正常組織(圖5)。利用Kaplan-Meier 在線繪圖儀工具,發現選定的樞紐基因與HCC 患者的預后相關。CCNB1、CDK1、MAD2L1 和NCD80 的高表達水平與較差的總生存期顯著相關(圖6)。

圖4 樞紐基因mRNA 表達水平及不同臨床階段表達分析圖

圖5 HPA 在線工具驗證樞紐基因的蛋白表達水平圖

圖6 4 個樞紐基因在患者中的預后分析圖
HCC 是一種常見的惡性腫瘤,但由于存在診斷較晚、易復發和治療耐藥性高等復雜問題,HCC 患者的無進展生存率、總生存率仍不理想。因此,迫切需要探索有效的HCC 診斷生物標志物和其治療靶點。生物信息學的發展為從數千個基因中篩選出參與HCC 發生和發展的幾個關鍵基因提供了一種有效途徑。這些基因可能作為HCC 潛在的生物標志物和治療靶點。
本研究選擇GSE101685 和GSE14520 來鑒定HCC 與正常肝組織之間的DEGs。依據P<0.05 和|logF2C|>1 共鑒定出443 個DEGs,GO 功能分析和KEGG 富集分析結果表明,DEGs 與MCM 復合物、脂肪酸降解、細胞周期和DNA 復制有關。先前的研究表明,脂肪酸降解的紊亂與腫瘤的發生或進展有關。游離脂肪酸的代謝重編程可以加速腫瘤的轉移[2,3]。細胞周期和DNA 復制與細胞增殖和凋亡有關,它們的失調與包括HCC 在內的多種癌癥有關[4,5]。
利用PPI 網絡對DEGs 進一步分析,篩選出4 個重疊的樞紐基因CCNB1、CDK1、MAD2L1 和NDC80,這些基因與正常肝組織相比,在HCC 組織中均明顯不受調控。此外,我們還應用GEPIA 進一步驗證了這些關鍵基因在HCC 中的表達水平。GEPIA 數據庫的結果表明,這些樞紐基因不僅具有與生物信息學分析相同的表達趨勢,而且與HCC分期相關。此外,我們注意到,KM 法顯示CCNB1、CDK1、MAD2L1 和NDC80 高表達的HCC 患者的生存結果更差。這些結果提示這4 個樞紐基因可能在HCC 的發生發展中發揮重要作用。
參與有絲分裂的CCNB1 是細胞周期G2/M 過渡階段的一個轉換器。敲除CCNB1 可抑制HCC細胞的增殖、遷移和侵襲[6],而CCNB1 的激活促進了HCC 的增殖[7]。細胞周期和物質代謝相關基因表達的失調有助于HCC 的發生[8]。有研究發現,HCC 中CCNB1 的上調預示著更差的總生存期和無病生存期[9]。Lnc00312 可以通過靶向CCNB1 誘導G2/M 細胞周期阻滯來抑制HCC 細胞的增殖,說明CCNB1 具有作為HCC 治療靶點的潛力。其他一些研究也證實,CCNB1 可能是術后HBV 相關HCC 復發的候選生物標志物和潛在的治療靶點[10]。因此,靶向CCNB1 可能是HCC 治療的另一種選擇。
CDK1 作為絲氨酸/蘇氨酸蛋白激酶家族的一員,在細胞周期中發揮重要作用,并已被報道與包括HCC 在內的多種癌癥的起始和進展有關[11]。既往文獻顯示,與正常肝組織相比,CDK1 在HCC 中顯著上調,且CDK1 的高表達與HCC 的不良預后相關[10,12]。乙肝病毒X 蛋白[13]和熱休克蛋白90 的抑制[14]可通過cdk1 介導的G2/M 細胞周期阻滯和凋亡來抑制HCC 的生長。通過miR378 下調CDK1可以通過誘導G2/M 細胞周期阻滯來抑制HCC 的增殖[15],提示CDK1 可能是HCC 的潛在治療靶點。此外,一些研究人員證實,CDK1 抑制劑RO3306 可以提高索拉非尼治療在肝癌臨床前模型中的療效[16]。
MAD2L1 作為有絲分裂紡錘體組裝檢查點的一個組成部分,維持染色體的穩定性并參與細胞周期。MAD2L1 的失調導致染色體不穩定,從而可能導致癌癥的發生和發展[17]。根據以往的報道,MAD2L1 在包括胃癌在內的多種癌癥中均高表達,并與腫瘤分期有關[18]。MAD2L1 對部分腫瘤具有重要的預后價值,而MAD2L1 的高表達提示預后較差。MAD2L1 的異常表達與HCC 的腫瘤分期、鄰近器官浸潤及預后相關。過表達miR-200c-5p 通過抑制HCC 的增殖和轉移產生抗腫瘤作用,過表達MAD2L1 可以抵消miR-200c-5p 過表達的抗腫瘤作用,這意味著miR-200c-5p 通過靶向MAD2L1發揮抗腫瘤作用[19,20],而MAD2L1 可能是治療HCC的關鍵靶基因。
NDC80 是外著絲點的核心組成部分,是有絲分裂調節因子,介導染色體對齊,是染色體分離所必需的[21]。既往文獻報道,NDC80 在包括腎細胞癌在內的多種類型的癌組織中均表達上調[22],惡性膠質母細胞瘤[23]、小細胞肺癌[24]、腎上腺皮質癌[25]和HCC[26]NDC80 的高表達預示著包括HCC 在內的不良預后。Liu 等[24]研究表明,NDC80 在HBV 相關的HCC 組織中的表達水平顯著上調,而NDC80 的高表達水平預示著不良預后。NDC80 通過減少細胞凋亡和克服細胞周期的阻滯來促進HCC 的進展,敲除NDC80 可以抑制HCC 的增殖[25]。因此,NDC80也可能成為一種新的生物標志物和治療靶點。
以往的研究也確定了參與HCC 的DEGs,并通過生物信息學分析篩選出了一些樞紐基因作為候選的生物標記物和治療靶點。然而,由于選擇的數據集和生物信息學分析方法不同,不同的組篩選出了不同的樞紐基因。本研究篩選出了CCNB1、CDK1、MAD2L1 和NDC80 這4 個樞紐基因,并進一步證實了這些樞紐基因可能作為HCC 的新的診斷生物標志物和治療靶點。然而,這項研究仍存在一些局限性,例如,需要進行實驗來證實這些發現,這4 個樞紐基因如何影響HCC 發生和發展的機制有待進一步探索。盡管存在這些缺陷,我們篩選出的樞紐基因仍可能是HCC 診斷和HCC 治療靶點的潛在生物標志物。