朱克云 張 熠 王振欣
肝癌是一種常見的消化系統腫瘤,并且是致死率最高的5種癌癥中唯一一種發生率逐年遞增的癌癥,肝癌早期患者通常癥狀不明顯,當患者出現明顯的不適癥狀時,往往病情已經發展到了中晚期[1]。肝動脈化療栓塞(transcatheter arterial chemoembolization,TACE)是中晚期肝癌的首選治療方法,通過將導管選擇性或超選擇性插入到腫瘤供血靶動脈后,以適當的速度注入適量的栓塞劑,使靶動脈閉塞,引起腫瘤組織的缺血壞死。使用抗癌藥物或藥物聯合微粒、微球進行栓塞可起到化療性栓塞的作用,但部分患者會出現預后不佳[2]。因此篩選出對TACE敏感患者對實現有效的個體化治療具有重要意義。
本研究通過生物信息學方法篩選出TACE反應組與TACE無反應組的差異基因,富集分析出相關的基因功能和信號通路,尋找可能作為預后基因的關鍵基因,為肝癌TACE治療提供新的思路。
1.數據來源和差異基因的篩選:GSE104580微陣列表達數據集包含來自GEO數據庫,包括81例TACE有反應患者和66例TACE無反應肝癌患者肝癌組織的數據,命名為為TACE反應組和TACE無反應組。下載數據格式為MINiML。使用R軟件的Limma軟件包(版本:3.40.2)研究mRNA的差異表達。AdjustedP<0.05且log2FC>1或log2FC<-1定義為mRNA差異表達的篩選閾值。箱線圖通過R軟件包ggplot2進行繪制;差異表達熱圖通過R軟件包pheatmap進行展示。
2.差異基因的GO和KEGG富集分析:為了更好地了解差異基因涉及的基因功能和信號通路,使用Metascape在線工具對差異基因進行GO分析KEGG通路富集分析,設置P<0.01[3]。
3.差異基因的PPI網絡構建分析和關鍵基因的篩選:使用STRING在線數據庫進行蛋白-蛋白互作(protein-protein interaction,PPI)網絡構建分析,使用Cytoscape軟件進行可視化分析并篩選出degree最高的10個關鍵基因[4,5]。
4.關鍵基因在肝癌的差異表達及生存期評估:使用GEPIA在線工具分析關鍵基因在肝癌和正常組織中的表達差異,使用Kaplan-Meier Plotter在線平臺分析關鍵基因表達量高低與肝癌總體生存期的關聯性[6,7]。使用肝細胞癌綜合分子數據庫HCCDB分析這10個關鍵基因[8]。
1.對TACE療效不同的患者的差異基因篩選:通過對NCBI基因表達綜合數據庫(gene expression omnibus,GEO)進行檢索,發現基因表達芯片“GSE104580”并進行分析。用R軟件的Limma軟件包(版本:3.40.2)對TACE反應組和非反應組HCC患者的差異基因進行篩選。共篩選出261個差異基因(P<0.01,|log2FC|>1),其中有118個上調基因,143個下調基因(圖1)。

圖1 基因表達芯片GSE104580的基因表達分布A.數據標準化后箱線圖,行代表樣本,代表樣本中基因表達值;B.差異基因火山圖,使用Fold change和校正后P值繪制火山圖。圖中的X點表示顯著差異上調的基因,X點表示顯著差異下調基因;C.差異基因表達熱圖,其中不同顏色代表在不同組中的表達趨勢。由于差異基因個數較多,此處分別展示差異改變最大的50個上調基因和50個下調基因
2.GO基因功能分析和KEGG信號通路分析:為了進一步研究引起TACE效果差異可能的基因功能和信號通路,筆者對差異基因進行了富集分析。為了解決將基因按照功能進行分類的問題,研究者開發了很多基因功能注釋數據庫,基因本體論(gene ontology,GO)和京都基因與基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)在這些數據庫中最為有名。利用Metascape在線分析工具對差異基因進行GO基因參與生物過程和KEGG信號通路富集分析,分別展示了富集最多的20個重要的生物過程(圖2A)和信號通路(圖2D),并分別對上調差異基因(圖2中B、E)和下調差異基因(圖2中C、F)進行了同樣的分析。

圖2 差異基因的GO基因功能分析和KEGG通信號路分析柱狀圖A~C.所有差異基因、上調差異基因、下調差異基因的GO生物過程分析;D~F.所有差異基因、上調差異基因、下調差異基因的KEGG通路分析
筆者發現GO生物過程主要富集于氧化還原酶活性、單羧酸代謝過程、小分子分解代謝過程等,上調差異基因主要富集于有絲分裂紡錘體組織、微管結合、對細菌的反應等,下調差異基因主要富集于氧化還原酶活性、單羧酸代謝過程、小分子分解代謝過程等。KEGG信號通路主要富集于化學致癌作用、膽汁分泌、甾類激素生物合成;,上調差異基因主要富集于IL-17信號通路、醚脂類代謝、氨基酸生物合成、蛋白質消化吸收、糖尿病并發癥中的AGE-RAGE信號通路、HIF-1信號通路、Apelin信號通路;下調基因主要富集在化學致癌作用、膽汁分泌、甾類激素生物合成、甘氨酸、絲氨酸和蘇氨酸代謝等。
3.PPI網絡構建和樞紐基因鑒定:接下來筆者在STRING在線數據庫預測差異表達基因之間的蛋白質相互作用,構建了PPI網絡(圖3A),并使用Cytoscape軟件對PPI網絡進行可視化分析(圖3B),利用插件cytoHubba確定了PPI網絡中按degree評估的前10個基因作為關鍵基因(圖3中C、D)。結果表明,細胞色素P450家族成員2E1(CYP2E1)是degree最高的基因,degree=36,其次是細胞色素P450家族成員3A4(CYP3A4,degree=26)、2C9(CYP2C9,degree=22)、1A1(CYP1A1;degree=20)、1A2(CYP1A2,degree=20)、2A6(CYP2A6,degree=20)和Discs大同源相關蛋白5(DLGAP5,degree=20),細胞分裂周期蛋白20(CDC20,degree=18),泛素結合酶E2C(UBE2C,degree=18)、蘇氨酸和酪氨酸激酶(TTK;degree=18)。這些關鍵基因中排名前6位的基因在TACE無反應組中都被下調,而degree后4位則上調。

圖3 差異基因PPI網絡構建和樞紐基因鑒定A.STRING工具生存的PPI網絡;B.Cytoscape對PPI網絡進行可視化分析,藍色為下調差異基因,紅色為上調差異基因,圓圈大小代表degree大小;C、D.使用Cytohubba生成的10個關鍵基因
4.10個關鍵基因的生存分析:為了研究這10個潛在關鍵基因的預后價值,選擇Kaplan-Meier Plotter在線平臺進行分析,共有364例肝癌患者可用于總體生存分析;同時使用GEPIA在線工具分析了這些關鍵基因在肝癌組織中與正常組織中的表達差異。筆者發現這些關鍵基因中在TACE無反應組下調的基因,在腫瘤組織中表達量都低于正常組織,并且與患者的總體生存呈正相關;而TACE無反應組上調的基因,在腫瘤組織中表達高于正常組織,并且與總體生存不良有關,提示這些關鍵基因與總體生存密切相關。使用肝細胞癌綜合分子數據庫HCCDB分析這10個HUB基因,這10個HUB基因在肝細胞癌中均為有效基因,CDC20、UBE2C、CYP3A4可作為肝細胞癌預后基因(圖4)。

圖4 關鍵基因的表達與肝癌總體生存期的關聯及在腫瘤中的表達情況A~J.分別展示了10個關鍵基因表達量與肝癌總體生存期的關聯(左),關鍵基因在肝癌組織和正常組織的表達差異(*P<0.05);K.HCCDB對關鍵基因的分析。差異:差異表達數據集數量,紅/藍為分別為上調/下調;預后:生存分析中有意義的數據集的數量;紅色/藍色分別表示不利/有利;肝癌/全部腫瘤:通過比較肝癌與所有腫瘤,用紅色/藍色分別表示log2FC的正/負倍變化(TCGA數據);肝癌/全部鄰近組織:通過比較HCC與所有相鄰樣本(TCGA數據),紅色/藍色分別表示log2FC的正/負倍變化;肝癌/鄰近組織:通過比較HCC與相鄰樣本(HCCDB數據),紅色/藍色分別表示log2FC的正/負倍變化;肝/其他正常組織:通過比較肝臟和正常組織(GTEx和TCGA數據),紅色/藍色分別表示log2FC的正/負倍變化
我國原發性肝癌的發生率和病死率高于全球平均水平,原發性肝癌是75歲以下人群中癌癥死亡的主要原因之一。在中國所有癌癥中,肝癌的生存率最低,主要是因為肝癌早期診斷困難,大多數肝癌患者確診時為中晚期,中晚期肝癌惡性程度高,進展快,治療難度大,治療效果通常較差[9]。根據巴塞羅那臨床分期系統,TACE為治療中晚期HCC的首選方式。TACE也可與其他治療方法如局部消融、藥物治療等進行聯合治療從而提高治療效果[10,11]。但TACE治療尚存在一些問題,部分患者預后不佳,部分無響應,有時與其他治療方法比較并無優勢[12]。因此篩選TACE反應效果佳的預后基因對實現腫瘤的個體化治療有著重要意義。
本研究通過分析GEO數據庫中的基因表達芯“GSE104580”,篩選出了TACE反應組和TACE無反應組患者存在261個差異基因,其中有118個上調基因和143個下調基因。通過使用Metascape進行GO分析和KEGG通路富集分析,篩選并展示了20個最重要的GO生物過程和KEGG通路途徑,并分別展示了上調差異基因和下調差異基因所富集的生物過程和通路途徑,在這些生物過程和通路途徑中,有一部分已經有了一些研究證據,例如碳酸氫鹽瘤內注射到肝癌組織可以顯著增強TACE的抗癌活性[13];IL-17低表達患者聯合阿帕替尼治療的5年總生存率更高,有助于選擇可能受益于輔助TACE聯合阿帕替尼的患者[14];HIF-1α積累導致假缺氧環境,導致肝癌患者對TACE治療產生抗性[15]。接著構建繪制了PPI網絡并從所有差異基因中篩選出10個關鍵基因,利用在線工具驗證了這些基因可能的預后價值,目前這些關鍵基因與TACE療效的研究尚未發現,但已有研究者提出細胞色素P450家族成員CYP2C9、CYP2A6與肝癌的總體生存和預后密切相關[16]。
綜上所述,筆者基于生物信息學篩選出TACE反應組與TACE無反應組的差異基因,對這些差異基因參與的生物過程和信號通路進行了富集分析,構建了PPI網絡并篩選出了關鍵基因,這些結果有助于判斷肝癌患者行TACE治療的預后情況,為改善治療方法、提出新的聯合治療方法具有重要意義,具體機制及原因仍需進一步探索和研究。