江 勇,錢葉本,陳 朋,朱 良
肝細胞性肝癌 (hepatocellular carcinoma, HCC) 是原發性肝癌的主要類型,肝癌發病率居全球腫瘤的第5位,然而僅我國肝癌年發病例數就達到全世界的55%,且新發病例數仍在逐年增加[1]。復發和轉移是困擾肝癌患者治療和預后的主要難點。因此,深入研究肝癌發生發展過程中的相關機制,積極探討其差異表達的基因和通路,有助于進一步認識肝癌的發病機制,提升肝癌的治療水平和改善患者的預后。
基因芯片具有高通量、高靈敏度和自動快速等優點,可平行對比腫瘤組織及其對應的正常組織的基因表達水平,極大地提高了差異表達基因的篩選效率[2],有利于深入認識腫瘤的發病機制,提升肝癌患者早期診斷、治療和預后的水平。該研究通過分析肝癌組織及其對應的癌旁組織的基因芯片,篩選得到差異表達基因;進一步通過生物信息學的方法,對篩選得到的差異基因進行聚類和功能富集分析,同時構建蛋白互作網絡,得到核心基因。最后通過TCGA數據庫中的肝癌基因表達數據RNA- sequencing初步探究核心基因的表達水平,為肝癌的診斷和治療提供潛在的生物標記。
1.1 病例資料根據醫學倫理要求和組織樣本取材標準,2對肝癌組織及其對應的癌旁正常肝臟組織來自于安徽醫科大學第一附屬醫院肝膽胰外科,組織標本取材于肝癌根治性切除術后組織。經過病理診斷后,確診為肝細胞性肝癌?;颊咝g前未進行過放療、化療或者介入治療等操作。組織樣本放入液氮中保存。該研究已經得到安徽醫科大學第一附屬醫院倫理委員會的批準(批文號:2018- 13- 22)。
1.2 基因芯片本研究使用的基因芯片為Agilent Human Gene Expression(4×44 k),包括41 000條探針,由伯豪生物技術公司提供,實際操作流程參照Agilent表達譜芯片標準流程:總RNA反轉錄得到雙鏈cDNA,再進一步用Cyanine- 3- CTP (Cy3)標記得到cRNA。將標記好的cRNA和芯片雜交,洗脫結束后,利用Agilent Scanner G2505C (Agilent Technologies) 掃描得到原始圖像。
1.3 方法
1.3.1組織樣本RNA提取和純化 肝癌及其癌旁組織的總RNA通過QIAGEN RNeasy?Mini Kit(貨號:#74106)試劑盒提取和純化,同時純化得到的RNA通過NanoDrop ND- 2000 (Thermo Scientific)進行定量檢測,RNA完整性經Agilent Bioanalyzer 2100 (Agilent Technologies) 檢測。
1.3.2芯片雜交與掃描 總RNA通過反轉錄得到雙鏈cDNA,再進一步用Cyanine- 3- CTP (Cy3) 熒光染料標記雙鏈cDNA,得到cRNA。經QIAGEN RNeasy? Mini Kit試劑盒純化后,將標記好的cRNA置于60 ℃溫水浴30 min,隨后冰水浴1 min,進行片段化處理。隨后將芯片與cRNA在65 ℃、10 r/min的條件下,于雜交爐中滾動雜交17 h。雜交結束后,進行芯片洗脫。最后利用Agilent Scanner G2505C(Agilent Technologies)掃描得到原始圖像,通過Feature Extraction軟件(version10.7.1.1, Agilent Technologies)處理原始圖像,得到原始數據。
1.3.3芯片數據預處理和差異基因分析 利用Genespring軟件(version 12.5; Agilent Technologies)對芯片原始數據進行標準化處理。標準化后的數據進行過濾,在用于比較的每組樣本中,至少有1組完全標記為已被檢測出的探針,進行后續分析。利用基因表達倍數變化值(Fold change)進行差異基因篩選,篩選標準:Fold change的絕對值≥3.0。
1.3.4GO功能注釋和KEGG富集分析 使用DAVID(version 6.7, http://david.abcc.ncifcrf.gov/)在線分析平臺[3],對篩選得到的差異基因在基因本體(gene ontology, GO)中注釋,并進行KEGG (kyoto encyclopedia of genes and genomes, KEGG)功能富集分析,以判定差異基因主要影響的生物學功能和通路。P<0.05表示差異有統計學意義。
1.3.5蛋白互作網絡的構建和篩選核心蛋白 通過String蛋白互作數據庫(the Search Tool for the Retrieval of Interacting Genes, STRING, http://string- db.org/)分析差異表達基因的蛋白互作關系[4],并以此來構建蛋白互作網絡,設置閾值條件為綜合相關性評分>0.4。將String蛋白互作數據庫分析得到的結果導入Cytoscape軟件,通過網絡分析插件CytoHubba計算節點的邊(Degree,即互作連線的數量),篩選得到網絡中心節點 (Hub Node)。中心節點對應的基因即為核心基因,同時也稱作核心蛋白。
1.3.6核心基因的表達驗證 肝癌原始的基因表達數據RNA- sequencing下載于TCGA數據庫,通過Perl處理下載的原始數據,生成基因矩陣。再將Ensembl Gene ID轉換為基因名稱 (Gene symbol),得到最終可分析的基因表達數據,包括374例肝癌組織和50例正常肝臟組織,初步探究核心基因在肝癌組織中的表達情況。

2.1 差異表達基因差異表達基因以Fold change≥3.0為篩選標準,在肝癌及癌旁組織中共篩選出4 324 個差異基因,其中上調表達的有2 552個基因,下調表達的有1 772個基因。挑選差異程度最大的前100個基因,熱圖用于展示這些基因在肝癌組織和正常組織的表達情況,見圖1,紅色代表高表達;綠色代表低表達。本研究的基因芯片結果已上傳到gene expression omnibus (GEO) 數據庫中(編號:GSE117361)。

圖1 前100個差異表達基因的熱圖
2.2 差異表達基因的GO功能注釋GO功能注釋的結果表明,差異表達基因在分子功能、生物過程及細胞組成的分布是存在差異的。根據顯著富集GO結果,發現差異表達基因主要富集在血小板衍生生長因子結合、受體抑制劑和拮抗劑活性等相關的分子功能,同時也富集于調節細胞對血管內皮生長因子反應等生物過程和膠原蛋白復合物等細胞組成,見圖2。
2.3 差異表達基因的KEGG富集分析差異基因的KEGG信號通路富集分析結果表明,在顯著富集KEGG的結果中,包括TGF- β信號通路、Rap1信號通路、PI3K- Akt信號通路、細胞黏附、ECM- 受體相互作用以及趨化因子信號通路等,與肝癌發生進展密切相關,這進一步說明在肝癌的發病過程中多條信號通路失控,可能在疾病進展中起到十分重要的作用,見圖3。

圖2 GO功能注釋
2.4 差異基因相互作用網絡分析通過String蛋白互作數據庫分析處理差異基因,構建蛋白互作網絡,見圖4。根據節點數目排序得到最相關的6個核心蛋白,對應的基因分別為DCN、TNF、COL1A1、COL3A1、FN1和COL1A2。
2.5 核心基因的表達驗證通過TCGA數據庫中374例肝癌組織和50例正常肝臟組織的基因表達數據,初步探究6個核心基因DCN、TNF、COL1A1、COL3A1、FN1和COL1A2的表達情況,見圖5。結果表明,COL1A1(P<0.000 1)和COL1A2(P<0.000 1)在肝癌組織中的表達較正常組織顯著上調,DCN在肝癌組織中的表達較正常組織顯著下調(P<0.000 1);而TNF(P=0.052 2),FN1(P=0.103 0)和COL3A1(P=0.767 5)的表達無明顯差異。
中國是肝癌發病率最高的國家,與乙肝病毒感染密切相關,其具體的發病機制不明。肝癌患者的確診往往都在晚期,失去了根治性手術治療的機會,且肝癌術后易復發,極大地影響了患者的預后?;蛐酒夹g可探索腫瘤發病過程中多種基因的表達變化及相互之間的調控關系,這有利于理解肝癌的發病機制,進一步提高診治水平,改善預后。
本研究收集了新鮮的肝癌及癌旁組織,深入分析其基因芯片的結果,發現了4 324個差異表達基因,其中上調表達的有2 552個基因,下調表達的有1 772個基因。這一結果說明了肝癌發病過程中的基因轉錄變化,其發病機制可能與特定基因和表觀遺傳的變化密切相關。通過GO功能注釋和KEGG富集分析差異表達基因潛在的生物學作用,結果發現差異表達基因主要富集于血小板衍生生長因子結合等分子功能,血管內皮生長因子反應等生物過程和膠原蛋白復合物等細胞組成;KEGG富集信號通路顯示,差異表達基因主要參與了TGF- β、Rap1、PI3K- Akt和細胞黏附等信號通路,這些信號通路的變化與肝癌發生發展密切相關。TGF- β信號通路參與了肝癌發生發展的每個階段,其在肝纖維化的進展中發揮重要作用;同時TGF- β在肝癌中表達上調,與肝癌預后直接相關[5]。Rap1是Ras家族單體G蛋白的成員之一,在腫瘤發生發展中扮演重要的角色,已經得到大家的共識[6]。 研究[7]表明Rap1可調節腫瘤細胞黏附、遷移和侵襲能力;在不同腫瘤類型中,Rap1信號通路的激活呈現出截然不同的表現,尤其是影響腫瘤轉移的作用,依然有待于進一步研究。Rap1的激活對于EGFR介導胰腺癌的轉移過程中是必不可少的,同時腫瘤的生長不受影響[8]。PI3K- Akt主要通過酪氨酸激酶受體傳遞生長因子的信號被激活[9],可調控腫瘤細胞的增殖和凋亡,與肝癌的發病過程密切相關[10]。由此說明,差異表達基因參與了肝癌發病過程中的多種細胞生物學過程,有待進一步研究其具體的生物學機制。

圖3 KEGG 通路富集分析
通過蛋白互作網絡分析,本研究得到了可能與肝癌發生密切相關的6個核心蛋白,對應的基因分別為DCN、TNF、COL1A1、COL3A1、FN1和COL1A2。進一步分析TCGA數據庫中肝癌的基因表達數據,結果表明DCN、COL1A1和COL1A2在肝癌組織中的表達存在顯著差異(P<0.000 1),而TNF、FN1和COL3A1的表達無明顯差異。核心蛋白聚糖 (decorin, DCN) 是存在于細胞外基質的一類富含亮氨酸的小分子蛋白聚糖,研究表明DCN可抑制多種腫瘤細胞的增殖,可與多種細胞表面受體結合,介導腫瘤抑制的作用,包括對自噬和炎癥的刺激作用以及對血管生成和腫瘤發生的抑制作用。肝硬化是肝癌重要的癌前病變,研究發現DCN在肝硬化組織的表達顯著高于肝癌及癌旁組織,而DCN在肝癌組織中的表達顯著低于癌旁組織;同時,DCN高表達的肝癌患者中位生存期更長,提示DCN可作為肝癌的預后標志物[11]。DCN可調控膠原纖維的生成,特異性地阻斷TGF- β信號通路,發揮抗纖維化的生物活性[12]。COL1A1和COL1A2基因分別編碼I型膠原蛋白的pro- α1鏈和pro- α2鏈,該膠原蛋白的三螺旋結構包括兩條α1鏈和一條α2鏈,是細胞外基質的主要蛋白。COL1A1在侵襲性肝癌中表達上調,此外,COL1A1和COL1A2基因促進了I型膠原蛋白的合成,有助于HCC的侵襲和轉移[13]。COL1A1的啟動子發生甲基化,導致其在肝癌組織中表達下調,該表觀遺傳改變可能作為HCC的預后標志物[14]。微小RNA(MicroRNA)let- 7g 可抑制肝癌的轉移,研究發現其抑制作用部分是通過靶向作用于COL1A2實現的[15]。

圖4 蛋白相互作用網絡圖

圖5 TCGA數據庫初步驗證核心基因的表達
A:DCN;B:TNF;C:COL1A1;D:FN1;E:COL3A1;F:COL1A2;與正常組織比較:****P<0.000 1
綜上所述,肝癌發病過程中涉及多基因、多通路的改變,本研究通過基因芯片篩選肝癌的差異表達基因和通路,有助于進一步理解肝癌的發病機制。同時,通過TCGA數據庫初步驗證了核心基因的表達,為肝癌提供了新的研究方向,有待于進一步研究其具體的功能和作用。