武 赟,胡文靜,尚楊楊,汪榮泉
結直腸癌是全世界最常見的腫瘤之一,在癌癥相關死亡原因中占第四位[1]。鑒定新的結直腸癌患者預后標志物具有臨床應用價值。
miRNA對基因表達的轉錄后調節劑至關重要,參與多種生物學功能,如通過轉錄后調節各種癌基因和抑癌基因的表達控制細胞增殖,分化和凋亡;而且維持胚胎干細胞和人類腫瘤干細胞干性[2-4]。Ascl2編碼的轉錄因子控制著腸道隱性干細胞和結腸癌祖細胞的命運[5-6]。本課題前期研究發現結腸癌細胞中Ascl2可以調控miRNA-200s的表達,從而對上皮間充質轉變的可塑性產生影響,也可通過let-7b等調節結直腸前體細胞的干性[7-8]。
本研究使用生物信息學的方法,鑒定miRNA相關的Ascl2靶基因,并對其進行GO、KEGG分析,通過繪制PPI網絡篩選關鍵基因,進一步結合TCGA數據集,探索其對結直腸癌患者潛在的臨床預后價值,為結直腸癌提供新預后標志物。
1.1 數據收集 GSE34926和GSE69036表達數據來自GEO數據庫,分別為對LS174T細胞干擾Ascl2表達前后miRNA與mRNA差異表達數據。545例結直腸癌病人臨床數據及目標基因表達量來自TCGA數據庫。
1.2 差異表達基因鑒定 GSE34926是比較干擾Ascl2前后的LS174T細胞的miRNA表達芯片的數據集。設定當Fold Change>2或Fold Change<0.5時,認為miRNA表達有顯著差異。將標準化后的表達值取log2后,使用Helm繪圖軟件進行熱圖繪制。將得到的miRNA通過TargetScanHuman與miRBD進行靶基因預測,再通過Venn圖尋找交集,得到Ascl2所介導差異表達的miRNA下游基因集,記為DEGs1。 數據集GSE69036為對LS174T細胞進行Ascl2干擾后與對照組相比,得出的受Ascl2所調控的下游靶基因。設定當Fold Change>1.5或Fold Change<0.67時,認為Ascl2干擾對此基因的表達有顯著的影響,記為DEGs2。DEGs1與DEGs2之間的交集定義為miRNA相關的Ascl2的靶基因,并繪制Venn圖。
1.3 GO、KEGG Pathway分析 對miRNA相關的Ascl2的靶基因進行GO分析[9]與KEGG Pathway分析[10],利用可視化和集成發現數據庫(DAVID)完成,并使用R軟件中的ggplot2程序包完成結果的可視化。
1.4 制作差異表達基因的蛋白質相互作用(PPI)網絡 DEGs的蛋白質互作網絡(PPI network)使用STRING在線數據庫構建。設定綜合得分>0.4的相互作用關系認為具有統計學意義[11]。通過Cytoscape軟件及其插件cytohubba篩選degree≥10的基因為關鍵基因并繪制關鍵基因的互作網絡圖[12]。
1.5 結直腸癌患者的生存分析 使用x-tile軟件篩選合適的cut-off值,分別將每個關鍵基因劃分成相對高表達組與相對低表達組,通過Kaplan-Meier方法進行從3方面進行生存分析:總體生存率(OS)、無進展生存率(FPS)、疾病特異性生存率(DDS)。
2.1 miRNA的差異表達及可視化 本課題前期對LS174T細胞行Ascl2干擾,對比分析干擾前后的LS174T細胞的miRNA芯片,其芯片結果發表在GEO數據庫(GSE34926)。目前對GSE34926分析,發現在LS174T細胞被干擾Ascl2表達后,共有符合條件的350個miRNA出現差異性表達(172個上調,178個下調)。將標準化后的miRNA表達數據取log2,使用Helm繪圖軟件進行熱圖繪制(圖1A:紅色條帶代表此miRNA相對高表達,綠色條帶代表此miRNA相對低表達。)。
2.2 差異表達基因鑒定 將符合條件的350個miRNA使用TargetScanHuman與miRBD分別進行靶基因預測,再利用Venn圖法尋找交集,得到Ascl2所介導差異表達的miRNA下游基因集,記為DEGs1。GSE69036為對LS174T細胞進行Ascl2干擾后與對照組相比得出的受Ascl2所調控的下游靶基因,它們包括由Ascl2直接轉錄調控的靶基因、通過miRNA介導轉錄調控的靶基因,以及經過其他分子中介調控的靶基因,這些差異表達的靶基因記為DEGs2。進一步,本研究利用Venn圖繪制工具對DEGs1和DEGs2進行交集,共得到534個差異性表達基因(圖1B),它們是Ascl2下游并且與miRNA相關的靶基因,記為差異性表達基因DEGs。
2.3 GO、KEGG Pathway分析 為了進一步揭示Ascl2下游并且與miRNA相關的靶基因的功能進行GO分析:分子功能上,DEGs富集在與蛋白質的結合,與金屬離子的結合,轉錄因子的活動,與特定序列DNA的結合等方面;細胞組成上,DEGs主要富集在膜的組成部分,質膜成分,胞液、高爾基體及高爾基體質膜中;生物過程上,DEGs主要富集在基因的轉錄調控(包括RNA多聚酶Ⅱ啟動子的負調控以及以DNA為模板的正調控),多細胞生物的發展等方面(圖2)。KEGG Pathway分析發現DEGs集中在代謝相關通路、HTLV-I感染、MAPK信號通路、與癌癥中的蛋白聚糖、癌癥相關的miRNA等信號通路中(圖3)。
2.4 差異表達基因的蛋白質相互作用(PPI)網絡對534個DEGs進行PPI網絡分析,用Cytoscape軟件從其中467個有相互作用關系的基因中篩選出43個關鍵基因(degree≥10)。并使用Cytoscape軟件中的cytohubba插件,將43個關鍵基因繪制PPI網絡圖(圖4:紅色表示相互作用關系較多,黃色表示相互作用關系較少)。
2.5 結直腸癌患者的生存分析 為了揭示43個關鍵基因的生物學功能以及臨床可能的應用前景,筆者使用x-tile軟件獲得它們的cut-off值,將TCGA數據庫中的545例樣本劃分為相對高表達和相對低表達組,用Kaplan-Meier對43個關鍵基因表達量與患者生存率進行分析,發現包括TP53、NRAS、WDTC1、TGFBR1、RAB1A、DYNLL2、RPS6KB1、COL1A1、CDKN1A、TNRC6A、DNMT3A、MAPT、RBBP5、PPARA、SERPINA1、COPG1、CCNE2、RAB6A、RYK、COPS3、FA2H、PRMT6、ANK1共23個基因相對表達量與患者總體生存率相關(P<0.05)。本課題對結直腸癌患者中沒有預后研究報道的RAB6A、DYNLL2、COPS3和COPG1 4個基因進行生存分析。
RAB6A、DYNLL2、COPS3和COPG1表達影響結直腸癌患者總體生存率(P=0.0280,P=0.0176,P=0.0188,P=0.0276);DYNLL與COPS3的表達影響疾病特異性生存率(P=0.0191,P=0.0394);COPS3的表達還影響無進展生存率(P=0.0446,圖5)。

圖1 標準化后miRNA取log2熱圖繪制及圖法尋找交集

圖2 對差異性表達基因DEGs的GO分析

圖3 對差異性表達基因DEGs的KEGG Pathway分析

圖4 DEGs中43個關鍵基因(degree≥10)的蛋白質互作網絡圖thway分析
Ascl2是一種與結直腸癌高度相關的轉錄因子,目前對于其靶基因的研究是熱點之一,本研究通過對本課題前期發表GSE34926進行分析,鑒定出Ascl2被干擾后差異表達的miRNA[7]。對其靶基因進行預測并結合數據集GSE69036,共鑒定出534個與miRNA相關的Ascl2靶基因(DEGs)。行GO分析、KEGG Pathway分析,通過PPI網絡分析鑒定出較為關鍵的43個基因,,結合TCGA數據庫進行生存分析,共鑒定出23個基因表達量的高低對總體生存率有顯著影響(P<0.05),其中RAB6A、DYNLL2、COPS3和COPG1四個基因與結直腸癌患者的預后研究缺乏文獻報道,研究其表達量與結直腸癌病人臨床預后關系對鑒定新預后標志物有指導價值。

圖5 RAB6A、DYNLL2、COPS3和COPG1表達水平對結直腸癌患者預后分析
Rab6A是Rab蛋白家族的一員,它位于高爾基池,以及負高爾基管網狀結構中,與內質網和高爾基體的多種蛋白共同參與順行轉運,影響內質網折疊環境[13-14]。COPG1(衣被蛋白復合物亞基γ-1)一種細胞質蛋白復合物,能夠通過與高爾基非網格蛋白包被的小泡可逆結合,介導生物合成蛋白從內質網通過高爾基到反式高爾基網絡的運輸。在GO分析發現DEGs在高爾基體以及高爾基體膜有較明顯的富集,Rab6A及COPG1可能是通過蛋白翻譯后修飾的過程影響細胞命運。Rab6A表達量與總體生存率呈正相關,而COPG1表達量與總體生存率呈負相關。DYNLL2又名為肝癌2缺失基因(DLC2)可以抑制肝細胞癌(HCC)的細胞骨架重組、細胞生長、細胞遷移和轉化[15-16]。其在結直腸癌組織中的高表達提示較高的總體生存率和較高的疾病特異性生存率。
COPS3是COP9信號小體復合體(CSN)的第三亞基,CSN參與了廣泛的生物學過程,如細胞因子信號、早期發育、DNA修復、細胞周期進程和轉錄激活及腫瘤發生[17]。COPS3的擴增與肝細胞癌(HCC)的發生、發展密切相關[18]。本研究發現,COPS3高表達與結直腸癌患者的總體生存率、無進展生存率以及疾病特異性生存率均呈明顯的正相關。
綜上所述,本鑒定出結直腸癌細胞Ascl2可通過miRNA調控具有不同的生物學功能的靶基因,其中COPS3、DYNLL2、RAB6A與COPG1可成為預測結直腸癌患者預后的新標志物。