谷媛,項榮武,翟玉萱,魏峰,楊雪瑩,關婷婷,李曉慧,韓濤
(1.沈陽藥科大學,遼寧 沈陽110016;2.北部戰區總醫院 醫療保障中心醫學信息數據室,遼寧 沈陽110003;3.中國醫科大學附屬第一醫院 腫瘤二科,遼寧 沈陽110000)
結直腸癌又稱大腸癌,是最常見惡性腫瘤之一,在消化道腫瘤中,其發病率僅次于胃癌,并呈逐年上升的趨勢。發生結直腸癌的危險因素包括飲食、肥胖、抽煙、運動量不足等,患有炎癥性腸病(潰瘍性結腸炎或克羅恩病)者患結腸癌的風險明顯增加[1-2]。結直腸癌治療方式包括手術、放射治療、化學治療、靶向治療,然而其發病機制復雜,臨床對于其病因研究仍在不斷的探索中。由于結直腸癌早期癥狀不明顯,且缺乏早期診斷的生物標志物,多數患者確診多為中晚期,5年生存率僅為15.8%~27.9%,嚴重威脅患者的生命健康[3]。而早期檢測為結直腸癌患者的存活率約為晚期癌癥的5 倍。因此,尋找新的、早期診斷的結直腸癌腫瘤標志物至關重要。有研究表明,多種mRNA 參與結直腸癌發生、發展過程。本研究基于美國癌癥腫瘤基因圖譜(the cancer genome atlas,TCGA)數據庫對結腸癌組織及正常組織中的差異表達基因進行篩選,并探討其相關分子機制。現報道如下。
從TCGA 數據庫(https://www.cancer.gov)下載所有結直腸癌mRNA 轉錄組數據,數據均為原始Count數據。將下載的轉錄組數據轉移至同一目錄,然后將數據整合處理成包含樣本ID、樣本名、患者一般資料、生存資料等數據的矩陣,共包含樣本740 例,其中,結直腸癌組織有571 例,正常組織有169 例。
對mRNA 轉錄組數據進行正常組織與癌癥組織的差異表達分析。將整理后的數據導入R 語言,利用edge R 工具包讀取文件,校正因子、估算變異系數、計算出所有數據的倍數變化(fold change, FC)值以及偽發現率(false discovery rate, FDR)。然后,篩選出FC 值<1,且P<0.05 的mRNA 作為正常組織與癌組織有表達差異的基因,輸出差異基因校正后表達值。FC 值>0 的基因為上調基因;FC 值<0 的基因為下調基因。最后,根據edge R 工具包篩選出的結果將所有的mRNA 轉錄組數據所對應的FC 值以及P值取以10 為底數的對數后,以-log10(FDR)為橫軸,以log10(FC)為縱軸,對所有的mRNA 轉錄組數據進行散點圖及熱圖繪制。本次計算的篩選條件:FC=1,P=0.05。
為探討篩選出的差異基因的具體作用及通路,將根據測序分析FC 值篩選出的差異基因導入DAVID 數據庫(https://david.ncifcrf.gov/),設定篩選條件。最后將具有統計學意義的GO 及KEGG 富集通路作為差異基因的富集通路。注意KEGG 富集通路的篩選條件為P<0.05。
由于mRNA 直接調控特定蛋白的合成,所以基于這些mRNA 差異表達基因,研究其相對應的蛋白的相互關系是必要的。通過STRING 數據庫(https://string-db.org/)對FDR 值前200 個的mRNA 差異基因進行分析,構建蛋白互作網絡圖。采用Cytoscape 3.4.0 軟件對蛋白互作網絡進行可視化并調整圖片格式。在R 語言環境下,將網絡節點從高到低排序,篩選出節點排在前7 位的mRNA 作為結直腸癌研究的關鍵基因進行分析。
比較關鍵基因在癌組織及正常組織中的表達水平。以關鍵基因的中位表達水平為界值,將關鍵基因分為高表達組與低表達組,比較高表達組與低表達組的生存情況:以PLKI 相對表達量中位值(7.02)為界,將樣本分為PLK1 高表達組(n=135)與PLK1 低表達組(n=134);以SUV39H1 相對表達量中位值(7.28)為界,將樣本分為SUV39H1 高表達組(n=181)與SUV39H1 低表達組(n=181);以HIST2H4B 相對表達量中位值(8.66)為界,將樣本分為HIST2H4B 高表達組(n=180)與HIST2H4B 低表達組(n=181)。
采用SPSS 19.0 統計學軟件及R 語言軟件包處理數據。計量資料以均數±標準差(±s)表示,比較用t檢驗;計數資料以例(%)表示,比較用χ2檢驗。采用Kaplan-Meier 法繪制關鍵基因高表達與低表達的生存曲線,比較采用Log rank χ2檢驗。P<0.05 為差異有統計學意義。
根據差異基因的篩選條件,共篩選出5 073 個差異表達基因,其中,上調基因2 136 個,下調基因2 937 個。見圖1、2。

圖1 基因差異表達散點圖
GO 分析結果顯示,其生物過程主要在細胞增殖(GO:0008283)、轉運(GO:0006810)、rRNA 加工(GO:0006364)、受體介導的內吞作用(GO:0006898)等功能富集(見圖3 和表1)。KEGG 富集分析結果表明,差異表達基因的信號通路主要有細胞周期、轉錄失調、膽汁分泌、甲狀腺激素、血小板活化等信號通路(見表2 和圖4)。

表2 KEGG富集分析列表(前5)

圖4 差異表達基因KEGG信號通路分析結果

表1 差異表達基因GO富集列表(前4)

圖3 差異表達基因GO分析結果

圖2 基因差異表達熱圖
STRING 數據庫分析結果顯示,共發現115 個節點蛋白和99 條相互作用網絡,其中PLK1 蛋白在網絡圖中處于核心地位。將網絡節點從高到低排序,篩選出節點排在前7 位關鍵基因分別為PLK1、BRD4、EHMT2、HIST2H4B、PRPF19、SUV39H1、TRIM28。見圖5。

圖5 蛋白互作網絡圖
癌組織PLK1 相對表達量為(7.04±0.53),正常組織為(6.16±0.30),經t檢驗,差異有統計學意義(t=5.707,P=0.000),癌組織高于正常組織。癌組織PRPF19 相對表達量為(1 963.45±513.12),正常組織為(1 169.50±343.43),經t檢驗,差異有統計學意義(t=7.272,P=0.000),癌組織高于正常組織。癌組織SUV39H1 相對表達量為(7.22±0.38),正常組織為(6.69±0.15),經t檢驗,差異有統計學意義(t=5.144,P=0.000),癌組織高于正常組織。
PLK1 高表達組與PLK1 低表達組5年生存率分別為70.37%(95/135)和60.45%(81/134),經χ2檢驗,差異無統計學意義(χ2=2.972,P=0.087)。SUV39H1高表達組與SUV39H1 低表達組5年生存率分別為58.56%(106/181)和64.64%(117/181),經χ2檢驗,差異無統計學意義(χ2=1.413,P=0.235)。HIST2H4B 高表達組與HIST2H4B 低表達組5年生存率分別為57.22%(103/180)和74.58%(135/181),經χ2檢驗,差異有統計學意義(χ2=12.113,P=0.001)。
PLK1 高表達組總生存時間為47.25 個月(95%CI:44.146,50.362),PLK1 低表達組總生存時間為42.71 個月(95% CI:39.987,45.434),經Log rank χ2檢驗,差異無統計學意義(χ2=3.957,P=0.083)。SUV39H1 高表達組總生存時間為35.07 個月(95%CI:31.364,38.784),SUV39H1 低表達組總生存時間為33.50個月(95%CI:29.762,37.239),經Log rank χ2檢驗,差異無統計學意義(χ2=0.134,P=0.820)。HIST2H4B高表達組總生存時間為34.32 個月(95% CI:32.841,47.265),HIST2H4B 低表達組總生存時間為41.58 個月(95% CI:38.541,51.517),經Log rank χ2檢驗,差異有統計學意義(χ2=8.670,P=0.015),HIST2H4B 低表達組長于HIST2H4B高表達組。見圖6。

圖6 生存曲線圖
結直腸癌發生的危險因素多樣。目前通過早期篩查高危人群、改變不良的飲食生活習慣等方式預防直腸癌發病,且可通過靶向治療、化學治療、放射治療、外科手術、免疫治療等綜合方法對其進行治療,但總體預后欠佳。因此,探索與結直腸癌發病機制、預后相關的關鍵分子標志物對其早期診斷及治療十分重要。本研究采用生物信息學方法從TCGA 數據庫中提取571 個結直腸組織樣本,169 個正常組織樣本,經過篩選得到5 037 個差異表達基因,其中上調基因2 136 個,下調基因2 937 個,蛋白互作網絡結果篩選出前7 位關鍵基因為PLK1、BRD4、EHMT2、HIST2H4B、PRPF19、SUV39H1、TRIM28。功能富集分析發現,關鍵基因主要涉及細胞增殖、轉運、rRNA 加工、受體介導的內吞作用;信號通路分析結果顯示,關鍵基因參與細胞周期、轉錄失調、膽汁分泌、甲狀腺激素、血小板活化等過程。進一步生存分析發現,HIST2H4B高表達組與HIST2H4B 低表達組總生存時間有差異。
PLK1 為保守的絲/蘇氨酸激酶家族成員,廣泛存在于真核細胞中,富集在細胞周期通路,參與細胞增殖、有絲分裂細胞周期的G2/M 轉換等生物過程,可直接磷酸化Cdc25 和Cyclin B1,在有絲分裂中起重要作用,其表達量與有絲分裂的活性呈正相關,可能通過P53 信號通路發揮作用[4]。多項研究表明,PLK1 在神經膠質瘤、乳腺癌、甲狀腺癌、結直腸癌、食管癌等癌癥中呈高表達,且其高表達與患者預后相關[5-7]。本研究中,PLK1 在結直腸癌組織中表達顯著上調。HAN 等[8]研究表明,PLK1 在結直腸癌組織中陽性表達,且與Duke 分期、腫瘤大小、浸潤程度、淋巴節轉移有關,PLK1 水平在快速增殖的細胞中普遍升高,PLK1 缺失可抑制結直腸癌細胞SW1116 的遷移和侵襲能力,此外,對PLK1 進行干擾可顯著抑制腫瘤細胞轉移、侵襲。
BRD4 是溴結構域和超末端結構家族成員,在炎癥反應、轉錄調控、細胞周期進展、腫瘤惡性進展等生物過程中發揮重要作用[9]。EHMT2 是組蛋白賴氨酸甲基化轉移酶,在膀胱癌、乳腺癌、神經母細胞瘤等腫瘤中呈現異常高表達,與腫瘤細胞增殖、凋亡、侵襲等生物學功能有關[10],但其在結直腸癌中的表達研究較少。SUV39H1 是一種專門負責組蛋白H3K9 三甲基化修飾的組蛋白甲基化酶,催化甲基從s-腺苷蛋氨酸轉移到組蛋白(特別是組蛋白H3 和H4)賴氨酸殘基上,在有絲分裂期定位于著絲粒,在有絲分裂進行中起重要的調控作用,參與異染色質的形成和基因沉默,且H3K9 的甲基化是一個非常保守的表觀修飾,是異染色質形成和轉錄沉默的標志。甲基化的失調在癌癥的發展過程中至關重要。有研究表明,在宮頸癌及卵巢癌組織中Suv39H1 蛋白均呈高表達[11],且與原發性高草尿癥I 型和視網膜母細胞瘤等疾病進展相關。另有研究表明,SUV39H1siRNA 能抑制急性髓系白血病細胞株KG-1 細胞的增殖,誘導凋亡,有望成為白血病治療的新靶點[12]。TRIM28 是包含多個結構域的大分子蛋白,屬于人類三聚體蛋白家族中的一員,以存在4 個保守結構域即RING 指和B-box 1 型、2 型及亮氨酸卷曲螺旋結構為主要特征。TRIM28 主要與含KRAB 結構域的轉錄因子相互作用,從而發揮轉錄共激活或共抑制作用,并在腫瘤發生、細胞分化、胚胎發育的調控中發揮重要作用[13]。
綜上所述,基于TCGA 數據庫分析出PLK1 在結直腸癌組織中高表達,其參與細胞增殖、有絲分裂細胞周期的G2/M 轉換等生物過程,通過P53信號通路發揮作用,有望成為診斷結直腸癌的腫瘤標志物。