袁小艷,梁 韡,張 舒,周 萍
(成都大學四川抗菌素工業研究所抗生素研究與再評價四川省重點實驗室,成都 610052)
甲狀腺癌是甲狀腺上皮細胞的惡性腫瘤。隨著人們飲食結構、營養狀況及生態環境等因素的變化,近年來,甲狀腺癌發病率呈逐年上升趨勢[1]。據統計,甲狀腺癌已成為我國城市人群癌癥患病率第4位、女性易發腫瘤第5位的惡性實體腫瘤[2]。目前,甲狀腺癌的明確病因未見報道,探索甲狀腺癌的發病機制及篩查生物標志物對其早期顯示具有重要意義。
生物信息學是結合分子生物學與信息技術的新興交叉學科[3],對揭示腫瘤發病的分子機制具有重要意義。基因芯片作為一種高效、大規模獲取生物信息的新興技術,能夠廣泛采集疾病基因芯片表達譜數據。本文采用生物信息學工具對公共基因芯片數據庫(gene expression omnibus,GEO) 中甲狀腺癌表達譜芯片進行數據分析,為相關基因的生物學功能及其參與甲狀腺癌發生、發展的分子機制提供理論依據。
1.1 材料 表達譜芯片數據來源于美國國立生物技術信息中心(NCBI)GEO數據庫中甲狀腺癌數據集,編號分別為GSE33630、GSE65144和GSE85457,包括76例甲狀腺癌組織和61例正常組織。數據集由GPL570 芯片平臺采集甲狀腺癌及癌旁組織的基因芯片表達譜數據。
1.2 方法
1.2.1 數據處理及差異基因分析 3組原始數據集采用R軟件及Affy、Limma、Pheatmap、Ggplot2等軟件包進行數據處理,RMA算法進行背景校正、標準化及表達值計算。處理后數據采用Fold-change(FC)和T-test進行差異基因篩選,定義| log(FC)|≥1,P<0.05為有效基因。篩選3組數據集中共有有效基因作為最終差異表達基因進行后續分析。
1.2.2 差異表達基因的功能富集分析 生物學信息注釋數據庫(database for annotation,visualization and integrated discovery,DAVID)是在線生物信息學分析工具(https://david.ncifcrf.gov/),可對基因或蛋白進行系統綜合的生物功能分析和注釋。差異表達基因利用David6.8進行基因本體論(gene ontology,GO)和KEGG(Kyoto Encyclopedia of Genes and Genomes) 通路的富集分析。
1.2.3 差異表達基因的PPI分析 String10.0數據庫(http://string-db.org/)由已知或預測蛋白質相互作用的數據組成,包括直接和間接的蛋白質間相互作用。差異表達基因采用String10.0進行蛋白-蛋白相互作用(PPI)網絡分析,設置有效結合分數為大于0.4。分析結果通過Cytoscape 3.5.1建立網絡模型,以drgree得分篩選中心基因,并采用Cytoscape中MCODE插件對網絡模型進行評價,選擇scores>3且node>4模塊中的基因進行通路富集分析。
2.1 差異表達基因篩選 經R軟件分析,分別從數據集GSE33630、GSE65144和GSE85457中提取到差異表達基因3 844、2 822、1 724個。取3個數據集差異表達基因進行綜合分析,得到相同差異表達基因383個(圖1);其中上調基因217個,下調基因166個。

圖1 3組基因芯片數據共表達的差異基因關系圖
2.2 差異表達基因GO富集分析 GO分析結果顯示,差異表達基因的GO注釋主要分為生物過程(BP)、細胞組成(CC)和分子功能(MF)3個部分。其中上調基因主要富集在細外基質組織、膠原纖維組織、調節細胞增殖等生物學過程,下調基因主要富集在調節脂肪細胞分化、腎發育、內分泌系統發育等生物學過程,部分結果見表1。

表1 GO富集分析部分結果
2.3 差異表達基因KEGG信號通路分析 KEGG分析結果顯示,上調基因富集的信號通路(23條)多于下調基因富集的信號通路(6條)。上調基因主要集中在ECM受體相互作用、小細胞肺癌、PI3K-Akt信號通路、血小板活化、細胞周期等信號通路(圖2);下調基因主要富集在癌癥轉錄失調、甲狀腺激素合成、TGF-β信號通路等信號通路,見圖3。

圖2 上調基因KEGG通路分析結果
2.4 差異表達基因PPI分析 基于String數據庫,篩選出CDC6、AURKA、FEN1、MCM4、MYC 5個degree得分較高的hub基因(表2)。Cytoscape軟件 MCODE插件共篩選出顯著模塊3個(表3、圖4)。模塊1中涉及基因主要富集在DNA復制、細胞周期等信號通路,模塊2中涉及基因主要富集在ECM受體相互作用、PI3K-AKT等信號通路,模塊3中涉及基因主要富集在甲狀腺激素合成、自身免疫性甲狀腺疾病等信號通路。

圖3 下調基因KEGG通路分析結果

基因名稱關系強度分數拓撲系數MYC63 054300.072 463 77CDC617 620240.166 666 67AURKA13 140220.190 637 72FEN15 976210.251 984 13MCM43 426190.288 888 89

表3 3個模塊中涉及基因通路分析結果

圖4 模塊1、2、3的蛋白互作關系
甲狀腺癌是內分泌系統和頭頸部腫瘤中最常見的惡性腫瘤[4]。通過對腫瘤組織與正常組織基因表達譜的生物信息學分析發現,差異表達基因對血管發育、細胞增殖、轉化生長因子β(TGF-β)反應及細胞生物合成調控等生物學過程都有一定影響。ECM受體相互作用、PI3K-Akt信號通路、各種癌癥的疾病通路、細胞周期等信號通路是上調基因的主要富集通路,下調基因主要參與癌癥轉錄失調、甲狀腺激素合成、TGF-β等信號通路的調控。PI3K-Akt通路作為細胞內信號轉導的重要通路之一,在多種腫瘤中異常活化[5];研究表明,PI3K-Akt通路的異常活化可抑制腫瘤細胞凋亡,使腫其增殖、轉移和侵襲能力顯著增強[6]。腫瘤細胞的生長由各種生長因子、激素及細胞外基質等物質構成的微環境維持,這些因素的改變會使腫瘤的發生、發展過程及對藥物敏感性發生變化。CAMs是包含整合素、選擇素和免疫球蛋白等在內的一類黏附因子[7],可通過介導細胞黏附作用及與相應配體結合,減少腫瘤細胞“失巢凋亡”和誘導腫瘤血管生成,促進癌細胞的生長和遷移[8]。TGF-β作為一種細胞生長因子,能夠誘導腫瘤上皮細胞發生上皮間質轉化及關鍵血管生成因子的表達[9],促進腫瘤細胞的侵襲。甲狀腺激素合成與甲狀腺功能狀態息息相關,其水平變化可作為惡性腫瘤患者其病情,以及預后判斷的輔助指標[10]。因此,監測以上信號通路可能有助于預測甲狀腺癌的進展及其對藥物的敏感性。
同時,本文通過差異表達基因的PPI分析,篩選出MYC、CDC6、AURKA、FEN1和MCM4這5個關鍵基因。MYC基因家族及其產物可促進細胞增殖、永生化、去分化和轉化等過程,在多種腫瘤形成過程中處于重要地位[11];目前發現的MYC基因家族成員包括c-myc、n-myc及l-myc,其中c-myc是一種涉及細胞分化、生長、增殖以及凋亡的轉錄因子,與腫瘤的形成、發展和轉移密切相關[12],下調MYC表達的治療可能會抑制甲狀腺腫瘤細胞的增殖。CDC6是啟動DNA復制的重要因子之一,在多種癌癥組織和細胞中表達異常上調[13],其主要通過調控起始DNA復制、激活S-M監測點及促進有絲分裂滑脫,影響腫瘤細胞的增殖及轉移[14];然而,目前尚無關于CDC6異常表達與甲狀腺癌關系的研究報道,因此其可能成為未來甲狀腺癌診斷的分子標志物和治療的新靶點。AURKA基因編碼的絲氨酸蘇氨酸激酶,通過參與中心體的分離和成熟以及紡錘體兩極的建立,確保細胞有絲分裂中染色體的正確分離和胞質分裂的順利完成[15];AURKA的高表達能夠直接或間接地激活多種致癌蛋白或使多種抑癌蛋白失活,CHEN等[16]的研究表明AURKA在衰減P35和P73的腫瘤抑制功能上起著重要作用。FEN1是一種多功能蛋白,參與了細胞DNA 復制、修復和凋亡等過程[17];研究發現,FEN1在多種腫瘤癌癥中高表達,抑制其表達可降低腫瘤的增殖和侵襲能力,逆轉腫瘤耐藥性[18]。MCM4是啟動真核基因組DNA復制所必需的微小染色體維持蛋白,據文獻報道,MCM4 是與P53、KI-67、PCNA 等相比具有同等地位或更具臨床指導意義的標記物[19-20],可為研究甲狀腺癌發生、發展,指導臨床治療及判斷預后等方面提供更廣闊的思路。此外,PPI網絡模塊分析顯示,甲狀腺癌的發展主要與DNA復制、細胞周期、PI3K-Akt信號通路、ECM受體相互作用、焦點黏附及甲狀腺激素合成等信號通路有關,這些通路與腫瘤細胞的增殖、侵襲和轉移密切相關,在甲狀腺癌的發生、發展、浸潤和轉移等方面起著重要作用,為研究甲狀腺癌的發病機制及腫瘤標志物的篩選提供了理論依據。
綜上所述,本文通過生物信息學方法分析甲狀腺腺癌及癌旁組織的基因表達譜芯片數據,發現影響甲狀腺癌發生、發展的重要通路及關鍵基因,為闡述甲狀腺癌的發病機制及診斷提供了全新視角,并為甲狀腺癌靶向抑制劑的開發提供新的方向。然而,本文根據大數據預測的甲狀腺癌相關信號通路及關鍵基因及它們是否也在其他癌癥中發揮作用,還需通過分子生物學研究進行進一步驗證。