張良舜,葉樺
胃癌的發病率一直居高不下,其發病機制涉及眾多基因和分子信號通路。生物信息分析結合分子生物學與信息技術,能夠高效、大規模的獲取生物信息。本文對公共基因芯片數據庫(GEO)中的胃癌表達譜芯片進行信息技術分析,從而獲得差異表達基因,研究差異表達基因所參與的信號通路和相互作用機制,有助于對胃癌病理機制的深入了解,協助尋找防治胃癌的有效方法,現報道如下。
1.1 一般資料 表達譜芯片數據來源于美國國立生物技術信息中心GEO中胃癌數據集,編號分別為GSE118897和GSE79973,均為Expression profiling by array,種屬均為Homosapiens,包括20例胃癌組織和20例正常胃組織。
1.2 數據 處理及差異基因篩選GEO中的原始數據集采用Affy、FunRich、Limma、Pheatmap及Ggplot2R等程序包在R軟件中進行分析,使用RMA算法進行背景校正、標準化及表達值計算。處理后數據采用Fold-change(FC)和T-test進行差異基因篩選,標準為P<0.05且|log(FC)|>1。
1.3 基因本體論(GO)富集分析 和京都基因與基因組百科全書(KEGG)通路分析使用R軟件中的cluster Profiler程序包對差異表達基因分別進行GO富集分析和KEGG信號通路分析。通過GO對基因屬性進行注釋[1],從而了解差異表達基因的功能、定位及參與的生物學途徑。采用Blast2Go軟件,從生物過程(BP)、分子功能(MF)以及細胞組分(CC)三個方面對差異表達基因進行注釋。生物體內生理病理變化是一系列基因協調作用的結果,KEGG通路數據庫收錄了生物學過程、疾病發生機理等多個方面的通路信息[2]。通過計算機利用基因信息對復雜的細胞活動和生物體行為作出計算推測。
1.4 PPI網絡構建和分析 將兩組樣本篩選出的差異表達基因采用String 11.5分析,對胃癌差異表達基因進行蛋白質相互作用(PPI)網絡分析,設置最低要求互動分數大于0.7。利用Cytoscape軟件(version 3.9.0)計算評分,取最高相關度的前幾名作為關鍵基因。采用MCODE插件對網絡模型進行評價,選擇score>3,node>4模塊中的基因進行通路富集分析。
2.1 差異表達基因篩選結 果獲得229個差異表達基因,其中上調基因96個(41.9%),下調基因133個(58.1%),見封二彩圖1a。兩組胃癌芯片數據集的差異基因表達熱圖見封二彩圖1b。

圖1 差異表達基因篩選結果
2.2 差異表達基因GO富集分析 對共同上調或下調的差異表達基因進行GO富集分析,以氣泡圖的形式呈現,見封二彩圖2。尤其關注BP和MF的結果,其中糖胺聚糖結合、膠原結合、整合素結合、趨化因子活性、酶抑制劑活性、G蛋白偶聯受體結合和磷脂酶抑制劑活性最為顯著。

圖2 差異表達基因GO富集分析
2.3 差異表達基因KEGG通路富集分析 差異表達基因主要涉及礦物質吸收、胰腺分泌物、瘧疾、細胞周期及細胞外基質-受體相互作用等通路,見封二彩圖3。

圖3 差異表達基因KEGG通路富集分析
2.4 差異表達基因PPI分析 基于String數據庫,篩選出最高度連通性的6個節點基因作為關鍵基因,分別是周期蛋白依賴性激酶(CDK1)、細胞分裂周期20同源物(CDC20)、細胞分裂周期關聯8(CDCA8)、驅動蛋白家族成員2C(KIF2C)、母系胚亮氨酸拉鏈激酶(MELK)、泛素結合酶E2C(UBE2C)。
2.5 PPI網絡關鍵模塊分析 在Cytoscape軟件中,使用MCODE插件對PPI進行關鍵模塊的篩選,篩選出2個重要的子模塊。A模塊MCODE得分為19.4,由21個節點和194個相互作用關系構成(封二彩圖4a),均為上調基因,由紅色表示;B模塊MCODE得分為5.0分,由5個節點和10個相互作用關系構成(封二彩圖4b),均為下調基因,由綠色表示。對PPI中2個重要子模塊所包含差異表達基因進行GO富集分析和KEGG信號通路分析。模塊A中GO富集分析結果顯示差異表達基因在后期促進復合物結合、ATP結合和激酶結合等分子功能中發揮重要作用,參與后期促進復合物依賴性分解代謝過程、有絲分裂紡錘體微管與動粒的附著和細胞周期檢查點等生物過程。KEGG信號通路分析結果顯示細胞周期、卵母細胞減數分裂和孕酮介導的卵母細胞成熟等信號通路有密切關聯。模塊B中KEGG信號通路分析結果顯示礦物質吸收過程中發揮作用。

圖4 MCODE分析差異表達基因的關鍵子模塊
胃癌的發病機制是個多基因多通路的復雜進展過程[3-4]。雖然手術切除仍然是治療胃癌的主要方式,但通過對胃癌發生機制相關基因及信號通路的深入探索,有助于開發新的胃癌治療靶點,對提高預后有積極作用。
本研究基于String數據庫型篩選出CDK1、CDC20、CDCA8、KIF2C、MELK和UBE2C 6個得分較高的關鍵基因,對上述6個核心基因進一步文獻挖掘。發現胰島素基因增強子結合蛋白1在絲氨酸269位點上被CDK1磷酸化,增強了其與周期蛋白B1和周期蛋白B2啟動子的結合,增強了其在胃癌中的轉錄活性[5]。CDC20表達在多種人類癌癥中增加,并在腫瘤發生和進展中發揮重要作用。Ding等[6]數據表明CDC20上調與胃癌的侵襲性進展和預后不良有關。驅動蛋白家族成員-23和CDCA8的表達存在正相關,驅動蛋白家族成員-23可能通過影響CDCA8的表達來促進胰腺癌的增殖[7]。本文中發現CDCA8在胃癌中上調,但是否能夠促進胃癌的增殖需要實驗進一步證明。KIF2C是驅動蛋白家族成員之一,是一種微管運動蛋白,其過表達與胃癌和結腸直腸癌患者的淋巴浸潤和淋巴結轉移相關[8]。MELK是一種細胞周期依賴性的絲/蘇氨酸蛋白激酶,可能是針對胃癌治療的潛在目標[9]。MELK是一種原癌基因,參與多種通路調節,可以通過FAK/Paxillin途徑促進胃癌細胞遷移和侵襲。UBE2C屬于E2泛素偶聯酶家族成員,能夠調控有絲分裂檢驗點以及控制細胞周期進程。UBE2C在許多人類惡性腫瘤中具有致突性的致癌作用,在胃癌患者中經常過度表達,UBE2CmRNA代替基因組擴增的高表達是在胃腺癌中觀察到的主要變化[10]。上述的6個核心基因也均涉及細胞周期的過程,目前已知的Ki-67已經廣泛使用在消化道早期腫瘤ESD術后標本的免疫組化實驗,這種蛋白存在于細胞核中,蛋白的數量和細胞的分裂周期有非常緊密的聯系。筆者經常使用Ki-67來協助早癌消化道腫瘤的診斷,在臨床上具有重要意義。KEGG信號通路分析結果顯示差異表達基因與卵母細胞減數分裂和孕酮介導的卵母細胞成熟等信號通路有密切關聯。GO富集分析的生物過程結果中,比如有絲分裂紡錘體微管與動粒的附著過程和后期促進復合物依賴性分解代謝過程,都涉及細胞周期。
綜上所述,本文通過生物信息學方法分析胃癌組織和正常胃組織的基因表達譜數據,發現多個關鍵基因和通路都涉及細胞周期。有序進行的細胞周期是維持生命體正常代謝和活動的前提。細胞周期相關基因和通路能夠調控細胞周期進而控制細胞增殖,在腫瘤的發生發展中起到重要作用[11-12]。通過干預細胞周期相關基因和細胞信號通路來抑制胃癌發生和進展是當下研究熱點。本研究結果為胃癌的發病機制、治療和預后判斷等研究提供了重要依據,需要結合進一步實驗驗證。