李成長 徐久成
(河南師范大學 1生命科學學院細胞分化與調控省部共建國家重點實驗室培育基地,河南 新鄉 453007;2計算機與信息工程學院智慧商務與物聯網技術河南省工程實驗室;3新鄉醫學院基礎醫學院生理學與病理生理學系)
美國肺癌的5年生存率不超過17.4%〔1,2〕。肺腺癌是最常見類型的肺癌〔3〕,一項肺癌發病類型方面的流行病學研究顯示,肺腺癌的發病率為40%,大細胞肺癌為9%,肺鱗癌為25%,小細胞肺癌為24%〔4〕。肺腺癌治療手段主要包括:手術切除、放療、化療、激素療法和分子靶向療法,在肺癌發病早期手術切除的治療效果比較好,但該病早期癥狀不明顯,易被忽視,確診時常處于晚期。晚期肺腺癌的治療手段比較有限,分子靶向療法是一個重要選擇,但由于缺乏有效的分子靶點,目前大多數藥物的治療效果還不能令患者滿意。
Pan等〔5〕研究發現在中國肺腺癌患者中表皮生長因子受體(EGFR)的Del19肽突變(估計頻率為40%)導致中國肺腺癌患者患病,EGFR可能是免疫治療的特異性靶標。Hu等〔6〕研究發現EGFR突變的晚期肺腺癌患者給予酪氨酸激酶抑制劑可有效延長患者生存時間。上皮-間質細胞轉化與肺腺癌細胞的耐藥性密切相關,Han等〔7〕研究表明miR-146b通過靶向蛋白酪氨酸磷酸酶(PTP)1B逆轉人肺腺癌細胞的上皮-間質轉化,進而抑制該型腫瘤的耐藥性。盡管相關研究已發現多種肺腺癌治療的潛在分子靶標,但有關治療該病的高效分子靶標相對較少。這也吸引多個研究領域的學者參與尋找癌癥潛在分子靶標的研究中,相關方法較多,既有傳統的實驗方法,又有基于機器學習的特征選擇方法〔8~12〕。本文試圖利用生物信息學方法尋找肺腺癌發病的關鍵基因,為該病的分子靶向治療提供理論依據。
1.1基因表達數據的選取 檢索GEO數據庫,選取肺腺癌基因表達譜數據集:GSE31210。該基因表達譜來源于日本國家癌癥中心研究所的基因芯片肺腫瘤表達情況的檢測結果,共包含226個肺腺腫瘤組織樣本和20個正常肺組織樣本。
1.2基于GEO2R獲取顯著差異表達基因 為方便研究人員對GEO數據庫的基因芯片數據進行分析,GEO提供了基于R語言的差異基因數據分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/),該工具利用R語言的GEOquery、Biobase和limma工具包比較數據庫中的兩組樣本,發現并鑒別不同實驗條件下表達有顯著性差異的基因。本文利用GEO2R對上述基因表達譜數據集GSE31210中226個腫瘤樣本和20個正常樣本的基因數據進行差異分析,采用參數默認分析數據,差異表達基因(DEGs)的選擇標準為:adj.P值<0.05且 |log2FC|>2。基于R語言繪制火山圖(Volcano plots)可視化顯著差異表達的基因。
1.3基因本體論(GO)與京都基因與基因組百科全書(KEGG)功能富集分析 GO分析主要包括GO注釋和GO富集分析。GO富集分析主要包括生物過程、細胞組成和分子功能三個方面的內容,常用于高通量數據DEGs 的生物學功能的分析。作為一個綜合數據庫,KEGG包含16個子數據庫,其中之一就是KEGG通路數據庫。利用該數據庫研究人員可分析DEGs顯著富集的生物學通路。DAVID是一個基于GO和KEGG數據庫的基因功能富集分析工具,該工具功能強大,采用交互式圖形用戶界面,非常便于用戶使用,本文利用DAVID對DEGs進行GO和KEGG通路富集分析,P<0.05且基因count排名前10位的術語或通路作為顯著富集的納入標準。
1.4蛋白互作網絡構建與關鍵基因的鑒別研究 基因通過翻譯形成蛋白實現其生物學功能,而蛋白質-蛋白質之間相互作用(PPI)是實現其生物學功能的重要途徑,與多方面的生命活動相關,由此分析,研究PPI網絡有助于揭示DEGs的生物功能。STRING數據庫是構建PPI網絡經典途徑,本文在多蛋白模式下,將肺腺癌DEGs輸入STRING數據庫,采用默認參數構建PPI網絡,由于Cytoscape軟件更擅長網絡數據的分析和可視化,將STRING數據庫所構建PPI網絡導入到Cytoscape軟件,基于最大團中心性算法(MCC算法)利用Cytoscape內置的Cytohubba插件對網絡進行拓撲分析,鑒別與肺腺癌發病相關的關鍵基因。
1.5生存分析 生存分析是一種研究影響因素與生存時間和生存結局關系的數據統計分析方法,可用于探索特定基因過表達對患者的生存時間是否有顯著影響。本課題相關肺腺癌基因的生存分析主要利用Kaplan Meier plotter(http://kmplot.com/)在線生存分析數據庫完成,在此數據庫中,可獲得肺癌、卵巢癌、胃癌和乳腺癌的生存數據,為評估特定基因的預后價值,該數據庫根據患者基因的表達值(高表達與低表達)中位數將其分為兩個隊列。可用于分析某個基因表達量高低對患者生存時間是否有顯著影響,同時還可繪制生存曲線,是腫瘤生存數據分析的一個可靠工具。
2.1肺腺癌DEGs 基于GEO2R在線工具對基因表達譜數據集GSE31210的腫瘤樣本與正常樣本進行差異顯著性分析,共獲得443個DEGs,其中表達上調的DEGs有171個,272個DEGs表達下調。利用火山圖可視化DEGs表達情況(圖1),其中縱坐標代表基因表達水平變化倍數的對數值,橫坐標代表差異顯著性P值的負對數值,每個基因用圖中的一個點表示,logFC取值<-2的灰色點代表表達顯著下調的基因,logFC取值>2的灰色點代表表達顯著上調的基因,其余黑色點代表表達情況無顯著變化的基因。
2.2GO與KEGG功能富集分析 本文利用DAVID數據庫對DEGs進行GO與KEGG功能富集分析,基因count>10且P<0.05作為顯著富集的納入標準,功能富集顯著性排名前10的GO詞匯和KEGG通路利用柱狀圖表示,對富集水平進行可視化展示。GO富集分析結果顯示,GO生物學過程主要富集于:細胞對雌二醇刺激的反應、血管生成、細胞黏附、膠原分解代謝過程、炎癥反應、血清素攝取的負調控、受體內化、細胞表面受體信號通路、細胞外基質分解、蛋白水解、膠原分解代謝等生物學過程(圖2A)。細胞組分主要富集于細胞外區域、細胞外空間、質膜的整合組分、細胞外蛋白質基質、脂膜筏、質膜、膜的組成部分、細胞表面、細胞外泌體、細胞質核周區域(圖2B)。分子功能方面主要富集于成纖維細胞生長因子結合、鈣離子結合、轉運活性、絲氨酸型內肽酶活性、與物質的跨膜運動有關的ATPase活性、Ras胍基核苷酸交換因子活性、肝素結合、金屬內肽酶活性、金屬肽酶活性、膠原結合(圖2C)。KEGG通路富集分析主要集中于ECM-受體相互作用、蛋白質消化吸收、癌癥中的轉錄失調、細胞黏附分子(CAMs)、黏附斑等生物學通路 (圖2D)。
2.3蛋白互作網絡的構建 本文利用STRING數據庫構建蛋白質-蛋白質互作網絡,該數據庫基于文本挖掘、實驗證據、數據庫和共表達關系等信息確定蛋白之間的互作關系,網絡中的每個點代表一種蛋白,任何兩點之間的連線表示兩蛋白之間存在互作關系,采用數據庫默認參數構建蛋白互作網絡(圖3)。利用肺腺癌DEGs所構建蛋白互作網絡總節點數為401,邊數為1 131,平均節點度為5.64,局部聚類系數為0.369,互作網絡富集P值<1.0×10-16。
2.4基于MCC算法鑒別網絡中的關鍵基因 將STRING數據庫所構建的互作網絡信息導入到Cytoscape軟件,基于Cytoscape內置的Cytohubba插件鑒別蛋白互作網絡中的關鍵基因,該插件包含11種可用于網絡拓撲分析的算法,相對于其他幾種算法,MCC算法的穩定性較好,結果可靠,在關鍵節點的鑒別分析中應用廣泛,本文采用MCC算法來鑒別肺腺癌發病相關的關鍵基因,共選取10個關鍵基因,這10個的關鍵基因按照度值排序依次是:CCNA2、HMMR、CDCA8、TOP2A、EXO1、RRM2、DLGAP5、CDC45、DEPDC1、ANLN (圖4)。
圖1 肺腺癌DEGs的火山圖
A.GO生物學過程富集分析結果;B.GO細胞學組分富集分析結果;C.GO分子功能富集分析結果;D.KEGG通路富集分析結果
圖3 基于STRING數據庫構建DEGs的蛋白互作網絡
深色節點為關鍵基因,其余節點為與關鍵基因有直接互作關系的基因
2.5生存分析 Kaplan Meier數據庫可對21種腫瘤相關的54 000多個基因探針進行生存分析。本文利用Kaplan Meier數據庫對所選取的排名前10位的關鍵基因進行生存分析,結果表明MCC算法所選取的10個關鍵基因過表達的肺腺癌患者的生存時間都表現為顯著縮短(P>0.05)。排名前4位的關鍵基因分別為CCNA2、HMMR、CDCA8及TOP2A。
本研究提示DGEs主要包含與腫瘤發病密切相關的基因。生存分析表明所鑒別關鍵基因的過表達與患者的生存時間顯著縮短密切相關,表明這些基因具有重要的生物學功能。一項基于基因共表達網絡的研究顯示CCNA2和CDCA8在細胞周期進程中起關鍵作用〔13〕,但其在肺腺癌過程中的作用,未見報道。一項為期3年的隨訪研究發現HMMR表達升高的患者,與該基因表達下降的患者相比,生存時間較短〔14〕。Stevens等〔15〕研究發現肺腺癌細胞中的HMMR表達減少可降低其誘發肺部腫瘤向較遠部位轉移的能力。Fan等〔16〕研究也提出TOP2A是肺腺癌病變關鍵基因這一結論。Yang等〔17〕研究表明EXO1是肺癌風險相關基因,與從不吸煙人群中EGFR外顯子部分部位缺失的增加關系密切。 MacDermed等〔18〕研究表明核糖核苷酸還原酶(RR)M2參與肺癌腺細胞增殖和細胞周期調控〔18〕,以該基因為靶點的藥物吉西他濱目前已應用于治療非小細胞肺癌〔19〕。Zhang等〔20〕研究提示DLGAP5與肺腺癌細胞有絲分裂過程紡錘體功能密切相關,具有重要的預后價值。基于基因表達譜相關研究提示CDC45與細胞周期和DNA復制顯著相關〔21〕。Wang等〔22〕研究證明含DEP結構域的蛋白質(DEPDC)1與肺腺癌不良預后相關,肺腺癌細胞系相關研究表明DEPDC1通過抑制調節NF-κB活性來抑制A549細胞的凋亡,該基因可能是肺癌的新型治療靶標。ANLN高表達患者的肺腺癌細胞轉移明顯高于ANLN低表達患者,ANLN表達受抑制后,癌細胞遷移和侵襲能力降低〔23〕。