丁華杰,葉 云,安 歡,高 強,鐘英英
(廣西科技大學,廣西 柳州 545006)
在我國,肺癌的發病率及死亡率在惡性腫瘤中位居第一位[1],而肺腺癌又是肺癌的主要類型之一[2],嚴重威脅著人類健康。臨床上75%的患者被確診時已發生轉移或者已處于癌癥晚期,雖然隨著現代臨床診斷水平的提高,使得肺癌患者整體生存率和生存質量有了改善,但是預后生存率依然不理想,僅為15%左右[3-4]。雖然目前對肺癌分子機制有一定的了解,但對于改善肺癌的診治現狀而言還是不夠的,因而需要進一步發現肺癌相關基因,為肺癌的診斷、治療、預后診斷等提供新的靶點,研究肺腫瘤發生發展和潛在機制,以及確定潛在預后生物標志物靶標。
研究表明,腫瘤的發生是多基因、多步驟、多階段的過程[5],這一過程可能涉及不同的基因和不同的變化形式,而基因的變化和基因間的信號傳遞與腫瘤臨床治療的敏感性密切相關[6],如能在分子水平上對腫瘤基因變化提供指標,則對腫瘤的個性化和預見性治療具有臨床實用意義。近年來,分子靶點和網絡的大數據生物信息學越來越受到重視[7-8],特別是引入了大量的分子分析平臺,包括肺癌在內的多種癌癥基因組數據是公開的[9-10]。這些數據為研究人員更好地認知癌癥分子,尋找新的治療靶點提供了寶貴的資源[11-12]。鑒于肺腺癌是肺癌的主要類型之一,本文遵循循證醫學的原理及方法,采用了Kaplan-Meier分析和系統評價方法等的應用,從基因表達綜合數據庫、DAVID數據庫和Oncomine、GEPIA等數據庫著手研究,探討關鍵基因在肺腺癌患者中的表達分布和預后意義,篩選出候選基因作為預測癌癥生物標志物與肺腺癌預后關系等,無論從方法學、理論基礎等方面均具有十分重要的意義。因此,生物信息學分析是一種可行的、非常有價值的數據挖掘和基因篩選預測的方法,可為后期的實驗驗證、新藥物的研發、患者的預后提供很好的思路。
在本研究中,通過Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo)數據庫獲取數據集(GSE18842,GSE74706,GSE101929),均基于GPL570平臺(Affymetrix Human Genome U133 Plus 2.0 Array)。如表1。
為了揭示差異基因的生物學功能,對獲取的差異基因進行富集分析。Gene Ontology(GO)功能注釋分析(包括細胞組成、生物過程和分子功能三個方面)。以及京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG),信號通路分析均通過DAVID6.7執行,分析這些差異基因可能引起哪些基因功能和信號通路的改變。
STRING數據庫(https://string-db.org)(版本11.0)包括2031種生物的9 643 763種蛋白質,共計1 380 838 440個相互作用的信息。可以用于構建蛋白質-蛋白質相互作用網絡,它主要是通過節點、邊緣、度和網絡結構來測量網絡,因此它可以幫助識別關鍵基因和關鍵蛋白質群落。
Oncomine是癌癥微陣列數據庫和在線數據挖掘平臺,可用于分析差異基因、尋找離群值、預測共表達基因等。其中包括74個癌癥微陣列數據庫,在本研究中,選用基于微陣列平臺Human Genome U133 Plus 2.0來檢索mRNA表達信息來驗證在肺癌中的表達差異情況。設定篩選條件為:P<1E-4,FOLD CHANGE>2倍,GENE RANK=Top 10%。
通過基因表達譜動態分析(Gene Expression Profiling Interactive Analysis,GEPIA)選擇TCGA和GTEx數據集,分析候選基因在正常肺組織以及肺腺癌組織中的表達情況并進行比較。
Kaplan-Meier Plotter[13]包含乳腺癌、肺癌、卵巢癌和胃癌患者共計54 675個基因和10 461個癌癥樣本的存活率。使用Kaplan-Meier繪圖儀分析了mRNA在所有肺腺癌中不同類型的臨床病理分類中的預后價值。以P<0.05為差異有統計學意義。

表1 基因表達譜數據集

圖1 差異基因的篩選Figure 1 Screening of the differential genes
通過R語言多種軟件包對以上基因表達譜數據進行分析,篩選得到上下調差異基因,繪制火山圖,如圖1所示。篩選條件設定為:校正后P<0.05,|log2FC|>2.0。利用FunRich軟件獲得共同差異基因314個,如圖2所示。

圖2 獲取的共同差異表達基因Figure 2 Obtained common differentially expressed genes
差異基因功能富集分析結果顯示,細胞組成(CC)主要包括染色體組成、中心體和紡錘體等相關,生物過程(BP)主要包括細胞周期及有絲分裂,分子功能(MF)則主要包含核苷酸、蛋白激酶和細胞因子活性等(圖3A)。信號通路富集結果顯示,差異基因主要與細胞周期、p53信號通路、PPAR信號通路、ECM受體相互作用等顯著相關(圖3B)。

注:A:基因功能富集分析結果。 B:信號通路富集分析結果。圖3 基因功能富集分析和信號通路分析Note. A,Gene function enrichment analysis results. B, Signal pathway enrichment analysis results.Figure 3 Gene functional enrichment analysis and signal pathway analysis
如圖4所示,將STRING中已經構建的PPI蛋白網絡,導入Cytoscape 3.6.1軟件中的cytoHubba插件,采用最大聚集中心(Maximal Clique Centrality,MCC)方法,選取排名前50個基因做出蛋白網絡圖,最終選取前6個基因定義為關鍵基因(BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB)進行下一步的分析。

圖4 部分關鍵基因的蛋白互作網絡圖Figure 4 Protein interaction network diagram of some key genes
如圖5所示,在Oncomine數據庫中確定這六個候選基因在不同癌癥中的mRNA表達水平,在所有有統計學意義的研究中,候選基因在肺癌中全部呈現高表達。
GEPIA數據庫分析結果圖6顯示,與正常肺組織相比,(BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB)在肺腺癌中mRNA均呈現高表達狀態。并且都具有顯著性差異,P<0.05。
為了進一步驗證候選基因在肺腺癌發生發展過程中的影響,采用Kaplan-Meier Plotter分析候選基因對患者預后的影響,分析結果如圖7所示。
盡管目前肺腺癌的研究一直是科研界的研究熱點,但是其早期診斷、治療以及預后效果仍然得不到較好的改善。因此,闡明肺腺癌的發生發展機制對肺腺癌的發現、診斷以及預后恢復至關重要。隨著腫瘤分子生物學的深入研究,肺腺癌發生發展過程中的差異表達基因的篩選變得更方便,這為預防和治療肺腺癌提供了一個很好的思路。

圖5 候選基因在不同癌癥中的表達情況Figure 5 Expression of the candidate genes in different cancers
為了找到與肺腺癌預后相關的候選生物標志物,由全球最大基因表達綜合數據庫(GEO)選取三組基因表達譜數據(GSE18842,GSE74706,GSE101929)。為了對數據結果進行更透徹的分析,結果更有意義,對基因進行分類,并與生物學表型相關聯,發掘其調控的生物學功能,DAVID數據庫因其使用簡便,分析結果全面受到科研工作者的廣泛使用,所以本次研究選用DAVID對篩選出的差異基因進行GO功能注釋及KEGG通路富集分析,提示這些差異基因主要參與染色體組成、中心體、細胞周期、有絲分裂和蛋白激酶等作用。而在KEGG信號通路富集分析發現這些基因主要參與細胞周期、p53信號通路、PPAR信號通路以及ECM-受體相互作用等。眾所周知,腫瘤細胞增殖與細胞周期密切相關,并受到周期相關因子的調控[14]。早些年的研究顯示,P53基因是明確的保守基因,并且參與細胞周期阻滯,細胞凋亡和衰老誘導。Weiss等[15]的研究表明,P53信號通路的改變在非小細胞肺癌中很常見。最近的研究表明,PPARs受體激動劑可能會導致某些腫瘤的發生,比如乳腺癌、膀胱癌、肝癌、血管癌等[16]。除此之外,還有部分基因富集到ECM受體相互作用,同樣在癌癥的發生發展過程中起著重要作用。
將篩選高表達基因導入到Cytoscape產生的PPI網絡中,進一步采用CytoHubba識別候選基因,做出蛋白相互作用網絡圖,BUB1B等六個基因富集分數較高,且相關性較好。另外Oncomine數據庫是當今世界上最大的腫瘤芯片數據庫與整合平臺,可以通過可視化結果將關鍵基因在不同癌癥種類中的表達情況展示出來,有助于我們進一步研究基因的潛在意義,基因表達譜數據交互分析(Gene Expression Profiling Interactive Analysis,GEPIA)數據庫是在腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)與基因型—組織表達(The Genotype-Tissue Expression,GTEx)這兩大著名轉錄組數據庫基礎上建立的可視化癌癥大數據分析平臺,因此本文通過Oncomine數據庫、GEPIA數據庫以及Kaplan-Meier Plotter數據庫分析了各個基因在正常與癌癥細胞中的表達情況以及生存分析情況,進一步驗證了研究人員篩選的候選基因的準確性。BUBIB是細胞周期的重要調控因子,在多種細胞周期中有明顯的過表達,其過表達與胃癌[17]、膀胱癌[18]、肝癌[19]等多種癌癥的進展和復發有關[20]。但在肺癌中的研究相對較少。CDCA8和CDC20是屬于CDC家族(cell division cycle gene,細胞分裂周期基因)的基因,這是一類編碼周期性激酶的蛋白[21]。人類細胞分裂周期相關蛋白-8(CDCA8),是細胞有絲分裂的調節因子,被證明與肺癌相關[22]。研究發現,當敲除CDCA8基因時,胚胎干細胞、結腸癌、肺癌的增殖得到了明顯的抑制[23]。而CDC20可能是一種致癌蛋白,促進人類癌癥的發生發展。其在分化不良的腫瘤細胞中的表達顯著升高,與肺癌[24]、膀胱癌[25]、結腸癌[26]、乳腺癌[27]等癌癥的不良預后有關。

注:A(BUB1B),B(CDCA8),C(CDC20),D(BUB1),E(KIF20A),F(AURKB)。圖6 基因在肺腺癌中的表達情況Note. A(BUB1B),B(CDCA8),C(CDC20),D(BUB1),E(KIF20A),F(AURKB).Figure 6 Gene expression in lung adenocarcinoma

圖7 候選基因在肺腺癌中的生存分析Figure 7 Survival analysis of the candidate genes in lung adenocarcinoma
BUB1可提高抑癌基因如P53的突變率,致使由p53信號通路引起的細胞凋亡障礙,從而導致細胞無限惡性增殖[28]。Jia等[29]的研究發現,BUB1可能是通過磷酸化CDC20分子來實現對細胞周期的調控的。有趣的是,相關研究發現BUB1顯著過表達與預后不良相關[30],但其在不同類型癌癥中發揮不同作用的一個原因可能是表達水平的不同。研究表明KIF(驅動蛋白家族成員)的表達和功能方面發生異常,提示在各種腫瘤的發生中發揮重要作用[23]。KIF20A是一種微管蛋白相關的驅動蛋白,是屬于KIF(肌動蛋白超家族)蛋白的一員,協調細胞分裂中的細胞轉運,在多種癌細胞中過表達,并與紫杉醇耐藥性相關[31]。Sheng等[32]的研究表明,KIF20A基因的高表達與胃癌的預后不良有關,但其在肺腺癌中具體的作用機理、表達水平和臨床價值尚不清楚。AURKB是一種有絲分裂檢查點激酶,其過表達導致P53信號通路失活,從而在細胞癌變過程中發揮作用[33]。這與BUB1基因的致病機理相似。AURKB通過直接磷酸化CDCA8的Ser154、Ser219、Ser275和Thr278位點,可以穩定癌細胞中的CDCA8蛋白,通過在肺癌中磷酸化CDCA8,從而抑制肺癌細胞的生長[23]。然而,異常AURKB高表達是如何維持平衡的,以協調驅動有絲分裂細胞的進展和惡性腫瘤仍不清楚。因此,可以做出假設,這幾個基因是肺腺癌發生發展的并有希望成為治療靶標的候選生物標志物。
本研究初步分析顯示,在肺腺癌患者中,BUB1B、CDCA8、CDC20、BUB1、KIF20A、AURKB均高表達且與腫瘤的發生發展有關,并對于預測肺腺癌預后有一定價值。基于分析結果可以認為,BUB1B等六個基因極有可能是肺腺癌發生發展的重要部分,以及準確的治療靶點,本研究可為后續肺腺癌的診斷、靶向治療、藥物的研發方提供新的思路。