呂金海
(懷化學(xué)院,湖南 懷化 418008)
肺癌是常見(jiàn)的癌癥類型之一[1],其分為小細(xì)胞肺癌(Small Cell LungCancer,SCLC)和非小細(xì)胞肺癌(Nonsmall Cell LungCancer,NSCLC)2 種類型。其中,NSCLC約占肺癌的85%[2]。肺腺癌(LungAdenocarcinoma,LUAD)是非小細(xì)胞肺癌的主要亞型之一。肺癌患者早期無(wú)明顯癥狀,大部分患者被發(fā)現(xiàn)時(shí)已經(jīng)處于中晚期[3]。肺腺癌與多種風(fēng)險(xiǎn)因素有關(guān),其成因與發(fā)病機(jī)制尚不完全清楚。
在癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)、國(guó)際癌癥基因組聯(lián)盟(International Cancer Genome Consortium,ICGC)等大樣本腫瘤研究項(xiàng)目開(kāi)展后,腫瘤樣本中生成了大量對(duì)腫瘤研究有幫助的數(shù)據(jù)[4-5]。此外,一些小規(guī)模癌癥項(xiàng)目的數(shù)據(jù)也被存入高通量基因表達(dá)數(shù)據(jù)庫(kù)(Gene Expression Omnibus,GEO)等數(shù)據(jù)庫(kù)[6]中,為生物信息學(xué)分析提供了一些幫助。
在各種實(shí)驗(yàn)技術(shù)都存在局限性的情況下[7],基因芯片技術(shù)和高通量測(cè)序技術(shù)的應(yīng)用給予了癌癥研究一個(gè)新視角。公共數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)為不同類型癌癥基因表達(dá)的綜合分析提供了便利。最近,一些研究人員將生物信息學(xué)得到的結(jié)果與臨床數(shù)據(jù)相結(jié)合,發(fā)現(xiàn)了用于不同類型癌癥的診斷、治療和預(yù)后的新的生物標(biāo)志物[8-10],這類新的生物標(biāo)志物被稱為hub 基因?;诖?,CHEN 等人[11]發(fā)現(xiàn)了4 個(gè)有望作為生物標(biāo)記物的hub 基因。GUO 等人[12]鑒定出了9 個(gè)與腎上腺皮質(zhì)癌相關(guān)的hub 基因并報(bào)道了相關(guān)通路。
本研究主要是利用綜合生物信息學(xué)探究癌癥的底層發(fā)病原理,并尋找其中可能的分子作用機(jī)制來(lái)改進(jìn)診斷方法和預(yù)防措施。我們從GEO 中獲取了GSE116959[13]和GSE118370[14]2 張基因芯片,限定log2FC值大于1.00 且p值小于5.00×10-2,得到了差異表達(dá)基因(Differentially Expressed Genes,DEGs),并將其進(jìn)行基因本體論(Gene Ontology,GO)和基因組的京都百科全書(shū)(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析。此后,我們組建了完整的差異表達(dá)基因的蛋白質(zhì)-蛋白質(zhì)互作(Protein-protein Interaction,PPI)網(wǎng)絡(luò)和加權(quán)基因共表達(dá)網(wǎng)絡(luò)(Weighted Gene Coexpression Network Analysis,WGCNA)。本文利用一系列生物信息學(xué)方法,確定了hub 基因,并使用富集分析來(lái)確定與肺腺癌相關(guān)的關(guān)鍵通路。我們進(jìn)行了生存分析來(lái)探究hub 基因的表達(dá)與肺腺癌預(yù)后的關(guān)系。本研究使用了多個(gè)平臺(tái)的數(shù)據(jù)進(jìn)行綜合分析,大大提高了hub 基因的可靠性。本研究結(jié)果可從分子水平進(jìn)一步了解肺腺癌的發(fā)生發(fā)展,為肺腺癌的診斷、治療、監(jiān)測(cè)和預(yù)后提供一些準(zhǔn)確、有實(shí)用價(jià)值的標(biāo)志物。
GEO 數(shù)據(jù)庫(kù)是由美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)于2000 年創(chuàng)立的公共基因表達(dá)數(shù)據(jù)庫(kù)。我們通過(guò)GEO數(shù)據(jù)庫(kù)評(píng)估后選擇并下載了2 個(gè)基因表達(dá)譜數(shù)據(jù)集:GSE116959 和GSE118370,其中GSE116959 含有68個(gè)樣本(57 個(gè)肺腺癌樣本和11 個(gè)正常對(duì)照樣本),GSE118370 含有12 個(gè)樣本(6 個(gè)肺腺癌樣本和6 個(gè)正常對(duì)照樣本)。
1.2.1 批次效應(yīng)的消除和DEGs 篩選
在高通量實(shí)驗(yàn)中,異構(gòu)性和潛在變量被認(rèn)為是偏差和變異性的主要來(lái)源?;蚪M實(shí)驗(yàn)中最著名的潛在變異來(lái)源是批次效應(yīng)。批次效應(yīng)的影響可能很嚴(yán)重,甚至完全損害生物學(xué)結(jié)果。
我們首先將GEO 中得到的數(shù)據(jù)使用R 包“tidyverse”中的“l(fā)eft_join”命令進(jìn)行合并,然后使用R包“sva”中的“ComBat”函數(shù)消除批次效應(yīng)后,再選用R 包“l(fā)imma”[15]比對(duì)肺腺癌組織與正常組織的數(shù)據(jù),最后篩選出矯正后P<5.00×10-2的數(shù)據(jù),其中上調(diào)基因設(shè)置為“l(fā)og2FC>1.00”,下調(diào)基因設(shè)置為“l(fā)og2FC<-1.00”。
1.2.2 DEGs 的GO 分析和KEGG 分析
轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)生成的數(shù)據(jù)越來(lái)越多,我們需要采用綜合策略進(jìn)行分析。GO 數(shù)據(jù)庫(kù)將基因與該數(shù)據(jù)庫(kù)系統(tǒng)中的生物學(xué)術(shù)語(yǔ)緊密聯(lián)系,并把基因功能分為3 個(gè)部分:細(xì)胞組分(Cellular Component,CC)、分子功能(Molecular Function,MF)、生物過(guò)程(Biological Process,BP)[16]。KEGG 是一個(gè)包含基因表達(dá)途徑和功能的數(shù)據(jù)庫(kù),旨在通過(guò)基因組信息和生物信息學(xué)來(lái)預(yù)測(cè)細(xì)胞中復(fù)雜的通路及生物學(xué)行為[17]。R 包“clusterProfiler”支持3 種物種,包括人類、小鼠和酵母。它提供了一種基因分類方法:groupGO,并可以自動(dòng)進(jìn)行基因簇富集分析[18]。我們對(duì)獲得的DEGs進(jìn)行GO分析和KEGG 富集分析,并設(shè)置P=5.00×10-2為篩選閾值。
1.2.3 PPI 網(wǎng)絡(luò)構(gòu)建與分析
我們首先將篩選出的DEGs 輸入在線數(shù)據(jù)庫(kù)檢索相互作用基因/蛋白質(zhì)的搜索工具(Search Tool for the Retrieval of Interacting Genes/Proteins,STRING)數(shù)據(jù)庫(kù)[19](https://www.string-db.org),然后對(duì)Cytoscape[20](https://cytoscape.org)注釋和分析得到的PPI 網(wǎng)絡(luò)使用cytoHubba[21]插件進(jìn)行hub 基因的篩選,最后通過(guò)MCODE[22]插件識(shí)別PPI 網(wǎng)絡(luò)中最重要的模塊。
1.2.4 加權(quán)基因共表達(dá)網(wǎng)絡(luò)的構(gòu)建
WGCNA 是一種系統(tǒng)生物學(xué)方法,用于描述微陣列樣品中基因之間的相關(guān)模式。WGCNA 軟件包包含一組全面的功能,用于對(duì)大型高維數(shù)據(jù)集進(jìn)行相關(guān)網(wǎng)絡(luò)分析,其使用無(wú)監(jiān)督聚類來(lái)識(shí)別基因模塊,我們使用R 包“WGCNA”[23]構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò)。
軟閾值是基于近似無(wú)尺度網(wǎng)絡(luò)的一種準(zhǔn)則,同時(shí)也是可以減少誤差的一種方式。它使得構(gòu)建的網(wǎng)絡(luò)更符合冪律分布和無(wú)尺度網(wǎng)絡(luò)特征,并使得結(jié)果更具有生物數(shù)據(jù)特征。本文首先通過(guò)pick Soft Threshold 函數(shù)計(jì)算出軟閾值12,緊接著通過(guò)該軟閾值構(gòu)建加權(quán)基因共表達(dá)網(wǎng)絡(luò),然后對(duì)基因進(jìn)行聚類后使用動(dòng)態(tài)剪樹(shù)法識(shí)別基因模塊合并,其次將相似的基因聚類到相同顏色的模塊中,最后計(jì)算皮爾森相關(guān)系數(shù)以評(píng)估模塊與表型之間的潛在關(guān)聯(lián)性。
1.2.5 基于Oncomine 數(shù)據(jù)庫(kù)的Meta 分析
微陣列研究的一個(gè)問(wèn)題是假陽(yáng)性結(jié)果很普遍,而Meta 分析可以從各種各樣的微陣列數(shù)據(jù)集中識(shí)別和評(píng)估多個(gè)基因表達(dá)特征的交集,從而真實(shí)反映腫瘤的基本轉(zhuǎn)錄特征。
賽默飛公司開(kāi)發(fā)了商業(yè)化的Oncomine 數(shù)據(jù)庫(kù)[24],該數(shù)據(jù)庫(kù)是目前世界上最大的癌基因芯片數(shù)據(jù)庫(kù)和整合數(shù)據(jù)挖掘平臺(tái)。用戶可以使用Oncomine 選擇適當(dāng)?shù)难芯窟M(jìn)行比較,然后通過(guò)Meta 分析來(lái)確定多個(gè)獨(dú)立研究中顯著過(guò)表達(dá)或低表達(dá)的基因。本研究通過(guò)Oncomine 在線數(shù)據(jù)庫(kù)分析篩選出的hub 基因在肺腺癌組織與正常組織中的表達(dá)情況來(lái)驗(yàn)證hub 基因的可靠性。
1.2.6 生存分析
2017 年上線的GEPIAWeb 是其基于TCGA 和基因型-組織表達(dá)(Genotype-Tissue expression,GTex)的服務(wù)器。GEPIA2(http://GEPIA.Cancer-pku.cn)是GEPIAWeb經(jīng)過(guò)更新和增強(qiáng)的版本,可提供更多功能[25]。GEPIA2 可根據(jù)基因表達(dá)水平進(jìn)行生存分析,該功能允許用戶篩選基因在不同癌癥類型中的預(yù)后影響。為了進(jìn)一步評(píng)估hub 基因在本研究中的預(yù)后重要性,我們?cè)诖似脚_(tái)上進(jìn)行了總體生存分析,用來(lái)檢驗(yàn)每個(gè)基因的表達(dá)與總生存率之間的關(guān)系。
本文將GSE116959 與GSE118370 的數(shù)據(jù)進(jìn)行集成并消除批次效應(yīng)后,設(shè)置|log2FC|>1(log2FC=log2病人平均表達(dá)量/正常人平均表達(dá)量),校正后p<0.05(p大于0.05,被認(rèn)為沒(méi)有統(tǒng)計(jì)學(xué)意義),篩選得到1433 個(gè)差異基因后對(duì)差異基因的表達(dá)模式進(jìn)行了研究,圖1 顯示上調(diào)的523 個(gè)差異基因,下調(diào)的910 個(gè)差異基因。

圖1 差異基因火山圖
對(duì)篩選出來(lái)的差異基因做GO 分析和KEGG 分析。GO 分析的結(jié)果顯示,BP 主要圍繞細(xì)胞外基質(zhì)組織、細(xì)胞外結(jié)構(gòu)組織和有絲分裂的細(xì)胞核分裂;CC 主要表現(xiàn)在含膠原的細(xì)胞外基質(zhì)、分泌顆粒內(nèi)腔和膠原三聚體等結(jié)構(gòu);MF 主要體現(xiàn)在細(xì)胞外基質(zhì)結(jié)構(gòu)組成、糖胺聚糖結(jié)合和肽聚合。KEGG 分析顯示,差異基因主要富集在補(bǔ)體和凝血級(jí)聯(lián)、細(xì)胞外基質(zhì)(Extracellular matrix,ECM)受體相互作用和黏著作用的通路中,具體見(jiàn)表1。

表1 富集分析結(jié)果表
使用STRING 分析DEGs 間的相互作用。結(jié)果顯示共有716 個(gè)DEGs 網(wǎng)絡(luò)節(jié)點(diǎn)和3759 條邊被用于構(gòu)建PPI 網(wǎng)絡(luò)。圖2 為使用cytoHubba 中的Degree算法初步篩選出20 個(gè)hub 基因:CDK1、CDC20、CCNA2、CCNB1、KIF11、CCNB2、KIF20A、KIF2C、GNG11、BUB1、FPR2、TOP2A、CENPE、PIK3R1、CDCA8、BUB1B、UBE2C、MAD2L1、AGT、ASPM。MCODE 可檢測(cè)可能代表分子復(fù)合物的大型PPI 網(wǎng)絡(luò)中的密集連接區(qū)域。該方法通過(guò)局部鄰域密度和從局部密集的種子蛋白向外遍歷的頂點(diǎn)加權(quán),根據(jù)給定的參數(shù)隔離密集的區(qū)域。圖3為使用MCODE 鑒定出了3 個(gè)最重要的基因簇。

圖2 hub 基因網(wǎng)絡(luò)圖


圖3 MCODE 模塊圖
本文以12 為軟閾值構(gòu)建網(wǎng)絡(luò)模塊,通過(guò)對(duì)模塊的進(jìn)一步分析,計(jì)算模塊間的差異,并構(gòu)建基因模塊樹(shù)狀圖(見(jiàn)圖4)。本文使用動(dòng)態(tài)剪切樹(shù)法識(shí)別基因模塊,并將相似度較高的模塊合并,最終得到18 個(gè)模塊(見(jiàn)圖5)。18 個(gè)不同帶狀矩形框代表18 個(gè)基因集模塊。圖4 顯示樹(shù)狀圖上的每一個(gè)峰都對(duì)應(yīng)1 個(gè)基因,相似的基因被聚類到相同帶狀矩形框的模塊中。表2顯示數(shù)據(jù)集分為肺腺癌和正常2 種表型。相關(guān)系數(shù)大于0.6 的模塊與性狀顯著相關(guān)。

表2 模塊-性狀相關(guān)性表

圖4 基因模塊樹(shù)狀圖

圖5 基因矩形模塊圖
綜合WGCNA 的基因模塊樹(shù)狀圖、基因矩形模塊圖、模塊-性狀相關(guān)性表和PPI 網(wǎng)絡(luò)分析的結(jié)果,我們初步篩選出17 個(gè)hub 基因:CDK1、CDC20、CCNA2、CCNB1、KIF11、CCNB2、KIF20A、KIF2C、BUB1、TOP2A、CENPE、PIK3R1、CDCA8、BUB1B、UBE2C、MAD2L1、ASPM,并進(jìn)行了進(jìn)一步的分析和驗(yàn)證。
使用Oncomine 數(shù)據(jù)庫(kù),設(shè)置Analysis Type:Cancer vs.NormalAnalysis;Cancer Type:LungCancer;DataType:mRNA 選取肺腺癌患者和正常人的數(shù)據(jù)進(jìn)行meta 分析,詳細(xì)數(shù)據(jù)見(jiàn)表3。除沒(méi)有研究發(fā)現(xiàn)PIK3R1 在肺腺癌患者與正常人中的表達(dá)量有差異外,所有hub 基因在肺腺癌與正常人中的表達(dá)量都具有統(tǒng)計(jì)學(xué)差異(p<0.05)。

表3 Oncomine 數(shù)據(jù)庫(kù)meta 分析結(jié)果
總生存時(shí)間是指從隨機(jī)化開(kāi)始至因任何原因引起死亡的時(shí)間,總生存期的延長(zhǎng)可以體現(xiàn)確切的臨床獲益,是抗腫瘤藥物最可靠的療效評(píng)價(jià)指標(biāo)。表4 生存分析結(jié)果將病人依據(jù)表達(dá)水平的中位數(shù)分為高表達(dá)組和低表達(dá)組,對(duì)得到的hub 基因進(jìn)行生存分析以探究基因表達(dá)量與總生存時(shí)間之間的相關(guān)性。所有hub 基因的高表達(dá)都與肺腺癌患者的總體生存時(shí)間縮短相關(guān)。這提示了這些hub 基因在不同程度上與肺腺癌的病理和生理有關(guān),可以作為監(jiān)測(cè)肺腺癌預(yù)后的潛在生物標(biāo)志物以判斷肺腺癌的嚴(yán)重程度、預(yù)測(cè)患者的生存時(shí)間,或是作為治療靶點(diǎn)。
1)共篩選出肺腺癌相關(guān)16 個(gè)hub 基因。從高通量GEO 數(shù)據(jù)庫(kù)中獲得基因表達(dá)譜序列號(hào),并使用R中的“l(fā)imma”包對(duì)DEGs 進(jìn)行鑒定,篩選發(fā)現(xiàn)1433 個(gè)DEGs(上調(diào)523 個(gè),下調(diào)910 個(gè))。為確定差異基因所涉及的生物學(xué)過(guò)程及信號(hào)通路,我們進(jìn)行了GO 富集分析和基因組的KEGG 富集分析,發(fā)現(xiàn)DEGs 主要與細(xì)胞外基質(zhì)組織、細(xì)胞外結(jié)構(gòu)組織和有絲分裂的細(xì)胞核分裂有關(guān),主要富集在補(bǔ)體和凝血級(jí)聯(lián)、ECM受體相互作用和黏著作用的通路上。采用PPI 分析得到了由716 個(gè)DEGs 網(wǎng)絡(luò)節(jié)點(diǎn)和3759 條邊構(gòu)成的PPI 網(wǎng)絡(luò),并在其中初步篩選出20 個(gè)hub 基因。通過(guò)WGCNA分析從DEGs 中得到了18 個(gè)模塊,對(duì)hub 基因進(jìn)行鑒定,篩選出17 個(gè)hub 基因。使用Oncomine 數(shù)據(jù)庫(kù)對(duì)hub 基因在肺腺癌患者與正常人的表達(dá)情況進(jìn)行Meta 分析,共鑒定出16 個(gè)hub 基因與肺腺癌相關(guān)。16個(gè)hub 基因分別為BUB1B、CDK1、CDC20、CCNA2、CCNB1、KIF11、CCNB2、KIF20A、KIF2C、BUB1、TOP2A、CENPE、CDCA8、UBE2C、MAD2L1、ASPM。
2)16 個(gè)hub 基因通常在肺腺癌患者中過(guò)表達(dá)。分析表明肺腺癌表型16 個(gè)hub 基因表達(dá)高于正常表型,據(jù)KEGG 分析,這些hub 基因主要與細(xì)胞周期、細(xì)胞衰老和p53 信號(hào)通路有關(guān)。GO 分析也證明它們顯著參與了細(xì)胞核分裂,細(xì)胞器分裂和染色體分離過(guò)程。根據(jù)KEGG 分析和GO 分析的結(jié)果,這些基因與染色體的變化有關(guān),可能在腫瘤的發(fā)生和發(fā)展中起到重要作用。
3)hub 基因高表達(dá)的組總體生存時(shí)間低于低表達(dá)的組。癌癥與正常人hub 基因相關(guān)的生存分析發(fā)現(xiàn),在肺腺癌患者中,這些hub 基因高表達(dá)的組總體生存時(shí)間下降。因此,這16 個(gè)hub 基因可能與肺腺癌的病理和生理密切相關(guān),也可能是潛在的生物標(biāo)志物。
2 份關(guān)于LUAD 的數(shù)據(jù)集在篩選后一共發(fā)現(xiàn)1433 個(gè)差異表達(dá)基因,通過(guò)GO 和KEGG 等注釋工作發(fā)現(xiàn)其DEGs 功能板塊聯(lián)系緊密,共涉及53 條生物學(xué)通路。這53 條通路和16 個(gè)hub 基因?yàn)長(zhǎng)UAD 發(fā)生和發(fā)展提供了更詳細(xì)的分子機(jī)制,有望作為潛在的生物標(biāo)志物和治療靶點(diǎn)。雖然肺腺癌的治療在近年有所改善,但它仍然是最具攻擊性和致命性的腫瘤類型之一[26]。肺腺癌分子機(jī)制的識(shí)別對(duì)肺腺癌的診斷、治療和預(yù)后至關(guān)重要。微陣列基因表達(dá)譜被廣泛用于篩選參與腫瘤發(fā)生的DEGs,為臨床提供有價(jià)值的信息[27]。
癌癥基因普查是一項(xiàng)正在進(jìn)行的工作,目的是對(duì)那些包含與癌癥有因果關(guān)系的突變的基因進(jìn)行分類,并解釋這些基因的功能異常如何導(dǎo)致癌癥[28]。在16個(gè)hub 基因中,BUB1B 編碼參與紡錘體檢查點(diǎn)功能的激酶,并在細(xì)胞分裂過(guò)程中控制染色體分離[29];CDK1編碼的蛋白質(zhì)對(duì)于真核細(xì)胞G1/S 和G2/M 期的過(guò)渡至關(guān)重要[30];CDC20 表達(dá)的抑制可降低細(xì)胞增殖并誘導(dǎo)G2/M 細(xì)胞周期阻滯[31];CCNA2 通過(guò)整合素αVβ3信號(hào)通路促進(jìn)肺癌細(xì)胞的侵襲和遷移[32];CCNB1 編碼一種有絲分裂調(diào)控蛋白[33];KIF11 在紡錘體功能中起關(guān)鍵作用[34];CCNB2 編碼細(xì)胞周期蛋白,表達(dá)下調(diào)能抑制肺腺癌的發(fā)生[35];KIF20A 敲除的可改變肺癌細(xì)胞表型并調(diào)控JNK 通路[36];KIF2C 編碼微管解聚和染色體分離的調(diào)節(jié)因子[37];BUB1 編碼絲氨酸/蘇氨酸蛋白激酶與激活紡錘體啟動(dòng)子中發(fā)揮作用[38];TOP2A是公認(rèn)的致癌基因;CENPE 可以促進(jìn)肺腺癌細(xì)胞的增殖[39];CDCA8 的表達(dá)能刺激的乳腺癌細(xì)胞生長(zhǎng)和存活[40];UBE2C 編碼E2 泛素結(jié)合蛋白參與了細(xì)胞癌變[41];MAD2L1 是有絲分裂紡錘體裝配檢查點(diǎn)的1 個(gè)組件[42];ASPM 通過(guò)調(diào)節(jié)CDK4 參與肺鱗癌的發(fā)生發(fā)展[43]。這16 個(gè)hub 基因與細(xì)胞周期、細(xì)胞核分裂、染色體分離等細(xì)胞分裂活動(dòng)相關(guān),但它們能否作為肺腺癌預(yù)測(cè)、診斷、個(gè)體化預(yù)防、治療和預(yù)后的生物標(biāo)志物有待進(jìn)一步實(shí)驗(yàn)驗(yàn)證。