李昂,謝俞寧,仵紅嬌,李佳瑩,張雪梅
華北理工大學,河北唐山063210
肺癌是全球最常見的惡性腫瘤之一,可分為小細胞肺癌和非小細胞肺癌(NSCLC),其中NSCLC約占肺癌的85%[1,2]。目前針對肺癌的治療方法主要有手術切除、化療和靶向治療,但是NSCLC患者的5年生存率僅為17%[3]。肺腺癌是NSCLC中最常見的亞型,其發病率逐年上升且患者預后較差。因此,臨床亟需深入研究肺腺癌的發生發展機制,并尋找潛在的關鍵預后標志物。近年來,利用高通量測序技術檢測大量基因表達變化,并結合生物信息學方法系統分析腫瘤相關基因及其調控機制,已成為功能基因組學的一種重要研究手段,廣泛應用在篩選腫瘤潛在生物標志物的研究中。2020年3~4月,本研究整合了癌癥基因組圖譜(TCGA)和GEO數據庫中的肺腺癌預后相關mRNA數據,篩選出肺腺癌預后關鍵基因并進行驗證,以期為肺腺癌的分子機制研究及預后判斷提供依據。現報告如下。
1.1 數據獲取 通過TCGA數據庫下載556例份肺腺癌組織和59例份正常肺組織樣本的轉錄組數據及500例肺腺癌患者的臨床資料。使用GEO數據庫(http://www.ncbi.nlm.nih.gov/geo/)檢索肺腺癌組織芯片數據,最終選用GSE10072、GSE43458、GSE32863三個與肺腺癌相關的mRNA芯片進行后續分析,見表1。

表1 肺腺癌相關GEO數據集的基本信息
1.2 共同差異表達基因篩選 使用R語言“edgeR”程序包對TCGA數據庫中肺腺癌表達譜數據進行標準化及差異分析,同時運用“limma”包分別對GEO數據庫中三個與肺腺癌相關的mRNA芯片進行差異表達基因篩選(|log2FC|>1,P<0.05),并繪制差異表達基因火山圖。使用FunRich工具構建TCGA與GEO數據庫中差異表達基因的Venn圖,選擇共同差異表達基因進行后續分析。
1.3 肺腺癌預后關鍵基因篩選 對TCGA和GEO數據庫篩選出的共同差異基因進行單因素COX回歸分析,篩選與肺腺癌患者預后相關的基因。采用LASSO回歸分析,進一步縮小預后相關基因的范圍,以保證結果穩定性。最后對LASSO回歸分析篩選出的肺腺癌預后相關基因進行多因素COX回歸分析,得到肺腺癌預后相關的獨立預測因子,即預后關鍵基因。
1.4 肺腺癌預后關鍵基因的驗證
1.4.1 風險評分驗證 以1.1中TCGA數據庫中的500例肺腺癌患者為研究對象,采用風險評分公式計算每個樣本的風險評分,風險評分=(0.858 91×DCN)+(1.380 54×ECT2)+(1.429 83×RRAS)+(0.946 68×PCP4)。以風險評分的中位數作為臨界值,將患者分為高風險組和低風險組。繪制生存曲線,比較兩組5年生存率;繪制該風險評分預測肺腺癌患者5年生存率的ROC曲線,以驗證其準確性。
1.4.2 癌組織預后關鍵基因表達與肺腺癌患者預后的關系 ①預后關鍵基因表達分析:采用GEPIA在線數據庫(http://gepia.cancer-pku.cn/)分析預后關鍵基因表達,該數據庫包括來自TCGA和GTEx數據庫的肺腺癌組織9 736例份與正常肺組織8 587例份。②肺腺癌組織中預后關鍵基因表達水平與患者預后的關系分析:使用Kaplan Meier-plotter數據庫(http://www.kmplot.com/)計算出各基因相對表達量的最佳截斷值,根據此最佳截斷值將患者分為高、低表達者,繪制生存曲線,比較其5年生存率。
1.5 預后關鍵基因的調控通路分析 在分子特征數據庫(MSigDB,http://software.broadinstitute.org/gsea/msigdb/index.jsp),下載“c2.cp.kegg.v7.0.symbols.gmt”基因集作為參考基因集。根據預后關鍵基因的表達中值,將肺腺癌組織分為高表達組和低表達組。利用R包“GSVA”對TCGA數據庫中肺腺癌差異基因的RNA測序數據進行基因集變異分析(GSVA),以P<0.01為標準,分析與預后關鍵基因表達相關的通路。

2.1 肺腺癌組織差異表達基因篩選結果 在TCGA數據庫中肺腺癌表達譜分析結果顯示,共得到差異表達基因4 815個,其中上調基因2 879個、下調基因1 936個。在GEO數據庫中對GSE10072、GSE43458、GSE32863三個有關肺腺癌的mRNA芯片表達數據分析結果顯示,共得到差異表達基因178個,其中上調基因34個、下調基因144個。兩個數據庫的共同差異表達基因共166個。
2.2 肺腺癌預后關鍵基因篩選結果 單因素COX回歸分析結果顯示,共獲得與肺腺癌患者預后相關基因75個(P均<0.05),按照P值由小到大排序,前10個與肺腺癌患者預后相關的基因見表2。LASSO回歸分析結果顯示,共篩選出19個與肺腺癌預后相關的關鍵基因,分別為SFTPC、TNNC1、FAM189A2、KLF4、CYP4B1、DPYSL2、IL33、DCN、CRTAC1、ECT2、SCGB1A1、IGF2BP3、SLC7A5、RRAS、WASF3、ARHGEF6、FBLN5、TIMP1、PCP4。多因素COX回歸分析結果顯示,DCN、RRAS、ECT2、PCP4是肺腺癌預后相關的獨立預測因子(P均<0.05)。見表3。

表2 前10個與肺腺癌預后相關基因的單因素COX回歸分析結果
2.3 風險評分驗證結果 以風險評分的中位數0.948 374 4作為截斷值,將患者分為高風險組和低風險組,每組250例。高、低風險組5年生存率分別為29.3%、48.4%,兩組比較P<0.01。見圖1。該風險評分預測肺腺癌患者5年生存率的ROC曲線下面積(AUC)為0.628,見圖2。

表3 肺腺癌預后相關基因的多因素COX回歸分析結果

圖1 高風險組和低風險組的生存曲線

圖2 該風險評分預測肺腺癌患者5年生存率的ROC曲線
2.4 肺腺癌組織中預后關鍵基因表達與患者預后的關系 GEPIA數據庫分析結果顯示,肺腺癌組織中DCN、RRAS mRNA表達均低于正常肺組織,ECT2、PCP4 mRNA表達均高于正常肺組織(P均<0.05)。見圖3。DCN、RRAS、ECT2、PCP4高表達者的5年生存率分別為67.0%、51.0%、54.4%、57.7%,低表達者分別為52.5%、65.9%、65.1%、70.1%;RRAS(HR=1.65)、PCP4(HR=1.7)、ECT2(HR=1.38)高表達者5年生存率明顯低于低表達者,DCN(HR=0.46)高表達者5年生存率明顯高于低表達者(P均<0.01)。見圖4。
2.5 肺腺癌預后關鍵基因的調控通路分析結果 GSVA結果顯示,DCN高表達組相關調控通路富集在細胞黏附、JAK-STAT信號、補體和凝結級聯、NK細胞介導的細胞毒性、Toll樣受體等途徑;RRAS高表達組相關調控通路富集在溶酶體、硫代謝、糖胺聚糖降解等非腫瘤相關途徑;ECT2高表達組相關調控通路富集在同源重組、核苷酸切除修復、錯配修復、DNA復制和細胞周期等途徑;PCP4高表達組相關調控通路富集在趨化因子信號、細胞黏附等途徑。

注:A為DCN,B為ECT2,C為RRAS,D為PCP4。

注:A為DCN,B為ECT2,C為RRAS,D為PCP4;-----為高表達者,——為低表達者。
本研究基于GEO和TCGA公共數據庫,在全基因組水平上分析了肺腺癌組織的遺傳學特征,以期發現在癌癥預后中顯著改變的基因及潛在標志物。本研究將LASSO引入到COX回歸模型中[4],共篩選得到DCN、RRAS、PCP4、ECT2這4個與肺腺癌患者預后顯著相關的關鍵基因,并通過Kaplan Meier和ROC曲線進行了驗證。目前,DCN、RRAS、PCP4、ECT2在肺腺癌及其他惡性腫瘤中的報道比較少。DCN是一種富含亮氨酸的蛋白聚糖,其過表達可顯著抑制肺腺癌進展[5]。DCN 5′-UTR的甲基化與其表達降低相關,可增強具有高轉移潛能的NSCLC細胞中TGF-β/Smad信號傳導[6]。一項乳腺癌相關的Meta分析結果表明,DCN高表達與乳腺癌患者預后良好相關[7]。RRAS是RAS超家族成員之一,在多種組織中均有表達,可調節細胞黏附、遷移和分化。研究發現,RRAS在乳腺癌組織中低表達,并且RRAS可抑制乳腺癌細胞增殖、遷移和細胞周期過程[8]。此外,RRAS還可通過激活PI3K/AKT/mTOR信號傳導途徑,促進宮頸上皮細胞增殖[9,10]。目前尚未有RRAS與癌癥預后關系的相關報道。本研究生物信息結果分析發現RRAS在肺腺癌組織中低表達,且低表達患者預后良好。分析原因,可能是RRAS低表達僅參與了肺腺癌的發生,但不會促進肺腺癌進展,但仍需要進一步實驗進行驗證。既往相關研究表明,PCP4不僅可作為食管癌的預后標記基因[11],還可抑制上皮間充質轉化和促進細胞凋亡,是乳腺癌治療的潛在靶點[12]。ECT2是Rho家族中GTP酶的鳥嘌呤核苷酸交換因子[13],高表達的ECT2與許多腫瘤的發生、發展有關,是肺腺癌患者總體生存率低的獨立危險因素[14],這與我們的研究結果相一致。Luo等[15]研究發現,結直腸癌組織中ECT2表達升高與TNM分期及患者總體存活率降低顯著相關。Wang等[16]研究表明,ECT2在乳腺癌的發生、發展中具有重要作用,并具有獨立的預后預測價值,或可成為乳腺癌治療的新靶點。
為了進一步探討DCN、RRAS、ECT2和PCP4在肺腺癌中的潛在機制,本研究基于TCGA表達譜數據進行了GSVA。結果顯示,RRAS高表達組相關調控通路富集在溶酶體、硫代謝、糖胺聚糖降解等非腫瘤相關途徑,或許這也是RRAS在肺腺癌中研究較少的原因;DCN高表達組相關調控通路富集在細胞黏附、JAK-STAT信號、補體和凝結級聯、NK細胞介導的細胞毒性、Toll樣受體等途徑,進一步表明DCN可通過免疫途徑抑制肺腺癌的發生發展,從而影響患者預后;ECT2高表達組相關調控通路富集在同源重組、核苷酸切除修復、錯配修復、DNA復制和細胞周期等途徑,上述途徑與肺腺癌細胞增殖過程的激活有關;PCP4高表達組相關調控通路富集在趨化因子信號、細胞黏附等途徑。以上發現為DCN、RRAS、ECT2和PCP4影響肺腺癌患者預后的相關機制提供了新的見解。