孫珊珊,馮 虎,畢莎杉
(1.山東大學附屬威海市立醫院腫瘤 綜合治療科,山東 威海264200;2.山東大學附屬威海市立醫院 病理科,山東 威海264200)
2019年肺癌(LC)死亡比例占癌癥相關死亡的23.5%[1],而非小細胞肺癌(NSCLC)占LC發病率和死亡率的80%以上[2]。隨著高通量測序和芯片技術的快速發展,發現了許多與腫瘤預后有關的致病基因,推動了分子革命時代的浪潮。靶向及免疫藥物的發現也為NSCLC治療做出重大貢獻,提高了NSCLC患者的無進展生存期(progression free survival,PFS),但其總生存(OS)仍不理想,尤其是晚期患者[3-4]。因此迫切需要發現針對NSCLC的更有效的治療靶點。
本研究利用GEO(Gene Expression Omnibus)平臺上的5個mRNA表達數據集分析了NSCLC與正常組織的差異表達基因(DEGs)。利用Cytoscape軟件中的ClueGO 插件進行通路富集分析并利用基于String 11.0數據庫的蛋白質-蛋白質相互作用網絡(PPI)進行分析。并對差異表達基因進行了靶向miRNA的預測,構建了mRNA-miRNA調控網絡。最終篩選出6個與NSCLC預后相關的分子。本研究旨在尋找與NSCLC發生發展和預后相關的潛在靶分子,為臨床治療提供依據和方向。
從GEO平臺(http://www.ncbi.nlm.nih.gov/geo)上獲取5個mRNA數據集(GSE18842,GSE19188,GSE21933,GSE33356和GSE102287)和miRNA數據集(GSE53882)。RNA數據集分別基于GPL570(Affymetrix Human Genome U113 Plus 2.0 Array)(GSE18842,GSE19188,GSE33356 和GSE102287);GPL6254(Phalanx Human OneArray)(GSE21933)和GPL18130(State Key Laboratory Human microRNA array 1888)測序。各個數據集包含的NSCLC樣本數及正常肺組織樣本數分別為:GSE18842為46和45;GSE19188為94和62;GSE33356為60和60;GSE102287為32和34;GSE21933為21和21;GSE53882為397和103。
通過均值、log2轉換和插值缺失的表達數據對數據進行標準化處理。利用基于R 3.5.2的limma軟件包對NSCLC和正常肺組織的DEGs和差異miRNA(DEMs)進行鑒定,LogFC>2 和校正P值<0.05被認為具有統計學意義。
利用String11.0數據庫(https://string-db.org)獲取DEGs的PPI信息,富集閾值P值<0.001,利用Cytoscape軟件(v.3.7.1)對PPI網絡進行可視化。我們在Cytoscape軟件中使用了ClueGO插件,進一步分析研究DEGs的生物學過程、細胞組成、分子功能以及KEGG通路信息,P值<0.05被認為具有統計學意義。
利用ENCORI(Encyclopedia of RNA Interactomes,http://starbase.sysu.edu.cn)進行了差異表達基因靶miRNAs的預測分析,然后篩選預測miRNA和DEMs的重疊miRNA。并在GENEMANIA(http://genemania.org)平臺上獲取DEGs可能的mRNA相互作用信息。構建mRNA-miRNA調控網絡,揭示miRNA對mRNA的調控參與NSCLC的發生發展。
我們使用公共開放數據庫GEPIA(Gene Expression Profile Interactive Analysis,http://gepia.cancer-pku.cn/)來評估DEGs的表達與不同病理類型之間的相關性,分別基于肺腺癌(LUAD)和肺鱗癌(LUSC)資料分析DEGs與TNM分期、PFS和OS的相關性。
數據預處理后,通過限制logFC>2和P值<0.05,我們分別得出在NSCLC組織中DEGs有466、309、715、111和650個。DEMs有184個,其中48個miRNA表達下調,49個miRNA表達上調,在5個mRNA數據集中,共篩選出51個重疊基因(上調13個,下調38個),見表1,圖1。

表1 51個差異表達基因的情況

圖1 5個mRNA數據集差異基因交集的韋恩圖(A),以及差異基因表達譜的熱圖(B、C)。
利用ClueGo軟件進行了GO和KEGG富集分析,發現DEGs與調節細胞分化,組織重塑和蛋白激酶A的生物功能調節密切相關,且與構成多囊泡小體相關。KEGG富集分析表明,DEGs主要聚集在PPAR信號通路中(P值均<0.05)(見圖2)。

圖2 差異表達基因的GO和KEGG富集分析結果圖
利用GENMANIA網站獲取和生成DEGs及它們相互作用基因之間的網絡,見圖3A。基于STRING平臺獲取DEGs編碼的蛋白質信息,并使用Cytoscape軟件生成PPI網絡,見圖3B,發現 IL6位于調控網絡的中心位置,提示DEGs可能通過IL6調節細胞功能。
基于TCGA中肺腺癌(LUAD)和肺鱗癌(LUSC)數據集的分析也證實了ANKDR29、IGSF10和PPBP在NSCLC樣本中表達下調,相反,THBS2、 GREM1和SPP1在腫瘤組織中表達上調,見圖4A。此外,IGSF10與病理分期相關(P=0.039),但其他基因沒有發現明顯的差異,見圖4B。在GEPIA平臺中評估分析,我們發現ANKRD29、GREM1、IGSF10、THBS2、PPBP和SPP1對NSCLC患者的OS有顯著影響(P值分別為0.012、0.013、0.008、0.042、0.017和0.01),見圖5A,但只有IGSF10高表達患者的PFS顯著優于低表達患者P=0.019,見圖5B。

圖4 DEGs在LUAD和LUSC中的表達情況(A)以及在對不同分期的影響(B)

圖5 DEGs在NSCLC中OS(A)和PFS(B)中的生存曲線
在51個DEGs中,我們在ENCORI平臺上發現了3761個可能相關的miRNAs。與我們獲得的DEMs比較后,認為有22個miRNAs參與調控DEGs,見表2。值得注意的是miR-143-3p與IGSF10和GERM1密切相關,結合肺癌組織中miR-143-3p表達上調與IGSF10表達下調趨勢,提示miR-143-3p有可能抑制IGSF10轉錄,影響肺癌細胞分化增殖。

表2 NSCLC中22個重疊差異表達的miRNA的信息
隨著信息數字化的發展,包括高通量測序和DNA芯片技術在內的生物信息學分析技術在醫學研究領域得到了廣泛的應用,挖掘新的生物標志物可能成為診斷和治療的靶標[5-6]。本研究從GEO平臺篩選出5個基因芯片數據集(GSE18842、GSE19188、GSE21933、GSE33356和GSE102287),將每個數據集中的DEGs交互,得到51個與NSCLC的發生發展密切相關的DEGs,應用ClueGo軟件對51個DEGs進行GO和KEGG富集分析,我們發現DEGs主要富集于組織重塑、細胞分化和蛋白激酶A(PKA)的調控,并主要構成細胞成分的多囊泡小體。KEGG富集分析證實了PPAR信號通路與NSCLC相關。以往研究表明,PKA通過不同亞基的作用參與細胞分化、腫瘤轉化和預后[7-8],靶向PAK可抑制耐selumentinb(一種MEK抑制劑)肺癌細胞的生長[9]。PPAR通路失調會激活腫瘤免疫和缺氧,最終導致代謝紊亂[10]。上述發現間接說明我們研究結果的準確性。此外我們發現有22個miRNAs與DEGs之間存在mRNA-miRNA相互作用網絡。有6個候選基因(ANKRD29、GREM1、IGSF10、THBS2、PPBP和SPP1)對NSCLC患者的OS有顯著影響。
miRNA通過3’端非編碼區與特定mRNA結合來抑制相關基因的蛋白表達,但這一過程不是絕對的[11]。我們的結果顯示只有3個基因(IGSF10、GREM1、THBS2)與22個miRNAs相關,miR-143-3p可能在調控IGSF10和GREM1表達方面起關鍵作用。先前報道表明miR-143-3p在NSCLC中下調導致自噬潮增加,降低對藥物的敏感性[12]。IGSF10是定位于細胞膜上的免疫球蛋白超家族成員,在多種腫瘤中檢測到突變,而沉默IGSF10可誘導整合素-β1/FAK信號的激活促進腫瘤增殖和黏附[13]。GREM1是編碼骨形態發生蛋白拮抗劑家族成員,在細胞外基質合成、膠原合成和生物結構修飾等方面中起關鍵作用[14]。文獻報道,GREM1高表達的患者在乳腺癌、結腸癌、基底細胞癌等疾病中預后較差,這可能與不同的內部機制激活有關,包括激活TGF-β/smad通路、BMP通路或EMT通路[15-16]。這與我們的研究結果相一致。但這些候選基因在NSCLC背景下的認識還不夠深入,考慮到分子調控的復雜性和多樣性,我們不能給出一個潛在的特定調控環路,我們提出它是否也可以調節IGSF10或GREM1參與NSCLC的發生發展,還需要更多的研究來證實。
前期也有一些生物信息學分析來揭示NSCLC的分子機制[17-18]。與已有研究相比,我們的研究具有更大的數據量(5個微陣列數據集)和更嚴格的DEGs篩選條件(logFC>2),從而保證了結果的準確性。我們利用預測平臺和GEO數據庫的結合,建立了mRNA-miRNA相互作用網絡,更好地探索候選基因在NSCLC中的意義。但仍有許多不足之處,還需要蛋白和RNA水平上的分子實驗來探索這些候選基因在NSCLC中的生物學機制。
綜上所述,我們通過綜合生物信息學分析確定了6個與NSCLC患者OS相關的DEGs,其中IGSF10與PFS相關。我們發現ANKRD29 和 IGSF10可能與NSCLC發生發展有關,這在以往是鮮有報道的。綜合預測和mRNA-miRNA互作網絡給出的22個miRNAs可以為下一步的研究指明方向。總之,本研究為NSCLC個體化治療提供了潛在靶點。