張印恩 王鍵龍 陳 康 馬 錚 焦建寶 張 鐸
肺癌(lung cancer, LC)是世界上最常見的癌癥之一,約80%的患者5年內死亡[1]。吸煙是LC的主要高危因素,非吸煙相關的肺腺癌(lung adenocarcinoma, LUAD)發展危險因素包括接觸氡氣、接觸二手煙草煙霧、室內污染物和環境污染等[2]。LUAD是肺癌中非小細胞肺癌的一種類型, 占所有肺癌診斷的50%,其頻率正在增加[3]。LUAD早期常無明顯癥狀,因此不能被及時發現。臨床上常常采用手術治療、靶向治療、免疫治療、放療等方法來治療患者[4~6]。LUAD的發生涉及了多個因素、多個階段、多個基因的改變,十分復雜[7]。
LUAD預后不良,早期發現LUAD可以顯著地提高患者的生存率[8]。更好地理解LUAD發生的分子機制可為早期發現LUAD和開發有效的治療策略鋪平道路[9,10]。因此,尋找新的可以早期診斷LUAD的關鍵基因是十分有必要的。筆者利用TCGA數據庫對LUAD組織與正常組織的差異基因進行篩選,并做出富集分析、生存分析等尋找新的與LUAD相關的關鍵基因且分析其在LUAD中的作用,為臨床早期診斷LUAD提供參考。
1.數據的提取:從TCGA數據庫中下載所有關于LUAD的mRNA轉錄組Count數據。整理Count數據形成一個列名為基因名,行名為樣本名的矩陣文件。其中列名與行名的交點為該基因在該樣本中的表達情況。樣本一共有594例,LUAD樣本535例,其余為正常組織樣本。從TCGA數據庫中下載所有關于LUAD的臨床數據并整理,處理成一個包含樣本名、生存時間(單位為天)、生存狀態(“0”代表患者生存,“1”代表患者死亡)、年齡、性別、Stage分期、TNM分期的表格,以便后期用來做生存分析。
2.差異表達分析:將上述矩陣文件經過處理,分離出mRNA與LncRNA。之后對mRNA數據進行正常組織與LUAD的差異表達分析。將分離出的mRNA數據導入R語言,利用limma工具包讀取并處理文件,通過計算所有數據的倍數變化(fold change, FC) 值以及偽發現率(false discovery rate, FDR),并且篩選出FC值< 1,且P<0.05的mRNA(為了選取在正常組織中特異性上調表達的基因,擴大差異分子數目),形成一個包含基因名、log2FC、log2CPM、Pvalue、FDR值的文件。其中上調基因3713個(log2FC>0),下調基因1813個(log2FC<0)。之后對所有的 mRNA 轉錄組數據進行散點圖繪制。其中散點圖的橫軸為-lgFDR,縱軸為log2FC。
3.KEGG與GO富集分析:篩選log2FC排名前200的基因(上調基因與下調基因各100個),利用sublime、R語言、GSEA軟件進行GO富集分析與KEGG富集分析。
4.篩選FDR排名前200的差異基因:蛋白質是由mRNA為模板翻譯而來,因此研究mRNA對應的蛋白質非常有意義。對FDR值排序,選取排名前200的mRNA差異基因,通過String數據庫進行分析,分析時隱藏沒有連線的節點以便圖像更為簡潔清晰,之后構建蛋白互作網絡圖。將下載的Sting數據采用軟件“Cytoscape 3.6.1” 對蛋白互作網絡進行分析作圖。利用R語言,將網絡節點進行降序排列,選取前30個關鍵基因進行分析。
5.基因表達水平及生存分析:將關鍵基因的表達次數降序排列,尋找關鍵基因,找出其表達水平的中位數,以此為界,將關鍵基因分為高、低兩個表達組,并用R軟件、Strawberry perl、sublime進行生存分析。
6.關鍵基因在不同Stage分期中表達量的差異分析:將下載的臨床數據按Stage分期進行分組,利用ggplot2和ggpubr軟件包將生存分析中差異有統計學意義的5個關鍵基因進行不同Stage分期的基因表達量差異分析,得到關鍵基因在臨床早期和隨疾病分期進展的差異表達情況。
7.統計學方法與圖形繪制:應用 SPSS 25.0 統計學軟件對數據進行統計分析。通過R語言軟件3.6.3和limma軟件包處理數據得到差異表達基因。采用Kaplan-Meier法繪制生存曲線,關鍵基因的高表達組和低表達組的比較采用Log-rankχ2檢驗。用ggplot2和ggpubr軟件包將生存分析中差異有統計學意義的關鍵基因進行差異表達分析,用Kruskal-Wallis檢驗進行多組檢驗,Wilcoxon檢驗進行兩兩配對檢驗,以P<0.05為差異有統計學意義。
1.差異基因篩選結果:根據篩選條件,篩選出上調基因3713個,下調基因1813個,共5526個(圖1)。

圖1 差異基因表達散點圖
2.GO及KEGG富集分析結果:GO富集分析結果:GO分析結果表明,其生物過程主要在多細胞生物過程等功能富集(圖2)。KEGG富集分析結果表明,其生物過程主要在神經活性配體-受體相互作用等方面發揮作用(圖3)。

圖2 GO富集分析圖

圖3 KEGG富集分析圖
3.蛋白互作網絡:由String數據庫分析得出的網絡圖如圖4。利用R 語言將網絡節點進行降序排列,選取排在前30的關鍵基因CDH5、PECAM1、VWF、CAV1、TEK、CLDN5、HBB、RAMP2、TIE1、WNT3A、ADRB2、ALAS2、ANGPT4、CALCRL、CLEC14A、GIMAP8、GRK5、HBA1、HBA2、HEG1、LDB2、LMO2、PTPRB、RAMP3、TAL1、TNS1、ACVRL1、ADAMTS8、ARC和CCM2L。

圖4 蛋白互作網絡圖
4.關鍵基因生存分析:R語言將網絡節點進行降序排列后,對排名前30的基因使用Strawberry perl、sublime、R語言軟件進行生存分析。分析顯示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8高表達組生存率與低表達組比較,差異有統計學意義(P<0.05)。其中ADRB2和GIMAP8與生存期的關聯較強,后3組不明顯;其他25個基因高表達組生存率與低表達組比較,差異無統計學意義(P>0.05,圖5)。因此,筆者主要對差異有統計學意義的ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8基因進行分析。

圖5 生存曲線圖
5.關鍵基因在不同Stage分期中表達量的差異分析:將下載的臨床數據按Stage分期進行分組,利用ggplot2和ggpubr軟件包將生存分析中差異有統計學意義的關鍵基因進行差異表達分析。分析顯示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8均在LUAD臨床早期就有表達,ADAMTS8差異有統計學意義(P<0.05),其余4個基因比較,差異無統計學意義(P>0.05)。使用Wilcoxon檢驗對ADAMTS8各分期進行兩兩之間配對檢驗,顯示其StageⅠA與StageⅠB、StageⅡA、StageⅡB、StageⅢA、StageⅢB、StageⅣ之間表達量比較,差異有統計學意義(P<0.05,圖6)。ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8均在LUAD臨床早期就有一定表達,這些基因對早期診斷LUAD具有一定價值,有望成為早期診斷LUAD的基因。
在國際上,肺癌的病死率仍然較高[11]。中國等發展中國家癌癥病死率較高。造成這樣局面的原因包括獲得保健服務的機會不平等導致診斷和治療延誤、環境污染、吸煙等[11]。非小細胞肺癌患者在所有LC中的比例高達4/5,而LUAD在非小細胞肺癌中較為常見[12~14]。LUAD預后較差,當LUAD患者出現癥狀去就診時,通常已是LUAD晚期。EGFR、BRAF、KRAS、FGFR3和ERBB2等基因突變、染色體雜合性缺失包括9q和16p或NFE2L2/Nrf2信號通路的改變均可導致LUAD,但LUAD早期發病相關基因有待于進一步研究。因此,為了提高患者的生存率,降低患者的經濟壓力,探索與研究和LUAD的相關的分子標志物、基因以及癌癥的發生機制并早期發現LUAD是十分有必要的。
本研究采用了生物信息學分析的方法,首先從TCGA數據庫搜索并下載了549例LUAD樣本與LUAD的臨床數據來進行生存分析。549例LUAD樣本中包含了59例正常組織樣本和535例LUAD組織樣本。通過差異分析篩選出上調基因與下調基因,利用String數據庫與Cytoscape軟件獲得蛋白網絡互作圖。進一步生存分析顯示,ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8高表達組與低表達組生存率比較,差異有統計學意義(P<0.05),其中ADRB2和GIMAP8與生存期的關聯較強,后3組不明顯;其他25個基因高表達組生存率與低表達組比較,差異無統計學意義(P>0.05)。關鍵基因在不同Stage分期的差異表達分析顯示ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8在LUAD臨床早期就已有表達,且ADAMTS8各分期表達比較,差異有統計學意義(P<0.05)。
ADRB2是G蛋白偶聯受體超家族的成員,可被β-激動劑激活,如腎上腺素、去甲腎上腺素等。該受體與其最終效應器之一的C類L型鈣通道Ca(V)直接相關。該受體通道復合物還包含G蛋白、腺苷酸環化酶、cAMP依賴性激酶和平衡磷酸酶PP2A,并且這個基因無內含子[15]。ADRB2與許多癌癥的發生相關。香煙煙霧中的應激激素(如腎上腺素和去甲腎上腺素)和致癌物可與β2受體結合,進一步促進癌癥的發展[16]。本研究中ADRB2高表達組與低表達組的生存分析比較,差異有統計學意義,且與生存期的關聯較強。ADRB2在LUAD臨床早期就已有表達,但Stage各期表達量比較差異無統計學意義。研究表明ADRB2與肺癌密切相關[17,18]。Adissu等[19]
研究發現LUAD的Clara細胞系對β受體激動劑如異丙腎上腺素的促瘤作用高度敏感,異丙腎上腺素能促進cAMP的表達。然而,由肺泡Ⅱ型細胞發展而來的LUAD對β受體激動劑有耐藥性,并其對cAMP刺激有反應。這一發現提示了ADRB2在肺癌發生中的重要作用,并提示AR阻斷劑的應用可能是預防肺癌發生的有效手段。Szentendre等[20,21]在培養的A549(人非小細胞肺癌細胞系)細胞中發現該細胞中IL-1受體的激活導致細胞選擇性地上調ADRB2,這種效應的機制涉及ADRB2 mRNA19的形成和穩定性的增加。然而,進一步的研究發現,ADRB2在Calu-3(培養的白種人LUAD)細胞中表達,表明ADRB2與LUAD的發生密切相關。
GIMAP8屬于GTP結合超家族和核苷酸結合蛋白的免疫相關核苷酸(IAN)亞家族的蛋白質。本研究GIMAP8高表達組與低表達組生存分析比較,差異有統計學意義。GIMAP8在LUAD臨床早期就已有表達,但Stage各分期表達比較差異無統計學意義。Shiao等[22]在共20例非小細胞肺癌的實驗中用定量PCR證實了GIMAP6和GIMAP8在非小細胞肺癌中的基因表達顯著降低。非小細胞肺癌包含了鱗癌、LUAD和大細胞癌,在Shiao等實驗中并沒有明確提出GIMAP8與LUAD的關系,僅僅表明GIMAP8與非小細胞癌有關。目前有關與GIMAP8與肺癌的相關研究極少,因此,GIMAP基因的調控機制有待于進一步研究。
LMO2編碼卵黃囊紅細胞生成所需的富含半胱氨酸的雙LIM結構域蛋白質。LMO2蛋白在造血發育中起著核心和關鍵作用,并且高度保守。LMO2轉錄起始位點位于11p13 T細胞易位簇(11p13 ttc)下游約25kb處,在此發生大量T細胞急性淋巴細胞白血病特異性易位。本研究中,LMO2高表達組與低表達組生存分析比較差異有統計學意義,但與生存期的關聯性不明顯。LMO2在LUAD臨床早期就已有表達,但Stage各期表達量差異無統計學意義。Wang等[23]研究表明LMO2可以調控PTTG1在肺癌組織中的表達,Li等[24]研究表明,PTTG1促進人非小細胞肺癌細胞的遷移和侵襲并受到LMO2的調控。Mao等[25]研究非吸煙LUAD患者的相關基因時發現,非吸煙LUAD患者的惡性磨玻璃結節中存在LMO2的突變,表明LMO2可能通過調節基因表達來發揮作用,從而影響LUAD的發展和預后。
TNS1基因編碼的蛋白質定位于局灶性黏附,即細胞附著在細胞外基質上的質膜區域。這種蛋白質交聯肌動蛋白絲并包含Src同源2(SH2)結構域,該結構域通常存在于參與信號轉導的分子中。在本研究中,TNS1高表達組生存率高于低表達組,差異有統計學意義但與生存期的關聯性不明顯。TNS1在LUAD臨床早期就已表達,但Stage各期表達量差異無統計學意義。Duan等[26]將si-NC、pcDNA3.1、si-TNS1或pcDNA3.1-TNS1轉染到A549和H460細胞(非小細胞肺癌細胞株)中,通過RT-qPCR和Western blot法分析轉染效率,采用MTT法和流式細胞儀檢測TNS1對非小細胞肺癌細胞生長的影響,證實TNS1在非小細胞肺癌患者中顯著上調,并與非小細胞肺癌的生長轉移相關。
研究表明,miR-152/TNS1軸通過Akt/mTOR/RhoA通路抑制非小細胞肺癌進展。Chen等[27]構建了與LUAD生存相關的lncRNA-miRNA-mRNA ceRNA網絡,證實TNS1在LUAD組織中表達下調,且表達越高,預后越好。Zhu等[28]研究表明,miR-31-5p在LUAD組織中顯著上調,且與TNS1表達水平呈負相關,證實TNS1是miR-31-5p的直接靶點。進一步研究表明TNS1在一定程度上減弱了miR-31-5p對LUAD細胞功能的促腫瘤作用,證實miR-31-5p可以通過TNS1/p53軸促進LUAD細胞的生長。因此,LUAD與TNS1密切相關。
ADAMTS8是編碼ADAMTS蛋白質家族的一個成員,在體內破壞血管生成。在該基因附近已經繪制了許多疾病的圖譜,最顯著的是肺腫瘤。ADAMTS8是一種腫瘤抑制因子,在多種人類癌癥中觀察到ADAMTS8的表達降低。本研究中ADAMTS8高表達組與低表達組生存分析比較,差異有統計學意義,但與生存期的關聯性不明顯。ADAMTS8在LUAD臨床早期就已有表達且其StageⅠA與StageⅠB、StageⅡA、StageⅡB、StageⅢA、StageⅢB、StageⅣ之間表達量差異有統計學意義。Zhang等[29]采用RT-qPCR方法探索ADAMTS8在肺癌細胞株H460和A549中的表達,研究表明ADAMTS8在肺癌中具有抑制作用。ADAMTS8在體外通過VEGFA調控HUVECs細胞增殖、凋亡、管形成,在體內介導腫瘤生長和血管生成,證實了ADAMTS8在肺癌中可能具有抗腫瘤和抗血管生成的作用。Li等[30]用CCK-8和RT-qPCR等研究方法表明ADAMTS8為促進調節預后炎癥相關的生物學標志物,這些基因的表達抑制了LUAD細胞的增殖,且ADAMTS8的表達受TNF-α和增強子的調控。這些基因的表達抑制了LUAD細胞的增殖,證實了ADAMTS8表達是影響LUAD患者預后的獨立危險因素。
綜上所述,通過TCGA數據庫分析出ADRB2、GIMAP8、LMO2、TNS1、ADAMTS8在LUAD臨床早期就已有表達,且ADAMTS8在不同Stage分期中表達量差異有統計學意義。ADRB2、LMO2、TNS1、ADAMTS8已被證實與LUAD的發生和預后相關,GIMAP8已被證實與肺非小細胞癌有關,但其與LUAD的相關機制有待于進一步研究。這些關鍵基因與中腸發育、循環系統中的血管過程、碳酸氫鹽運輸等生物學過程有關,未來有希望成為早期診斷LUAD的基因。