李崇將 賀建中 周茜 鄒小凡
吉安市中心人民醫院呼吸內科343000
肺癌是全世界病死率最高的惡性腫瘤,85% 左右為非小細胞肺癌,其中肺鱗癌與肺腺癌最為常見,研究顯示,肺癌5 年生存率接近13%左右,低生存率反映著早期診斷標志物的缺乏以及潛在的疾病機制不確切[1]。肺腺癌起病隱匿,早期可行手術治療,但易復發,研究顯示有超過30%的患者面臨術后復發的風險[2]。除手術外,隨著分子靶向藥物、血管靶向藥物、免疫治療等治療手段的應用,肺腺癌的生存期及無疾病進展生存期得到了明顯改善,但始終面臨著耐藥及其他風險[3-4]。
研究表明,代謝組學的改變是腫瘤的重要生物學特征,腫瘤代謝異常與腫瘤的發生發展互為因果關系[5]。研究顯示L 亮氨酸、肉毒堿、C16 黯氨醇、13,16,19-二十二碳三烯酸、溶血磷脂酷乙醇膠、磷脂酌膽堿在非小細胞肺癌定性診斷中具有較好的價值,其中L 亮氨酸特異性最高[6]。通過對肺腺癌患者血清代謝組學研究發現肺腺癌患者血清中有14 種代謝物出現明顯差異,其中丙酮酸、丙氨酸、NAC1、乳酸、GPC和甘氨酸對比對照組有顯著上升,而葡萄糖、谷氨酰胺、亮氨酸、異亮氨酸、纈氨酸、丙酮、乙酰乙酸和蘇氨酸則顯著下降。而在不同分期肺腺癌患者間進行比較后發現,異亮氨酸、乙酰乙酸、NAC1和乳酸的變化與肺腺癌的發展有相關性,可能是肺腺癌早期診斷和分期的潛在生物標志物[7]。盡管目前基于TCGA 數據庫的肺腺癌轉錄組數據庫的預后分析以及得到了廣泛的研究,然而其與代謝過程有關的基因用于肺腺癌預后相關的數據及實驗尚缺乏。預后模型的構建是注重多個基因或因子之間的共同分析,從而提高準確性。本研究擬運用生物信息學方法對肺腺癌代謝通路表達相關基因進行篩選和深入分析,旨在為肺腺癌尋找關鍵基因,并篩選出與代謝相關基因,構建預后模型,用于肺腺癌預后相關風險的評估。
1.1 研究對象 觀察性研究。首先使用R 語言包TCGAbiolinks下載TCGA 數據庫中的肺腺癌的生存數據,挑選出每個樣本的生存時間、生存狀態、年齡、性別、TNM 分期和階段數據,排除非癌癥死亡因素的影響去除生存時間小于30 d 的樣本。去除生存時間為缺失值的樣本,最后獲得490個樣本。性別、年齡、病理分期、生存狀態等臨床信息,見表1。

表1 肺腺癌臨床數據統計
1.2 研究方法
1.2.1 代謝相關基因的提取和處理 從TCGA 數據庫下載肺腺癌的基因表達數據:使用R 語言包下載TCGA 數據庫中的肺腺癌RNAseq轉錄組表達數據,整合表達數據獲得基因表達矩陣(FPKM)。經過整理得到19 584個蛋白編碼基因的表達數據,總共594個樣本,其中535個癌癥樣本和59個正常樣本。
1.2.2 基因差異表達分析 差異表達分析使用R語言的limma 包完成,差異表達的標準設置為log2FC的絕對值大于1,P值小于0.05。差異表達基因聚類圖見圖1,最后鑒定到2 283個差異表達基因,其中1 392個基因下調表達,891 個基因上調表達。

圖1 差異表達基因聚類熱圖
1.2.3 與代謝通路相關基因取交集 從KEGG 數據庫下載人類KEGG 通路相關信息,使用python腳本提取和代謝相關的基因。最終得到1 646個和代謝有關的基因。代謝相關基因與步驟2中2 283個差異表達基因取交集得到201個和代謝相關的差異表達基因,其中上調表達的為94個,下調表達的為107個。
1.2.4 獲得的基因GO 功能富集分析 使用R 語言clusterProfiler包利用201個基因的基因符號做GO 功能富集分析(P值設定為0.05)。
1.2.5 單因素Cox分析初步篩選預后相關基因使用R 語言包survival做單因素Cox分析,選擇P值小于0.05的基因作為候選基因。使用R 語言的survminer包根據基因表達量將候選基因分為高表達和低表達組,使用K-M 方法繪制生存曲線,選擇前6個基因進行展示,見圖2。

圖2 單因素Cox回歸分析前6個基因進行展示 A:CA4表達;B:AGMAT 表達;C:FMO2表達;D:CYP24A1表達;E:INMT 表達;F:GCNT3表達
通過單因素Cox分析的篩選,總共有69個基因的P值小于0.05。保留這69 個基因用于后續分析。
2.1 成功篩選出4個關鍵基因用于構建模型 使用R 語言的glmnet包利用步驟5得到的69個基因構建Lasso-Cox回歸進一步篩選基因,在λ值等于0.08的條件下選擇了4個關鍵基因用于構建多因素Cox回歸模型。根據這4個關鍵基因的表達情況,構建多因素Cox回歸模型,并構建了風險評分公式 表, 其 中 β 為 多 因 素 Cox 模 型 系 數,EXPm RNA 為基因表達量:Figure 5 lasso回歸降維βi×EXPmRNAi,見表2。

表2 多因素Cox回歸結果
2.2 模型預測效力 繪制受試者工作特征(ROC)曲線并計算曲線下面積。根據圖3可以看出,高風險分數組患者預后明顯差于低風險得分組患者(P<0.01),驗證了模型的準確性。依據模型的計算結果,繪制時間依賴的生存情況的ROC曲線,其中1、2、3 年曲線下面積分別為0.640、

圖3 高低風險組K-M 曲線
0.637、0.645。說明了模型中包含的基因表達量能較好的預測患者的生存情況(圖4)。

圖4 不同年限受試者工作特征曲線
2.3 不同臨床表型與風險得分情況 通過對表1中臨床樣本數據分析,從圖5箱線圖觀察風險得分在不同臨床表型的分布情況可以看出,風險得分值在性別、年齡、腫瘤N 分期、腫瘤T 分期、腫瘤分級等表型中存在著明顯的差異。見圖5。

圖5 不同臨床表型與高低風險得分組樣本分布情況 (n=490) A:性別;B:年齡;C:病理性M 分期;D:病理性N 分期;E:病理性T 分期;F:腫瘤等級
根據風險得分,結合關鍵基因表達情況及臨床特征,繪制熱圖。對關鍵基因進行了GO 和KEGG 的富集分析,發現關鍵基因顯著富集于血小板脫顆粒、補體激活,凝集素途徑等功能,并與糖酵解/糖異生通路相關。根據相關性從高到低排序,對關鍵基因進行GSEA 富集分析,進一步探索關鍵基因的功能與通路,評估關鍵基因與其他基因的相關性。
2.4 成功構建可量化預后模型 利用風險模型結合臨床特征年齡、性別、腫瘤M 分期、腫瘤N 分期、腫瘤T 分期分級構建列線圖 (圖6),成功構建可量化的預后模型。

圖6 模型列線圖
2.6 驗證集數據再次確定數據及模型可靠性 為了驗證模型的有效性和可重復性,通過GEO 數據庫中下載了基因表達數據作為驗證數據集(GSE31210)。提取驗證數據集中4個關鍵基因的表達量數據和生存數據,根據Cox多因素回歸模型計算風險分數,依據風險分數把驗證數據集中的患者分為高風險和低風險組,分組閾值由R 語言的survminer包計算得出,對所得兩組分別繪制K-M 曲線。從圖7中可以看出高風險組的患者預后明顯差于低風險組的患者 (P<0.01),使用驗證數據集繪制ROC曲線驗證數據集中的AUC值1年最大為0.834,這也驗證了模型的有效性和可重復性。

圖7 驗證數據集的K-M 曲線
目前已經有研究證實與肺癌相關的代謝物包括:谷氨酰胺、次黃嘌呤、嘌呤、磷脂、肉堿、麥芽糖、甘油、乙醇胺谷氨酸、乳酸、色氨酸、組氨酸、賴氨酸等,不同的代謝物水平的高低對于肺癌可以有不同的影響,研究顯示這些代謝產物可以作為肺癌早期診斷的生物標志物等[8]。研究顯示BCAA 以及BCAA 相關轉氨酶2 (BCAT2)在非小細胞肺癌中代謝活躍[9]。腫瘤起始細胞明顯上升與蛋氨酸循環活躍以及MAT2A 基因的轉化率有關[10]。研究顯轉錄因子c-Maf在腫瘤控制免疫抑制巨噬細胞極化及功能方面起非常關鍵的作用,同時轉錄因子c-Maf通過促進M2巨噬細胞的極化與活化調節三羧酸循環以及三磷酸尿苷-糖代謝生物合成[11]。同時有研究顯示脯氨酸分解代謝可以影響非小細胞肺癌的進展,淋巴特異性螺旋酶(LSH)特異性調節脯氨酸及其他代謝途徑 (包括酸代謝),同時LSH 可以通過野生型p53基因誘導PRODH 表達,而PRODH 是非小細胞肺癌(NSCLC)的癌基因之一,研究顯示在肺腺癌細胞中LSH 以及PRODH 都非常活躍[12]。
本研究通過權威數據庫TCGA,KEGG 下載了肺腺癌患者代謝相關基因表達數據和相對應的臨床信息,通過研究發現,在肺腺癌的發生和發展中,多個代謝相關基因表達發生了改變,這些代謝相關基因有可能在肺腺癌的發生、發展和預后中起重要作用。針對代謝相關基因表達,共得到201個基因,其中上調表達為94個,下調表達為107個。為了探究這些差異基因的表達水平和臨床關系,本研究先對201個基因做GO 功能富集分析,p值設定為0.05。最后應用單因素Cox和lasso回歸進一步篩選出4 個關鍵基因乳酸脫氫酶A (LDHA),甘油醛-3-磷酸脫氫酶 (GAPDH),重組人葡萄糖6-N-乙酰基轉移酶1 (GNPNAT1),羥酰輔酶A脫 水 酶1 (HACD1)。 其 中 乳 酸 脫 氫 酶 A(LDHA),研究顯示胰腺癌細胞有很高的乳酸脫氫酶A 活性,在其他癌癥細胞中活性亦較高,研究同樣顯示乳酸脫氫酶A 對于乳腺癌的生長與侵襲有關[13-14]。研究顯示人源乳酸脫氫酶A 基因參與肺癌細胞中Nrf2的轉錄表達調控[15]。甘油醛-3-磷酸脫氫酶是糖酵解過程中的一個酶,編碼該酶的基因為管家基因,大量研究證實甘油醛-3-磷酸脫氫酶在多種腫瘤中表達上調[16]。研究顯示重組人葡萄糖6-N-乙酰基轉移酶1 是肺癌診斷的獨立潛在基因[17]。
最后構建了列線圖,運用年齡,性別,腫瘤分期,腫瘤分級以及得分進行賦值,最后對肺腺癌的預后進行預測。還通過在GEO 數據庫中下載了基因表達數據作為驗證數據集,使用驗證數據集繪制ROC曲線驗證數據集中的AUC 值最大為0.834,這也驗證了模型的有效性和可重復性。
本研究采用了多種生物信息學方法,處理了大量數據并進行分析,但目前的研究僅限于運用數據庫相關數據進行研究及驗證,尚缺乏通過蛋白及基因芯片等實驗方法進行驗證,其應用價值還有待進一步完善。
經TCGA 數據庫和KEGG 數據的挖掘和分析,最終獲得4個關鍵基因用于構建風險模型,通過GEO 數據集進行驗證,實驗數據集和驗證數據集均提示本預后模型有較好的預測能力,為肺腺癌的個體化,精準治療及預后評估提供一定的幫助。
利益沖突 所有作者均聲明不存在利益沖突