朱德奇,盧建國,李賓,張勁草,王忠民,董成來
(新鄉醫學院第一附屬醫院 胸外科一病區,河南 新鄉 453100)
肺癌是世界上發病率和病死率最高的惡性腫瘤之一[1]。非小細胞肺癌(non-small cell lung cancer,NSCLC)是肺癌的主要病理類型[2],其病程隱匿,多數患者就診時病變已進展至中晚期,5 a生存率僅為15.9%[3]。肺腺癌(lung adenocarcinoma,LUAD)和肺鱗狀細胞癌(lung squamous cell carcinoma,LUSC)是NSCLC的兩種主要組織學亞型[4]。治療前明確病理分型對中晚期肺癌的治療至關重要。但除了病理檢查外,LUAD和LUSC仍難以區分。基因突變是NSCLC發生發展的重要原因,一些關鍵基因如NF1、CDKN2A和TP53在LUAD和LUSC中均具有較高的突變率[5]。然而LUAD和LUSC中也存在著不同的驅動基因[6],發現獨特的可變基因有助于區分NSCLC亞型,及時提供合適的治療方案。生信分析廣泛應用于發掘腫瘤差異表達的靶向治療基因[7]。鑒于目前缺乏有效區分LUAD和LUSC的潛在基因,本研究采用生信手段,通過分析基因表達綜合(Gene Expression Omnibus,GEO)和腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)數據庫中的NSCLC數據集,旨在尋找能有效區分LUAD和LUSC的潛在基因。
美國國家生物技術信息中心的GEO數據庫(http://www.ncbi.nlm.nih.gov/geo/)是一個提供基因表達、芯片和微陣列數據的基因組公共數據存儲庫。納入研究的3個數據集GSE4882、GSE7339和GSE40275同時包含LUAD和LUSC的RNA-seq數據。其中GSE4882包括60個LUAD和52個LUSC組織樣本;GSE7339包括32個LUAD和12個LUSC組織樣本;GSE40275包括11個LUAD和5個LUSC組織樣本。
利用R軟件對GEO數據庫下載的mRNA原始微陣列基因表達數據進行處理。使用Limma包對數據進行歸一化處理并進行差異分析,P<0.05且|log2FC|>1的基因為DEGs,利用R軟件繪制韋恩圖,3個GEO數據庫交叉得到共同的DEGs。
GO富集分析包括生物通路、分子功能和細胞成分分析3個方面內容。KEGG通路富集分析用于DEGs所富集的通路注釋分析。GO富集分析和KEGG分析用于探究DEGs的潛在功能。GO富集分析和KEGG分析由DAVID數據庫完成。P<0.05為差異有統計學意義。
利用STRING在線數據庫(http://string-db.org/)構建PPI網絡,利用Cytoscape軟件重建PPI網絡,找出DEGs編碼蛋白之間的相關性,分析得到樞紐基因。
TCGA是包括幾乎所有腫瘤RNA-seq數據的數據庫之一。利用在線網站GEPIA (http://www.gepia.cancer-pku.cn/)分析TCGA數據庫中樞紐基因的表達。采用ULACAN在線工具分析TCGA數據庫中樞紐基因表達與預后風險的關系。P<0.05為差異有統計學意義。
利用R軟件進行Cox回歸分析和Nomogram列線圖的構建。Cox回歸分析用于計算樞紐基因與患者死亡的風險比。建立Cox比例風險模型Nomogram來預測樞紐基因的風險值。使用校準曲線對構建的模型進行驗證。一致性指數用于評價預后模型的預測精度,0.50~0.70為準確度較低,0.71~0.90為準確度中等,高于0.90為準確度高。
本研究收集的12例新鮮肺癌組織標本均為2023年4—6月新鄉醫學院第一附屬醫院胸外科手術切除的患者組織。術后病理診斷為LUSC或LUAD,術前均未接受針對腫瘤的任何治療。組織標本離體后置于40 g·L-1的多聚甲醛中保存。
使用TRIzol試劑提取組織總RNA,提取過程全程無酶操作。利用逆轉錄試劑(Takara,Japan)將mRNA逆轉錄為cDNA,隨后使用qRT-PCR試劑盒(Takara,Japan)將上述反轉錄過程中得到的cDNA進行PCR擴增和定量分析,每個樣本設置3個重復孔。GAPDH作為正常對照,按2-ΔΔCt法計算RNA表達量。引物序列:KRT18(正義鏈5’-TGCAGCTGGAGACAGAAATC-3’,反義鏈5’-TTCCACAGTCAACCCAGAAC-3’);GAPDH(正義鏈5’-ACAGCAACAGGGTGGTGGAC-3’,反義5’-TTTGAGGGTGCAGCGAACTT-3’)。
用RIPA裂解緩沖液提取組織蛋白。利用SDS-PAGE凝膠(100 g·L-1)電泳,然后將凝膠轉移到NC膜(Darmstadt,Germany)上進行轉膜。使用無蛋白快速阻斷緩沖液封閉NC膜。然后將膜與KRT18(1∶1 000)和GAPDH(1∶1 000)的一抗在4 ℃下孵育過夜。第2天用1×TBST洗滌膜3次。然后,將膜與匹配的二抗(Beyotime,China)在常溫下孵育1.5 h。最后顯影,記錄數據。
采用SPSS 19.0軟件進行統計學分析。采用χ2檢驗或Fisher確切概率法分析樞紐基因表達與臨床病理特征之間的關系;Student’st檢驗用于比較兩組獨立的數據;ANOVA檢驗用于比較多組數據;采用單因素和多因素Cox回歸模型進行單因素和多因素分析。P<0.05為差異有統計學意義。
下載分析GSE4882、GSE7339和GSE40275的RNA-seq數據。結果顯示在3個數據集中有9個DEGs表達上調(圖1A),13個DEGs表達下調(圖1B)。其中上調的DEGs是在LUAD中表達上調,在LUSC中下調。下調的DEGs是在LUAD中表達下調,在LUSC中表達上調。

A為韋恩圖顯示表達上調的DEGs;B為韋恩圖顯示表達下調的DEGs。圖1 韋恩圖顯示表達上調的DEGs
利用DAVID數據庫對DEGs進行GO和KEGG分析。DEGs可能相關的細胞功能和通路見圖2。

A為散點圖顯示DEGs的GO富集;B為散點圖顯示DEGs的KEGG富集。圖2 DEGs可能相關的細胞功能和通路
使用在線網站STRING進行PPI蛋白互作分析,分析找到DEGs之間相關聯的樞紐基因。然后利用Cytoscape軟件重建PPI網絡,進一步顯示關鍵樞紐基因(圖3)。最后在22個DEGs中發現了KRT18、RAN、NME1、NME2、MIF和CFB6個關鍵樞紐基因。

圖3 構建DEGs的PPI網絡基因分析
進一步利用TCGA公共數據庫分析上述樞紐基因在LUSC與LUAD患者癌組織樣本與癌旁正常組織中的表達差異情況,結果顯示,KRT18在LUAD組織中的表達高于癌旁正常組織,在LUSC中則無表達差異;而RAN表達則恰恰相反,其在LUSC組織中的表達高于癌旁組織,但在LUAD中則無表達差異。NME1、NME2、MIF在LUSC及LUAD中表達均高于癌旁組織,而CEB在兩種組織中的表達無明顯差異(圖4)。提示KRT18和RAN可能是LUAD和LUSC分類的潛在基因。

圖4 利用GEPIA在線網站分析6個樞紐基因在TCGA數據庫中的表達情況
利用ULACAN在線工具分別下載TCGA中LUAD和LUSC上述6個樞紐基因的表達量、臨床病理特征以及生存數據進行單因素和多因素Cox分析,評估樞紐基因表達與患者生存時間之間的關系。由于CFB在LUAD和LUSC中的表達情況無差異,因此未將CFB納入單因素和多因素Cox回歸分析中。在LUAD中,單因素Cox分析結果顯示,KRT18、RAN、NME1、NME2和MIF均是導致LUAD患者死亡的危險因素,進一步多因素Cox回歸分析顯示,KRT18高表達可作為判斷LUAD患者預后的獨立危險因素(表1)。而在LUSC患者中,單因素和多因素Cox回歸分析顯示,KRT18、RAN、NME1、NME2和MIF基因與LUSC患者死亡之間并無顯著相關性(表2)。提示KRT18不僅在LUAD和LUSC患者中表達存在差異,在預測死亡上也存在顯著差異。因此,推測樞紐基因KRT18可能是區分LUAD和LUSC的潛在基因。

表1 LUAD中樞紐基因表達與臨床病理特征以及生存關系的單因素和多因素Cox分析

表2 LUSC中樞紐基因表達與臨床病理特征以及生存關系的單因素和多因素Cox分析
本研究構建了KRT18表達對LUAD患者1、2和3 a總生存期影響的Nomogram列線圖,對Cox回歸分析結果進行可視化呈現(圖5A)。此外,建立校正曲線對列線圖進行進一步的驗證(圖5B)。

A為列線圖;B為校準曲線。圖5 Nomogram列線圖和校準曲線的構建
收集新鄉醫學院第一附屬醫院6對LUAD和LUSC患者的腫瘤組織和癌旁組織,分別檢測這些配對樣本中KRT18mRNA和KRT18蛋白的表達水平,結果顯示LUAD患者腫瘤組織的KRT18mRNA和KRT18蛋白表達均高于癌旁組織,但在LUSC中,只有部分組織的KRT18mRNA和KRT18蛋白表達高于癌旁正常組織(圖6)。提示KRT18可作為區分LUAD和LUSC的潛在基因。

A為KRT18 mRNA表達比較;B為KRT18蛋白表達比較。圖6 KRT18在NSCLC臨床組織樣本中的表達
NSCLC是肺癌的主要病理亞型,約占所有類型肺癌的85%,病程進展隱匿,多數患者就診時病變已進展至局部晚期,5 a生存率低于20%[3]。研究表明早期診斷及治療可提升NSCLC患者5 a生存率至57%以上[8]。治療前明確病理分型和分期對NSCLC治療至關重要。LUAD和LUSC是NSCLC兩種主要的組織學亞型,目前病理檢查仍然是明確LUAD和LUSC的金標準,但病理檢查需要一段時間,可能延誤患者治療。因此,尋找能區分LUAD和LUSC的基因至關重要。
雖然LUAD和LUSC是不同的NSCLC組織學類型,但研究表明在LUAD和LUSC腫瘤發生發展中發生了許多相似的基因突變。例如CDKN2A、KEAP1和NF1在兩種腫瘤類型中均發生突變[5]。TP53是一種傳統的抗癌基因,在各種腫瘤的發生中起著重要作用,在LUAD和LUSC中同樣會發生突變[9]。EGFR基因突變在LUAD患者中更為常見,而在LUSC患者中則較為罕見[10],這表明發現不同的基因突變可能是幫助LUAD和LUSC分類的潛在方法。本研究通過分析公共數據庫中的RNA-seq或基因芯片數據,找到有助于區分LUAD和LUSC潛在的基因。首先,從3個GEO數據庫下載RNA-seq數據,分析得到LUAD和LUSC的DEGs。然后,通過構建PPI網絡尋找到RAN、NME1、NME2、MIF、CFB和KRT186個樞紐基因,并進一步在TCGA數據庫中驗證樞紐基因表達,分析樞紐基因表達與臨床病理、生存之間的關系,發現KRT18在LUAD和LUSC中的表達與臨床病理、生存之間存在顯著性差異。因此推測KRT18可能是一個潛在的區分LUAD和LUSC的基因。最后,從收集的LUAD和LUSC患者的臨床組織樣本中檢測了KRT18mRNA和KRT18蛋白水平,結果顯示KRT18在不同亞型的NSCLC中表達不同。以上研究結果提示KRT18可以作為區分LUAD和LUSC的潛在基因。KRT18是一種細胞角蛋白,主要保護上皮細胞免受機械和非機械壓力作用[11]。角蛋白絲可以動態重塑,在各種機械和非機械刺激下進行重組,調節細胞遷移和信號傳導等細胞過程[12]。研究表明KRT18與胃癌、結直腸癌和膠質母細胞瘤等惡性腫瘤的發生和侵襲轉移相關[13-15]。此外,另有研究報道EGR1可調控KRT18的表達,介導NCSLC的發生和發展[16]。這些結果表明KRT18是一種致癌基因,可介導多種癌癥的發生和發展。
本研究證明KRT18可以作為一個潛在的基因來幫助區分LUAD和LUSC,但本試驗也存在幾點不足,第一,臨床組織樣本量較小,需要進一步擴大樣本量;第二,本試驗并未進行KRT18在LUAD以及LUSC中的體內外細胞實驗,未來需要做進一步研究證實本研究結論。