黃溢問 吳 鳳 陽 聯 張文峰 賈家寶 孫 易 龐偉毅
(桂林醫學院公共衛生學院,廣西桂林市 541000,電子郵箱:1278769309@qq.com)
據《全球癌癥數據2018》[1]的統計結果,肺癌的全球發病率和全球死亡率在所有癌癥中均居首位,其中2018年有210萬例新發肺癌患者,180萬例患者死于肺癌,由此可見該病嚴重增加了全球衛生體系的負擔。肺癌可分為小細胞肺癌和非小細胞肺癌(non-small cell lung cancer,NSCLC),以后者最為常見。以吉非替尼為代表的肺癌靶向藥物出現后,患者中位生存期顯著延長,不良反應也大大減少[2-3]。吉非替尼是一種表皮生長因子受體(epidermal growth factor receptor,EGFR)酪氨酸激酶抑制劑(tyrosine kinase inhibitor,TKI),可抑制腫瘤生長,但由于腫瘤的異質性等眾多因素,吉非替尼也出現了耐藥現象,但其機制至今仍未完全闡明[4]。近年來,基因芯片和測序亦作為新興技術之一,可以在極短的時間內產生大量的數據;但同時這些數據也夾雜著大量的錯誤信息,傳統的逐個基因的探索方法也因此顯得耗時且低效[5]。這使得學者們開始重視信息的規范化,以及對數據的管理及分析,因此傳統的生物化學實驗室逐漸向生物信息學領域發展,也由此衍生了計算生物學、生物信息學等新型分析方法;這些方法已被用于腫瘤的分類和其相關分子機制的探索,其有效性及高效性在一定程度上規避了傳統生物化學方法的弊病。本研究利用基因芯片數據,運用生物信息學工具分析肺癌耐藥相關的通路和基因,為吉非替尼耐藥機制的研究提供線索和依據。
1.1 數據來源 在GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)中下載基因表達譜數據集GSE122005。該數據集以人NSCLC細胞HCC827作為樣本,一共6份樣本,由3份吉非替尼敏感細胞樣本(Gefitinib1、Gefitinib2、Gefitinib3)和3份獲得性吉非替尼耐藥細胞樣本(Acquired1、Acquired2、Acquired3)構成,該基因表達譜數據集采用Affymetrix公司的平臺GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array進行測定。
1.2 數據質量檢測 使用R語言3.5.2處理原數據集,將基因探針ID轉化為對應的基因名稱后獲得表達矩陣,繪制表達分布圖、樣本聚類圖,并進行主成分分析,從而進行數據質量分析。
1.3 差異表達基因的篩選 使用R語言的Limma包對表達矩陣進行差異分析,并篩選出差異表達基因。
1.4 差異表達基因的富集及通路分析 使用在線工具DAVID 6.7(https://david.ncifcrf.gov/)和KOBAS 3.0(https://kobas.cbi.pku.edu.cn/kobas3),導入差異表達基因,查看并導出基因本體論(Gene Ontology,GO)富集分析和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)信號通路分析結果[6]。
1.5 蛋白質互相作用網絡的構建 將差異表達基因批量導入在線工具STRING 11.0(https://string-db.org/),生成并導出蛋白質互相作用(protein-protein interaction,PPI)網絡,使用CytoScape 3.7.1中的cytoHubba插件計算每個節點的核心程度,根據評分進行排名,取排名前10的基因作為關鍵基因。
1.6 生存曲線分析 選取關鍵基因,以基因的中位表達水平作為分組界限,以總生存期作為統計指標,利用在線工具Kaplan-Meier Plotter(http://www.kmplot.com/)繪制不同基因表達水平的NSCLC患者的生存曲線。
2.1 數據質量的檢測結果 數據集的表達分布圖顯示各樣本的表達量恒定,樣本聚類圖、主成分分析可以清晰地區分出非替尼敏感細胞樣本(Gefitinib1、Gefitinib2、Gefitinib3)和獲得性吉非替尼耐藥細胞樣本(Acquired1、Acquired2、Acquired3)。見圖1。

圖1 吉非替尼敏感細胞樣本和耐藥細胞樣本的芯片數據質量檢測
2.2 差異表達基因的篩選結果 本研究以調整后P值≤0.01、|log2FC|≥1.5作為篩選差異表達基因的條件,最終獲得604個差異表達基因,其中表達上調基因332個,表達下調基因272個,見圖2。

圖2 兩個樣本間差異表達基因的火山圖
2.3 GO富集分析結果 以P<0.01作為檢驗水準,結果共富集到98項有統計學意義的GO條目。其中,涉及9種分子功能,包括生長因子結合、糖蛋白結合等;17種細胞組成,包括核小體、細胞外空隙、細胞外區域部分、質膜部分等; 72種生物過程,包括核小體裝配、創傷反應等。見表1。

表1 差異表達基因的部分GO富集分析結果
2.4 KEGG信號通路分析結果 以調整后P值<0.01作為檢驗水準,共發現37條通路具有統計學意義,包括癌癥中的轉錄失調、腫瘤壞死因子信號通路等。見表2。

表2 差異表達基因的部分KEGG信號通路分析
2.5 PPI網絡 PPI網絡中共有555個節點,1 446個相互作用,見圖3;排名前10的基因包括C-X-C基序趨化因子配體[chemokine(C-X-C motif)ligand,CXCL]8、Erb-B2受體酪氨酸激酶(Erb-B2 receptor tyrosine kinase 2,ERBB2)、組織金屬蛋白酶抑制劑1(tissue inhibitor of metalloproteinases 1,TIMP1)、分泌性磷蛋白(secreted phosphoprotein 1,SPP1)、CXCL1、鈣黏著蛋白2(cadherin 2,CDH2)、C-C基序趨化因子配體[chemokine(C-C motif)ligand,CCL]2、內皮素1(endothelin 1,EDN1)、CCL20、集落刺激因子2(colony-stimulating factor 2,CSF2),見圖4。

圖3 差異表達基因的PPI網絡

圖4 關鍵基因
2.6 生存分析結果 Kaplan-Meier Plotter分析結果顯示,與預后相關的基因包括CXCL8、EDN1、SPP1、TIMP1,log-rank檢驗提示均P<0.01,見圖5。CXCL8、SPP1、TIMP1高表達或EDN1低表達的NSCLC患者,總生存期更短,預后較差;與差異分析結果進行對比,在耐藥細胞中CXCL8、SPP1、TIMP1為表達上調基因,EDN1為表達下調基因。

圖5 生存曲線
吉非替尼等EGFR-TKI藥物的出現極大地改善了EGFR變異的NSCLC患者的生存狀況,然而如大多數腫瘤一樣,NSCLC對吉非替尼也產生了耐藥性。耐藥的產生是一個多因素誘導的復雜過程,有文獻表明,最早發現的耐藥機制與EGFR二次突變(T790M突變等)有關,其中超過一半的EGFR-TKI變異所致耐藥病例為T790M突變;此外,選擇性旁路的激活、下游目標的激活和上皮間質轉化也被證實與吉非替尼耐藥存在一定相關性[7]。
本研究共篩選出與NSCLC對吉非替尼耐藥有關的差異表達基因604個,其中表達上調基因332個,表達下調基因272個。利用篩選出的差異表達基因進行富集分析和通路分析,結果顯示這些差異基因主要參與生長因子結合、糖蛋白結合、磷脂轉運蛋白活性、脂質結合、脂質轉運蛋白活性等分子功能,參與氧水平反應、創傷反應、系統過程的調控、核小體裝配、激素刺激反應等生物過程,其細胞組分主要有細胞外間隙、核小體、質膜部分、細胞外區域部分、細胞碎片等;信號通路分析顯示代謝途徑、癌癥通路、補體系統、癌癥中的轉錄失調、腫瘤壞死因子等與吉非替尼耐藥有關,但仍需進一步的實驗研究以證實。
根據PPI網絡獲得10個核心基因,包括CXCL8、ERBB2、TIMP1、SPP1、CXCL1、CDH2、CCL2、EDN1、CCL20、CSF2。(1)CDH2與多種腫瘤進展、轉移有關。肺鱗癌和肺腺癌有著完全不一樣的預后結局,有學者對肺腺癌和肺鱗癌之間的表達差異蛋白質進行分析發現,CDH2在肺腺癌中顯著上調,而在肺腺癌的血管內皮細胞中上調更為顯著;肺腺癌血管生成現象明顯,絲裂原活化蛋白激酶/胞外調節蛋白激酶和絲裂原活化蛋白激酶/c-Jun氨基末端激酶信號通路可能在CDH2誘導的低氧誘導因子1α和血管內皮生長因子介導的血管生成過程中扮演重要角色,這可能是肺腺癌總生存期相對較短的原因[8]。(2)ERBB2和EGFR類似,都是生長因子受體酪氨酸激酶亞家族的成員,也是乳腺癌和卵巢癌的高危基因。臨床上約有10%的肺腺癌患者存在REBB2突變,該型患者的預后差,生存期短[9]。(3)SPP1又稱骨橋蛋白,基因定位于人染色體4q上,主要參與調節生理過程,如發育、分化、炎癥和傷口愈合[10],其表達對多種癌癥的發生和轉移有重大意義,如肺癌、卵巢癌、胃腸癌、前列腺癌等,且可以作為NSCLC分期和預后評估的指標,其中SPP1高表達的NSCLC患者預后較差[11]。(4)EDN1是促炎性細胞因子,具有血管收縮活性、促進細胞外基質合成的作用,在器官纖維化和氧化應激方面也起著很重要的作用[12-13]。由于EDN1能誘導黑色素瘤細胞凋亡,以及前列腺癌中EDN1受體沉默,故有學者推測EDN1表達量的降低有利于腫瘤細胞生長[14]。目前已有生物信息學分析結果提示EDN1與NSCLC的發生機制有密切關系[15],但尚無與吉非替尼耐藥相關性的證據。(5)TIMP 是基質金屬蛋白酶的抑制因子,作用于細胞外基質,減少基質金屬蛋白酶的降解,增強細胞間粘連,與腫瘤的轉移和患者預后相關[16]。TIMP1是其成員之一,其靶分子為基質金屬蛋白酶1。在臨床中高表達TIMP1常常是多種腫瘤預后不良的征象[17],但同屬于一個家族的TIMP2的高水平表達卻提示預后良好,惡性程度較低[18]。(6)CCL2、CCL20、CXCL1、CXCL8都是趨化因子的成員。CCL2是趨化因子CC亞家族成員之一,是一類在人體的生理機能中發揮著重要作用的小分子蛋白,多由免疫細胞和神經膠質細胞等分泌,具有化學趨化活性。近年來,有研究表明CCL2受到血小板源性生長因子的自分泌回路調控,導致腫瘤轉移相關基因表達量的增加,從而增強腫瘤的侵襲性[19]。CCL20 可以自分泌的方式通過絲裂原活化蛋白激酶和磷脂酰肌醇 3-激酶信號通路,與腫瘤細胞增殖及擴散有關[20],高水平表達的CCL20與肺癌患者預后不良有關[21]。CXCL1 在肺癌組織中通常呈高表達,隨著其表達量升高,腫瘤相關中性粒細胞數量增加并浸潤肺癌組織,從而促使腫瘤生長[22]。有研究顯示,在合并惡性胸腔積液的NSCLC患者中,T細胞數量和CXCL1水平顯著增高;CXCL1的表達受到微小RNA-141調控,微小RNA-141通過微小RNA-141-CXCL1-CXCR2通路可調控T細胞向胸腔積液轉移[23]。CXCL8 主要作用于C-X-C基序趨化因子受體1 和2、達菲抗原趨化因子受體,其也與多種腫瘤的發生、發展有關[24]。由此可見,上述差異表達的核心基因都與肺癌等多種腫瘤的發生、發展、預后相關。此外,我們還在生存分析中發現CXCL8、SPP1、TIMP1高表達和EDN1低表達的NSCLC患者總生存期短于相應的低表達組或高表達組,這4個基因在預后較差組的表達水平恰好與耐藥樣本的表達水平相一致(同為高表達或同為低表達),提示了CXCL8、SPP1、TIMP1和EDN1可能在吉非替尼耐藥機制中發揮重要作用。但是目前尚無相關研究報告其中的作用機制;同時在吉非替尼耐藥的機制中,有關這些基因或蛋白的研究也相對較少。因此本研究結果雖然提示這些差異表達的基因在吉非替尼耐藥機制中可能扮演重要角色,但其中的作用機制還需進一步研究以探討。
綜上所述,本研究篩選出的差異表達基因中,CXCL8、SPP1、TIMP1、EDN1可能在NSCLC對吉非替尼耐藥的機制中起重要作用,但具體的作用機制有待進一步研究。本研究結果存在一定局限性:所分析的樣本僅來源于細胞,樣本量少,且僅從計算生物學方法的角度進行分析,因而所得差異表達基因在NSCLC對吉非替尼耐藥中的作用還需進一步研究驗證。