黃河 彭燕 盧娜 姜洪波 李成長
(1新鄉醫學院第四臨床學院 新鄉市中心醫院呼吸與危重癥醫學科一,河南 新鄉 453000;新鄉醫學院 2生理學與神經生物學教研室;3第三附屬醫院營養科)
肺癌是全球范圍內癌癥相關死亡的主要病因〔1〕。據估計80%~85%的肺癌患者罹患非小細胞肺癌(NSCLC)〔2〕,發病早期癥狀輕微,患者無明顯不適,導致大多數患者被發現并確診時已處于中晚期,治愈的機會非常小。晚期NSCLC的治療手段有放療、化療、分子靶向治療和免疫檢查點抑制劑治療等,其中免疫檢查點抑制劑毒副作用小,患者易于耐受,已成功應用到許多晚期NSCLC患者的臨床治療中。目前,美國國家食品藥物監督管理局(FDA)已批準兩種針對程序性死亡分子(PD)-1的靶向性抗體藥物nivolumab和pembrolizumab用于治療晚期NSCLC患者〔2〕,以上兩種藥物對許多NSCLC患者的治療取得了積極效果,但對于表皮生長因子受體(EGFR)突變患者,尤其是已發生耐藥患者的治療,療效不明,尚存爭議〔3〕。為探索有效的NSCLC分子治療靶標,許多學者就NSCLC發病機制開展了大量探索〔4~6〕。研究表明延伸因子-2激酶(eEF-2K)表達上調引起絲裂原蛋白激活激酶(MAPK)/細胞外信號調節激酶(ERK)信號途徑激活,通過Src和細胞周期蛋白D1促進肺癌細胞的增殖和轉移侵襲〔4〕。miR-302b-3p下調N-乙酰葡糖胺基轉移酶GCNT3表達可減少NSCLC細胞增殖、遷移和侵襲〔5〕。Rasip1是一種RUNX1靶基因,可促進NSCLC細胞的遷移〔6〕。癌癥是一種多基因突變引起的疾病,參與其發生發展基因很多,生物信息學方法可在網絡層面同時對數萬個基因進行研究,本文利用圖論的相關算法尋找NSCLC發病的關鍵基因。
1.1基因表達微陣列數據獲取 本研究基因表達微陣列數據集(GSE19804)下載于Gene Expression Omnibus(GEO),實驗樣本取自不吸煙女性NSCLC患者的肺癌組織和癌旁組織,實驗平臺是GPL570(HG-U133_Plus_2:Affymetrix Human Genome U133 Plus 2.0 Array)。
1.2差異基因分析 差異基因分析使用GEO2R在線工具,該工具基于R語言GEOquery 包和limma包比較肺癌組織和癌旁組織的基因表達差異,結果為按顯著性排序的基因列表。肺癌樣本和癌旁樣本之間的基因表達值比較P<0.05且差異倍數>2為顯著性變化差異基因。
1.3差異基因的GO富集分析 使用DAVID在線基因富集析工具對差異顯著的所有上調和下調基因進行功能注釋,富集分析主要集中在GO生物過程、分子功能和細胞組成3個方面。
1.4構建差異基因的蛋白互作網絡與KEGG通路富集分析 利用string在線蛋白質互作網絡工具構建差異基因的蛋白互作網絡。數據輸入采用Multiple Proteins模式,所有參數采用默認數值,物種為人,可信度為0.40。輸入差異基因相應的基因名,利用string數據庫生成蛋白互作網絡,并進行KEGG通路富集分析。
1.5選取關鍵基因 關鍵基因的選取利用Cytoscape軟件的一個插件CytoHubba完成,該插件集成了11種關鍵基因選擇算法,這些算法分別基于節點的連接度、最大鄰居組件(MNC)、邊緣滲出組件(EPC)、最大鄰居組件的密度(DMNC)、瓶頸值(BN)、最大團中心性(MCC)、緊密度、偏心度、發散性、應力、中介性進行關鍵基因的選擇〔7〕。其中,MCC法效果相對更好,因此本課題采用MCC法選取關鍵基因。將利用string構建的蛋白質互作網絡數據導出,導入到Cytoscape軟件并利于cytohubba分析網絡的拓撲結構,基因MCC算法選擇關鍵基因,排名前十位的基因即為關鍵基因。
1.6生存分析 Kaplan Meier plotter是一個生存分析在線工具,它利用10 461個癌癥及存活樣本的數據評估54 675個基因對患者生存時間的影響。為驗證MCC算法選取的關鍵基因對預后的影響,分別將每個基因輸入到該分析工具進行生存分析,所有參數采用網站默認數值。
2.1差異表達基因 即使不懂R語言、芯片和測序分析方面的知識也可以使用GEO2R進行操作。利用GEOquery和limma兩個R包對60個肺部腫瘤和癌旁組織樣本進行基因表達的差異分析,共產生268個差異基因,其中有216個下調基因,52個上調基因。
2.2GO的術語富集分析 非吸煙者肺癌組織和正常組織差異表達基因的GO富集分析結果顯示,細胞黏附、炎癥反應、蛋白水解、細胞外基質重構等生物學過程與NSCLC的發生密切相關 (圖1)。與NSCLC發生相關的GO顯著富集細胞組分有:細胞膜、外泌體、細胞外基質、細胞表面成分、三聚體膠原蛋白和膜筏等(圖2)。GO分子功能顯著富集于肝素結合和鈣離子結合 (圖3)。
2.3差異基因蛋白質互作網絡構建 利用顯著富集的GO生物學過程,構建蛋白質互作網絡,所構建網絡節點數為40、邊數為61、平均節點度為3.05、局部聚類系數為0.402、PPI富集P<0.01(圖4)。此外,利用string數據庫進行KEGG分子通路注釋,注釋結果顯示,細胞因子-細胞因子受體互作、磷脂酰肌醇激酶-蛋白激酶B(PI3K-Akt)信號傳導途徑、細胞外基質(ECM)-受體互作等信號通路參與NSCLC的發生。
2.4關鍵基因篩選 基于MCC算法,共選取了10個關鍵基因,分別是白細胞介素(IL)6、細胞紅蛋白(CYGB)的下游效應物膠原蛋白(COL)1A1、金屬蛋白酶組織抑制劑(TIMP)1、血小板堿性蛋白基因(PPBP)、基質金屬蛋白酶(MMP)1、分泌型磷蛋白(SPP)1、CXC型趨化因子受體(CXCR)2、趨化因子生長調節基因(CXCL)2、CXCL13和COL11A1。深色為基因MCC算法選取的關鍵基因,顏色越深代表基因的重要性越高,空白節點為與關鍵基因有直接互作關系的基因,見圖5。

圖1 GO生物學過程富集分析結果

圖2 GO細胞學組分

圖3 GO分子功能富集分析結果

圖4 蛋白質互相作用網絡
2.5生存分析 對上述10個關鍵基因進行Kaplan Meier生存分析,除了CXCR2網站沒有收錄之外,其他9個都有分析結果,上述關鍵基因的高表達導致預后總體存活時間顯著縮短(P<0.05),見圖6,圖7。

圖5 關鍵基因及其相鄰節點

圖6 代表性基因IL6、TIMP1的Kaplan Meier生存分析結果

圖7 代表性基因COL1A1、PPBP的Kaplan Meier生存分析結果
肺癌是全世界范圍內最常見的惡性腫瘤之一,每年有超過100萬例患者死于該疾病。目前,肺癌在中國的發病率和死亡率均居惡性腫瘤第1位〔8〕。吸煙是導致肺癌的重要原因之一,但肺癌的發病與包括體重指數(BMI)〔9〕、53基因突變〔10〕、飲酒〔11〕和病毒感染〔12〕等一系列因素有關,這是一個多因素誘發和多基因參與的疾病。NSCLC作為肺癌患者中占比最大的群體,確診時大多數患者已處于晚期,死亡率較高。
目前,肺癌發病機制的研究多集中在煙草致癌物所導致的代謝途徑改變以及基因表達譜的分析,對非吸煙者NSCLC的相關研究較少。腫瘤壞死因子(TNF)-α增強CD62E介導的發生轉移NSCLC癌細胞在血管內皮細胞的黏附〔13〕,提示本研究顯著富集的細胞黏附相關基因大量參與NSCLC癌細胞的轉移。作為免疫球蛋白超家族成員之一,黏附分子(ICAM)-1已被證實與晚期NSCLC患者的放射性肺炎的相關性密切〔14〕,ICAM的高表達也可能由放療引起。蛋白分解和細胞外基質重構也是晚期NSCLC發生轉移的典型表現,以上結果表明晚期NSCLC患者癌細胞轉移相關基因表達顯著增強。GO細胞組分和GO分子功能研究結果跟GO生物學過程基本一致。
臨床病理學研究表明,NSCLC陽性患者血清IL6水平明顯高于NSCLC陰性患者〔15〕,提示NSCLC癌細胞可能大量釋放IL6到血漿中,引起血漿IL6升高,IL6可作為臨床診斷肺癌的一個重要指標。COL1A1在NSCLC中顯著過表達,特別是在缺氧環境中,COL1A1過表達尤其顯著〔16〕,這表明COL1A1可能是NSCLC抵御缺氧環境頑強生存的重要原因。重癥NSCLC患者的TIMP1表達較高的患者中發現較短的存活時間〔17〕,提示TIMP1表達水平可作為預測患者存活時間的重要指標。MMP1是與多種癌癥侵襲和轉移有關的蛋白水解酶,頭頸癌中的表達MMP1免疫陽性染色與較高的腫瘤分級顯著相關〔18〕,提示該基因可能在NSCLC發病過程中有類似的作用,并可能與腫瘤的分級有關。肺腺癌細胞中SPP1介導NSCLC相關巨噬細胞(TAM)極化,使肺癌逃避免疫攻擊,促進肺癌的進展〔19〕。CXCR2已被證實可影響各種惡性腫瘤發生發展,NSCLC患者CXCR2高表達,與淋巴結轉移顯著相關〔20〕。淋巴細胞趨化因子CXCL2、CXCL13可介導淋巴細胞攻擊腫瘤,這兩種因子的高表達提示機體自身可能通過提高淋巴細胞對抗腫瘤細胞,發揮自身的防御功能。膠原蛋白COL11A1已被證實參與多種人類惡性腫瘤的細胞發生、發展與轉移,這表明COL11A1可作為轉移性NSCLC的生物標志物〔21〕。PPBP在NSCLC患者發病過程中的作用尚未有報道,提示可能發現了一個新的與NSCLC發病相關的關鍵基因。