吳立波,李廣華,于家興,王秋實
(哈爾濱醫科大學附屬第二醫院胸外科,哈爾濱 150086)
肺癌是全球最常見的惡性腫瘤之一,具有較高的發病率和死亡率[1]。流行病學統計顯示,肺癌中肺鱗癌的發病率呈上升趨勢,且男性和吸煙者多見[2]。目前外科手術、放化療和靶向治療仍是最常見的治療手段。由于肺鱗癌發現時多為中晚期,患者預后較差。因此,尋找有效的生物標志物進行早期識別是改善肺鱗癌患者預后的重要預防措施。越來越多的研究已經確定了一些有價值的生物標志物,如表皮生長因子受體、CD44、RRAS2(RAS related 2)、人促分裂原活化的蛋白激酶相關蛋白1和成纖維生長因子受體2等[3]。然而,預測肺鱗癌預后的生物標志物特異性和敏感性較低,較少被采用。DNA甲基化是一個重要的表觀遺傳學事件,可以影響轉錄前基因沉默、遺傳印記、X染色體失活、基因組穩定性[4]。從頭甲基轉移酶,即核小體結合的DNA甲基轉移酶3A和3B[5-6],主要通過甲基化CpG二核苷酸在腫瘤發生中發揮重要作用[7]。啟動子區域的DNA甲基化異常通常被認為是腫瘤發生的一個標志,其可導致腫瘤細胞中腫瘤抑制基因的轉錄沉默和癌基因的異常激活[8]。雖然目前對DNA甲基化異常與肺癌患者預后的關系進行了廣泛研究,但考慮DNA甲基化驅動基因信號的個體化預后模型的報道較少。本研究通過整合甲基化和信使RNA(messenger RNA,mRNA)表達譜數據,確定DNA甲基化狀態改變的預后相關差異表達基因,并通過Kaplan-Meier生存分析和LASSO回歸分析建立風險評分模型,開發預測肺鱗癌患者預后的列線圖。
1.1一般資料 從癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)(https://portal.gdc.cancer.gov/)中下載具有臨床預后信息的肺鱗癌DNA甲基化表達數據和基因表達數據,使用β值從0~1對基因甲基化水平進行評分(未甲基化到完全甲基化);使用DEseq軟件包從訓練數據集中(具有完整預后信息的TCGA-肺鱗癌轉錄組的HTSeq計數,并被診斷為肺鱗癌)識別了501例肺癌組織和49例鄰近的非腫瘤性肺組織之間的差異表達基因。將絕對log2倍變化(|FC|)>2和調整后的P<0.05設為截斷標準。
1.2方法
1.2.1鑒定DNA甲基化驅動基因 將基因表達數據和DNA甲基化數據整合到相同的TCGA條形碼標簽結構中。DNA甲基化驅動基因是指MethylMix包分析[9],DNA甲基化水平與mRNA表達水平呈負相關的基因。采用Wilcoxon秩和檢驗比較肺鱗癌組織和癌旁組織甲基化狀態的差異。
1.2.2功能富集分析 使用DAVID生信分析工具對DNA甲基化驅動基因進行基因本體論(Gene Ontology,GO)和途徑富集分析。
1.2.3特征選擇和構建預測簽名 利用Kaplan-Meier生存分析評估DNA甲基化驅動基因與肺鱗癌患者生存時間的關系。采用LASSO回歸模型和多變量Cox回歸模型進一步縮小候選基因的范圍。多變量Cox回歸模型(β)系數乘以其mRNA水平計算包括基因的預后風險分數。
1.2.4開發風險評分模型 選擇合適的臨界值(風險得分的中位數),將患者分為低風險組和高風險組,繪制兩組Kaplan-Meier生存曲線,并進行預測性簽名的評估。
1.2.5篩選影響預后的因素 采用單因素Cox回歸分析評價風險評分模型與其他臨床特征對肺鱗癌患者預后的影響;通過多因素Logistic回歸分析排除混雜因素。
1.2.6列線圖的開發與評價 采用多變量Cox回歸分析區分出顯著的預測因素,并由此建立預測模型。應用Hosmer-Lemeshow檢驗繪制校準曲線評估肺鱗癌患者3和5年生存率的校準,并通過受試者工作特征曲線(receiver operator characteristic curve,ROC曲線)評價列線圖的預測效能。
1.3統計學方法 采用R軟件(3.5.2版)進行統計分析,統計檢驗均為雙側檢驗,P<0.05為差異有統計學意義。
2.1鑒別差異性基因 肺鱗癌組織(501例)與癌旁組織(49例)的mRNA表達比較顯示,有86個基因上調,148個差異性基因下調,見圖1。

圖1 肺鱗癌組織與癌旁組織的基因差異性表達
2.2識別DNA甲基化驅動基因 對412個臨床樣本(Illumina人類甲基化27平臺)的數據和癌癥組篩選的差異表達基因進行MethylMix分析,共篩選了45個DNA甲基化驅動基因,其甲基化水平見圖2。
GO分析共獲得了21個GO項(P<0.05),基因功能在絲氨酸家族氨基酸代謝過程、細胞和細胞間黏附連接、細胞和細胞間連接方面顯著豐富(P<0.001),見圖3。

圖2 篩選的DNA甲基化驅動基因的甲基化水平

注:BP為生物過程,CC為細胞成分,MF為分子功能
2.3肺鱗癌預后風險評分模型的建立 利用Kaplan-Meier生存分析獲得4個DNA甲基化驅動基因:橋粒芯膠黏蛋白3、ATP結合家族亞家族C成員5(ATP-binding cassette subfamily C member 5,ABCC5)、封閉蛋白1重組蛋白(recombinant claudin 1,CLDN1)和半胱氨酸蛋白酶蛋白A(campylobacter jejuni carbon starvation protein A,CSTA),進一步進行LASSO回歸模型分析,見圖4,得出ABCC5、CLDN1和CSTA基因作為預后基因,并給出風險評分計算公式,在LASSO回歸模型中加入各基因表達水平與相關系數的乘積,建立預測模型:風險評分=(-0.007 510 048×ABCC5 mRNA)+(-0.058 068 343×CLDN1 mRNA) +(-0.047 711 368×CSTA mRNA)。ABCC5、CLDN1和CSTA在LASSO回歸中與風險評分呈負相關。對231例具有完整臨床資料肺鱗癌患者的ABCC5、CLDN1和CSTA基因的表達特征計算風險評分,其中高風險組115例、低風險組116例,Kaplan-Meier生存分析結果顯示,高風險組患者的總生存期明顯短于低風險組(P=0.021),見圖5。
2.4構建肺鱗癌患者生存時間預測的列線圖 多因素Cox回歸分析顯示,年齡、TNM分期中N2分期、風險評分與肺鱗癌患者的生存時間顯著相關(HR=1.73,95%CI1.09~2.75,P=0.02;HR=2.34,95%CI1.21~4.52,P=0.01;HR=4.44,95%CI1.61~12.26,P<0.001),即年齡越大、TNM分期越高、風險評分越高,患者的3年和5年生存率越低。依據上述預測因素構建列線圖,見圖6。應用Hosmer-Lemeshow檢驗,該列線圖預測肺鱗癌患者3年和5年生存率的準確性較高,見圖7。時間依賴性ROC曲線驗證模型3年和5年生存率的曲線下面積分別為0.57、0.58,見圖8。

圖4 LASSO回歸模型的調整參數繪制cifit對象

圖5 高風險組與低風險組肺鱗癌患者的生存曲線比較

圖6 預測肺鱗癌患者3年、5年生存率的列線圖

圖7 列線圖預測肺鱗癌患者3年(7a)和5年(7b)生存率的校準曲線(黑色虛線代表理想預測模型,紅色實線代表實際觀測模型)

注:ROC為受試者工作特征曲線
目前仍缺乏特異、靈敏的預測肺鱗癌患者預后的生物標志物。肺鱗癌患者的預后模型已有報道[10]。有研究表明,與腫瘤抑制蛋白TP53相關的標志物組織激肽釋放酶6和酪蛋白基因S1是肺鱗癌患者特異和獨立的預后生物標志物,可有效地預測免疫治療和化療的肺鱗癌患者預后[11]。在腫瘤細胞中,基因組和表觀基因組的改變可以進行檢測,且已被證實與某些腫瘤特征(如致癌轉化、細胞增殖)有關[12]。
甲基化改變在腫瘤中較常見。在這些調控的DNA甲基化驅動基因中,有一些甲基化驅動基因可能通過癌基因的過表達或腫瘤抑制基因的敲除而促進腫瘤惡性轉化,重新平衡腫瘤的微環境,甲基化驅動基因可能成為肺鱗癌預后的生物標志物[13-14]。隨著甲基化測序技術的發展,表觀遺傳變化易于檢測,測序深度和相應的準確性均較高。因此,本研究采用R軟件包(MethylMix)來識別具有異常甲基化的DNA甲基化驅動基因,并將這些數據與基因表達RNA-seq數據聯系起來。這種綜合分析已在胃癌的研究中進行了驗證[9]。本研究通過以上研究方法在TCGA肺鱗癌甲基化和表達數據中進行初步的篩選,得到45個DNA甲基化驅動的基因主要富集在與基因表達相關的信號通路,如絲氨酸家族氨基酸代謝過程、細胞和細胞間黏附連接、細胞和細胞間連接,表明肺鱗癌的甲基化變化調節基因表達與腫瘤細胞增殖和轉移有關。在此風險模型中,ABCC5、CLDN1和CSTA基因的表達水平升高,它們可能是典型的腫瘤抑制基因,低甲基化預示著預后良好。癌基因中甲基化水平下調和腫瘤抑制基因中甲基化水平上調可以同時促進腫瘤的發生[15]。例如,ABCC5是一種ATP依賴的轉運蛋白,與原發性乳腺腫瘤相比,其在乳腺癌骨轉移中過表達,同時也在具有高骨轉移潛能的人和小鼠乳腺癌細胞系中顯著上調,穩定的ABCC5基因敲除可顯著降低小鼠的骨轉移和溶骨性骨破壞;ABCC5在乳腺癌骨轉移中起中介作用;ABCC5在乳腺癌細胞中的表達對破骨細胞介導的有效骨吸收具有重要作用[16]。緊密連接是細胞間結構的黏附,對維持正常上皮細胞屏障的通透性和完整性起重要作用。CLDN1編碼的蛋白是一種完整的膜蛋白,是緊密連接鏈的組成部分,其已被證實對多種腫瘤的增殖和轉移有調節作用,研究發現CLDN1在食管鱗癌組織和細胞系中異常增加,且主要分布于細胞核,CLDN1在體外和體內均通過觸發自噬來促進食管鱗癌細胞的增殖和轉移,CLDN1通過上調UNC-51類自噬激活激酶1的表達來誘導食管鱗癌細胞的自噬[13,17]。有研究表明,與健康志愿者相比,胰腺導管腺癌患者的CSTA及CSTA mRNA表達水平升高,且與胰腺導管腺癌臨床分期相關,在部分腫瘤組織和多種腫瘤浸潤的免疫細胞中檢測到CSTA表達[18]。此外,考慮到成本效益,本研究基于特定基因的簽名容易進行常規檢測,由3個DNA甲基化驅動的差異性基因組成的風險評分建立預測模型,該模型與其他臨床因素相結合可以產生對肺鱗癌患者預后進行評分的列線圖。本研究結果支持由DNA甲基化驅動基因可能與腫瘤預后相關的假設。表明檢測3個DNA甲基化驅動基因的表達水平是一種經濟有效的方法,且可以預測肺鱗癌患者的生存時間。但本研究也存在不足之處,如未在臨床進行進一步驗證。為了檢測肺鱗癌的結果,有學者建議增加對肺鱗癌患者臨床生物標志物的研究,如mRNA片段標志物、環狀RNA的RNA-seq分析[19]和長鏈非編碼RNA生物標志物[20]。此外,雖然本研究列線圖結合了年齡、TNM分期和風險水平來預測肺鱗癌患者的預后,但由于研究隊列中的信息有限,臨床特征尚不全面。未來有必要從各臨床中心增加更多具有完整臨床信息和序列的數據,從而構建預測效能更佳的列線圖。
綜上所述,ABCC5、CLDN1和CSTA的改變與肺鱗癌患者的預后顯著相關。本研究建立了一個結合年齡、TNM分期和風險水平的列線圖,在臨床實踐中具有較高的成本效益,可對肺鱗癌患者預后進行個體化預測,具有較高的敏感性和特異性。