林詩晗 鄒璐寧 林雪梅 劉熠娟 葛欣婷 李遙遙 傅升 呂紅兵
頭頸癌是最常見的癌癥之一,鱗狀細胞癌占頭頸癌病例的90%以上[1],口腔則是頭頸部區(qū)域鱗狀細胞癌最常見的部位。口腔鱗狀細胞癌(oral squamous cell carcinoma, OSCC)的病因包括吸煙、飲酒等[2],研究表明,各期OSCC五年生存率約為50%~60%[3-5]。如果患者出現淋巴結轉移或遠處轉移,總生存率更低[6],在過去的十幾年里沒有明顯的改變。基因(DNA或RNA)甲基化作為表觀遺傳機制之一,在基因穩(wěn)定和基因表達中起重要作用[7]。異常甲基化可能是導致腫瘤基因功能喪失的重要機制[8]。長鏈非編碼RNA(long non-coding RNA, lncRNA)是一類長度大于200 nt的非編碼RNA,研究顯示,lncRNA可能是癌癥中表觀遺傳失調的靶標[9]。鑒于OSCC的發(fā)生發(fā)展受多層面的調控,因此,多方位闡明OSCC發(fā)生發(fā)展的相關機制,探討lncRNA異常甲基化及其生物學作用,是為OSCC診斷和預后判斷提供潛在生物標志物的臨床新策略。
從TCGA數據庫(https://portal.gdc.cancer.gov/)下載OSCC腫瘤組織和癌旁正常組織的甲基化數據和相應的臨床信息,Illumina Human Methylation 450K BeadChip芯片用于獲得基因甲基化數據。從GEO數據庫(www.ncbi.nlm.nih.gov/geo/)下載GSE87053芯片對基因甲基化數據進行進一步驗證和篩選。通過R軟件的ChAMP包篩選差異甲基化位點(|Δβ|> 0.10,P<0.05,adj.P<0.05)。
從TCGA數據庫獲取OSCC的轉錄數據和臨床信息,該數據由mRNA和lncRNA表達譜組成。使用R3.6.0的DeSeq2軟件包(http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html)篩選差異表達lncRNA和mRNA(P<0.05,adj.P<0.05,倍數>2)。
通過 GENCODE 28V 探針對TCGA數據庫獲得的數據進行甲基化注釋,包括轉錄起始點(TSS)和基因編碼區(qū)(body)。將差異表達的lncRNA和甲基化數據聯(lián)合分析,選擇甲基化與表達相反的lncRNA為候選基因: (1)低甲基化、高表達; (2)高甲基化、低表達。對lncRNA和差異甲基化位點進行Cox回歸分析及GSE52793芯片驗證,獲得與預后相關lncRNA(P<0.05)。使用X-tile software version 3.6.1(耶魯大學,康涅狄格州紐黑文,美國)確定最佳臨界值,將患者分為高甲基化組和低甲基化組。
使用 Kaplan-Meier Plotter 數據庫(https://km-plot.com/analysis)預測高甲基化組和低甲基化組的總生存期(OS)。單因素和多因素分析用于識別潛在的生物標志物。繪制3 年和5 年ROC曲線評估預后相關lncRNA的生物學性能。
統(tǒng)計分析和繪圖使用R(v.3.6.0)軟件。Kaplan-Meier用于生存分析;在3年和5年的生存數據中,通過區(qū)分曲線所產生的曲線下面積(AUC),從而評估基因的預后相關性;Cox回歸模型用于單因素和多因素分析。對于所有統(tǒng)計方法,P<0.05被認為具有顯著差異。
研究從TCGA數據庫獲得346 例腫瘤組織和50 例癌旁正常組織的數據,從GEO數據庫獲得11 例腫瘤組織和10 例癌旁正常組織的數據。基于數據庫分析,篩選出OSCC中93 746 個(TCGA)和60 885 個(GEO)差異甲基化位點(圖 1)。另外,與正常組織相比,OSCC中總共有13 964 個lncRNA和mRNA具有顯著差異表。
通過檢測位于轉錄起始點(TSS)和基因編碼區(qū)(body)的位點,TSS有5 213 個, body有14 233 個差異甲基化位點,將重復數據刪除后共獲得3 696 個獨立位點。將3 696 個位點與GEO數據庫中獲得的60 885 個位點進行比對,獲得1 522 個差異甲基化位點,其中1 521 個位點在兩個數據庫中顯示出一致的趨勢。甲基化與表達相反的lncRNA為1 282 個。單變量Cox回歸分析顯示, 53 個lncRNA具有預后意義。基于53 個lncRNA的多變量Cox回歸分析及GSE52793芯片的預后信息,確認4 個lncRNA具有統(tǒng)計學意義(P<0.05):SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1(圖 2)。

圖 1 口腔鱗狀細胞癌與正常組織的差異甲基化位點

圖 2 SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1在癌組織和正常組織中的甲基化水平
Kaplan-Meier生存分析顯示,基于TCGA數據庫,SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1甲基化水平較高的患者(high expression)比較低的患者(low expression)具有更好的生存率,使用GEO數據庫驗證出現相同的情況(圖 3)。ROC曲線顯示,在3 年生存分析中AL445250.1的敏感性和特異性最高,在5 年中SFTA1P最高(圖 4)。單因素分析顯示這4 個lncRNA與患者生存率顯著相關。

圖 3 口腔鱗狀細胞癌患者總生存期

圖 4 SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1甲基化判斷口腔鱗狀細胞癌3年和5年生存率的ROC曲線分析
多因素分析發(fā)現,AL049775.2、TNM分期和年齡是獨立的預后指標,與患者生存率顯著相關(表 1)。

表 1 影響口腔鱗狀細胞癌預后單因素和多因素分析
OSCC患者長期生存不佳及有效判斷預后工具的匱乏,迫切需要具有理想預測能力的新型標志物以幫助癌癥的治療和預后的管理。近年來,越來越多的證據表明,lncRNA在癌癥中發(fā)揮著重要作用[10]。lncRNA甲基化通過改變染色質結構、DNA構象、DNA穩(wěn)定性等修飾DNA序列,進一步控制基因表達,參與各類癌癥的發(fā)生發(fā)展[11]。有研究表明,MEG3高甲基化通過影響細胞遷移和增殖促進胃癌的發(fā)展[12]。Wang等也通過表觀遺傳數據成功驗證了在癌癥中差異表達的lncRNA受基因甲基化水平調控[13]。
本研究通過分析基因甲基化芯片和表達譜數據,發(fā)現4個基因的甲基化水平對OSCC有重要的影響:SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1。它們可能成為評估OSCC患者預后的新型生物標志物。
目前,有研究發(fā)現,LINC00475,LINC01352,MIR503HG和LINC01143共同組成風險評估模型時,可以作為生物標志物指導患者的個性化治療,為當前的臨床策略增加預后評估價值[14]。AL049775.2,AL445250.1,KCNMB2-AS1和SFTA1P似乎也可以一起作為OSCC臨床預后評估系統(tǒng),但尚需進一步證實。
在本研究中,與正常組織相比,OSCC中SFTA1P的甲基化水平明顯降低,SFTA1P高甲基化組患者的總生存期顯著高于低甲基化組。另外,SFTA1P的異常甲基化區(qū)域位于轉錄起始位點,其可能與OSCC具有更好的相關性。研究表明,在OSCC中,P15和P16這兩個抑癌基因的啟動子甲基化狀態(tài)可能是早期癌變的標志物[15];MEG3的過表達受DNA甲基化影響,抑制癌細胞的增殖和轉移[16]。然而,目前尚未見報道SFTA1P的甲基化水平是否影響OSCC的進展。
綜上,這4個lncRNA的甲基化水平可能成為生物標志物,為OSCC的預后提供一個新的搜索平臺。然而,本研究還存在一定的局限性。首先,數據來自TCGA和GEO數據庫,樣本僅限于某些種族;其次,本研究未經臨床樣本和實驗研究的驗證,以上所有結果還需通過一系列分子生物學實驗驗證。