張釵紅,關德鳳,楊永秀
宮頸癌是女性最常見的癌癥之一,發病率和病死率位居女性惡性腫瘤第4位[1],仍是成年女性生命安全的重大威脅。近年來,隨著宮頸癌規范化篩查的開展和疫苗的應用,宮頸鱗癌的發病率不斷下降,但宮頸腺癌(cervical adenocarcinoma,CAC)發病率仍不斷上升,占宮頸癌的10%~20%[2-3],并且其與人乳頭瘤病毒的關系尚有爭議[4-5],發病人群呈年輕化趨勢,早期篩查困難,具有較鱗癌更高的卵巢轉移及遠處轉移率,宮頸腺癌組織學已成為宮頸癌預后不良的因素[6-7],針對腺癌組織學特異性的基因靶向療法是宮頸癌新的研究熱點,也是改善患者生存期新的切入點。本研究構建列線圖預后模型,使用GSEA_4.0.1軟件進行模型mRNAs在CAC中的癌癥和效應特征基因集富集分析(gene set enrichment analysis, GSEA),探索模型mRNAs在CAC中的作用機制及模型mRNAs之間相互關系,尋找穩定可靠的CAC靶向治療和預后評估的關鍵因子,報道如下。
1.1 數據準備 本研究于2019年8—10月在蘭州大學第一醫院實施,使用R3.6.1軟件分析癌癥基因組圖譜數據庫(the cancer genome atlas,TCGA)中宮頸腺癌mRNA表達數據。在TCGA官網(https://www.cancer.gov/tcga)獲取CAC的mRNA表達數據建立標準化表達矩陣并加載R3.6.1軟件edgeR包,采用雙側t檢驗,篩選顯著差異表達mRNAs;獲取CAC患者臨床資料,合并mRNAs差異表達資料構建預后預測模型。
1.2 篩選預后相關mRNAs 運行R3.6.1軟件survival包、glmnet包進行單因素Cox回歸、Lasso回歸分析、多因素Cox逐步回歸分析,進一步篩選預后相關mRNAs,使用survminer包進行Log-rank檢驗篩選CAC患者獨立的預后影響因子,計算C-指數評價模型。
1.3 列線圖模型構建及評價 在R3.6.1軟件中加載rms包和survival包構建CAC患者3年和5年生存率的列線圖預測模型。加載timeROC包和survival包依據46個CAC樣本的風險評分,計算3年和5年生存率的AUC值。
1.4 模型mRNAs分析 在R3.6.1軟件中加載limma包和beeswarm包采用Wilcox檢驗對模型mRNAs在正常組和腫瘤組中的標準化表達數據進行分析。加載survminer包和survival包,使用中位數法將46個CAC樣本的風險評分分為高風險組和低風險組,進行高、低風險組生存分析。加載survival包,使用中位數法分別將5個mRNAs分為高、低表達組,進行mRNAs高、低表達組生存分析。構建模型mRNAs的GSEA輸入文件:表型文件和表達譜文件,使用GSEA_4.0.1軟件設置基因集數據為c6.all.v7.0.symbols.gmt和h.all.v7.0.symbols.gmt進行高、低表達組的癌癥、效應、免疫特征基因集富集分析,使用R3.6.1軟件plyr、ggplot2和grid包繪制多GSEA富集圖。
2.1 mRNAs表達數據和臨床資料 在TCGA數據庫下載CAC的mRNAs表達譜資料,包含3個正常樣本和48個CAC樣本,加載R3.6.1軟件進行差異表達分析得到CAC中1 856個|logFC|>2且FDR<0.01的顯著差異mRNAs,即649個顯著上調mRNAs和1 207個顯著下調mRNAs。下載CAC患者臨床資料,剔除生存時間為0的2組樣本,共入組46個CAC樣本,用于模型構建。
2.2 篩選CAC預后相關mRNAs 使用R軟件對CAC的mRNAs表達與生存數據矩陣進行單因素Cox回歸分析,篩選得到P<0.01的22個CAC預后相關mRNAs,提取22個mRNAs的表達生存數據進行Lasso回歸分析,得到最小Lambda為0.110 273 7,包含10個CAC預后相關mRNAs,分別是ADAMTSL4、ANKRD53、CDC25A、CILP、CPQ、CTSF、DST、GLIPR2、MYH13、RNF150。提取這10個mRNAs的表達生存數據進行多因素Cox逐步回歸分析,獲得5個CAC預后相關mRNAs及其在46個CAC樣本中的風險評分,該模型風險評分=0.944 74×CILP+3.866 33×MYH13-3.776 3×ANKRD53-1.912 99×GLIPR2-0.641 92×CPQ,經Log-rank檢驗P<0.01,其中ANKRD53、CILP、GLIPR2、MYH13可作為CAC患者預后評估的獨立影響因素,P值分別為0.009、0.024、0.007和0.005,而CPQ的P值為0.131,不能作為患者獨立預后因子。
2.3 CAC患者生存預測模型及其評價 使用R軟件構建CAC患者3年生存率和5年生存率的列線圖預測模型(圖1)。依據46個CAC樣本的風險評分計算模型C-指數為0.95,3年生存率的AUC為0.950 1,5年生存率的AUC為0.949 7,該模型預測效果較好。
2.4 模型mRNAs分析
2.4.1 模型mRNAs的TCGA表達分析:從CAC的mRNA標準化表達數據矩陣中提取模型mRNAs的表達數據,使用R3.6.1軟件進行正常組和腫瘤組的表達差異分析顯示,2組中ANKRD53、CILP、GLIPR2、CPQ、MYH13的表達差異均有統計學意義(P均<0.01)。
2.4.2 風險評分與生存預后的關系:使用R軟件進行高、低風險組生存分析顯示,低風險組患者生存預后顯著優于高風險組(P<0.01)。
2.4.3 模型mRNAs表達情況與患者預后的關系:使用R軟件進行mRNAs高、低表達組生存分析顯示,ANKRD53、CLIP、GLIPR2、CPQ高表達組和MYH13低表達組提示CAC患者預后良好,其中ANKRD53、CLIP、GLIPR2高、低表達組差異有統計學意義(P=0.023、0.028、0.030)。
2.4.4 模型mRNAs的基因集富集分析
2.4.4.1 癌癥特征基因集分析(oncogenic signatures gene sets) 使用GSEA_4.0.1軟件輸入模型mRNAs的表型文件和表達譜進行癌癥基因集分析顯示,5個模型mRNAs共存在33個共同顯著相關(P<0.05)的癌癥特征基因集,其中VEGF_A_UP.V1_UP基因集與4個模型mRNAs均顯著相關(圖2),RB_P107_DN.V1_DN、JAK2_DN.V1_UP、CYCLIN_D1_KE_.V1_DN、JNK_DN.V1_DN、P53_DN.V1_DN、BMI1_DN_MEL18_DN.V1_DN、KRAS.KIDNEY_UP.V1_UP、PTEN_DN.V1_UP基因集分別與3個模型mRNAs顯著相關,24個基因集分別與2個模型mRNAs顯著相關。
2.4.4.2 效應特征基因集分析(hallmark gene sets) 使用GSEA_4.0.1軟件對5個mRNAs的表型文件和表達譜進行效應特征基因集分析顯示,5個模型mRNAs共存在9個共同顯著相關(P<0.05)的效應特征基因集,其中MYC TARGETS V1和MTORC1 SIGNALING分別與3個模型mRNAs顯著相關,MYC TARGETS V2、ANGIOGENESIS、EPITHELIAL MESENCHYMAL TRANSITION、HEDGEHOG SIGNALING、UNFOLDED PROTEIN RESPONSE、FATTY ACID METABOLISM、MYOGENESIS分別與2個模型mRNAs顯著相關(圖3)。
近年來,宮頸腺癌發病率不斷上升,預后不良,復發率、轉移率、病死率均較高[6-9],有效的預后風險評估、精準的基因靶向治療方案、提高治愈率、延長生存期仍是現階段宮頸腺癌研究的重點和熱點。
現階段,宮頸腺癌患者的預后評估工作主要基于不同的臨床病理參數,如是否絕經、子宮旁受累、脈管內瘤栓、淋巴結轉移、Silva分型系統等[6, 10],不同的影像學參數,如磁共振彌散加權成像和波譜分析等[11-12]。本研究通過整合TCGA中46例CAC患者的mRNAs表達和生存數據,使用R軟件進行單因素Cox、Lasso、多因素Cox逐步回歸分析,構建預后評估準確度較高的分子模型,經模型評價預測準確性高,C-指數為0.95,3年生存率的AUC為0.950 1,5年生存率的AUC為0.949 7,其中ANKRD53、CILP、GLIPR2、MYH13可作為CAC患者預后評估的獨立影響因素,可初步篩選預后不良需進一步行預防性靶向干預的患者。
目前,宮頸腺癌的分子靶向治療研究主要集中在探索可以作為患者預后標志物和治療靶標的潛在基因。近年來,高通量測序技術已廣泛應用于CAC的基因分析,TCGA數據庫31例CAC患者的體細胞突變數據顯示,90.32%的CAC組織樣本存在體細胞突變,涉及17 342個基因的8 867個染色體突變?;蛲蛔兣cCAC患者預后密切相關。Jiang等[13]發現,宮頸腺癌較鱗癌具有更高的KRAS非同義突變率和更短的無復發生存期。精準靶向性干預異?;蚩捎行Ц纳艭AC治療效果。Takiguchi等[14]進行蛋白質印跡分析發現,Src基因在CAC細胞系(Hela和TCO-2)中高表達,使用比色法測定活細胞計數發現,Src抑制劑聯合化療藥可顯著抑制CAC細胞生長增殖。Akimoto等[15]也發現claudin-1在宮頸腺癌呈高表達,敲除claudin-1可誘導細胞凋亡,顯著抑制CAC細胞的增殖、遷移和侵襲。本研究通過分析高通量測序得到的CAC全基因組表達網絡,篩選出高度異常表達的mRNAs譜,結合患者生存數據,獲取與CAC患者預后高度相關的新型分子標記構建生存預測模型,并通過對比模型mRNAs與全基因組的表達數據,進行模型mRNAs的癌癥和效應特征基因富集分析,探索模型mRNAs在CAC中的作用機制及模型mRNAs之間的相互關系。癌癥特征基因集分析發現,5個模型mRNAs共存在33個共同顯著相關的癌癥特征基因集,其中VEGF_A_UP.V1_UP基因集與4個模型mRNAs均顯著相關,8個基因集分別與3個模型mRNAs顯著相關,24個基因集分別與2個模型mRNAs顯著相關。ANKRD53、CILP、CPQ和GLIPR2等4個模型mRNAs在癌癥特征方面的聯系更加緊密,與VEGF_A_UP.V1_UP基因集均顯著相關。MYH13主要通過CPQ與ANKRD53、CILP和GLIPR2發生聯系。效應特征基因集分析發現,5個模型mRNAs共存在9個共同顯著相關的效應特征基因集,其中MYC TARGETS V1和MTORC1 SIGNALING分別與3個模型mRNAs顯著相關,7個基因集分別與2個模型mRNAs顯著相關。ANKRD53、CILP、CPQ和MYH13之間聯系緊密,共存在8個相關基因集。GLIPR2主要通過CPQ與ANKRD53、CILP和MYH13發生聯系??傊┌Y和效應特征基因集富集分析顯示,5個模型mRNAs聯系緊密,主要可能通過VEGF_A_UP.V1_UP、MYC TARGETS V1和MTORC1 SIGNALING等途徑在CAC中發揮作用并影響患者預后。
綜上所述,本研究通過分析TCGA中CAC患者的mRNAs表達和臨床數據集,構建預后評估準確度較高的列線圖模型,用于篩選預后不良需進一步干預的患者,結合癌癥和效應特征基因集富集分析,探索模型mRNAs在CAC中的作用機制及模型mRNA之間的相互關系,從而為CAC患者精準靶向性個體化治療和預后評估提供新的線索。
(致謝:大連醫科大學基礎醫學院全昱沖碩士在實施R軟件分析中的指導,謹此致謝)
利益沖突:所有作者聲明無利益沖突
作者貢獻聲明
張釵紅:課題設計、實施,數據分析,論文撰寫;關德鳳:資料收集、數據核對;楊永秀:論文審核