儲昭陽, 朱向明, 魯柯兵, 龔儒杰, 馬平川, 徐凱慧
(1.皖南醫學院研究生學院, 安徽 蕪湖241002; 2.皖南醫學院弋磯山醫院超聲醫學科; 3.臺州市黃巖區婦幼保健院超聲醫學科)
膀胱癌(bladder cancer, BC) 2018 年全球新發患者近54.9 萬人, 相關死亡20 萬人[1], 患者的5 年存活率持平[2]。 開發新的診斷和治療BC 的方法至關重要, 而識別新的與BC 診斷和預后相關的生物標志物也同樣重要。 RNA 結合蛋白(RNA binding proteins, RBPs) 是一類與多種類型的RNA相互作用的蛋白質, 包括rRNAs、 ncRNAs、 snRNAs、miRNAs、 mRNAs、 tRNAs 和snoRNAs。 迄今為止,在人類基因組中已經發現了超過1 500 個RBPs 基因[3]。 這些RBPs 在維持細胞的生理平衡方面發揮著重要作用, 尤其是在發育過程和應激反應中。RBPs 可以以一種結構或序列依賴的方式與目標RNA 結合, 形成核糖核酸蛋白復合物, 在轉錄后水平調控mRNA 的穩定性、 RNA 加工、 剪接、 定位、 輸出和翻譯[4]。 在過去的幾十年里, 許多研究揭示了RBPs 在腫瘤中表達異常, 影響了mRNA向蛋白的轉化, 并參與腫瘤的發生[5-7]。 其中, 只有少數RBPs 被深入研究并發現在人類癌癥中發揮關鍵作用[8-12]。 RBPs 的系統功能研究將有助于我們全面了解其在腫瘤中的作用。 因此, 本研究從癌癥基因組圖譜 (Cancer Genome Atlas, TCGA)數據庫下載了BC 的RNA 測序和臨床病理數據。隨后通過高通量生物信息學分析鑒定了BC 組織和正常膀胱組織間異常表達的RBPs, 并系統地探索了它們的潛在功能和分子機制。 本研究確定了一些可能影響BC 預后的RBPs, 促進了對BC 進展的分子機制的理解。 這些RBPs 可能為診斷和預后提供潛在的生物標志物。
1.1 數據處理 從TCGA (https: / /portal.gdc.cancer.gov/) 數據庫下載19 例正常膀胱組織和411 例BC 組織的RNA 測序數據集以及相應的臨床數據, 其中數據的篩選為包含組織的病理分期以及生存期。 為了鑒定正常膀胱組織和BC 組織之間的差異表達基因, 所有原始數據使用LIMMA( http: / /www.bioconductor.org/packages/release/bioc/html/limma.html) 軟 件 包 進 行 預 處 理, 根據| logFC (fold change)| ≥1 和偽發現率(FDR)<0.05 標準, 進行Wilcox 檢驗篩選出RBPs 相關的差異基因。
1.2 KEGG 途徑與GO 富集分析 通過GO 富集和京都基因與基因組百科全書(KEGG) 途徑分析,綜合檢測這些差異表達的RBPs 的生物學功能。GO 分析術語包括細胞成分 (CC)、 分子功能(MF) 和生物過程(BP)。 所有富集分析均利用org.Hs.eg.db、 DOSE、 clusterProfiler、 enrichplot 軟件包完成, P 和FDR 值均<0.05 為差異有統計學意義。
1.3 PPI 網絡的構建和模塊篩選 將差異表達的RBPs 提交到STRING 數據庫(http: / /www.string-db.org/)[13], 以識別蛋白質-蛋白質相互作用信息。 使用Cytoscape 3.8.0 軟件進一步構建PPI 網絡并進行可視化。 使用聚類構建功能模塊(MCODE)插件得到PPI 網絡中的重要模塊和基因, MCODE得分和節點數均大于5。 P<0.05 為差異有統計學意義。
1.4 BC 患者RBPs 篩選及預后生存模型構建 使用Survival 軟件包對TCGA 數據集差異表達的RBPs進行單因素Cox 回歸分析。 采用對數秩檢驗進一步篩選有意義的候選基因。 隨后, 在初步篩選出有意義的候選基因的基礎上, 構建了多因素Cox風險回歸模型, 并計算風險分數來評估患者的預后。 每個樣本的風險評分公式: Risk score =β1×Exp1+β2×Exp2 +βi×Expi。 其中β 表示系數值,Exp 表示基因表達水平。 根據中位風險評分生存分析, 將BC 患者分為低危組和高危組。 采用對數秩檢驗比較2 個亞組之間的總生存期(OS) 差異。此外, 使用Survival ROC 軟件包進行ROC 曲線分析以評估上述模型的預測能力。 將TCGA 數據隨機分為2 組, 一組作為train 組分析, 另一組作為test 組進行模型驗證, 以證實該預測模型的預測能力。 最后, 使用RMS 軟件包繪制列線圖, 預測患者的生存期。
1.5 驗證預后模型RBPs 的預測價值 分別對train 組及test 組進行單因素和多因素獨立預后分析。 單因素獨立預后分析是將每個因素跟生存時間和生存狀態進行比較, 觀察與患者生存是否相關; 多因素獨立預后分析是將這里面的因素一起輸入, 跟生存時間和生存狀態進行比較, 并考慮這些因素之間的一個相關性。 如果train 組及test組分析結果P 值均<0.05, 則說明模型可以獨立于其他的臨床現狀作為獨立的預后因子。 之后分別探討預后模型中的各個RBPs 在BC 中的預后價值, 使用Kaplan-Meier Plotter Server (https: / /kmplot.com/analysis/) 在線工具繪圖儀來驗證預后模型中每個RBPs 與OS 間的關系。
1.6 統計學方法 使用Perl 5.30.2 進行數據表達矩陣的處理, 應用R4.0.0 軟件進行統計學分析及相應圖形繪制, 采用Wilcox 檢驗篩選差異基因,采用ggplot 包進行圖形繪制, Survival 包進行單因素和多因素Cox 比例回歸模型篩選, 并建立多基因預后模型。 使用Survival ROC 包計算ROC 曲線評價模型的有效性, 并計算曲線下面積。 P<0.05為差異有統計學意義。
2.1 篩選得到差異表達的BC 組織中RBPs 將TCGA 得到的數據通過perl 和R 語言處理后, 處理數據共納入差異表達的RBPs 有1 495 個[3], 其中109 個符合本研究篩選標準, 其中包括52 個上調的RBPs 和57 個下調的RBPs。 這些差異表達的RBPs 的分布用熱圖和火山圖來表示。
2.2 差異表達的BC 組織中RBPs 的GO 和KEGG通路富集分析 為研究所鑒定的RBPs 的功能和機制, 將這些不同表達的RBPs 分為2 組: 表達上調組和表達下調組。 然后, 將這些差異表達的RBPs進行富集分析。 結果表明, 上調差異的RBPs 的GO 富集在催化活性、 核糖核酸作用活性、 核苷酰轉移 酶 活 性、 mRNA 3′ 端- 非 編 碼 區 結 合 區(UTR) 等分子功能中; 就細胞組成而言, 上調差異的RBPs 的GO 富集在細胞質核糖核蛋白顆粒、核糖核蛋白顆粒; 生物過程的富集主要包括大分子甲基化、 甲基化、 RNA 分解過程等(圖1A);下調差異的RBPs 的GO 富集分析中分子功能主要包含mRNA 3′端-UTR 結合區、 mRNA 3′端-UTR富含AU 的結合區、 富含AU 的元素結合區等; 細胞組成主要包含細胞質核糖核蛋白顆粒、 核糖核蛋白顆粒、 P-顆粒體等結構; 生物過程主要包括調節mRNA 代謝過程、 調節RNA 剪接、 調節翻譯等(圖1B)。 上調差異的RBPs 相關基因的KEGG通路分析結果表明, DEGs 主要參與癌癥中的miR?NAs、 mRNA 監測途 徑、 DNA 復制等信號通路(圖1C); 下調差異的RBPs 相關基因的KEGG 通路分析結果表明, DEGs 相關基因主要參與孕酮介導的卵母細胞成熟、 卵母細胞減數分裂、 mRNA監測途徑等信號通路(圖1D)。


圖1 差異表達RBPs 的GO 富集分析(A、 B) 和KEGG 途徑(C、 D)
2.3 蛋白工作網絡及核心模塊 Cytoscape 得出88個RBPs (45 個上調, 43 個下調) 對應的166 個蛋白互作的關系。 使用MCODE 模塊構建出7 個子網絡, 并得出16 個基因是與BC 相關的關鍵RBPs(這些RBPs 在DNA 烷基化、 DNA 甲基化或去甲基化、 翻譯的負調控等方面都有顯著的富集)。
2.4 預后RBPs 篩選及生存模型構建 通過篩選得到11 個與預后相關的RBPs 相關基因(圖2A),通過COX 回歸降維分析構建預后模型(圖2B),由2 個高風險的RBPs 基因(TRIM71、 DARS2) 及3 個低風險的RBPs 基因(APOBEC3H、 PABPC3、MTG1) 組成; 模型在train 組及test 組中ROC 曲線下面積分別為0.701、 0.664 (圖2C、 D), 反映了模型預測BC 患者的生存具有良好的診斷效能,train 組及test 組風險曲線(圖2E、 F) 也驗證了模型預測BC 患者的生存的準確性。 繪制train 組及test 組的生存曲線(圖2G、 H), 可以看出在train 組及test 組中, 高低風險2 組生存率的差異有統計學意義, 說明得到的模型可以預測BC 患者的生存。
2.5 列線圖 根據5 個RBPs 繪制出列線圖(圖3), 可以根據列線圖去預測患者的生存期。
2.6 獨立預后分析 將train 組及test 組通過多元回歸分析結果繪制森林圖(圖4), 得出預后模型P 值均<0.05, 說明模型可以獨立于其他的臨床現狀作為獨立的預后因子。
2.7 模型RBPs 的預測價值的驗證 Kaplan-Meier Plotter Server 鑒定了預后模型中的5 個(TRIM71、DARS2、 APOBEC3H、 PABPC3 和MTG1) RBPs 與BC 患者的總生存期顯著相關(圖5)。


圖2 A: 單變量Cox 回歸分析中與BC 預后相關的RBPs; B: 多變量Cox 回歸分析中預后相關的RBPs; C、 D: 基于風險評分預測OS 的ROC 曲線; E、 F: 風險評分分布、 表達熱圖和生存狀態; G、 H: 低風險和高風險亞組的生存曲線

圖3 TCGA 隊列中預測BC 患者1 年、 2 年和3年OS 的列線圖
RBPs 失調已被報道在各種惡性腫瘤[6-13]。 然而, 只有一部分RBPs 被深入研究, 部分證實它們參與了癌癥[9-13]的發生和發展。 本研究基于TCGA的BC 數據確定了腫瘤組織和正常膀胱組織之間的109 個不同表達的RBPs, 系統分析了相關的生物學途徑, 構建了這些RBPs 的PPI 網絡, 對異常表達RBPs 進行單變量Cox 回歸分析、 生存分析、 多元逐步Cox 回歸分析和ROC 分析, 進一步探討其生物學功能和臨床意義。 本研究構建了一個基于5個預后相關的RBPs 基因預測BC 預后的風險模型。 這些發現可能有助于開發新的BC 患者診斷和預后的生物標志物。
表達的功能通路富集分析顯示, 不同RBPs 在翻譯的調控、 RNA 加工、 RNA 代謝中具有較高富集程度。 已有研究證明翻譯的調控、 RNA 加工、RNA 代謝與多種人類疾病的發生和發展有關[14-17]。 RNA 穩定性的轉錄后調控是基因表達過程中的一個重要環節。 RBPs 可以與RNA 相互作用形成核糖核酸蛋白復合物, 從而增加靶mRNA的穩定性, 促進基因表達, 在各種疾病的進展中發揮關鍵作用。 此外, 我們還建立了這些不同表達的RBPs 的蛋白-蛋白相互作用網絡, 接下來利用TCGA 隊列進行分析, 通過多元逐步COX 回歸分析, 建立預測BC 預后的風險模型。 ROC 曲線分析顯示, 這5 個RBPs 具有較好的診斷能力, 可以選擇預后較差的BC 患者。 在預后模型的5 個RBPs中, 許多已被證明在腫瘤的發展和進展中發揮重要作用[18-21]。 APOBEC3H 結構揭示了一種與雙鏈RNA 相互作用的異常機制[18]; TRIM71 通過降解突變體p53 抑制卵巢腫瘤發生[19], 并且TRIM71通過調節Lin28B-let-7-HMGA2 信號傳導抑制腫瘤發生[20]; PABPC3 在濾泡性甲狀腺癌細胞系外顯子組中被認為是反復突變的癌癥驅動基因[21];乙型肝炎病毒(HBV) 對DARS2 的上調通過miR-30e-5p、 MAPK、 NFAT5 途徑促進肝癌發生[22];人類心肌細胞以及發育中的斑馬魚的MTG1 沉默揭示了早期的心血管損傷[23]。 然而, 這5 種RBPs的分子機制對BC 的發生仍知之甚少, 進一步探索其可能的機制可能是有價值的。 隨后, 本研究建立了一個列線圖來幫助更直觀地預測BC 患者1年、 2 年和3 年的OS, 并使用Kaplan-Meier Plotter檢測了5 個RBPs 編碼基因的預后價值, 結果與TCGA 隊列的預后分析結果基本一致。 提示5 個RBPs 的預后模型對BC 患者治療方案的調整具有一定的參考價值。 這可能有利于臨床醫師為BC 的治療制定臨床治療決策。

圖4 train 組(A) 和test 組(B) 單因素獨立分析(左側) 和多因素獨立分析(右側) 結果

圖5 Kaplan-Meier Plotter Server 對BC 中預后模型RBPs 預后價值的驗證
總體而言, 本研究基于5 個RBPs 構建的預后模型, 顯著降低測序成本, 更有利于臨床應用。此外, 5 個RBPs 預測模型在BC 患者的生存預測中有更好的表現。 此外, RBPs 相關基因也顯示出重要的生物學功能, 這表明它們有可能用于臨床輔助治療。 盡管如此, 本研究仍有一些局限性:(1) 預后模型僅基于TCGA 數據庫的數據, 未在臨床患者隊列等數據庫中得到驗證; (2) 本研究是在回顧性分析的基礎上設計的, 未來應進行前瞻性研究來驗證結果; (3) 數據集臨床信息不夠完善, 可能會降低多元逐步Cox 回歸分析的統計效度和信度。
綜上所述, 本研究通過一系列生物信息學分析系統地探討了不同表達的RBPs 在BC 中的表達及預后價值。 這些RBPs 在BC 的發生、 發展中發揮著重要作用。 通過構建5 個RBPs 編碼基因的預后模型, 對未來BC 治療和預后有著積極指導意義。 目前還鮮見關于RBPs 相關的BC 預后模型的報道, 本研究結果對揭示BC 的發病機制, 開發新的診斷思路、 尋找新的治療靶點以及預后分子標志物提供一定證據。