凌鏗 金麗琴
乳腺癌在2020 年的全球發病例數高達226 萬例,已超越肺癌的220 萬例,成為全球發病率第一的癌癥[1-2]。盡管醫學技術不斷進步,如靶向治療和免疫治療等在臨床的廣泛應用,但乳腺癌患者的總體生存率仍不盡如人意[3-4]。近年研究顯示,多基因標記有助于乳腺癌的風險分層和預后預測[5]。染色質調節因子(chromatin regulators,CRs)在腫瘤中的表觀遺傳學改變被視為關鍵標志[6-7],其失調可能導致癌癥等多種疾病的發生。然而,關于CRs 與乳腺癌之間關系的系統研究仍然較少。本研究通過生物信息學方法,探討CRs 在乳腺癌中的表達模式及其預測預后的潛在價值,旨在了解CRs 的作用機制并尋找新的治療靶點。
1.1 差異表達CRs 的數據收集和識別 從公共數據庫癌癥基因組圖譜(The Cancer Genome Atlas,TCGA,https://portal.gdc.cancer.gov)獲取111 個正常乳腺組織和1 057 個乳腺癌組織的mRNA 表達和相關臨床信息,以及從前期專題研究中檢索到870 個CRs[8]。這些mRNA 采用R 軟件preprocess Core 軟件中的normalize.quantiles 函數進行數據標準化處理,根據相應平臺注釋信息,統計將探針ID轉換為gene symbol。根據|logFC|>1 和假發現率(false discovery rate,FDR)<0.05 的標準,使用基于R軟件的limma軟件識別差異表達的CRs。
1.2 基于CRs 的預測模型的構建與驗證 采用單因素Cox 回歸分析對所有候選CRs進行初步篩選,從而確定與乳腺癌患者總體生存率顯著相關的CRs。隨后,采用最小絕對值收斂和選擇算子算法(least absolute shrinkage and selection operator,LASSO)-Cox 回歸分析法中的交叉驗證方法確定最佳的懲罰參數λ值,以最終確定包含在預后風險模型中的CRs。LASSO-Cox 回歸不僅能夠處理變量選擇問題,還能有效地控制模型的復雜度,減少過擬合的風險,為乳腺癌患者提供一個可靠的預后評估工具。然后計算每例乳腺癌患者的風險分數(Risk score),Risk score=(Coef 1×expression mRNA 1)+(Coef 2×expression mRNA 2)+…+(Coef n×expression mRNA n),其中Coef 是相應mRNA 的LASSO-Cox 回歸模型系數。以所有患者Risk score 的中位數將乳腺癌患者分為高風險組和低風險組。采用Kaplan-Meier 法進行生存分析,評估兩組患者的預后。使用survival ROC 軟件繪制時間依賴性ROC 曲線評估風險模型的預測效能,計算AUC,數值越接近1,表示模型的預測效能越強。
1.3 基于Risk score 和臨床變量構建列線圖 將模型與乳腺癌患者其他臨床變量相結合以提高預測準確性,其中臨床變量包括患者的年齡、癌癥分期(StageⅠ、Ⅱ、Ⅲ、Ⅳ期)、腫瘤大小(T 分類)、淋巴結轉移情況(N 分類)、遠處轉移情況(M 分類)。采用單因素Cox 回歸分析以評估Risk score 以及上述臨床變量對乳腺癌患者預后的影響,隨后采用多因素Cox 回歸分析確定Risk score 對乳腺癌患者預后的獨立預測價值。應用上述臨床變量和基于CRs 的特征Risk score 構建列線圖,以評估乳腺癌患者1、3、5 年總生存期(overall survival,OS)。采用校準曲線來評估列線圖的預測效能。
1.4 統計學處理 采用R 4.2.1 統計軟件。組間CRs表達水平的比較采用Wilcoxon 秩和檢驗,高風險組和低風險組生存時間的比較采用log-rank 檢驗。P<0.05 為差異有統計學意義。
2.1 基于CRs 的模型建立和驗證 與正常乳腺組織相比,TCGA-乳腺癌數據庫中有127 個差異表達的CRs,見圖1(插頁)。根據P值排序,前20 個具有預后價值的基因見圖2。然后,使用LASSO-Cox 回歸分析篩選出16 個差異CRs 并構建乳腺癌患者預后預測能力的特征(ACTL6B+ASCL1+CHEK1+FBXL19+FOXA1+HMGB3+IDH2+MAZ+MECOM+RAD54B+SMYD3+SP140+TDRD12+TDRKH+TONSL+UBE2T),成功構建了風險模型。根據16 個CRs 的相關系數計算Risk score,Risk score=(0.023 5×ACTL6B 表達)+(0.003 0×ASCL1 表達)+(0.003 4×CHEK1 表達)+(0.019 3×FBXL19 表達)+(0.001 5×FOXA1 表達)+(0.002 0×HMGB3 表達)+(0.001 1×IDH2 表達)+(-0.010 3×MAZ 表達)+(0.059 8×MECOM 表達)+(0.075 0×RAD54B 表達)+(0.007 1×SMYD3 表達)+(-0.097 8×SP140 表達)+(0.018 4×TDRD12 表達)+(0.012 2×TDRKH 表達)+(0.008 3×TONSL 表達)+(0.002 3×UBE2T 表達)。Kaplan-Meier 生存曲線分析顯示,高風險組死亡率明顯高于低風險組(P<0.001);時間依賴性ROC 曲線分析顯示,TCGA 數據庫中基于CRs 的特征在5 年時的AUC 為0.778,見圖3(插頁)。利用熱圖顯示高風險組和低風險組之間16 種CRs 的差異,見圖4(插頁)。

圖1 乳腺癌前50 個差異表達CRs 的熱圖

圖2 前20 個預后基因的森林圖

圖3 TCGA-乳腺癌數據集基于預后CRs 的模型分析(A:Kaplan-Meier 高風險與低風險組乳腺癌患者生存分析;B:基于中位Risk score 的生存狀態分布;C:總生存期Risk score 的時間依賴性ROC 曲線)

圖4 高風險組和低風險組之間16 種CRs 差異的熱圖
2.2 基于CRs 特征構建的風險模型與乳腺癌患者臨床特征之間的相關性分析 結果顯示,該風險模型在預測高風險組和低風險組乳腺癌患者不同臨床特征中的預后方面具有明顯差異,相關性熱圖見圖5(插頁)。Kaplan-Meier 生存曲線分析得出,低風險組患者中年齡≤65 歲、StageⅠ~Ⅱ期、Ⅲ~Ⅳ期、T0~T1、T2~T3、N0~N1、N2~N3者OS 均高于高風險組患者(均P<0.05),但兩組患者中年齡>65 歲者OS 比較差異無統計學意義(P=0.170),見圖6。

圖5 基于CRs 構建的預后Risk score 與乳腺癌患者的不同臨床特征之間相關性分析的熱圖

圖6 不同臨床特征高風險組和低風險組患者的Kaplan-Meier 生存曲線(A:年齡≤65 歲;B:年齡>65 歲;C:N0~N1期;D:N2~N3期;E:Stage Ⅰ~Ⅱ期;F:Stage Ⅲ~Ⅳ期;G:T0~T1期;H:T2~T3期)
2.3 預測乳腺癌患者生存率的列線圖 結合Risk score 以及其他臨床變量(患者年齡、癌癥分期、T 分類和N 分類)構建的列線圖見圖7A。為驗證該預測模型的可行性和準確性,進一步采用校準曲線,結果表明預測模型在1、3 和5 年生存率的預測上與實際觀察到的生存率高度一致,見圖7B。

圖7 預測乳腺癌患者生存率的列線圖與校準曲線(A:基于多因素的乳腺癌患者1、3 和5 年的生存率預測的列線圖;***表示這兩個變量在Cox 比例風險模型中對于預測結果有非常顯著的影響;B:列線圖的校準曲線圖)
2.4 相關基因在腫瘤組織與正常乳腺組織中的基因表達差異采用limma 軟件統計分析乳腺癌組織與正常乳腺組織之間的基因表達差異,識別在疾病進程中顯著上調或下調的關鍵CRs,其中ACTL6B、ASCL1、CHEK1、FBXL19、FOXA1、HMGB3、IDH2、MAZ、RAD54B、SMYD3、TDRD12、TDRKH、TONSL、UBE2T 在腫瘤組中顯著高表達,而MECOM 在腫瘤組中顯著低表達。
乳腺癌是全球最常見的女性惡性腫瘤,其復雜性和對其發生及進展的有限了解使得其預后和治療具有挑戰性。盡管CRs 在乳腺癌的發生中已被證明具有多種功能,但對其在乳腺癌中的臨床意義的綜合分析仍然很少。
本研究通過利用生物信息學工具,從TCGA 數據庫中篩選出了127 個在乳腺癌組織和正常乳腺組織之間差異表達的CRs。這些CRs 的差異表達可能與乳腺癌的發病機制、預后和治療有關。隨后,進一步分析確定了16 個與乳腺癌預后顯著相關的CRs,并基于這些CRs 構建了風險模型。該模型的生存率和ROC 曲線分析均顯示出良好的預測效能,為臨床醫師提供了一個新的工具來評估乳腺癌患者的預后。
對于這些關鍵的CRs,如ACTL6B、ASCL1、CHEK1和FBXL19 等,它們在腫瘤中的作用已被廣泛研究[8-11]。例如,ACTL6B 在染色質重塑和組蛋白乙酰化中起到關鍵作用[12],而CHEK1 則被認為是乳腺癌的潛在預后和治療靶點[13]。這些發現不僅增強了對乳腺癌發病機制的了解,還為未來的治療策略提供了新的方向。
然而,本研究也存在一些局限性,如CRs 如何調控乳腺癌細胞的生物學行為仍需要進一步的實驗驗證。此外,為了驗證預后模型的實用性,還需要在多中心臨床隊列中進行進一步的研究。
綜上所述,本研究為了解乳腺癌的發病機制、預測預后以及發現新的治療靶點提供了重要的線索。但為了將這些發現應用于臨床實踐,還需要進一步的研究和驗證。希望未來的研究能夠基于這些初步發現,進一步深化對乳腺癌的理解,為患者帶來更好的治療效果和生活質量。