鄧姍姍,張廷友,李寧
遵義醫科大學第二附屬醫院胸部腫瘤科,貴州 遵義563000
根據國際癌癥研究機構的報道,2020年乳腺癌已超過肺癌成為最常見的人類癌癥,全球新發病例226萬,約占新發癌癥病例的11.7%,占女性癌癥死亡人數首位,而中國乳腺癌的發病率居全球第一。乳腺癌是多學科綜合治療最成功的癌種之一,早期乳腺癌患者的5年生存率可達80%以上[1]。然而,仍然有部分患者在短期內出現復發轉移,這顯著縮短了患者的生存時間,復發轉移是導致乳腺癌患者癌癥相關性死亡的主要原因[2]。因此,尋找合適的預測因子評估患者預后是臨床腫瘤學專家亟需解決的問題。微小RNA(micro-RNA,miRNAs)系短鏈非編碼RNA,參與乳腺癌發展演變的多個生物學過程[3-4]。
研 究 報 道,miR-141[5]、miR-31[6]、miR-105[7]等miRNAs的在乳腺癌中上調,可促進乳腺癌細胞增殖、遷移,是乳腺癌患者預后不良的分子標志物[8]。研究發現,miRNAs能夠作為評估乳腺癌患者生存的預測因子,且多個miRNAs組合的預測因子更具優勢[9]。因此,本研究擬對TCGA(the Cancer Genome Atlas)數據庫數據進行深入挖掘以建立預測乳腺癌患者預后的miRNAs模型,為其個體化治療提供理論依據。
1.1 數據下載與整理 本研究于2020年12月18日檢索TCGA數據庫,并下載乳腺癌相關miRNA(腫瘤樣本446個,正常樣本45個)和mRNA(腫瘤樣本1 069個,正常樣本111個)表達數據和臨床信息(426例);從miRBase(http://www.mirbase.org/)下載miRNA成熟序列。
1.2 差異分析 使用R語言(4.0.3版)進行統計分析,采用edgeR包對腫瘤組織和正常組織中差異表達的miRNA和mRNA進行提取,設置錯誤發現率的指標(false discovery rate,FDR)<0.05,|log2FC|>1(FC為差異倍數,fold change)。
1.3 預后模型構建及評價 剔除生存時間<30天及生存狀態未知的臨床數據后,將差異表達的基因與整理后的臨床數據合并。采用caret包將本研究隊列隨機分為實驗(Train)組和驗證(Test)組,對Train組進行單因素Cox回歸分析,篩選出P<0.05的miRNA作為候選預測因子;采用survival包對候選預測因子進行多因素Cox回歸分析并構建預后模型。根據預后模型計算各組的風險評分,以Train組的風險評分中位數作為cut-off值,將患者分為高風險及低風險組。采用Kaplan-Meier(K-M)法繪制生存曲線。計算5年生存率受試者工作特征曲線(ROC)及曲線下面積(AUC),以此評估模型的預測精度。
1.4 獨立預后分析 通過單因素及多因素Cox回歸分析,計算臨床變量及風險評分與患者生存率的相關性,并判斷該模型是否可以作為獨立的預后因素。
1.5 靶基因預測和功能富集分析 采用Targetscan、miRDB和miRTarBase三個工具預測本預后模型中miRNA的靶基因,將≥2個工具同時預測到的靶基因與差異表達的mRNA取交集;對上述取交集后得到的目標基因進行基因本體論(Gene Ontology,GO)和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析(過濾條件為P<0.05,q<1)。
1.6 構建PPI網絡篩選核心基因 利用STRING網站(https://string-db.org/)構建PPI網絡(置信參數為0.7),通過Cytoscape3.8.2軟件篩選核心基因。
2.1 miRNAs預后模型構建及評價 本研究共篩選出298個差異miRNA(上調205個,下調93個),將395例生存狀態明確且生存時間≥30 d的患者,隨機分為Train組199例和Test組196例。Train組經單因素Cox回歸分析得到11個與預后相關的miRNA(P<0.05),逐步經多因素Cox回歸分析剔除引起多重共線性的miRNA,最后構建了由hsa-miR-148b、hsa-miR-148b-5p、hsa-miR-487a-5p和hsa-miR-452-3p四個miRNA組成的4-miRNAs預后模型。風險評分=(hsa-miR-148b-5p表達量0.285 424 9)(hsa-miR-503-5p表達量0.280 636)(hsa-miR-487a-5p表達量0.311 300)(hsa-miR-452-3p表達量0.150 980)。以Train組風險評分中位數(0.965)作為cut-off值,將患者分為高風險及低風險組,結果提示高風險組乳腺癌患者的5年生存率低于低風險組患者(P<0.05,圖1),生存狀態圖提示高風險組死亡率更高(圖2);三組患者5年生存率ROC曲線下AUC值分別為0.868、0.669、0.802(圖3)。

圖1 生存曲線圖

圖2 高低風險組患者生存狀態

圖3 ROC曲線
2.2 獨立預后分析 單因素Cox回歸分析提示4-miRNAs預后模型與總生存率相關(HR=1.325,P=0.005,圖4)。多因素Cox回歸分析提示,即使在考慮其他臨床因素時,4-miRNAs預后模型同樣可作為影響乳腺癌患者生存率的獨立預后因素(HR=1.325,P=0.006,圖5)。此外,年齡、N分期和轉移狀態也是影響乳腺癌患者生存率的獨立的預后因素(P<0.05)。

圖4 單因素獨立預后分析

圖5 多因素獨立預后分析
2.3 4-miRNAs模型靶基因預測和功能富集分析 取≥2個靶基因預測軟件預測結果的交集后,hsa-miR-148b-5p、hsa-miR-503-5p、hsa-miR-487a-5p、hsa-miR-452-3p四個miRNA分別得到491、493、434、638個重疊靶基因。本研究共篩選出7 388個在乳腺癌中差異表達的mRNA(上調4 946個,下調2 442個),與上述重疊靶基因取交集后得到183個目標靶基因。對前20個目標靶基因進行GO富集分析,并繪制CC(cellular component)、BP(biological process)和MF(molecular function)圖。富集結果顯示BP主要包括:發育細胞生長、成纖維細胞遷移的正調控、跨膜轉導;CC主要包括離子通道復合體、跨膜轉運復合體、電壓門控鉀通道復合體;MF主要包括:肝素結合、糖胺聚糖結合、硫化合物結合、鉀離子跨膜轉運活性、生長因子活性、受體配體活性。KEGG通路主要包括病毒蛋白與細胞因子和細胞因子受體的相互作用、細胞因子與細胞因子受體的相互作用、軸突導向、TGF-beta信號通路、p53和PI3K-Ak信號通路(P<0.05)。
2.4 構建PPI網絡篩選核心基因183個經過濾后得到的目標靶基因被用于PPI網絡的構建,篩選得到 的 前10個 核 心 基 因 為IL6、IGF1、SEMA6D、MGAM、CXCR4、PPBP、CXCL11、SGK1、KCNJ3、HCN4。
乳腺癌是高度異質性的腫瘤,其發生發展是多基因共同參與的過程,不同亞型之間的分子生物學特征、臨床表現及治療反應均存在很大的差異,在精準醫療時代,充分考慮患者的分子特征,有利于制定更加精準的個體化治療方案。但目前存在的TNM分期、病理學分型、組織學分型等預后因素尚不能完全對患者進行精細的個體化區分。因此,尋找可個體化預測乳腺癌患者預后的模型意義重大。本研究利用TCGA數據庫,對乳腺癌組織中差異表達的miRNA進行篩選和分析,最后構建了由hsa-miR-148b-5p、hsa-miR-503-5p、hsa-miR-487a-5p、hsa-miR-452-3p四個miRNA組成的4-miRNAs預后模型。經檢測該預后模型的預測效能較高,Train組、Test組和所有樣品5年生存率ROC曲線下AUC值分別為0.868、0.669、0.802。生存曲線提示高風險評分患者預后較低風險評分患者差,且差異具有統計學意義(P<0.05),提示該模型可用于乳腺癌患者的預后預測。單因素Cox回歸分析提示該預后模型與乳腺癌患者生存率相關,多因素Cox回歸分析提示該模型可作為影響乳腺癌患者生存率的獨立預后因素。
CIMINO等[10]指出miR-148b是ITGA5,ROCK1,PIK3CA/p110α、NRAS、CSF1信號轉導通路的重要調節因子。ZHANG等[11]發現miR-148b通過靶向PTEN通路可促進乳腺癌細胞的生長。CHEN等[12]發現miR-148/152家族通過負調控SPIN1的表達,增強乳腺癌細胞對阿霉素的耐藥性。ZHAO等[13]發現miR-503通過靶向SMAD2和E鈣粘蛋白促進乳腺癌上皮-間質轉化。MA等[14]發現miR-487a通過調節BCRP的表達,可逆轉乳腺癌化療耐藥。XIAO等[15]發現miR-452在乳腺癌細胞中對LINC0092與SFRP1、RGMA有調節作用。前期研究提示本模型中的四個miRNA均在乳腺癌的發展過程中發揮重要作用。
GO富集分析顯示4-miRNAs預后模型的靶基因主要定位于細胞膜,參與離子、蛋白跨膜轉運、信號轉導,具有跨膜轉運活性、生長因子活性、受體配體活性等功能。KEGG主要富集在TGF-beta、p53和PI3K-Ak等信號通路上。前期文獻指出p53[16]、PI3K[17]和TGF-beta[18]等信號通路均與乳腺癌預后相關。這些富集結果在乳腺癌的發生發展過程中發揮著不同的作用,提示本研究所構建的4-miRNAs模型對乳腺癌信號通路的調節有重要意義。本研究所篩選出來的前十位核心基因IL6、IGF1、SEMA6D、MGAM、CXCR4、PPBP、CXCL11、SGK1、KCNJ3、HCN4均與乳腺癌的發生發展密切相關[19-22]。
本研究的不足之處在于本研究的數據僅來源于TCGA數據庫,未對其他數據庫數據進行分析。此外,該模型尚未得到實驗驗證,后續將進行實驗驗證。
綜上所述,本研究構建了一種基于miRNA的可靠獨立預后模型,為乳腺癌患者臨床治療策略的制定提供了理論依據,有助于乳腺癌患者的個體化管理,對于本模型評分為高風險患者可能需要采取更積極的治療方式。