閆 雷 楊 洋
(安徽醫科大學附屬宿州醫院放化療科,宿州市 234000,電子郵箱:yanlei0702@163.com)
2020年,女性乳腺癌約有226萬新病例,其發病率已超過肺癌,成為全球發病率最高的癌癥,占所有新癌癥病例的11.7%,同時其也是全球第五大癌癥死亡原因[1],這給國家及個人帶來極大的經濟負擔,還給個人帶來一定的心理壓力。因此,應積極改善乳腺癌患者的預后,以減輕其負擔并提高其生活質量。由于血管的有限供氧能力和腫瘤細胞的高耗氧能力之間處于不平衡的狀態,大多數實體惡性腫瘤都存在一定程度的缺氧。缺氧導致腫瘤出現缺氧耐受細胞,該細胞能夠促進腫瘤的局部侵襲、轉移和復發[2]。故靶向缺氧成為治療癌癥的重要策略之一[3]。長鏈非編碼RNA(long non-coding RNA,lncRNA)在不同水平上參與癌癥的發生和發展,包括表觀、轉錄和轉錄后調控[4]。研究表明lncRNA與多種腫瘤的預后密切相關[5]。尋找與乳腺癌缺氧相關的關鍵lncRNA,對于改善患者的預后具有重要意義。本研究分析癌癥基因組圖譜數據庫(the Cancer Genome Atlas,TCGA)中乳腺癌患者的lncRNA表達,篩選出具有預后預測價值的缺氧相關lncRNA,并構建預測乳腺癌預后的風險評分模型,旨在為臨床預測乳腺癌患者的預后提供參考。
1.1 數據下載與篩選 從TCGA數據庫(https://portal.gdc.ancer.gov/)中獲取乳腺癌患者的RNA轉錄組測序數據和臨床數據。納入標準:(1)病理診斷為乳腺導管癌或乳腺小葉癌的初治女性患者;(2)患者的lncRNA表達水平檢測數據和年齡、生存時間等臨床數據無缺失。排除標準:(1)隨訪時間≤30 d或隨訪時間缺失;(2)男性乳腺癌患者;(3)其余病理類型者。最終獲得981例乳腺癌患者的資料。患者年齡(58.19±13.20)歲,生存時間為31d至23.57年(隨訪起始點不詳);腫瘤分級Ⅰ級172例,Ⅱ級589例,Ⅲ級202例,Ⅳ級18例;T1期269例,T2期547例,T3期129例,T4期36例;M0期866例,M1期115例;N0期481例,N1期307例,N2期118例,N3期75例。
1.2 缺氧相關基因共表達的lncRNA的篩選 應用R 4.0.2軟件中的limma軟件包從乳腺癌患者的RNA測序數據中提取缺氧相關基因的表達信息(缺氧相關基因從https://www.gsea-msigdb.org/gsea/msigdb/網上數據庫獲得)。應用R 4.0.2軟件,采用Spearman檢驗評估lncRNA與缺氧相關基因表達水平之間的相關性,以r2>0.3、P<0.001為標準篩選缺氧相關基因共表達的lncRNA。
1.3 與乳腺癌預后有關的缺氧相關lncRNA的篩選及其風險評分模型構建 應用R 4.0.2軟件進行LASSO回歸、單因素和多因素Cox回歸分析。首先,以生存情況作為因變量,以獲得的缺氧相關基因lncRNA作為自變量,采用批量單因素Cox回歸分析篩選與乳腺癌預后有關的缺氧相關lncRNA(以P<0.05為標準)。然后,將獲得的lncRNA納入LASSO回歸,經驗證,當λ值為-4.96時模型擬合較好,將此條件下篩選出的lncRNA作為自變量,進行多因素Cox回歸分析。多因素Cox回歸分析時,使用survival包通過PH假設和共線性檢驗自變量,確定與乳腺癌預后有關的缺氧相關lncRNA及其回歸系數;建立基于缺氧相關lncRNA預測乳腺癌患者預后的風險評分模型,即風險評分=lncRNA1回歸系數×lncRNA1表達量+lncRNA2回歸系數×lncRNA2表達量+......+lncRNAn回歸系數×lncRNAn表達量。
1.4 風險評分模型預測乳腺癌患者預后的能力的驗證 計算每例乳腺癌患者的風險評分,根據中位值將乳腺癌患者分為高危組和低危組,應用R 4.0.2軟件繪制兩組的生存曲線(Kaplan-Meier法),并采用log-rank檢驗進行比較(以P<0.05為差異具有統計學意義)。應用R 4.0.2軟件繪制時間依賴性受試者工作特征(receiver operating characteristic,ROC)曲線,采用一致性指數(concordance index,C-index)和曲線下面積(area under the curve,AUC)評估風險評分預測乳腺癌患者預后的效能。
1.5 乳腺癌患者預后的影響因素及Nomogram模型的構建 應用R 4.0.2軟件,將風險評分和年齡及腫瘤分級、原發腫瘤-區域淋巴結-遠處轉移(tumor-node-metastasis,TNM)分期等臨床病理特征作為自變量進行單因素和多因素Cox回歸分析,進一步分析乳腺癌患者預后的獨立影響因素,均以P<0.05為差異具有統計學意義。利用獲得的獨立影響因素構建Nomogram模型,包括預測乳腺癌患者1年、3年、5年生存情況的風險模型;隨后應用ROC曲線評價并比較Nomogram模型與年齡及腫瘤分級、TNM分期等臨床病理指標預測乳腺癌患者生存情況的效能。
2.1 與乳腺癌預后有關的缺氧相關lncRNA及風險評分 以r2>0.3、P<0.001為篩選標準,共篩選出1 180個與缺氧相關的lncRNA。采用單因素Cox回歸分析初步篩選,得到與乳腺癌預后有關的缺氧相關lncRNA共44個(P<0.05);經LASSO回歸分析,發現其中23個缺氧相關lncRNA與乳腺癌預后可能有關,見圖1。采用多因素Cox回歸進一步分析,結果顯示有12個缺氧相關lncRNA與乳腺癌預后相關,見表1。其中9個lncRNA(TNFRSF14-AS1、AL606834.2、LINC01871、AL136368.1、SEMA3B-AS1、AL136531.1、BAIAP2-DT、AC061992.1和AC008105.3)是保護性因素,高表達患者預后較好;而3個lncRNA(Z68871.1、LINC01235和AC090198.1)是危險因素,高表達患者預后不佳。乳腺癌患者的風險評分模型為:風險評分=0.563×Z68871.1-0.325×TNFRSF14-AS1-0.370×AL606834.2+0.010×LINC01235-0.368×LINC01871-0.690×AL136368.1-0.062×SEMA3B-AS1-0.439×AL136531.1-0.043×BAIAP2-DT-0.215×AC061992.1+0.091×AC090198.1-0.535×AC008105.3。

圖1 LASSO回歸分析結果

表1 多因素Cox回歸分析結果
2.2 風險評分的驗證結果 根據缺氧相關lncRNA的風險評分(中位值為1.27分),將乳腺癌患者分為低風險組(<1.27分,n=491)和高風險組(≥1.27分,n=490),兩組的生存率差異有統計學意義(χ2=38.472,P<0.001),高風險組患者的生存時間較短,見圖2。預后標志的C指數為0.798,表明風險評分對乳腺癌具有可靠和準確的診斷作用。同時時間依賴性ROC曲線分析結果顯示,基于缺氧相關lncRNA風險評分預測乳腺癌患者1年、3年和5年生存情況的AUC分別為0.699(95%CI:0.601,0.814;P<0.05)、0.755(95%CI:0.683,0.905;P<0.05)和0.729(95%CI:0.637,0.895;P<0.05),見圖3。

圖2 低風險組和高風險組乳腺癌患者的生存曲線比較

圖3 基于缺氧相關lncRNA的風險評分預測乳腺癌患者生存情況的時間依賴性ROC曲線
2.3 乳腺癌患者預后的影響因素 以患者年齡(賦值:<60歲=0,≥60歲=1)、腫瘤分級(Ⅰ 期=1,Ⅱ 期=2,Ⅲ期=3,Ⅳ期=4)、T分期(T1期=1,T2期=2,T3期=3,T4期=4)、M分期(M0期=0,M1期=1)、N分期(N0期=0,N1期=1,N2期=2,N3期=3)、風險評分(<1.27分=0,≥1.27分=1)作為自變量,以患者生存時間和生存狀態為因變量,進行單因素Cox回歸分析,結果顯示年齡、腫瘤分級、T分期、M分期、N分期和風險評分均與乳腺癌患者的生存情況相關(均P<0.05),見表2。將以上6個指標納入多因素Cox回歸模型,結果顯示年齡和風險評分與乳腺癌患者的生存情況相關(均P<0.05),見表2。將患者年齡及風險評分納入Nomogram模型,構建預測1年、3年、5年生存情況的風險模型(見圖4A)。ROC曲線分析結果顯示,Nomogram模型預測乳腺癌患者總體生存情況的AUC值為0.750,略小于年齡(AUC=0.764),大于腫瘤分級(AUC=0.648)、T分期(AUC=0.669)、M分期(AUC=0.581)和N期(AUC=0.583),見圖4B。

表2 影響乳腺癌患者生存情況的單因素和多因素Cox回歸分析

圖4 乳腺癌患者Nomogram模型的構建與驗證
腫瘤能夠刺激新生血管無序生長,而腫瘤的增殖速度超過血管的生成速度,會導致實體腫瘤缺氧。持續低氧導致腫瘤血管的空間扭曲,這可能引起毛細血管間距增加,從而導致氧擴散受到限制;持續低氧還可能引起閉合的血管重新開放,導致缺氧再灌注損傷、自由基增加、應激反應基因激活和組織損傷,這也使得藥物難以擴散到腫瘤部位[3]。腫瘤細胞和缺氧性腫瘤微環境成分之間的相互作用,再加上淋巴管生成和血管生成機制的激活,使腫瘤對特定臨床干預措施的反應進一步復雜化。因此,需要確定缺氧性腫瘤微環境,以更好地了解和探討導致腫瘤細胞耐藥的機制[6]。乳腺癌發病隱匿,惡性程度較高,有一半以上的患者的病灶存在缺氧區域,并且與腫瘤侵襲性、化放療反應不良直接相關[7-8]。因此,探討乳腺癌患者腫瘤微環境中的分子機制顯得尤為重要。
lncRNA在癌癥的發展中起著重要作用,已發現部分lncRNA在乳腺癌中有表達[9-11]。例如,HOTAIR是目前研究最多的lncRNA調控因子之一,也是首個作為轉移標志物的lncRNA,其表達上調時具有致瘤性,可誘導乳腺癌細胞系遷移和侵襲,并且HOTAIR上調的患者存活率往往較低[12]。lncRNA ARNILA在三陰性乳腺癌局部侵襲和轉移中起關鍵作用[12]。還有研究報告,lncRNA BCRT1在乳腺癌組織中的表達顯著上調,且與乳腺癌患者預后不良有關;lncRNA BCRT1可以競爭性地與miRNA-1303結合,阻止其靶基因PTBP3的降解,從而促進乳腺癌的發生和發展;lncRNA BCRT1過表達可促進巨噬細胞M2極化,這種極化由外切體介導,從而進一步加速乳腺癌的進展[13]。在本研究中,共獲得12個與乳腺癌患者的預后密切相關的缺氧相關lncRNA,其中TNFRSF14-AS1、AL606834.2、LINC01871、AL136368.1、SEMA3B-AS1、AL136531.1、BAIAP2-DT、AC061992.1和AC008105.3為保護性因素,Z68871.1、LINC01235、AC090198.1為危險因素。目前,尚未見有關上述缺氧相關lncRNA在乳腺癌中的研究,但可見部分lncRNA在其他腫瘤中的研究。例如,SEMA3B和SEMA3B-AS1在食管癌細胞和食管鱗癌組織中表達下調,且兩者在食管鱗癌組織中的表達水平與TNM分期和淋巴結轉移有關;而過表達SEMA3B和SEMA3B-AS1可抑制食管癌細胞的體外活性和侵襲力[14]。LINC01235可通過上皮間質轉化促進胃癌細胞的轉移,其在胃癌組織中高表達與預后不良呈正相關,是預后不良的獨立標志物[15]。可見,這些lncRNA對其他腫瘤的影響,與本研究中對乳腺癌的影響相似。結合lncRNA的功能,我們推測缺氧相關lncRNA可能通過與微小RNA的相互作用、調控表觀遺傳基因和參與上皮間質轉化從而參與腫瘤的轉移和進展。今后,需要更多的研究來闡明缺氧相關lncRNA在乳腺癌發生、發展過程中的功能和關鍵機制。因此,在后續的研究中,我們將針對以上與乳腺癌患者預后相關的lncRNA進行進一步基礎實驗和功能研究。
精準基因組醫學的重點是從含有臨床結果的大型醫學數據中找出準確、特異地預測生存預后的因素。因此,我們根據獲得的12個缺氧相關lncRNA構建了風險評分模型,并進一步驗證了該評分模型評估乳腺癌患者預后的價值。結果顯示,高風險評分乳腺癌患者生存時間較短(P<0.05),預后標志的C指數為0.798,表明風險評分對乳腺癌具有可靠和準確的診斷作用。同時時間依賴性ROC曲線分析結果顯示,該評分預測乳腺癌患者1年、3年和5年生存情況均具有較好的效能(AUC值均>0.65)。由此可見,基于缺氧相關lncRNA的風險評分有助于評估乳腺癌患者的預后。然而,乳腺癌患者的預后還可能受到其他臨床病理特征的影響。因此,我們將風險評分與患者年齡、腫瘤分級、TNM分期作為自變量,采用多因素Cox回歸模型進一步篩選乳腺癌患者預后的影響因素,并將所獲得的影響因素(患者年齡和風險評分)通過繪制Nomogram圖構建了風險模型,ROC曲線分析結果表明該模型對乳腺癌患者的預后也具有較好的預測價值(AUC值為0.750),且預測效能優于腫瘤分級、TNM分期等指標。 因此,除了常規的臨床病理特征,在臨床上還應該根據相關基因的表達來評估患者的預后,從而更好地制定后續治療方案和隨訪措施。但本研究僅僅納入了部分臨床病理特征進行預后分析,未考慮到治療方案等其他可能影響預后的因素,今后還應納入更多的因素深入研究,以完善預測模型。
總之,本研究篩選出12個與乳腺癌患者的預后密切相關的缺氧相關lncRNA,由其組成的風險評分模型對乳腺癌患者的預后有較好的預測價值,而結合相關臨床指標與風險評分綜合評估患者的預后,或可為制定遠期的治療或隨訪方案提供更多的依據。今后可設計分子實驗以驗證缺氧相關lncRNA在乳腺癌發生、發展中的確切分子機制。