鄭 潔,開震天,夏超然,羅 鵬,劉 暉,王建東,王 鳳,胡俊艷△
1.上海中醫藥大學附屬曙光醫院乳腺外科,上海 201203;2.上海鼎晶生物醫藥科技股份有限公司,上海 201321
乳腺癌是女性最常見的惡性腫瘤。根據最新全球癌癥數據統計,乳腺癌已上升為全球發病率第一的惡性腫瘤,其中約有75%的乳腺癌患者為雌激素受體陽性的乳腺癌[1],內分泌治療是該類乳腺癌的重要治療策略,包括選擇性雌激素受體調節劑、芳香化酶抑制劑、孕激素、卵巢功能抑制劑等。他莫昔芬可使雌激素受體陽性乳腺癌患者的5年復發風險降至33.2%,5年病死率降至25.6%[2],但仍有40%左右的內分泌治療患者出現原發或繼發他莫昔芬耐藥,導致復發轉移,影響預后。因此,臨床亟待找到可以早期預估雌激素受體陽性乳腺癌患者耐藥風險的靶點。
長鏈非編碼RNA(lncRNA)是一類長度超過200個核苷酸的非編碼RNA。近年研究發現,lncRNA具有多種重要的功能,可影響基因轉錄調控、轉錄后修飾、表觀遺傳修飾等多種生理、病理過程,其轉錄或功能的異??纱龠M或抑制腫瘤的轉移和耐藥性產生[3-4]。多項研究發現,lncRNA的表達差異與乳腺癌的發生、發展、預后及治療耐藥密切相關[5-7]。
近年來,基于高通量平臺的微陣列已成為篩選癌癥發生過程中重要的遺傳或表觀遺傳學改變的有效工具,并且利用該技術去尋找癌癥診斷和預后的潛在生物標志物具有廣闊前景。本研究利用基因表達綜合(GEO)數據庫提取雌激素受體陽性乳腺癌芯片測序數據,并篩選雌激素受體陽性乳腺癌患者群體中出現他莫昔芬耐藥的lncRNA,從而分析乳腺癌他莫昔芬耐藥的分子機制及治療靶點。
1.1數據下載及處理 使用R包GEOquery從GEO數據庫中下載他莫昔芬耐藥及敏感細胞系的lncRNA表達數據集,編號為GSE159981,用于挖掘他莫昔芬耐藥相關的差異lncRNA。TANRIC(https://ibl.mdanderson.org/tanric/design/basic/main.html)數據庫是一個涵蓋了20種癌癥lncRNA的數據庫,其中數據來源包括癌癥基因組圖譜(TCGA)、癌癥細胞系百科全書(CCLE)及大量的獨立數據集,可用于探索lncRNA在各種癌癥中的功能及臨床相關性。本研究從其中下載TCGA乳腺癌患者的基因表達數據集,共837例,并從UCSC Xena (http://xena.ucsc.edu/)數據庫中獲取TCGA乳腺癌患者及所對應的生存數據,用于建立預后模型。
1.2生物信息分析
1.2.1差異lncRNA分析 使用R包GEOquery讀取GSE159981數據集中GPL 20115平臺對應的注釋文件。將其中標記為lncRNA的探針提取出來,并統一使用lncRNA ID進行注釋。隨后,使用R包limma對他莫昔芬敏感組MCF-7與他莫昔芬耐藥組LCC-2中的lncRNA進行t檢驗。然后,按照錯誤發現率(FDR)矯正P值<0.05且|log2FC|>1.5(FC為差異倍數)的標準篩選其中的差異lncRNA。最后,使用R包ggplot2繪制差異lncRNA的火山圖。
1.2.2預后模型建立與分析 使用R包biomaRt注釋TCGA基因表達譜中的基因名,并將篩選出來的差異lncRNA與TCGA的基因表達譜中包含的lncRNA取交集。隨后,對上述交集部分的lncRNA進行單因素Cox回歸分析,計算每個lncRNA與乳腺癌總生存率的風險值及P值,以P<0.05為標準篩選出與預后顯著相關的他莫昔芬耐藥lncRNA,表達量完全一致的lncRNA中僅保留一個。為保證模型的穩定性,在訓練集中采用多因素Cox回歸分析建立預后模型。將所建模型計算得到的風險值按中位數將患者分為高危組和低危組,使用R包中的survival和survminer繪制兩組患者的Kaplan-Meier曲線并采用Log-rank檢驗比較兩組患者的生存差異。
1.2.3預后模型的驗證 利用所建立的模型計算出TCGA乳腺癌驗證集中的風險比(HR),按照相同閾值將患者劃分為高危組及低危組,繪制兩組患者的生存曲線并用Log-rank檢驗兩組患者的生存差異。
2.1差異lncRNA的篩選 以FDR<0.05及|log2FC|>1.5為篩選標準,在他莫昔芬敏感組與他莫昔芬耐藥組中找到差異lncRNA 共416個,其中上調表達的lncRNA 200個,下調表達的lncRNA 216個。FDR排序前十位的差異lncRNA和對應P值見表1。

表1 他莫昔芬耐藥相關的差異lncRNA(FDR排序前十位)
2.2預后模型建立 將找出的差異lncRNA與TCGA基因表達譜中重疊的部分進行比對,最終獲得116個lncRNA。對116個差異表達的lncRNA進行單因素Cox回歸分析,以計算各lncRNA與乳腺癌患者總生存率的HR與P值,得到8個顯著相關的lncRNA(P<0.05),見表2。隨后,將TCGA隨機分為訓練集(n=470)與驗證集(n=157),并在訓練集中利用多因素Cox回歸對上述8個lncRNA進行多因素Cox回歸分析,最終確立6個lncRNA(ENSG00000230440、ENSG00000231128、ENSG00000232986、ENSG00000249346、ENSG00000253898、ENSG00000258412)的預后模型。按照所建模型計算得到的HR的中位數進行區分,將患者分為高危組和低危組,并進行生存分析。Log-rank檢驗結果發現,高危組與低危組在訓練集和驗證集中的生存率差異均有統計學意義(P=7×10-7、0.008)。

表2 8個lncRNA的單因素分析結果
2.36個lncRNA預測預后的受試者工作特征(ROC)曲線 使用R包timeROC分別計算3年及5年生存率的曲線下面積(AUC),并繪制出相應的ROC曲線以評價模型的特異度和靈敏度。在整體數據集中,所構建的6個lncRNA預后模型的3年和5年生存率AUC分別為0.75和0.68(圖1),均能較好的預測出乳腺癌患者的生存情況。

圖1 6個lncRNA預測預后的ROC曲線
他莫昔芬是一種結構與雌激素相似的人工合成的非甾體類抗雌激素藥,它通過與雌激素競爭腫瘤細胞雌激素受體,減少雌激素與受體有效結合,阻止雌激素發揮有效作用,從而抑制乳腺癌細胞的增殖[8]。雖然他莫昔芬的使用明顯改善了雌激素受體陽性乳腺癌患者的預后,但不可忽視的耐藥問題嚴重影響了他莫昔芬的整體療效,因此找到特異性的且有治療意義的內分泌治療耐藥靶點具有重要的臨床意義。
在對他莫昔芬耐藥的探索中,lncRNA的作用越來越被人重視,也取得了一些成果,比如有WU等[9]發現,lncRNA UCA1可通過激活mTOR信號轉導途徑對他莫昔芬產生耐藥。多項研究表明,lncRNA HOTAIR可與雌激素受體相互作用,增強其轉錄活性,從而促進他莫昔芬耐藥[10-12]。李均勇等[13]研究發現,lncRNA GAS5在MCF-7/他莫昔芬耐藥細胞中呈低表達,lncRNA GAS5過表達后MCF-7/他莫昔芬耐藥細胞增殖活性降低、對他莫昔芬敏感性增強,其機制可能與靶向調控miR-223-5p,進而抑制下游PI3K/Akt通路表達有關。另有研究發現,lncRNA BCAR4可通過HER2信號通路參與乳腺癌的細胞侵襲和他莫昔芬耐藥[12]。
本文主要是基于GEO及TCGA數據庫對他莫昔芬在乳腺癌治療中的耐藥機制進行研究,從中篩選出與他莫昔芬耐藥相關的lncRNA,并構建出能夠用于評估患者生存狀態的6個lncRNA預后模型。此預后模型提示高風險及低風險患者的生存曲線存在著明顯的分離。與高風險評分患者相比,低風險評分患者的生存時間延長、預后較好,表明lncRNA在雌激素受體陽性乳腺癌內分泌治療療效及預后中可能起著一定作用。
目前,對于乳腺癌內分泌治療患者來說,仍然缺少能夠有效判斷內分泌治療療效及預后的工具。本研究中較少的lncRNA(6個)便可預測內分泌治療的效果及預后,為乳腺癌患者的內分泌治療方案選擇提供參考。同時,本研究報道的6個lncRNA均為現有文獻尚鮮見報道與他莫昔芬耐藥相關的標志物,可能成為研究乳腺癌他莫昔芬耐藥機制及逆轉耐藥的新靶點。
但本研究存在一定的局限性,由于高通量測序數據具有一定的誤差及背景噪聲[14],本研究雖然在分析前已對數據進行標準化及批次校正,且通過獨立訓練集和驗證集初步驗證了模型的穩定性,但結果仍需進一步結合大量臨床標本及預后數據來驗證其在臨床應用的價值。
綜上所述,本研究針對雌激素受體陽性乳腺癌構建了他莫昔芬耐藥相關的6個lncRNA預后模型,并初步顯示了該模型預測他莫昔芬耐藥風險、預后情況及進一步逆轉他莫昔芬耐藥、治療癌癥的潛力。