許 康,白 麗,2*
(1.大理大學基礎醫學院,云南 大理 671000;2.云南省昆蟲生物醫藥研發重點實驗室,云南 大理 671000)
根據國際癌癥研究機構編制的GLOBOCAN 2020統計,乳腺癌已超越肺癌成為全球第一大癌癥(占比11.7%)〔1〕。在乳腺癌的治療方法上,目前主要是手術治療結合化療,但對于轉移性乳腺癌來說仍需其他治療手段改善患者生存率,新的治療方法包括信號通路抑制劑、節律化療、抗體-藥物結合系統、納米顆粒等的研究都還處于起步階段〔2-3〕。乳腺癌重要的預后標志物主要是腋窩淋巴結轉移數量、腫瘤大小和腫瘤分級,但這些標志物不足以對現今提倡個性化治療的乳腺癌患者進行有針對性的治療,特別是對于早期乳腺癌患者〔3〕。因此,篩選影響乳腺癌疾病進展及預后的標記分子對乳腺癌患者治療的多樣性和改善預后有重要臨床意義。S100鈣結合蛋白P(S100 calcium binding protein P,S100P)是S100鈣結合蛋白家族成員之一,除在胚胎發育過程中發揮作用外,還參與癌癥的發生發展、侵襲和轉移〔4〕。在乳腺癌早期通常有S100P的表達,參與調節乳腺癌侵襲和轉移的Fos相關抗原2(Fosrelated antigen 2,Fra-2)可上調S100P的表達,并增加乳腺癌的侵襲性〔5〕。乳腺癌分為原位癌(非浸潤癌)和浸潤癌,因原位癌易于治療、預后好,不是乳腺癌研究的重點,且各數據庫只收錄浸潤癌相關數據,故本研究通過生物信息學方法分析S100P在乳腺浸潤癌(breast invasive carcinoma,BRCA)中的表達及其共表達基因的生物學功能,探討S100P基因作為預后判斷的價值,為以S100P基因為靶點的臨床治療提供依據。
1.1 數據來源本研究數據來源于GEPIA數據庫(http://gepia.cancer-pku.cn)、UALCAN數 據 庫(http://ualcan.path.uab.edu)、KM Plotter數 據 庫(https://kmplot.com/analysis/)、LinkedOmics數 據 庫(http://www.linkedomics.org)和STRING數 據 庫(https://cn.string-db.org/)。
1.2 數據獲取
1.2.1 GEPIA數據庫GEPIA數據庫基于TCGA和GTEX的9 736個腫瘤樣本和8 587個正常樣本,可進行泛癌分析、差異表達分析、相關性分析、患者生存分析等〔6〕。該數據庫在本研究中用于挖掘S100P基因的泛癌表達以及分析在BRCA和正常乳腺組織中的表達差異。泛癌分析篩選條件為:“概述”“基因:S100P”“數據集:全部”。S100P基因在BRCA與正常組織表達差異篩選條件為“箱式圖”“基因:S100P”“數據集:BRCA”。
1.2.2 UALCAN數據庫UALCAN數據庫基于TCGA 31種癌癥類型的RNA-seq和臨床數據,可進行TCGA數據深度分析〔7〕。利用UALCAN數據庫分析S100P與BRCA淋巴結轉移分期的關系?!拜斎牖蛎Q:S100P”“TCGA數據集:BRCA”“分析鏈接:表達”。
1.2.3 KM Plotter數據庫KM Plotter數據庫能夠使用基因組學、轉錄組學、蛋白質組學或代謝組學數據進行單變量和多變量COX回歸分析,并繪制KM生存曲線〔8〕。利用KM Plotter數據庫評估S100P在乳腺癌中的預后價值。篩選條件為:“乳腺癌”“開始乳腺癌KM繪圖”“輸入基因名稱:S100P”“患者分組依據:自動選擇最佳值”“生存率:依次選擇無復發生存(relapse free survive,RFS)、總生存時間(overallsurvival,OS)、遠端無轉移生存(distalmetastasisfree survival,DMFS)、進展后生存(post-progression survival,PPS)”“繪制Kaplan-Meier曲線”。
1.2.4 LinkedOmics數據庫LinkedOmics數據庫包含TCGA和臨床蛋白質組腫瘤分析協會的多組學數據和臨床數據,是第一個多組學數據庫〔9〕。通過LinkedOmics數據庫分析S100P相關性基因,并進行GO富集分析和KEGG通路注釋與富集分析。相關性分析:“選擇癌癥類型:BRCA”“選擇檢索數據集:根據數據類型選擇RNAseq”“選擇檢索數據集屬性:S100P”“選擇目標數據集:根據數據類型選擇RNAseq”“選擇統計方法:皮爾遜相關檢驗”。GO和KEGG富集分析:“鏈接釋義:基因集富集分析(GSEA)”“富集分析:依次選擇生物學過程、細胞成分、分子功能、KEGG通路”。
1.2.5 STRING數據庫STRING數據庫可整合蛋白質之間物理相互作用和功能上的關聯,創建清晰明了的蛋白質相互作用關聯網絡〔10〕。利用STRING數據庫分析S100P與其他蛋白質的相互作用。“蛋白名稱:S100P”“物種:智人”。
1.3 統計方法采用數據庫默認統計方法。S100P泛癌分析以及在癌組織和正常組織差異表達分析采用單因素方差分析;皮爾遜相關法分析基因表達相關性;生存分析采用Log-rank檢驗。P<0.05為差異有統計學意義。
2.1 S100P基因在常見腫瘤組織和正常組織中的表達利用GEPIA數據庫分析了S100P基因在腫瘤組織和正常組織中的表達情況,結果表明,S100P基因在14種腫瘤中存在差異表達。其中,在BRCA、宮頸鱗狀細胞癌和宮頸腺癌、結腸腺癌、肝細胞肝癌、肺腺癌、胰腺癌、直腸腺癌、子宮體子宮內膜癌、子宮癌肉瘤中高表達,差異有統計學意義(P<0.001);在彌漫性大B細胞淋巴瘤、前列腺癌、皮膚黑色素瘤、甲狀腺癌、胸腺癌中低表達,差異有統計學意義(P<0.001)。
2.2 S100P基因在BRCA組織和正常乳腺組織中的表達差異對GEPIA數據庫中1 085例BRCA組織和291例正常乳腺組織S100P在mRNA水平的表達差異進行分析,結果表明,S100P基因在BRCA組織中的表達高于正常乳腺組織,差異有統計學意義(P<0.05)。見圖1。
2.3 S100P表達水平與淋巴結轉移分期相關性S100P的表達水平在BRCA不同淋巴結轉移分期中存在差異,在N0、N1、N2、N3分期中的表達均高于正常組織,差異有統計學意義(P<0.01),且N0與N1,N1與N2,N2與N3之間差異均具有統計學意義(P<0.05)。見圖2。
2.4 S100P在乳腺癌預后判斷中的價值采用KM Plotter數據庫在線分析S100P在乳腺癌預后判斷中的價值。結果發現S100P低表達組OS為120.00月,明顯高于S100P高表達組的59.15月(P<0.001)。見圖3A。進一步分析發現,S100P低表達組RFS、DMFS、PPS均高于S100P高表達組(P<0.001)。見圖3B~D。
2.5 S100P共表達基因及GO功能富集分析、KEGG信號通路分析用LinkedOmics數據庫分析得到與S100P表達相關基因共6 485個,其中,正相關基因3 207個,負相關基因3 278個。(P<0.05,FDR<0.01)。與S100P正相關和負相關的前10個主要基因見表1。通過生物學過程富集分析發現,S100P共表達基因主要參與粒細胞活化、線粒體基因表達、糖基化、白細胞遷移、前體代謝物和能量的產生、表皮發育、形成細胞外結構組織等生物學過程,而形成纖毛組織、染色質共價修飾等活動受抑制。見表2。細胞成分富集分析顯示,S100P共表達基因主要與囊泡腔、線粒體內膜、分泌顆粒膜、內質網腔等細胞成分有關,而在睫狀部、突觸膜等成分低表達。見表3。分子功能富集分析表明,與S100P共表達基因相關的分子功能包括電子轉移活性、作用于還原型煙酰胺腺嘌呤二核苷酸的氧化還原酶活性、細胞黏附分子結合、絲氨酸水解酶活性等,但組蛋白結合活性受抑制。見表4。KEGG信號通路分析發現S100P共表達基因主要參與蛋白酶體、溶酶體、代謝通路、白細胞介素17(interleukin-17,IL-17)信號通路以及一些自身免疫病,如系統性紅斑狼瘡、類風濕性關節炎等的相關信號通路的調控。見表5。

表1 S100P前10個共表達正、負相關基因

表2 S100P共表達基因的生物學過程富集分析結果

表3 S100P共表達基因的細胞成分富集分析結果

表4 S100P共表達基因的分子功能富集分析結果

表5 S100P共表達基因的KEGG信號通路富集分析結果
2.6 S100P相互作用蛋白分析使用STRING數據庫構建S100P相互作用蛋白網絡,結果顯示共19個蛋白與S100P相關,平均聚類系數為0.831(P<0.001),相互作用的蛋白分別是晚期糖基化終末產物受體(advanced glycation end product receptor,AGER)、鈣周期素結合蛋白(calcyclin-binding protein,CACYBP)、戴 帽 蛋 白α1(capping actin protein of muscle z-line alpha subunit 1,CAPZA1)、絨毛蛋白/埃茲蛋白(villin 2/ezrin,EZR)、含FXYD結構域的離子通道調節蛋白3(FXYD domaincontaining ion transport regulator 3,FXYD3)、白細胞介素11(interleukin-11,IL-11)、含IQ基序的GTP酶激活蛋白1(IQ motif containing GTPase activating protein 1,IQGAP1)、肌球蛋白重鏈9(myosin heavy chain 9,MYH9)、核仁和紡錘體相關蛋白1(nucleolar and spindle-associated protein 1,NUSAP1)、鳥 氨 酸 脫 羧 酶 抗 酶1(ornithine decarboxylase antizyme 1,OAZ1)、核糖體蛋白S9(ribosomal protein S9,RPS9)、S100鈣結合蛋白A1(S100 calcium binding protein A1,S100A1)、S100鈣結 合 蛋 白B(S100 calcium binding protein B,S100B)、S100P結合蛋白(S100P binding protein,S100PBP)、S100鈣 結 合 蛋 白Z(S100 calcium binding protein Z,S100Z)、二 胺 乙 酰 轉 移 酶1(diamine acetyltransferase 1,SAT1)、小核核糖核蛋白F(small nuclear ribonucleoprotein F,SNRPF)、MIS12著絲粒合成裝配分子伴侶(SGT1 homolog,MIS12 kinetochore complex assembly cochaperone,SUGT1)、細胞腫瘤抗原p53(cellular tumor antigen p53,TP53)。
乳腺癌是一種異質性疾病,惡性程度高,且發病率逐年增高,年輕女性患三陰性乳腺癌(triple negative breast cancer,TNBC)的風險逐年增加〔11〕。乳腺癌預后普遍較差,惡性程度最高的TNBC患者OS為1年,而其他亞型的乳腺癌晚期患者OS約為5年〔2〕。近年來,許多研究致力于尋找和驗證乳腺癌診斷和預后標志物,成功應用于臨床的包括Oncotype DX、MammaPrint和uPA/PAI-1等多基因檢測,但存在價格昂貴、缺乏長期隨訪驗證等問題〔3〕。因此探尋新的標志物,建立簡單廉價的檢測方法是乳腺癌預后監測的一個重要目標。
S100P是S100蛋白家族成員,是由95個氨基酸構成的二聚體蛋白,氨基端和羧基端的EF-Hand結構域為Ca2+結合位點,已被證實在多種腫瘤中表達〔5〕。研究〔12〕表明,胰腺癌細胞分泌的細胞因子促進S100P在瘤周淋巴管中淋巴管內皮細胞(lymphatic endothelial cells,LECs)的表達,通過S100P/RAGE信號通路促進LECs的遷移和環狀化學排斥劑誘導的缺陷(circular chemorepellentinduced defects,CCID),其中CCID是球形癌細胞在LECs單層中形成的大的無細胞區域,結果說明S100P與胰腺癌淋巴結轉移密切相關。另一項研究〔13〕發現,S100P參與E-鈣黏蛋白在胃癌中的黏附和腫瘤抑制功能,促進E-鈣黏蛋白陰性的胃癌細胞存活,增強其侵襲能力,導致胃癌發生發展。
本研究通過GEPIA數據庫分析S100P基因在常見腫瘤組織與正常組織中的表達情況,結果顯示S100P基因在多種腫瘤中差異表達,這與當前S100P基因在各種腫瘤中的研究結果相同,表明S100P基因在腫瘤中差異表達的現象較普遍。進一步分析乳腺癌中S100P mRNA水平的表達差異,腫瘤組織明顯高于正常組織。為了驗證這種差異表達是否與疾病進展有關聯,本研究利用UALCAN數據庫分析S100P基因與不同淋巴結轉移分期的相關性,發現N0與N1,N1與N2,N2與N3之間表達存在差異,提示S100P基因可能與乳腺癌淋巴結轉移相關。在乳腺癌血清S100P的研究〔14〕中發現,轉移性乳腺癌患者血清S100P水平升高,這與本研究結果一致。為了探討S100P在乳腺癌中的預后價值,本研究采用KM Plotter在線繪圖工具進行生存分析,結果發現S100P低表達組OS、RFS、DMFS、PPS均明顯高于S100P高表達組,提示S100P在乳腺癌中的高表達與預后不良相關。
為了進一步探究S100P參與的分子調控網絡,本研究通過LinkedOmics數據庫分析S100P共表達基因及GO功能富集分析、KEGG信號通路分析,發現與S100P表達正相關基因有3 207個,負相關基因有3 278個。GO功能富集分析結果顯示S100P主要表達于線粒體內膜、囊泡腔等結構,主要參與糖基化、線粒體基因表達、粒細胞活化等生物學活動,并調節一些酶的活性。KEGG信號通路分析發現S100P主要參與蛋白酶體、IL-17信號通路、溶酶體等信號通路以及一些自身免疫病相關信號通路。蛋白酶體是泛素-蛋白酶體系統(ubiquitin–proteasome system,UPS)的重要組成部分,腫瘤細胞可上調UPS,對腫瘤抑制蛋白進行降解,避免自身凋亡〔15〕。在IL-17介導的炎癥反應中,一些炎癥介質能刺激功能失調的髓樣細胞募集,形成利于血管生成和免疫抑制的腫瘤環境,從而促進腫瘤的生長和轉移,IL-17通過多種機制參與腫瘤的早期形成階段,尤其是炎癥驅動的腫瘤類型〔16〕。S100P可能是UPS和IL-17通路的潛在靶點。
本研究通過STRING數據庫分析構建了S100P蛋白質相互作用網絡,發現有19個蛋白與S100P存在相互作用,包括AGER、CACYBP、CAPZA1、EZR、FXYD3、IL-11、IQGAP1、MYH9、NUSAP1、OAZ1、RPS9、S100A1、S100B、S100PBP、S100Z、SAT1、SNRPF、SUGT1、TP53。這些蛋白中絕大多數與腫瘤相關,但是否與S100P共同影響乳腺癌生物學特性,還有待進一步研究與驗證。
本研究基于多種生物信息學分析工具探討S100P基因在乳腺癌中的表達及意義。S100P基因在乳腺癌中高表達,與乳腺癌淋巴結轉移相關,并影響患者預后,且S100P與多種蛋白質共同作用影響乳腺癌的生物學特性。S100P基因可能作為乳腺癌的潛在靶點,具有一定預后價值。