王宏坤 鄭沛鳴 鄭繪霞
乳腺癌是全球發病率最高的女性惡性腫瘤,在我國每年約有30 萬人確診乳腺癌,而因乳腺癌死亡人數超過7 萬人,死亡原因為發生侵襲、復發、轉移或并發癥等。乳腺癌具有腫瘤類型多樣性及異質性的特點,雖然目前已有多種治療手段,如針對HER-2 靶向藥赫賽汀(Herceptin),但HER-2 陽性患者預后較差,有些患者即使應用赫賽汀治療,效果并不理想。而相比HER-2 陽性乳腺癌,三陰性乳腺癌(Triple negative breast cancer,TNBC)則是預后最差的乳腺癌類型,目前為止尚無能夠針對性治療TNBC 的靶向藥物,因此有必要探索乳腺癌新的治療靶點和/或預后分子生物標志物,改善其在治療及預后評估方面的不足。本研究旨在通過對TCGA、CPTAC 及HPA 數據庫進行分析,探討上皮細胞轉化序列2(Epithelial cell transforming sequence 2,ECT2)在乳腺癌中的表達及臨床意義。
1.1 數據來源通過訪問TCGA 數據庫門戶網站cBioPortal(http://www.cbioportal.org)分析乳腺癌差異表達基因,訪問HPA 網站(https://www.proteinatlas.org)分析ECT2 蛋白表達相關數據,訪問UALCAN 網站(http://ualcan.path.uab.edu)分析CPTAC 蛋白組學數據庫和TCGA 數據庫中ECT2 表達與臨床病理參數的關系,訪問GEPIA2 工具網站(http://gepia2.cancer-pku.cn/#index)及Kaplan-Meier Plotter工具網站(https://kmplot.com/analysis)分析TCGA 數據庫中ECT2 表達與乳腺癌生存期的關系。
1.2 數據分析方法
1.2.1 cBioPortal 分析TCGA 數據庫 在cBioPortal主頁選擇乳腺癌TCGA 數據庫,選擇mRNA 得到乳腺癌火山圖,找到ECT2 并標注,再次輸入ECT2 后供本研究使用樣本有996 例(帶有突變和CNA 數據),找到癌基因圖譜(Oncoprint),應用自帶GISTIC分析其基因拷貝數改變并下載相關結果圖。
1.2.2 UALCAN 分析TCGA 數據庫 在UALCAN 主頁面選擇乳腺癌(第二次選擇TNBC),在250 個常見基因中找到有ECT2 的熱圖,點擊ECT2 得到ECT2在乳腺癌與正常組織中對照的表達圖,下載相應結果圖。點擊下方菜單直接鏈接到CPTAC 數據庫,分析ECT2 蛋白在乳腺癌中的表達情況,下載結果圖,以P<0.05 為有統計學意義。
1.2.3 HPA 數據庫分析ECT2 表達 打開HPA 主頁,搜索框輸入ECT2,找到ECT2 在正常組織和乳腺癌中的表達情況,下載相關結果圖。
1.2.4 GEPIA2 和Kaplan-Meier Plotter 分 析TCGA 數 據庫中ECT2 表達與乳腺癌生存期的關系 在GEPIA2和Kaplan-Meier Plotter 分析網站,找到Survival Analysis,輸入ECT2,調整參數,下載Kaplan-Meier生存曲線圖,包括總生存期(Overall survival,OS)和無病生存期(Disease-free survival,DFS)。
2.1 乳腺癌中差異表達基因分析cBioPortal 分析TCGA 數據庫中乳腺癌差異表達基因共19 701個,高表達基因3 394 個,其中有意義的基因1 445個,將P 值由低到高排序,前20 個基因分別為ACTL6A、PDCD10、NFIL3、FNDC3B、MRPL47、MYNN、KPNA4、USB1、YEATS2、TES、PSAT1、CBX2、ECT2、NDUFB5、MFN1、GCNT2、TFRC、ATP11B、DESI2、MSANTD3,通過查閱文獻,篩選出第13 個基因ECT2 有較多樣本例數及文獻支撐,具有一定的研究價值,由圖1A 可見ECT2 在乳腺癌中的表達差異明顯。ECT2 基因三維立體圖及結構域分布圖(見圖1B、C)顯示目前其突變位點較少,僅有3 處錯義突變和2 處截斷突變。GISTIC 分析結果顯示,ECT2 改變以擴增為主(見圖1D),其中34 例發生改變,發生率為3.4%(34/996)。對發生改變與未發生改變ECT2 mRNA 表達進行統計學分析,結果顯示二者之間比較有顯著性差異(P<0.001),見圖1E。分析不同類型乳腺癌ECT2基因突變情況(見圖1F),結果顯示乳腺浸潤性導管癌中擴增和獲得頻率最高,其余類型較低,依次為乳腺浸潤性小葉癌、乳腺浸潤性癌、乳腺浸潤性混合型黏液癌、浸潤性乳頭狀癌、化生性乳腺癌。

圖1 乳腺癌差異表達基因
2.2 ECT2 基因在乳腺癌中表達熱圖分析UALCAN分析熱圖顯示前250 個基因在乳腺癌中的表達,上部分為過表達基因熱圖,下部分為低表達基因熱圖,過表達基因熱圖中找到ECT2 表達的圖譜下載,然后再次打開TNBC 熱圖,找到ECT2 所在熱圖,見圖2A、B,圖中顏色由藍變紅,逐漸呈現過表達趨勢。從圖2C、D 中可知TNBC 樣本數高于HER-2陽性樣本數,而從顏色結果看,TNBC 樣本中ECT2表達陽性率高于HER-2 陽性樣本。

圖2 乳腺癌中ECT2 表達熱圖
2.3 HPA 數據庫分析ECT2 表達HPA 數據庫分析顯示ECT2 在大多數正常組織中均有不同程度的表達,包括腦皮質、甲狀腺、消化道、肝膽胰、骨髓及免疫細胞(見圖3A),其中在正常乳腺組織中的平均表達量為11.8TPM;ECT2 在腫瘤中的表達主要見于肺癌、結直腸癌、肝癌、乳腺癌、宮頸癌、卵巢癌以及膠質瘤和惡性黑色素瘤等(見圖3B),其中乳腺癌樣本1 075 例,平均表達量為9.3FPKM,但未顯示具體的乳腺癌亞型表達情況。

圖3 ECT2 在正常組織及泛癌中的表達情況
2.4 CPTAC 數據庫分析ECT2 蛋白在乳腺癌中的表達CPTAC 蛋白組學數據庫樣本例數較少,選擇正常組織18 例,原發乳腺癌125 例,統計學分析顯示,ECT2 蛋白表達在兩者之間比較有顯著性差異(P<0.001),見圖4A;125 例腫瘤組織中luminal 型64 例,HER-2 陽性型10 例,TNBC 型16 例,ECT2在這三種類型中的表達顯著高于正常組織,尤其在TNBC 中表達差異更顯著(P<0.001),見圖4B;組織學分型比較結果顯示,僅浸潤性導管癌與正常組織比較有顯著性差異(P<0.001),見圖4C,其他類型與正常組織比較無顯著性差異(P>0.05);乳腺癌分期比較結果顯示,樣本中未發現Ⅳ期患者,ECT2 在Ⅱ期和Ⅲ期中的表達顯著高于正常組織(P<0.001),見圖4D,而Ⅰ期與正常組織比較無顯著性差異(P>0.05)。

圖4 ECT2 蛋白在正常組織及乳腺癌中的表達
2.5 UALCAN 分析TCGA 數據庫中ECT2 在乳腺癌中的表達對TCGA 數據庫進行分析,結果顯示ECT2 在114 例正常乳腺組織和1 097 例原發乳腺癌中比較,有顯著性差異(P<0.001),見圖5A;1 097例中luminal 型566 例,HER-2 陽性型37 例,TNBC型116 例,這三種類型與正常組織ECT2 表達比較均有顯著性差異(P<0.001),見圖5B;組織學亞型比較結果顯示,除例數較少的化生性癌和特殊類型癌外,其余亞型與正常組織比較均有顯著性差異(P<0.001),見圖5C;由于ECT2 在TNBC 中表達較高,對TNBC 各亞型[基底樣亞型BL1 和BL2、免疫調節亞型(IM)、管腔雄激素受體亞型(LAR)、間充質干細胞樣亞型(MSL)、間充質亞型(M)以及不確定的亞型(UNS)]與正常組織中ECT2 表達進行比較,結果顯示均有顯著性差異(P<0.05),見圖5D。從臨床病理參數結果分析,ECT2 表達與年齡分布、絕經期前后、淋巴結轉移及腫瘤分期均有關(P<0.001),見圖5E~H。

圖5 ECT2 在正常組織及乳腺癌中的表達
2.6 ECT2 基因表達與乳腺癌生存期關系分析通過GEPIA2 分析TCGA 數據庫中ECT2 表達與乳腺癌生存期的關系,共1 070 例乳腺癌,將ECT2 表達分為高表達和低表達,并將數據整合,高、低表達的患者設為相同例數,均為535 例,由此得出OS 和DFS 曲線圖,結果顯示ECT2 表達與乳腺癌患者OS及DFS 均無相關性(P>0.05),見圖6A、B。

圖6 ECT2 高表達及低表達乳腺癌患者生存曲線
經過以上分析發現,生存曲線均有多個交叉,因此又采用Kaplan-Meier Plotter 網站再次進行logrank 檢驗的生存分析,見圖7A、B。經過log-rank檢驗的生存曲線顯示,ECT2 基因表達與乳腺癌OS(ECT2 高表達939 例,低表達940 例)及DFS(ECT2高表達1382 例,低表達1383 例)均有關,ECT2 高表達患者生存期顯著縮短。

圖7 Log-rank 檢驗ECT2 高表達及低表達乳腺癌患者生存曲線
癌癥基因組圖譜(TCGA)是由美國國家癌癥研究所和國家人類基因組研究所共同合作的研究項目。TCGA 采用基因組測序技術,將人類全部癌癥的基因組變異圖譜繪制出來,用以全面評估系統探索人類癌癥所涉及的整個基因組變化譜的可行性。該項目對2 萬多種原發癌癥進行了分子表征分析,并對常見的33 種癌癥類型匹配了正常對照。TCGA 數據庫樣本量大,數據質量高,誤差小,組學豐富,每個腫瘤樣本均有全面的遺傳數據記錄,包括DNA 序列,轉錄信息(RNA-seq、基因芯片、小RNA-seq),表觀遺傳修飾(甲基化)及相關信息,是研究人類腫瘤的重要工具[1~3]。
HPA 是利用轉錄組學和蛋白質組學技術研究人類不同組織和器官中的蛋白表達情況,在RNA和蛋白水平應用免疫檢測技術(包括免疫印跡、免疫熒光和免疫組化-組織芯片)詳細檢測了每一種蛋白在48 種人類正常組織、20 種腫瘤組織和64 個細胞系中的表達情況,數據還在不斷更新中。目前已經提供約2.6 萬種人類蛋白質的組織和細胞數據。HPA 中的圖像注釋可以捕捉不同細胞系、組織或組織狀態下亞細胞位置的變化,應用HPA 數據庫可以非常方便地查詢和研究蛋白編碼基因在正常組織/器官和腫瘤組織中的表達情況,也可以查詢基因在不同腫瘤樣品中的蛋白表達情況[4],為研究基因蛋白在腫瘤中的表達提供了重要依據。
CPTAC 整合了基因組和蛋白組的數據,為從蛋白質層面進行探索和研究提供了豐富資源。它通過應用大規模蛋白質組學、基因組學數據促進對癌癥分子機制的了解,包括識別蛋白質亞型、基因拷貝數的改變與蛋白質豐度的關聯、蛋白翻譯后修飾及與其相關的信號通路等。CPTAC 主要以自行收集公開發表的蛋白質組學測序數據和與其對應的基因組學測序數據為主,還包括部分源自TCGA項目的蛋白質組學數據,其基于質譜的蛋白質定量技術可同時比較2~8 種不同樣品中蛋白質的相對含量或絕對含量。CPTAC 結合腫瘤與配對正常組織基因蛋白組學的整合分析,能夠進一步闡明驅動疾病表型的基因突變,清晰闡釋腫瘤病理生理學變化,為探索疾病個性化、精準化的臨床治療策略提供依據[5,6]。
盡管多數乳腺癌患者尤其是TNBC 患者采取了多種治療策略,但仍有部分患者預后較差。越來越多的證據表明ECT2 在功能上是一種致癌因子,通過參與細胞周期的調控來促進多種癌癥的發生發展,包括乳腺癌[7~9]。本研究通過多數據庫多組學數據分析,篩選出ECT2 基因,從拷貝數變異、基因蛋白表達及生存分析等方面探索ECT2 在乳腺癌中的作用,為乳腺癌靶向治療及預后分子標志物的研究提供思路,為深入研究ECT2 的作用機制及功能提供依據。cBioPortal 具有探索、可視化和分析多維度癌癥基因組數據的功能,整合了癌細胞系百科全書(Cancer cell line encyclopedia,CCLE)和TCGA的數據集,本研究選取TCGA 乳腺癌數據庫分析了乳腺癌差異表達基因,結果顯示ECT2 基因拷貝數及mRNA 表達均存在顯著性差異,并且在浸潤性導管癌中表達最高,主要以擴增和獲得為主。隨后應用UALCAN 網站選擇乳腺癌,找到前250 個基因中ECT2 的表達位置,并且與TNBC、其他乳腺癌類型及HER-2 陽性型進行比較,結果顯示ECT2 在TNBC 中的表達顯著高于正常組織、其他乳腺癌類型以及HER-2 陽性型。以上兩種不同的分析方法均證明ECT2 為乳腺癌的差異表達基因,并且更傾向于在TNBC 中表達。對ECT2 在乳腺和其他組織中表達情況進行比較,從HPA 數據庫分析結果可知,ECT2 在大多數正常組織細胞中均有不同程度的表達,在多種惡性腫瘤中同樣有不同程度的表達,如肺癌、胃癌、結直腸癌、頭頸部癌、卵巢癌、宮頸癌等,除在癌組織中廣泛表達外,在膠質瘤及惡性黑色素瘤中也有不同程度的表達,在乳腺癌中其表達量居中,但未能顯示詳細的乳腺癌類型。研究顯示,ECT2 廣泛表達于各種組織和細胞中,包括小鼠胚胎組織、特發性肺纖維化的人肺上皮細胞、膽管癌細胞、非小細胞肺癌細胞及膠質瘤等[10~14]。由此可見,ECT2 可能是胚胎發育過程中即存在的細胞因子,正常組織及腫瘤組織中均能檢測到ECT2表達,而其表達的高低可能決定了腫瘤的形成。提示這種內源性ECT2 在腫瘤形成過程中具有非常關鍵的促進作用。
經過TCGA 和HPA 數據庫驗證ECT2 在乳腺癌中的表達,本研究又對ECT2 表達與乳腺癌臨床病理特征的關系進行分析。首先從CPTAC 數據庫中分析ECT2 在乳腺癌中的表達,可知ECT2 在正常組織和乳腺癌中的表達有顯著性差異,而且與分子分型有關,ECT2 在TNBC 中的表達與正常組織比較差異更大,其次為Luminal 型和HER-2 型,也可能與例數較少有關;組織學分型中僅浸潤性導管癌與正常組織比較有差異,其余由于例數不足未發現差異性;腫瘤分期顯示Ⅱ、Ⅲ期ECT2 表達均高于正常組織。這些結果均提示ECT2 表達對乳腺癌的發生發展具有一定的作用。由于CPTAC 蛋白組學數據較少,存在一定的局限性,因此又對TCGA 數據庫進行了研究,選擇乳腺癌進行比較分析,除得到以上結果外,還顯示ECT2 表達與腫瘤分期、年齡分布、絕經期前后、淋巴結轉移有關,推測ECT2不但參與乳腺癌的發生發展,還可能與乳腺癌尤其是TNBC 的預后以及靶向治療有關。根據文獻報道,除乳腺癌外,ECT2 在其他癌癥中也有表達,而且ECT2 高表達患者均顯示較差的預后,可能是癌癥患者的獨立預后指標,甚至可能成為腫瘤潛在的治療靶點[15~18],包括膠質瘤[19]。因此對ECT2 在乳腺癌中表達與生存期的關系進行了分析,單純GEPIA2 分析結果顯示ECT2 表達與乳腺癌預后無相關性,但其中生存曲線交叉明顯,表明存在較多混雜因素,又應用Kaplan-Meier Plotter 網站進行去除混雜因素的log-rank 檢驗分析,結果顯示ECT2高表達患者與低表達患者相比,OS 及DFS 均較短,表明ECT2 高表達患者預后較差。實際上僅使用基因組數據預測腫瘤預后不夠全面,還需結合蛋白質組學數據,提高對癌癥病因和進展的認識,從而改善對腫瘤預后的評估。本研究從各數據庫中獲知ECT2 蛋白表達研究甚少,目前尚未顯示ECT2 蛋白表達與乳腺癌預后的關系,因此在蛋白組學方面還需要更多的研究探索。
本研究應用多個數據庫、多個分析工具進行多組學高通量分析,發現ECT2 在乳腺癌中呈差異表達,在浸潤性導管癌中表達較高,在TNBC 中相對高表達,并且與腫瘤分期、年齡分布、絕經期前后及淋巴結轉移等臨床病理參數有關,是乳腺癌發生發展中的促進因素,而且ECT2 高表達的患者預后較差,為乳腺癌的靶向治療及預后評估提供了參考依據。通過本研究結果可從分子水平了解ECT2 在乳腺癌中的表達情況,為進一步的機制研究提供理論支持。