黃愛本 何澤生 黃菲一 孔令員
依據近期世界衛生組織國際癌癥研究機構的研究數據,2020年全球新增癌癥病例約1 930萬例(不包括非黑色素瘤皮膚癌1 810萬例),癌癥死亡病例近1 000多萬例(排除非黑色素腫瘤皮膚癌990萬例),其中一個最明顯的變化是乳腺癌新發病例數的快速增長。目前,女性癌癥中乳腺癌的患病率已超過肺癌成為最常見的診斷癌癥,新增病例約230萬例(11.7%)[1]。發達國家有636 128例乳腺癌病例,而發展中國家為514 072例,分別為189 765例和220 648例[2]。在歐洲,2004年的估計表明,新診斷的乳腺癌病例為371 000例,與乳腺癌相關的死亡病例為12.99萬例[3]。在全世界范圍內,乳腺癌是影響女性的最常見的癌癥,預計其發病率和死亡率在未來5~10年內將顯著增加,已嚴重的影響了女性的生命健康。據統計,我國乳腺癌五年生存率超80%,已成為繼甲狀腺腫瘤外生存率最高的腫瘤。但大量患者仍存在復發或轉移的風險,中國乳腺癌復發率約20%~30%,5年內復發轉移風險最高。毫無疑問,隨著醫療水平的不斷提高及全身放化療的標準化,放化療技術成為了治療大多數癌癥類型的“金標準”方法,以適度改善癌癥患者的存活率和降低放化療不良反應的毒性,靶向治療成功吸引了科學界的最大研究興趣和制藥行業的資金投入。最近的研究證據表明,乳腺癌確診時年齡的年輕化是一個獨立的生存預后因素[4]。世界衛生組織國際癌癥研究機構的研究數據報告分析表明,乳腺癌確診時患者年齡的年輕與復發和死亡的巨大風險高度相關[5]。乳腺癌的發生其病理生理學機制復雜,有研究認為基因檢測可以作為乳腺癌的早期治療輔助工具[6],FSIP1可以與HER2結合,增強乳腺癌細胞的增殖和侵襲能力[7]。然而,早期診斷的方法策略目前也尚未成熟。然而,不幸的是,蛋白質風險信號的機制研究從未被構建來預測乳腺癌患者的預后。癌癥蛋白質組圖譜(the cancer proteome atlas,TCPA)數據庫通過整合來自腫瘤基因組圖譜(the cancer genome atlas,TCGA)的反相蛋白陣列芯片數據和幾個獨立的腫瘤研究項目提供的蛋白質表達譜[8],在本研究中,基于Kaplan-Meier方法和Cox回歸分析,確定了3個Hub蛋白,并首次構建了蛋白質風險特征。受試者工作特征曲線下面積進一步證實了風險特征的準確性。借助位于伯明翰的AL-abama大學可以提供cer數據分析門戶網站,研究中進一步發現3個Hub蛋白在癌組織和正常組織以及不同的乳腺癌分期中存在差異表達,并在HPA數據庫中得到驗證。
TCPA數據庫通過整合來自TCGA和幾個獨立的腫瘤研究項目的RPPA芯片數據,提供了一個腫瘤蛋白質譜數據中心。依據TCPA數據庫已將原始數據轉換為可識別的格式。此研究基于單變量Cox比例風險回歸分析和Kaplan-Meier,提取與總生存期(overall survival,OS)相關的候選蛋白。P<0.05的關鍵蛋白質在乳腺癌中被定義為具有顯著預后價值。風險率(hazard rate,HR)<1的蛋白被定義為候選保護蛋白,HR>1的蛋白被定義為候選風險蛋白[9]。
基于逐步多因素Cox比例風險回歸分析數據,最終獲得了3個HUB蛋白作為研究對象,將這3種HUB蛋白的表達值按其回歸系數加權,建立預后風險特征。中位值風險評分被設定為分界值,并依據乳腺癌患者的風險因素將其分為高風險組和低風險組兩大組。
為了預測研究的3個HUB蛋白風險特征的性能,使用“ROC”軟件包繪制了ROC曲線。進行單變量和多變量Cox比例風險回歸分析,以評估蛋白風險信號的獨立預后潛力。多變量Cox分析了年齡、性別、分期、腫瘤原位大小(T)、淋巴結轉移(N)和遠處轉移狀態(M)對乳腺癌危險信號的影響。
對3個Hub蛋白進行Pearson的相關分析,找到與其相關性的共表達蛋白。相關過濾標準P<0.001,皮爾遜相關系數(Pearson correlation coefficient,PCC)>0.40。PCC>0表示與Hub蛋白呈正相關,PCC<0表示與Hub蛋白呈負相關。研究進一步利用ggplot2和gguluviaPackage在3個Hub蛋白和它們的共表達蛋白中生成了Sankey圖。
人類蛋白數據庫(human protein atls,HPA)利用轉錄組學和蛋白質組學技術,從RNA和蛋白水平研究人類不同組織和器官中的蛋白表達情況。HPA基本上提供了人類可獲得的所有蛋白(約26 000種)在人體組織、器官的表達和分布。本次研究利用HPA數據庫對3個Hub蛋白進行在蛋白水平的驗證。
在本研究中,所有統計分析均使用R軟件(4.0.3版)進行,相關性分析使用皮爾遜相關系數,Cox回歸分析和Kaplan-Meier篩選顯著蛋白,顯著性定義為P<0.05。
在TCPA數據庫中下載了1 178例乳腺癌患者/組織的蛋白質表達譜。從TCGA數據庫下載相應的臨床信息。為了預測蛋白質表達對癌癥患者至關重要的乳腺癌的預后基因,利用單因素Cox回歸分析,篩選了4個候選生存相關蛋白。高風險蛋白意味著它的表達越高,患者的死亡風險就越高,總生存期就越短。
為了能精確提取到與乳腺癌發生發展密切相關的HUB蛋白,進一步進行多因素Cox回歸分析,最終鑒定出DVL3、LCK和p27 3個與乳腺癌生存相關的蛋白,并命名為HUB蛋白(P<0.05)。所有確定的Hub蛋白都與乳腺癌患者的總生存期顯著相關,是監測患者預后的潛在預后標記物(圖1)。

圖1 基于3種HUB蛋白的高風險組和低風險組的Kaplan-Meier生存曲線
根據風險評分的中位數,本研究將乳腺癌患者分為兩組,高風險組和低風險組(圖2A)。屬于高危組的乳腺癌患者預后較差,死于乳腺癌的患者數量明顯高于低危組(圖2B)。熱圖顯示了3種HUB蛋白在高危組和低危組之間的差異表達。DVL3在高危組高表達,而P27、LCK在低危組高表達(圖2C)。蛋白風險特征與乳腺癌患者的總生存期(OS)顯著相關。高風險組的總生存期明顯生存率低于低風險組(圖2D)。
ROC曲線下面積為0.689,表明其對總生存率OS的預測效果為中等(圖2E)。為了本研究的風險模型的獨立性,對本次研究進行了單變量和多變量Cox回歸分析(圖2F),發現蛋白質風險模型構建是一個獨立可靠的預后因素之一。

圖2 蛋白質風險評分的構建和驗證
根據TCPA蛋白和3個Hub蛋白的表達譜,本研究提取了其中11個相對有意義的共表達蛋白(PCC約等于0.5)(圖3),它們都顯示在桑基圖中。

圖3 TCPA數據庫中與3個HUB蛋白相關的所有蛋白質的Sankey圖
此研究通過TCGA數據集,分析DVL3以及LCK在乳腺癌的通路富集情況,發現DVL3主要蛋白在非小細胞肺癌、Notch信號通路、Wnt信號通路等相關;LCK蛋白主要在MAPK信號通路、CANCER信號通路、原發性免疫等信號通路相關,如圖4所示。

圖4 GSEA富集分析
研究通過HPA蛋白數據庫驗證3種關鍵蛋白的表達,發現DVL3、P27在癌組織中表達陽性高表達,而LCK表達為弱陽性,如圖5所示。

圖5 HPA蛋白數據庫
乳腺癌是女性癌癥中最常見的惡性腫瘤之一,但由于其預后相對較好,所以它在死因中排名第五[10]。在乳腺癌患者中,小于40歲的乳腺癌患者的腫瘤除了具有更強的侵襲性外,其生物學行為相對較差且患者的生存率也更低。盡管醫學界進行了幾十年的實驗室研究、流行病學分析和臨床研究,乳腺癌的發病率仍在繼續上升中[11]。乳腺癌是女性中最常被診斷的癌癥,在女性癌癥相關死亡原因中排名第二。在美國,乳腺癌導致的女性癌癥死亡人數比肺癌以外的任何部位的癌癥都要多。然而,目前年齡是影響乳腺癌的主要因素,與肺癌相比,乳腺癌的發病率在較年輕的時候更高。在其治療方面,女性乳腺癌患者可以通過手術、化療和放射治療相結合的方式進行治療。持續的乳腺癌相關研究正在努力使治療方案更加個體化,希望將放化療的副作用降至最低,以此來提高乳腺癌的總體存活率。盡管如此,其死亡率在女性癌癥患者中依然是死亡率最高的癌癥,因而有必要尋找其中潛在的、早期易于發現的患癌因子,對提高乳腺癌的診斷和總生存期至關重要。
傳統的乳腺癌組織學分類,主要基于臨床病理學特征和常規生物化學標志物的評估,可能無法捕捉單個乳腺癌發生發展的不同臨床過程。高通量技術的最新發現增加了有關乳腺癌潛在基因改變和生物學事件的重要信息[12]。在本研究中,基于TCPA和TCGA數據庫,此次研究進行了K-M和Cox回歸分析。篩選出3種Hub蛋白,均與乳腺癌患者的總生存期(OS)顯著相關。基于這3個Hub蛋白,首先提出了1個與蛋白相關的預后標志,把它作為1個獨立的預后因素,與乳腺癌患者的OS顯著相關。ROC曲線下面積進一步驗證了該方法的準確性和可靠性。此研究的蛋白風險標記的表現優于現有的臨床病理參數,根據風險評分的中位數,研究中將乳腺癌患者分為高危組和低危組,發現高危組的乳腺癌患者的死亡率明顯高于低危組。通過差異表達分析發現,3種HUB蛋白在不同分期的乳腺癌患者和癌組織中的表達與正常組織相比差異有統計學意義(P<0.05)。鑒于3個Hub蛋白的潛在臨床意義,研究對3個Hub蛋白及其共表達蛋白進行了蛋白-蛋白相互作用和富集分析。
雖然研究報告DVL蛋白功能在不同的病理生理環境中發生改變,但在許多情況下其機制作用仍不清楚。然而,最近的研究表明,DVL易位到細胞核,并與Wnt基因的啟動子結合影響乳腺癌的發生發展[13],且另有研究表明DVL3可以介導IGFIR在乳腺癌的耐藥性[14]。LCK基因在缺氧環境中導致乳腺癌進展和血管的生成,而P27在乳腺癌的表達具有診斷預測意義。
根據以往的研究數據分析,這3種蛋白與乳腺癌的發生發展有顯著相關性[15]。通過相關的研究進一步揭示了這3種蛋白在乳腺癌中的預后作用,在未來還需要且迫切需要更多的分子機制研究,以證實其對乳腺癌的發生、發展和預后的相關作用機制。
在這項研究中,在GSEA富集分析表明,3個Hub蛋白中,DVL3主要蛋白與Notch信號通路、Wnt信號通路等相關;LCK蛋白主要與MAPK信號通路、CANCER信號通路、原發性免疫等信號通路相關。
綜上所述,本次實驗研究基于TCPA和TCGA數據庫篩選出3個Hub蛋白,并首次構建了與乳腺癌者總生存期(OS)顯著相關的蛋白風險特征。研究結果表明風險評分是一個獨立的預后因素,與年齡顯著相關;3個Hub蛋白在癌組織、正常組織中的差異表達有可能用于臨床預測乳腺癌患者的預后風險預測評估;通過公開數據庫和功能富集分析表明,3個Hub蛋白對乳腺癌的發生發展具有驅動作用,為乳腺癌的治療提供了新的治療方向和靶點。