梁寶寶,黃晶晶,林 帥,毛國超,周章劍,王亞晨,康華峰,張淑群△
1.西安交通大學第二附屬醫院腫瘤科,陜西西安 710004; 2.西安交通大學第二附屬醫院普通外科,陜西西安 710004;3.西安交通大學第二附屬醫院皮膚科,陜西西安 710004
乳腺癌是全世界女性最常見的惡性腫瘤之一,也是癌癥死亡的主要原因[1],其危險因素主要有年齡、家族病史、生殖因素、絕經后女性肥胖和激素等[2]。內源性和外源性雌激素暴露與乳腺癌風險增加有關。為了提供更有效的診斷和治療策略,持續努力地了解與乳腺癌發病和發展進程有牽連的關鍵分子十分必要。目前,雌激素受體(ER)、孕激素受體(PR)、Ki67和人表皮生長因子受體2(HER2)是可以預示乳腺癌治療的預后標志物。基于這些基因確定的腫瘤細胞表達,已對乳腺癌的5種分子亞型進行了分類[3],包括以下子類型:lumina A(ER+、PR+、HER-和Ki67 < 14%);luminal B的HER-2-(ER+、PR+、HER-和Ki67≥14%);luminal B的HER-2+(ER+、PR+、HER+、任何數值Ki67);HER-2型(ER-、PR-、HER+、任何數值Ki67);三陰性(ER-、PR-、HER-、CK5/6+和(或)egfr+)[4-6]。有研究表明,乳腺癌具有常見的體細胞拷貝數變化,這些變化因種族而異,并且與生存有關[7],種族差異存在于不同年齡女性[8]。黑種人婦女更有可能在較年輕時被確診,并伴隨更多的生物侵略性三陰性亞型[9]。與白種人婦女比較,年齡小于40歲的年輕黑種人婦女乳腺癌病死率更高。在治療和預后的最新進展中,乳腺癌病死率的種族差距還在逐漸擴大[10]。種族的生存差異可能是因為在診斷時獲得護理時間、腫瘤形態階段、治療的質量和合適的輔助治療等方面有所不同[11-12]。有研究指出,即使在調整年齡、腫瘤大小、淋巴結狀態、激素受體狀態和組織學因素后,黑種人婦女在所有疾病階段的病死率均較高[13]。因此,本文旨在通過高通量測序的轉錄組數據,研究不同人種的乳腺癌差異表達基因和其所在的功能通路,并對關鍵蛋白調控基因進行生存分析,為乳腺癌的臨床治療提供新的見解與方向。
1.1一般資料 本研究使用的不同人種乳腺癌數據來源于TCGA數據庫(https://portal.gdc.cancer.gov/),分別下載了RNA-seq counts表達譜數據和臨床樣本數據。共有925例乳腺癌樣本,包括745例白種人乳腺癌樣本和180例黑種人或非裔美國人乳腺癌樣本。
1.2方法
1.2.1轉錄組數據預處理 將原始測序數據首先通過STAR軟件[14]建立索引,把reads比對到人類參考基因組hg38生存BAM文件。之后使用HTSeq軟件[15]進行基因表達定量以得到RNA-seq counts數據。
1.2.2差異表達基因篩選 在TCGA數據集745例白種人乳腺癌樣本和180例黑種人或非裔美國人乳腺癌樣本中使用R軟件的DESeq2程序包對RNA-seq counts數據進行歸一化,之后再分析差異表達基因。使用t檢驗和差異倍數(FC)法篩選差異表達基因,同時采用多重檢驗校正方法Benjamini-Hochberg對P值進行校正并控制錯誤發現率(FDR)。本文定義符合FDR < 0.05且 | log2FC | ≥ 1的基因為差異表達基因。
1.2.3功能富集分析 為詳細闡明不同人種差異表達基因所在的通路,本文應用R軟件的clusterProfiler、org.Hs.eg.db等程序包進行基因本體論(GO)注釋[16]和京都基因與基因組百科全書(KEGG)富集[17]分析。GO注釋類型包括:(1)基因參與的生物學過程;(2)基因所處的細胞組分;(3)基因執行的分子功能。同上,采用多重檢驗校正方法對P值進行校正,設置滿足P.adjust < 0.01的GO術語和KEGG通路具有統計學顯著性。
1.2.4蛋白質相互作用(PPI)網絡構建及模塊挖掘 采用STRING數據庫中的PPI信息進行網絡構建[18],設置最低相互作用分數為0.7,并用Cytoscape軟件進行可視化繪圖。使用其中的分子復合物檢測(MCODE)插件在構建PPI網絡中進行模塊挖掘。
1.2.5生存分析 本文標記關鍵蛋白調控基因中表達高于表達值中位數為高,低于表達值中位數為低,結合R語言的predict函數對整體關鍵蛋白調控基因進行風險打分,得到高風險組和低風險組。同時使用臨床信息數據繪制生存曲線進行驗證。
2.1不同人種乳腺癌差異表達基因分析結果 在白人乳腺癌組和黑種人或非裔美國人乳腺癌組基因表達譜數據中,使用t檢驗和FC法進行差異表達基因篩選,設置FDR < 0.05且 | log2FC | ≥ 1的閾值,共篩選出894個差異表達基因,其中上調基因875個,下調基因19個?;鹕綀D顯示白種人乳腺癌組和黑種人或非裔美國人乳腺癌組差異表達基因的表達情況。橫坐標log2表示以2為底白種人乳腺癌組基因表達值比黑種人或非裔美國人乳腺癌組基因表達值的對數值,差異越大其絕對值越高;縱坐標-log10FDR表示以10為底FDR的對數值的相反數,差異越明顯其數值越高。圖中右虛線右邊的點代表差異表達的上調基因,虛線中間的點代表低于閾值(FDR < 0.05且 | log2FC |≥ 1)而被認為無差異的基因,左虛線左邊的點表示差異表達下調的基因,差異表達情況見圖1。最大的5個上調和5個下調基因見表1。

圖1 不同人種乳腺癌差異表達基因火山圖

表1 最大的5個上調和5個下調基因
2.2差異表達基因功能富集分析 對差異表達基因進行GO注釋和KEGG富集分析,結果分別富集到1 857條GO生物學通路,259條GO細胞組分通路,364條GO分子功能通路,137條KEGG通路。符合閾值P.adjust<0.01的生物學術語12條,圖2展示了最顯著的5條,它們主要與角化作用、表皮細胞分化等有關;細胞組分術語6條,圖3展示了最顯著的5條,主要與角質化包膜、中間絲細胞骨架、角蛋白絲等有關;分子功能術語2條,見圖4,主要與皮膚表皮的結構成分、葡萄糖醛酸轉移酶活性有關。符合閾值P.adjust < 0.01的KEGG通路10條,圖5展示了最顯著的5條,它們主要與細胞色素P450代謝異種生物、戊糖和葡萄糖醛酸轉換、化學致癌作用等有關。
2.3差異表達基因PPI網絡構建及模塊挖掘 在調節生物學進程中,蛋白與PPI起至關重要的作用。對差異表達基因進行PPI網絡構建可展示這種互相作用關系,本文選擇互相作用得分大于0.7分的結果,導入Cytoscape軟件見圖6。在MCODE插件中進行模塊聚類,可分為3個主要模塊,見表2。3個種子節點基因分別為CASP14、MYF6和ALB。
2.4關鍵蛋白調控基因生存分析 為驗證關鍵的種子節點基因與生存率之間的關系,繪制了Kaplan-Meier曲線,見圖7。結果表明,基因CASP14、MYF6和ALB表達的升高所對應的乳腺癌患者總體生存率明顯升高,差異均有統計學意義(P<0.05)。

注:縱坐標表示富集到的不同GO生物學過程,橫坐標表示注釋到某條術語的基因數目。

注:縱坐標表示富集到的不同GO細胞組分,橫坐標表示注釋到某條術語的基因數目。

注:縱坐標表示富集到的不同GO分子功能,橫坐標表示注釋到某條術語的基因數目。

注:縱坐標表示富集到的不同KEGG通路,橫坐標表示注釋到某條通路的基因數目。

圖6 差異表達基因的PPI網絡圖

表2 PPI網絡中對應的模塊信息

圖7 Kaplan-Meier生存曲線
乳腺癌是女性最常見的癌癥,占所有女性癌癥的30%[19]。許多患有原發腫瘤或局部晚期乳腺癌的患者接受新輔助化療,此方法具有降低腫瘤分期的潛在好處,同時可減少手術范圍,還可以早期評估全身治療的療效。有研究報道了包括乳腺癌在內的多種惡性腫瘤在預后方面的種族差異,與白種人比較,非白種人患者生存期較差,腫瘤中存在的種族差異已歸因于許多因素,包括不同的腫瘤生物學、不積極的治療及未能尋求醫療護理[20]。
本研究旨在利用TCGA數據庫中不同人種乳腺癌的轉錄組表達譜數據和臨床信息數據進行生物信息學分析。鑒定出894個差異表達基因,其中上調基因875個,下調基因19個。差異最大的上調基因有RNU1-11P、MAGEA4、FTHL17、SCARNA5、RNU1-88P,差異最大的下調基因有CSN2、LALBA、IAPP、GABRA1、XAGE3。通過GO注釋和KEGG富集分析發現,GO主要的生物學通路有角化作用、表皮細胞分化等;GO主要的細胞組分通路有角質化包膜、中間絲細胞骨架、角蛋白絲等;GO主要的分子功能通路有皮膚表皮的結構成分、葡萄糖醛酸轉移酶活性等。KEGG主要富集通路為細胞色素P450代謝異種生物、戊糖和葡萄糖醛酸轉換、化學致癌作用等。另外,對差異表達基因進行PPI網絡構建和模塊分析,結果顯示,3個主要模塊被挖掘,其中CASP14、MYF6和ALB基因被鑒定為關鍵蛋白調控基因,并且與乳腺癌患者的生存有明顯相關性。
有研究通過評估乳腺癌患者外周血中2個MAGE轉錄本(MAGE-A3、MAGE-A4)的臨床可靠性和準確性發現,MAGE-A3的存在與淋巴結狀態明顯相關,MAGE-A4陽性與組織學分級明顯相關,它們的反轉錄聚合酶鏈反應檢測可能對預后有預測意義,有望成為乳腺癌的特異性腫瘤標志物[21]。對LALBA基因與缺氧相關特征的研究表明,此基因可以作為乳腺癌的潛在預后生物標志物[22]。差異表達基因,如GABRA4、GABRG1和GABRA1被確定為乳腺癌患者的潛在生物標志物[23]。根據公共數據庫,高CASP14表達是與增殖、TNBC表型和癌干性相關的乳腺癌侵襲性標志物[24]。雌激素醌的清蛋白和血紅蛋白胼合物是早期發現乳腺癌有前途的生物標志物[25]。
此外,本研究也存在不足之處。生物信息學方法進行研究的局限性表現在其部分結果需要進一步的功能實驗驗證。同時,由于乳腺癌發生機制的個體異質性和研究樣本數量的有限性,本文僅收集到白種人和黑種人或非裔美國人乳腺癌的數據信息,因此,研究結果可能只適合于部分乳腺癌患者。
綜上所述,本研究通過分析不同人種乳腺癌轉錄組層面數據,尋找相關差異表達基因,進行GO注釋和KEGG富集分析,并對關鍵蛋白調控基因結合臨床信息進行生存分析。研究結果可以為更深刻認識不同人種乳腺癌之間的分子機制提供新的見解。