段紅桃 潘 勇
中南大學湘雅醫學院附屬株洲醫院超聲科,湖南株洲 412007
子宮內膜癌是女性生殖系統發病率最高的惡性腫瘤之一,占女性生殖系統腫瘤的20%~30%,其發病率逐年升高,在我國位居女性生殖系統腫瘤的第二位[1-2]。目前對于子宮內膜癌的病因尚不清楚,其主要治療手段是外科手術切除[3-4],盡管在子宮內膜癌早期檢測方面取得進展,但是,仍有很多子宮內膜癌患者晚期才被確診,失去手術機會,導致預后不良。因此對于子宮內膜癌生物標志物的研究一直是研究熱點,前期也有一些學者研究發現一些分子和基因是子宮內膜癌預后的影響因素,但在臨床應用中存在特異性差,缺乏敏感性等缺點[5-6]。所以,尋求子宮內膜癌診斷及預后的有效生物標志物具有十分重要的臨床意義。
隨著計算機科學和分子生物學的飛速發展,近些年發展成了一門新的學科——生物信息學,并且已廣泛應用于腫瘤的基因學研究,揭示了大量腫瘤發生發展的生物學機制。目前全球最大的腫瘤基因芯片數據庫為TCGA 和Oncomine 數據庫,收藏了全球大量的樣本和豐富臨床數據。本研究通過下載TCGA 和Oncomine數據庫中子宮內膜癌相關基因芯片和臨床數據進行系統的生物信息學分析,獲取子宮內膜癌差異表達基因,進一步通過生物信息學技術獲取其關鍵基因。有望挖掘子宮內膜癌診斷及治療的潛在生物標志物。
子宮內膜癌轉錄組數據從TCGA 數據庫(https://cancergenome.nih.gov/)中下載,數據檢索時間:建庫至2020 年12 月30 日,其中包括35 個癌旁正常組織樣本和552 個子宮內膜癌組織樣本。
1.2.1 獲取差異基因 使用R 軟件中的“limma”包識別子宮內膜癌和正常樣本之間的差異表達基因,以|log FC|>2.0 且FDR<0.05 為條件獲取顯著差異的差異表達基因。差異表達基因的熱圖和火山圖分別由R 軟件中的“heatmap”包和“ggplot2”包生成。
1.2.2 差異表達基因的功能富集分析 使用DAVID 數據庫(http://david.ncifcrf.gov)對差異表達基因進行功能富集分析,包括:分子功能(molecular function,MF)、細胞成分(cell composition,CC)、生物學過程(biological process,BP)和KEGG 通路,以P <0.05 進行篩選。
1.2.3 差異表達基因的蛋白質-蛋白質(proteinprotein interactions,PPI)網絡分析 使用在線生物信息數據庫STRING 構建差異表達基因之間PPI 的相互作用網絡[7]。應用Cytoscape 軟件(version 3.6)重建PPI 網絡中的數據,并獲取的前10 位Hub基因。
1.2.4 Oncomine 數據庫提取子宮內膜癌中Hub 基因表達數據進行meta 分析 使用Oncomine 數據庫對子宮內膜癌的Hub 基因進行meta 分析,分析條件:①基因:Hub 基因名稱;②分析類型:Cancer vs.Normal Analysis;③癌癥類型:子宮內膜癌;④Threshold by:Fold Change>2,p-value<0.0001,GeneRank=top 10%。以P <0.05 為差異有統計學意義。
從TCGA 數據庫下載子宮內膜癌轉錄組數據,采用R 軟件對轉錄組數據進行整理,最終得到587 個表達譜樣本和18 628 個基因。采用“limma”進行差異表達分析,以|logFC|>2.0 和FDR<0.05 共篩選出1897 個子宮內膜癌差異表達基因,其中包括上調基因1085 個,下調基因812 個。并繪制火山圖(圖1)和前50 個基因的熱圖(圖2)。

圖1 子宮內膜癌及癌旁正常組織火山圖

圖2 子宮內膜癌及癌旁正常組織差異表達最顯著的前50 個基因熱圖
差異表達基因功能富集分析結果顯示,其中在GO 富集分析中的BP 中富集于神經肽信號通路和細胞間信號傳導,在CC 中富集于細胞外間隙和細胞外基質,在MF 中富集于轉錄激活因子活性、結構分子活性和鈣離子結合,在KEGG 通路中富集于神經活性配體-受體相互作用和鈣信號通路。見表1~2、圖3。

圖3 CO 富集和KEGG 通路富集可視化

表1 子宮內膜癌差異表達基因GO 富集分析結果

表2 子宮內膜癌差異表達基因KEGG 通路富集分析結果
使用在線生物信息學庫構建PPI 網絡,進一步采用Cytoscape 軟件篩選Hub 基因。其中前10 位Hub基因分別是CDC20、CCNB1、BUB1、CCNB2、DLGAP5、TPX2、NCAPG、NCAPH、CENPF 和CDCA8。見圖4。

圖4 子宮內膜癌前10 位Hub 基因
在Oncomine 數據庫中提取子宮內膜癌hub 基因相關數據進行meta 分析。以P <0.05 獲得5 個關鍵基因分別為BUB1、TPX2、NCAPH、CENPF 和CDCA8。見圖5。

圖5 5 個Hub 基因在子宮內膜癌中的表達
子宮內膜癌是女性生殖系統常見的惡性腫瘤之一,占女性生殖系統腫瘤的20%~30%,約占女性全身惡性腫瘤的7%,并且近年來,子宮內膜癌的發病率逐年升高[2]。目前子宮內膜癌發生發展機制尚未十分清楚,并且其癥狀呈現非特異性,主要治療方式是手術切除,但術后復發率較高[8-9]。因而,尋找子宮內膜癌早期診斷及預后的生物標志物對于臨床治療具有重要的指導意義。
2006 年美國聯合發起癌癥基因組測序項目,通過基因測序技術構建起多維的癌癥基因組圖譜,極大地提高了研究水平,以及對腫瘤發生、診斷和治療的認識[10]。生物信息學作為一門新興學科,可以對大量基因同時進行分析研究,克服了傳統實驗只能同時對少數幾個基因研究的缺陷,采用生物信息學技術對TCGA 數據庫的挖掘,揭開大量生物信息所蘊含的奧秘[9,11-12]。
本研究使用生物信息學技術對子宮內膜癌轉錄組數據進行分析,共挖掘差異表達基因1897 個,包括上調基因1085 個,下調基因812 個。進一步對差異表達基因進行功能富集分析,并通過STRING 數據庫對差異表達基因構建PPI 網絡,并篩選前10 位Hub基因為CDC20、CCNB1、BUB1、CCNB2、DLGAP5、TPX2、NCAPG、NCAPH、CENPF 和CDCA8。進一步在Oncomine 數據庫挖掘并進行meta 分析,發現子宮內膜癌發生發展的5 關鍵基因為BUB1、TPX2、NCAPH、CENPF 和CDCA8。進一步深入進行文獻挖掘,發現這些基因在腫瘤中均有研究。
BUB1 是紡錘體關卡的重要組成部分,在細胞有絲分裂中發揮重要作用,調整有絲分裂的有序進行[13]。BUB1 表達缺失或異常可導致有絲分裂過程中染色體分配發生錯誤,造成染色體不穩定性[14]。在子宮內膜癌中研究證實BUB1 呈現低表達,在子宮內膜癌的發生發展中發揮重要作用,可作為子宮內膜癌生存預后的標志物[15]。TPX2 蛋白為紡錘體成分的一種微管相關蛋白,同時也是一種細胞周期調控蛋白,對細胞周期中紡錘體形成起著重要的調控作用[16-17]。并且有研究結果證實在子宮內膜癌TPX2 中出現異常高表達,同時研究發現TPX2 促進子宮內膜癌的發生發展[18],國外文獻也研究證實miR-29a-5p 通過靶向TPX2 抑制子宮內膜癌的增殖和侵襲并誘導其凋亡[19]。NCAPH為非染色體結構維持蛋白凝縮蛋白復合體Ⅰ亞單位H,研究顯示NCAPH 在宮頸癌中出現高表達,可顯著促進宮頸癌細胞的增殖和侵襲[20-21]。CENPF 是調控著絲粒運動的基因,CENPF 的表達隨著細胞周期的變化而改變,在細胞有絲分裂和細胞周期的調控中發揮著作用,同時基因芯片數據的生物信息學分析也證實CENPF 與子宮內膜癌生存預后顯著相關[22]。CDCA8在細胞周期中發揮著十分重要的調控作用。同樣研究也證實CDCA8 與子宮內膜癌預后密切相關[23-25]。本研究也通過Oncomine 數據庫中進行meta 分析顯示BUB1、TPX2、NCAPH、CENPF 和CDCA8 這5 個基因在子宮內膜癌中出現顯著的差異表達。但目前其在子宮內膜癌中機制尚未闡明,我們相信在子宮內膜癌中對這5 個關鍵基因進行進一步研究,將會有更多發現。
本研究致力于發現影響子宮內膜癌發生發展的關鍵基因。共挖掘子宮內膜癌差異表達基因1897 個,進一步分析發現5 個關鍵基因在子宮內膜癌出現差異表達,可能參與調控子宮內膜癌的發生發展。然而,其具體的生物學功能仍需要進一步研究來闡明。