張霞 石光 張兆敬 侯琳 劉存
神經母細胞瘤(Neuroblastoma,NB)是兒童最常見的顱外實體瘤,也是嬰兒最常見的惡性腫瘤[1]。它起源于神經嵴祖細胞,多見于腹部,尤其是腎上腺[2]。盡管NB 的發病率約為8%,卻不成比例地導致了15%的兒童癌癥相關死亡,是兒童癌癥死亡的重要原因[3]。NB 是一種具有高度異質性的疾病,其預后也是高度可變的,即從圍產期的自發消退到較大兒童的難治性轉移性疾病[4]。近年來,兒童腫瘤研究組(Children’s Oncology Group,COG)根據INSS分期、確診年齡、MYCN 基因狀態、腫瘤倍體及NB的組織病理學類型將NB 分為三個風險等級,即低風險組、中風險組、高風險組[5]。低風險和中風險組患者對手術和化療反應較好,長期生存率在90%以上[6]。相反,高風險組患者即使采用高強度化療聯合手術、放療、自體骨髓干細胞移植,其長期生存率仍不足50%[7~9]。提高高風險NB 患者的治愈率和長期生存率是改善整體預后的關鍵,是基礎研究和臨床治療中亟待解決的問題。因此,有必要進一步探索新的有效靶點來診斷和治療NB。
生物信息學(Bioinformatics)是近年來新發展起來的一門交叉學科,其在生物學和醫學等領域的應用已得到越來越多的關注[10]。運用生物信息學方法,對高通量技術產生的海量腫瘤相關數據進行分析,有助于找到腫瘤的關鍵靶點,為癌癥的早期診斷、治療和藥物研發等開辟新的思路。依靠生物信息學技術,研究者可對公開數據庫中的NB 基因組數據進行分析,為探索NB 的發病機制提供參考。近年來,雖有研究者對NB 測序數據進行生物信息學分析[3,11],但綜合運用NB 細胞和組織樣本轉錄組測序數據的生物信息學分析文獻尚未檢索到。本研究中,我們從GEO 數據庫中下載了兩個NB 芯片數據集GSE39262 和GSE66586。通過比較NB細胞與對照細胞的基因表達,篩選差異表達基因(Differentially expressed genes,DEGs),并對兩個數據集共有的DEGs 進行GO 和KEGG 富集分析。使用String 數據庫構建蛋白-蛋白互作網絡(Proteinprotein interaction,PPI),并通過Cytoscape 軟件篩選Hub 基因。最后,利用R2 基因組分析和可視化平臺整理的NB 組織樣本測序數據對篩選的Hub 基因進行驗證。
1.1 數據獲取GEO 數據庫(https://www.ncbi.nlm.nih.gov/geo/)收錄并整理了全球范圍內研究工作者上傳的微陣列芯片、二代測序以及其他形式的高通量基因組數據,并提供免費下載[12]。在GEO 數據庫中搜索NB 相關芯片,搜索關鍵詞為“neuroblastoma”,篩選條件為“Expression profiling by array”和“Homo sapiens”,獲得芯片數據集GSE39262 和GSE66586。GSE39262 數據集基于GPL96 平臺(Affymetrix Human Genome U133A Array),其包含6 種NB 細胞和對照細胞(骨髓間充質干細胞)。GSE66586 數據集基于GPL6244 平臺(Affymetrix Human Gene 1.0 ST Array),其包含8 種NB 細胞和對照細胞(骨髓間充質干細胞及人皮層神經元細胞)。
1.2 DEGs 的篩選采用GEO2R 在線分析數據集GSE39262 和GSE66586,獲得NB 細胞與對照細胞之間的DEGs,并繪制DEGs 的火山圖。差異基因的閾值設置為P.adj<0.05 且|logFC|>1。利用Venny2.1在線工具(https://bioinfogp.cnb.csic.es/tools/venny/index.html)繪制韋恩圖,獲得兩個數據集共有的差異基因。
1.3 功能和通路分析利用仙桃學術(https://www.xian-taozi.com/products/apply/43e4ad2d-25bf-460e-97ab-a94e8a29eda2)在線生信分析工具可對醫學大數據進行多維度無代碼分析[13]。本研究利用仙桃學術生信工具對共有DEGs 進行GO 功能富集和KEGG通路富集分析,以P<0.05為差異有統計學意義。
1.4 PPI 網格構建STRING 數據庫(http://string-db.org/)是一個預測蛋白互作關系的數據庫,該數據庫覆蓋了5 090 種生物體,2 460 萬種蛋白質,超過30 億種蛋白相互作用[14]。我們利用STRING 在線數據庫對共有DEGs 進行PPI 網絡分析,并使用Cytoscape 軟件中CytoHubba 插件篩選Hub 基因。
1.5 NB 預后相關生物標志物篩選R2 基因組分析和可視化平臺(R2 Genomics Analysis and Visualization Platform,https://hgserver1.amc.nl/cgi-bin/r2/)網站提供了大量轉錄組數據集,可從基因差異表達、相關通路、生存分析等多種層面進行腫瘤信息學分析[15]。本研究采用R2 基因組分析和可視化平臺對10 個Hub基因進行在線Kaplan-Meier 生存和Cox 回歸分析,分析選擇的數據集源自TARGET 數據庫(Tumor Neuroblastoma TARGET-Asgharzadeh-249-customhuex10t)。
1.6 統計學分析采用survival 和survminer 包進行Kaplan-Meier 生存與COX 回歸分析,使用pROC 包對數據進行ROC 分析。利用GraphPad Prism7.0 軟件對Hub 基因測序數據進行分析及作圖,兩組數據分析時采用Unpairedttest。P<0.05 表示差異具有統計學意義。
2.1 DEGs 的篩選
2.1.1 GSE39262 及GSE66586 數據集DEGs 的初篩比較NB 細胞和正常對照細胞的基因表達情況,從GSE39262 數據集中分析獲得845 個DEGs,其中上調338 個、下調507 個,見圖1A;從GSE66586 數據集中分析獲得2 980 個DEGs,其中上調1 322 個、下調1 658 個,見圖1B。

圖1 差異表達基因的火山圖
2.1.2 GSE39262 和GSE66586 數據集共有DEGs 的篩選 利用韋恩圖比較GSE39262 和GSE66586 兩個數據集的DEGs,得到392 個共有DEGs,見圖2A。GSE39262 數據集中 的392 個共有DEGs 包含184 個上調基因和208 個下調基因;GSE66586 數據集中的392 個共有DEGs 包含186 個上調基因和206 個下調基因。進一步分析發現,兩個數據集共有183 個上調DEGs 和205 個下調DEGs,見圖2B、2C。
2.2 GO 和KEGG 富集分析我們對392 個共有DEGs 進行GO 和KEGG 富集分析。GO 功能富集分析包括生物學過程(Biological process,BP)、細胞組成(Cell composition,CC)和分子功能(Molecular function,MF),在BP 中DEGs 主要富集于姐妹染色單體分離、有絲分裂細胞周期相變、DNA 復制,在CC 中DEGs 主要富集于染色體區域、CMG 復合物、DNA 復制起始前復合物,在MF 中DEGs 主要富集于單鏈DNA 解旋酶活性、細胞外基質結構成分、DNA 復制起點結合;KEGG 通路富集分析中DEGs主要富集于細胞周期、DNA 復制和ECM 受體相互作用,見圖3A。隨后我們又對183 個共有上調DEGs 和205 個共有下調DEGs 分別進行了富集分析,結果見圖3B、3C。

圖3 差異表達基因的GO 和KEGG 富集分析
2.3 PPI 及Hub 基因篩選將392 個共有DEGs 導入String12.0 數據庫,構建PPI 網絡,得到由390 個作用節點、3 418 條邊組成的網絡圖,見圖4A。隨后以TSV 格式導入Cytoscape 軟件,利用CytoHubba插件選取前10 位的Hub 基因,見圖4B。

圖4 差異表達基因的蛋白互作網絡分析
2.4 Kaplan-Meier 生存和Cox 回歸分析利用R2 基因組分析和可視化平臺整理的源自TARGET數據庫的249 例NB 組織樣本數據分析10 個核心基因表達與患者預后的關系。Cox 回歸分析顯示,BUB1B、CCNB1、CDK1 和KIF2C 表達水平是NB 患者預后的獨立影響因素(P<0.05),見圖5A。Kaplan-Meier 生存分析結果提示,BUB1B、CCNB1、CDK1 和KIF2C 低表達患者的總生存期明顯高于高表達患者,差異有統計學意義(P<0.05),見圖5B~E。

圖5 10 個核心基因的Cox 與Kaplan-Meier 分析
2.5 四個核心基因在NB 組織樣本中的表達情況和ROC 分析為了解BUB1B、CCNB1、CDK1 和KIF2C 在NB 組織樣本中的表達情況,我們下載了上述249 例NB 組織樣本中的4 個基因的測序數值。這249 例樣本含低風險組30 例、高風險組217例和未知風險組2 例。用GraphPad Prism 軟件分析BUB1B、CCNB1、CDK1 和KIF2C 在兩組樣本中的表達情況,結果表明高風險組中4 個基因的表達明顯高于低風險組,見圖6A~D。隨后,我們試圖確定4 個基因在預測COG 風險中的作用。ROC 分析結果表明,4 個基因區分COG 高、低風險的特異性和敏感度較高,見圖6E。

圖6 4 個核心基因在NB 組織中的表達情況及ROC 分析
NB 是一種兒童常見的交感神經系統惡性腫瘤,具有生長迅速、侵襲性強、早期轉移等惡性生物學特性[16]。由于NB 發病部位隱匿及缺乏有效的早期診斷技術,往往診斷時腫瘤轉移發生率較高。年齡在1 歲以上的NB 患者中,有55%(所有年齡患者中有40%)診斷時發現為轉移性疾病[17]。盡管進行強化治療,但通常生存率較低,死亡率居高不下。因此尋找有效的分子標記物對NB 的早期診斷、治療和藥物研發等方面具有重要意義。
腫瘤本質上是一種基因病,與基因的突變或表達異常密切相關。研究發現,人類細胞數以萬計的基因中,與腫瘤相關的高達400 多個[10]。隨著高通量測序技術在腫瘤研究中的廣泛應用,產生了海量腫瘤相關數據。采用生物信息學方法,對這些數據進行分析,可預測腫瘤發生的分子機制。對公開數據庫中整理的NB 細胞、組織樣本轉錄組測序數據進行生物信息學分析可預測NB 致病、預后相關的生物標記物[18,19]。本研究綜合利用GEO 數據庫整理的NB 細胞和TARGET 數據庫整理的NB組織的轉錄組測序數據,通過生物信息學分析探索NB 相關的生物標志物。我們分析GSE39262 和GSE66586 兩個數據集,獲得了392 個共有DEGs(包含183 個共有上調DEGs 和205 個共有下調DEGs)。這些共有DEGs 主要參與細胞周期、DNA復制和ECM 受體相互作用。近年來,有研究表明細胞周期、DNA 復制和細胞外基質(Extracellular matrix,ECM)與腫瘤的發生發展密切相關,細胞周期調控在細胞增殖過程中扮演重要角色,細胞周期失調是腫瘤發生的根本原因[20]。針對不同腫瘤的細胞周期特異性研究,可能為腫瘤治療帶來新的希望。腫瘤的形成是一個復雜的過程,DNA 復制應激是致瘤級聯過程中一個必要的早期事件,是導致基因組不穩定的關鍵因素[21]。基因組不穩定是癌癥的一個重要標志,靶向DNA 復制起始是腫瘤治療的重要方向[22]。此外,ECM 是造成腫瘤微環境異質性和復雜性的基礎,深入研究ECM 對腫瘤的治療具有指導作用[23]。本研究分析結果支持細胞周期、DNA 復制和ECM 異常與NB 的發生發展密切相關,進一步對這些過程進行特異性研究可能為NB 的治療和藥物研發帶來新策略。
近年來,隨著生物信息學的發展,多個生物信息學相關數據庫得以建立,這有助于研究者們更好地利用測序數據。R2 數據庫是由Jan Koster 團隊建立并維護的免費數據庫,對腫瘤學的研究具有重大推動作用。本研究中,我們采用R2 數據庫對篩選的Hub 基因進行了Kaplan-Meier/Cox 分析,獲得了4 個候選基因,即BUB1B、CCNB1、CDK1 和KIF2C。BUB1B 是有絲分裂檢查點的關鍵部分,其在多種癌癥中表達異常[24]。有報道CCNB1/CDK1作為通訊器介導了細胞周期進程[25]。有研究指出,細胞周期蛋白B1、A 和D 可能成為免疫監測的靶點,并有望成為癌癥免疫治療的候選靶點[26]。目前對KIF2C 的泛癌分析發現,KIF2C 的表達與多種腫瘤的致癌和臨床預后相關[27]。此外,我們還發現BUB1B、CCNB1、CDK1 和KIF2C 在COG 高風險組患者組織中的表達明顯升高,且能夠預測COG 高風險患者。這些結果支持它們可能是NB 致癌和預后相關的潛在生物學標志物。
本研究通過生物信息學方法識別了BUB1B、CCNB1、CDK1 和KIF2C 四個NB 相關的Hub 基因。它們在高風險NB 組織中高表達且影響患者的生存期,對NB 患者的診斷、治療和預后評估具有重要的科學指導意義。但本研究還存在一定的不足之處,本研究結果是依靠公開數據庫數據分析獲得,缺乏進一步體外實驗或者臨床證據。我們將以此研究結果為指導,進一步開展體外實驗來驗證四個Hub基因與NB 之間的實際關聯。
綜上所述,通過分析NB 細胞與對照細胞的差異表達基因,篩選出BUB1B、CCNB1、CDK1 和KIF2C 四個NB 相關的Hub 基因,探究了其在低風險和高風險NB 組織中的表達,并分析了其表達量與患者預后的關系,希望能為NB 的診斷、治療及機制研究提供新靶點。