虞莉莎,張盈盈
(浙江大學醫學院附屬金華醫院 金華市中心醫院檢驗科,浙江 金華 321000)
急性淋巴細胞白血病(acute lymphoblastic leukemia,ALL)是一種源于骨髓和淋巴細胞前體細胞的惡性克隆性疾病,是兒童最常見的惡性腫瘤之一。ALL的發病機制目前仍不完全清楚,遺傳缺陷是ALL發病的重要原因,包括與細胞周期的進程調控相關的基因突變、染色體易位和數目改變等[1]。隨著醫療技術的發展,雖然ALL患兒的5年生存率已達90%[2],但是仍然存在容易復發和嚴重的藥物毒性反應等問題[3-5]。因此,尋找新的生物標志物對ALL的早期診斷,改善ALL患兒治療效果至關重要。
生物信息學是使用生物算法和計算機軟件對生物信息進行儲存、檢索和分析的一門新興學科,其研究重點主要為基因組學和蛋白質組學2個方面。基因芯片是由大量DNA或寡核苷酸探針密集排列所形成的探針陣列,基本原理是通過雜交來捕捉信息。在腫瘤研究領域,通過生物信息學方法和基因芯片技術系統分析腫瘤相關基因及其調控機制是當前功能基因組學的一個重要研究方法[6]。越來越多的學者通過這一方法來分析各種腫瘤的差異表達基因,并研究這些基因在分子功能、細胞組成以及生物過程中所發揮的作用[7-8]。然而,單一芯片分析的假陽性率較高,因此,本研究從美國國立生物技術信息中心平臺基因表達綜合數據庫(the Gene Expression Omnibus,GEO)下載多個芯片微陣列數據集,從而獲取更可靠的健康兒童與ALL患兒之間的差異表達基因,進一步尋找可用于ALL早期診斷的生物標志物。
通過GEO數據庫檢索含有新診斷ALL患兒和健康兒童樣本的基因芯片,包括GSE67684、GSE71935、GSE116486、GSE26713、GSE41831、GSE8650和GSE9006(表1)。利用R語言Affy數據包對數據進行表達值背景矯正和表達譜數據歸一化預處理,包括原始數據格式的轉換,缺失值補充,用分位數法進行數據標準化。

表1 新診斷ALL患兒和健康兒童基因芯片基本信息
采用R語言Limma數據包篩選新診斷ALL患兒和健康兒童差異表達基因,篩選標準為P<0.05且|log2FC|≥2,并將探針名稱按照制造商提供的批注文件與基因名稱進行匹配,如果1個探針組對應多個基因,選擇保留第1個,刪除其他的冗余信息;如果多個探針對應1個基因,計算每個探針在各樣本中的平均值,取平均值最大的探針。繪制差異表達基因火山圖。利用網上工具VENNY2.1(https://bioinfogp.cnb.csic.es/tools/venny/index.html)篩選出共同差異表達基因,并用韋恩圖進行展示。
基于篩選出的共同差異表達基因,通過DAVID在線軟件(https://david.ncifcrf.gov),依據基因本體(Gene Ontology,GO)數據庫對共同差異表達基因進行生物學功能注釋;依據京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路數據庫進行共同差異表達基因信號通路的富集。
利用STRING 11(https://string-db.org/)構建共同差異表達基因編碼蛋白的互作網絡,并用Cytoscape軟件進行可視化分析,并用Cytoscape軟件中的CytoHubba插件篩選出其中的關鍵基因(hub gene)。
通過GPL570平臺共篩選出741個差異表達基因,包括303個上調基因和438個下調基因(圖1);通過GPL96平臺篩選出352個差異表達基因,包括146個上調基因和206個下調基因(圖2)。2個平臺有交集的差異表達基因共245個(28.9%),包括88個上調基因和157個下調基因。

圖1 GPL570平臺ALL患兒與健康兒童差異表達基因火山圖

圖2 GPL96平臺ALL患兒與健康兒童差異表達基因火山圖
對篩選出的245個共同差異表達基因進行GO和KEGG通路富集分析,結果顯示,245個基因主要集中在免疫反應(生物學過程,圖3),參與蛋白質結合(分子功能,圖4),整合于細胞外空間(細胞組成,圖5),富集在造血細胞譜系和細胞周期等信號通路(KEGG通路分析,圖6)。

圖3 ALL患兒與健康兒童差異表達基因GO富集(生物學過程)

圖4 ALL患兒與健康兒童差異表達基因GO富集(分子功能)

圖5 ALL患兒與健康兒童差異表達基因GO富集(細胞組成)

圖6 ALL患兒與健康兒童差異表達基因KEGG通路分析結果
去除游離的蛋白后,共得到由2 0 0個節點(靶點蛋白)和1 514條邊(蛋白質互作)構成的蛋白質互作網絡(圖7),再進一步篩選出蛋白質互作網絡中的10個關鍵基因(hub genes),皆為上調基因,分別為CDK1、TOP2A、TYMS、MCM2、MCM4、TTK、CCNB2、BUB1B、KIF4A和MAD2L1(圖8)。

圖7 蛋白質互作網絡關鍵基因簇分析

圖8 關鍵基因
本研究從GEO數據庫中選取新診斷ALL患兒的基因表達芯片,通過生物信息學分析篩選ALL患兒與健康兒童差異表達基因,進一步對這些差異表達基因進行功能注釋和KEGG通路富集分析,結果顯示,差異表達基因主要集中在免疫反應(生物學過程),整合在細胞外空間(細胞組成),參與蛋白質結合(分子功能),富集在造血細胞譜系、細胞周期等信號通路(KEGG通路分析)。免疫系統是機體監視和抵御內在和外來抗原入侵的防御系統,任何原因導致的免疫反應受損均可使機體對抗原的監控不力,從而出現一系列病理性變化,甚至發生惡性增殖。血液系統腫瘤患者均存在嚴重的免疫功能紊亂。細胞周期調控機制被破壞導致的細胞生長失控、分化受阻和凋亡異常存在于幾乎所有腫瘤細胞。有研究發現,ALL發病機制與細胞周期進程調控相關的基因突變、染色體易位及數目改變等有關[1]。這些結果與ALL息息相關,提示本研究所篩選的差異表達基因參與了兒童ALL發生、發展的過程。
本研究通過STRING11對ALL患兒與健康兒童差異表達基因進行蛋白質互作網絡分析,發現位于中心的關鍵基因分別為CDK1、TOP2A、TYMS、MCM2、MCM4、TTK、CCNB2、BUBIB、KIF4A和MAD2L1,其中CDK1、MCM2、MCM4、TTK、CCNB2、BUBIB和MAD2L1,皆富集在細胞周期通路上。CDK1是絲氨酸/蘇氨酸蛋白激酶家族中的一員,負責控制細胞周期從G1期到S期和從G2期到M期的過渡[9],在多種惡性腫瘤中均可發現CDK1的失調[10]。蔣光潔等[11]發現,在T-ALL中CDK1表達上調。MCM2和MCM4是MCM蛋白家族成員,在DNA復制起始階段表現出解旋酶活性,并參與細胞周期的控制[12]。高表達的MCM2可作為診斷乳腺癌、結直腸癌、肛門腫瘤等疾病的前瞻性生物標志物。有研究發現,MCM2的高表達可致ALL復發[13]。MCM4的異常表達是多種惡性腫瘤的預后指標[14-16]。BUB1B是紡錘體組裝檢查點(spindle assembly checkpoint,SAC)蛋白家族的成員,在有絲分裂期間確保染色體適當分離[17],BUB1B的異常表達通常會導致非整倍體和染色體不穩定,導致癌癥發病率的增加。有研究發現,BUB1B的過表達與膀胱癌、肝細胞癌以及其他一些癌癥的進展和復發有關[18-20]。TTK是絲氨酸/蘇氨酸和酪氨酸雙特異性蛋白激酶,對有絲分裂檢查點和染色體附著的調控至關重要,因此TTK水平的升高可導致中心體增大和染色體不穩定,從而引起腫瘤的發生[21-23]。高水平的TTK對未分化甲狀腺癌、三陰乳腺癌和肺癌具有診斷價值[24-26]。CCNB2是細胞周期蛋白家族的一員,可與CCNB1和CDK1形成復合物,調控哺乳動物細胞周期的G2/M期,在有絲分裂的啟動中發揮重要作用[27]。有研究結果顯示,CCNB2在肺癌、結直腸腺癌和卵巢癌等多種人類癌癥中過表達[28-30]。MAD2L1是一個紡錘體檢查點的組成部分,主要確保細胞分裂中期染色體的正確分離,其調控異常可導致染色體不穩定和非整倍體形成,乳腺癌、肺癌、肝癌等多種癌癥中MAD2L1過表達[31-33]。
本研究篩選出的10個關鍵基因中,有3個沒有富集在某一通路上,但既往研究結果顯示其在多種腫瘤中異常表達。TOP2A是TOP2家族中的一員,在有絲分裂過程中對DNA復制、染色體凝聚等發揮重要作用,并在轉錄起始時發揮重要作用,其表達與多種癌癥有關[34]。TYMS基因編碼參與DNA復制和修復的胸苷酸合成酶[35]。高水平的TYMS已在乳腺癌、非小細胞肺癌和前列腺癌等多種癌癥中被報道[36-38]。KIF4A是驅動蛋白超家族中的一員,參與有絲分裂過程中紡錘體的形成和變化、染色體的濃度和排列以及胞質的分裂[39]。有研究發現,KIF4A參與了DNA損傷修復,其異常表達可能影響同源重組酶RadS1及其調控因子BRCA2的表達,導致受損DNA修復失敗[40-41]。DNA損傷可導致細胞異常增殖和分化,最終促進腫瘤的形成;KIF4A在肝癌、肺癌等許多癌癥中過表達[42-43]。
本研究篩選出的10 個關鍵基因雖然在其他疾病中有相關研究,但在ALL發生、發展中所發揮的作用,尚未見報道,本研究的成果一定程度上能為兒童ALL發生、發展研究提供新的思路。
綜上所述,本研究采用生物信息學方法分析已有的ALL基因芯片數據,篩選出潛在的ALL中表達顯著的基因,通過建立蛋白質互作網絡,篩選出10個關鍵基因,可能成為ALL輔助診斷的新的標志物。但本研究僅涉及生物信息學分析,篩選出的關鍵基因與ALL的相關性及相關發病機制仍需在臨床樣本中進行驗證。