黃 帆,唐玉蘭,廖韋靜,鄺慧敏,藍 嵐
多發性硬化(multiple sclerosis,MS)是一種中樞神經系統的炎癥性和神經退行性疾病,其發生是由遺傳和環境因素共同作用的結果[1]。在西方國家MS是造成青壯年神經性殘疾中僅次于外傷的第二大因素,據2013年統計,估計全球約有230萬人患有MS,患病率約為(50~300)人/10萬,且由于印度和中國等大型人群相對缺乏數據,數據可能被低估[2]。早期MS的特征通常是神經功能缺損急性發作,其依賴于中樞神經系統急性炎癥性脫髓鞘病變的區域及炎癥反應的程度,而導致病變髓鞘再生的形成機制尚未完全了解。位于主要染色體6p21中組織相容性復合體(major histocompatibility complex,MHC)區域內的人類白細胞抗原(human leukocyte antigen,HLA)等位基因,已被確定為該疾病的主要遺傳決定因素。另外,已經描述了超過100種非MHC MS的易感性變體,攜帶已知的易感性變體相關基因參與調節免疫細胞分化或信號傳導[3]。不恰當的診斷標準用于不典型癥狀的脫髓鞘患者是導致其誤診的主要原因,遺傳研究的目標是實現更精確的表示疾病發病機制中的相關基因、通路和網絡,并利用這些信息發現預防、治療和修復的新靶點。
該研究擬基于GEO基因表達數據,通過生物信息學分析多發性硬化疾病狀態,構建基因網絡并篩選潛在的關鍵分子靶點,為尋找MS發病機制提供新途徑,或許可以用于早期診斷多發性硬化并為臨床治療提供新思路。
1.1 數據來源Gene Expression Omnibus(GEO)數據庫隸屬于美國國立衛生研究院的美國國立生物技術信息中心,是高通量基因表達數據和雜交陣列、芯片、微陣列的數據庫。以“Multiple Sclerosis”為搜索詞進入數據庫獲取基因表達譜GSE21942,種屬為人類,芯片平臺GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array。該芯片數據包括14例多發性硬化患者及15例健康人的基因表達陣列數據。
1.2 差異表達基因(differentially-expressed genes,DEGs)處理使用R語言和Bioconductorhttp://www.bioconductor.org/)進行基因芯片數據分析。利用GPL570平臺對應的hgu133plus2.db注釋R包進行基因探針注釋,取每個探針的最大值作為該探針的表達值,除去無法注釋的探針。通過穩健多元陣列平均(robust multivariate array average,RMA)對原始表達數據進行對數轉換,背景校正和歸一化處理。按照|log2FC|>1和P<0.05作為篩選標準,使用limma包篩選14名正常人樣本和15名多發性硬化患者樣本基因得出88個DEGs,繪制DEGs熱圖和火山圖。
1.3 樣本的主成分分析主成分分析可將高維數據處理成低維數據,利用R語言factoextra包對DEGs數據集進行主成分分析。
1.4 樣本的聚類分析聚類分析是一種無監督機器學習分析方法,可以把相似的對象分成不同的組別或更多的子集。利用R語言cluster包進行聚類分析,并利用factoextra包將聚類分析結果可視化處理。
1.5 基因本體論和pathway分析DEGs將獲得的DEGs通過在線軟件數據庫(DAVID,https://david.ncifcrf.gov/)進行注釋、可視化分析,以確定過度表現的GO類別和Pathway生物通路。GO分析可以確定大量基因的生物學意義,并對基因產物功能進行分類,包括生物過程(biological processes,BP)、分子功能(molecular functions,MF)和細胞組分(cellular components,CC)。通過Pathway生物通路富集分析,篩選的基因可能與兩個或更多信號傳導途徑有關,由于不同途徑中的基因相同,因此途徑之間的重疊是不可避免的。基于KEGG數據庫對DEGs進行基因信號通路富集分析,選擇DEGs富集最顯著的10個功能進行排序并分析。
1.6 蛋白-蛋白相互作用信號網絡分析DEGs用于檢索交互基因/蛋白質的搜索工具(STRING)數據庫(http://string.embl.de/)提供了PPI的關鍵評估和整合,用于評估直接(物理)和間接(功能)關聯的DEGs。本研究通過STRING數據庫繪制靶基因編碼蛋白互作網絡圖,以便了解差異基因之間的相互調控關系。
2.1 DEGs數據對數化標準處理前后的多發性硬化組和健康對照組基因芯片數據結果見圖1、2,可知本研究標本經對數化處理后數據均一性較好,兩組之間具有可比性。

圖1 樣本芯片數據對數化標準處理前

圖2 樣本芯片數據對數化標準處理后
2.2 DEGs篩選結果通過對兩組數據的DEGs進行篩選,構建火山圖并顯示88個DEGs(圖3A),與對照組比較,多發性硬化組上調基因76個、下調基因12個,圖3C顯示了上調基因和下調基因中有顯著差異的10個;88個基因構建的熱圖(圖4),其中橫坐標表示15個MS組和14個健康組樣本;紅色代表上調的基因,綠色代表下調的基因,差異越大,顏色越深。
2.3 樣本聚類分析通過R語言factoextra包的增強聚類分析函數對差異基因數據集進行層次聚類,自動計算最佳聚類簇兩簇,并且對結果進行可視化處理(圖5)。此聚類結果表明,篩選的差異基因能較好的區分出健康組和MS組。
2.4 DEGs數據集主成分分析使用R語言FactoMineR包對差異基因數據集進行主成分分析,實現高維數據降維成為簡化的數據,用factoextra包可視化主成分分析結果(圖6A、B),主要有貢獻率最大的兩個主成分,主成分分析結果能較好地區分健康組和MS組(圖6C)。
2.5 DEGs GO分析結果采用線軟件數據庫(DAVID,https://david.ncifcrf.gov/)對DEGs進行GO功能富集分析,生物學過程中,富含MS中DEGs的GO術語包括固有免疫反應、血液凝固、體液免疫反應和氧轉運。在細胞組分類別中,富含GO的術語主要是血紅蛋白復合物、質膜和細胞外間隙。在分子功能分類中,包括蛋白結合,血紅素結合和跨膜信號受體活性(圖 7);從紅色到藍色,顏色越藍,表示負相關程度越大;顏色越紅,表示正相關程度越大(圖8)。
2.6 DEGs pathway分析結果表1顯示了4個差異最顯著的富集通路,其主要涉及造血細胞譜系、B細胞受體信號通路、破骨細胞分化、氮代謝等。
2.7 DEGs信號網絡分析結果利用STRING在線數據庫構建差異基因所編碼的蛋白互作網絡,可得出27個蛋白存在相互作用(圖9)。圖9A是差異基因表達蛋白互作網絡,圖9B所示的是互作網絡中篩選出的核心基因節點數,其中節點數≥4的DEGs,如HBD、IL-8、SNCA、ALAS2等。

圖3 DEGs的火山圖
A:所有樣本基因;紅色:上調基因,藍色:下調基因;B:88個DEGs;紅色:76上調基因;綠色:12個下調基因;C:最顯著上調、下調的前10基因;紅色:上調基因;綠色:下調基因

圖4 差異基因表達值參差聚類熱圖

圖5 聚類分析圖

表1 DEGs的KEGG通路分析
MS的特征在于脫髓鞘和進行性神經功能障礙,既往研究報道了線粒體參與MS中的神經變性和殘疾,包括核編碼的電子傳遞鏈亞基基因的表達降低和呼吸復合物的抑制[4]。本研究中通過使用微陣列的方法從基因水平揭示MS發病機制可能涉及的關鍵基因:ALAS2、CA1、SNCA、HBB、IL8等。其中血紅蛋白亞基β(亦稱β-珠蛋白,hemoglobin-β,HBB)與α珠蛋白(HBA)一起構成成人中最常見的血紅蛋白形式HbA,血紅蛋白是一種可以誘導局部氧化應激,炎癥和組織損傷的反應性分子[5],變異的血紅蛋白表達可能與各種神經退行性疾病有關[6];HBB被發現在MS大腦病變皮層分離的線粒體部分中水平增加,被認為可能是將神經元能量學與細胞核中組蛋白的表觀遺傳變化聯系起來的機制的一部分,并且可以通過支持神經元代謝在MS中提供神經保護[7]。碳酸酐酶(carbonic anhydrase 1,CA1)通過激肽釋放酶原激活和絲氨酸蛋白酶因子XIIa生成來介導出血性視網膜和腦血管通透性,這些現象誘發增殖性糖尿病性視網膜病變和糖尿病性黃斑水腫疾病進展,是視力喪失的主要原因[8],這可能與多發性硬化臨床表現中的視力受損發生機制相關。α-突觸核蛋白(alpha-synuclein,SNCA)的過量產生可能是帕金森病的致病因素,其主要存在于神經細胞(神經元)的突觸前末端,通過聚集突觸小泡在維持突觸前終末突觸小泡的供應方面發揮作用[9],它也可能有助于調節多巴胺的釋放。白細胞介素-8(interleukin-8,IL-8)是先天免疫系統反應中免疫反應的重要介質,其分泌增加了氧化應激,從而引起炎癥細胞的募集和誘導氧化應激介質的進一步增加,使其成為局部炎癥的關鍵因素[10];IL-8也被稱為嗜中性粒細胞趨化因子,能誘導靶細胞趨化,主要是嗜中性粒細胞以及其他粒細胞,導致它們向感染部位遷移,IL-8在抵達后也會誘導吞噬作用;研究發現,MS患者腦脊液中IL-8的水平顯著高于對照組,血清IL-8水平顯著低于對照組,這些差異可能與血腦屏障的損傷有關[11]。由此,本文篩選的DEGs可能在MS發病相關的炎癥反應或神經退行性過程中扮演重要角色。

圖6 樣本和DEGs數據集主成分分析
A:DEGs數據集主成分分析;B:樣本數據集主成分分析;C:樣本數據集主成分分析(左側為健康組,右側為MS組)

圖7 GO功能富集分析差異基因

圖8 差異基因GO功能富集分析

圖9 差異基因表達蛋白互相作用網絡及核心基因節點數
A:DEGs蛋白互相作用網絡分析;B:DEGs共表達顯著差異的節點數
通過對DEGs進行GO分析顯示,二者差異最顯著的功能主要涉及體液免疫反應、固有免疫反應、蛋白結合、血紅素結合和跨膜信號受體活性等方面。通過對二者進行pathway分析發現,其差異最顯著富集通路主要涉及造血細胞譜系、B細胞受體信號通路、破骨細胞分化、氮代謝等方面。小膠質細胞屬于成體組織中存在的髓系細胞譜系,其在器官發生過程中從不同于造血干細胞的卵黃囊紅細胞-骨髓祖細胞(yolk-sac erythro-myeloid progenitors,EMPs)發育而來,研究顯示:BRAF(V600E)在小鼠EMP中的鑲嵌表達導致組織駐留巨噬細胞的克隆性擴增和嚴重的遲發性神經退行性疾病[12]。部分研究[13]已經證明,在特定條件下Tregs可以產生炎性細胞因子,其中自身反應性CD4+T細胞對髓鞘自身抗原發生免疫應答參與發病過程,自身反應性CD8+T細胞和B細胞等也參與免疫損傷作用。Strom et al[14]利用基于ApoE-/-小鼠頸動脈周圍的血管周圍環的放置的新內膜形成模型來確定B細胞和B細胞亞群是否賦予針對損傷發展的保護,結果顯示源自淋巴結的B2-B細胞或純化的CD21(hi)CD23(hi)CD24(hi)B細胞向同基因小鼠的繼發性轉移減少了損傷大小和炎癥,而不改變血清膽固醇水平,IL-10阻斷或轉移IL-10缺陷型B細胞阻止了淋巴結衍生的B細胞介導的保護,這可能為多發性硬化中的免疫調節方法開辟道路。Niedziela et al[15]通過評估血清一氧化氮及其反應性衍生物(NOx)作為復發緩解型多發性硬化患者的氮類和炎癥參數之一,并比較各種類型的減少一氧化氮和炎性生物標志物的疾病緩解療法的有效性,在一線藥物治療的受試者中證實血清NOx水平和MS持續時間之間呈負相關。隨后的前瞻性研究將需要進一步確定這些核心基因在MS發病機制中的功能。
2017年修訂版MS診斷標準提出,應結合MRI和血清學檢測及臨床特征和病史,探索特發性炎癥疾病的差異診斷,包括視神經脊髓炎譜系障礙以及其他可以類似MS的復發性疾病。視神經脊髓炎譜系疾病和 MS同為中樞神經系統脫髓鞘疾病,二者的臨床表現和影像學特征相似,但治療策略卻有所不同,如預防MS復發的疾病修飾治療(如β干擾素、芬戈莫德、那他珠單抗)可加重視神經脊髓炎[16]。因此,篩選識別期生物靶標,結合基因功能和參與的通路分析,有助于研究疾病的發病機制,為盡早確診及制定治療方案提供判別依據。