張迎春 何誠成 段勇 余江 羅波 江南 梁雨 曾靜媛 鮮玉軍 鄭小莉
(1西南醫科大學基礎醫學院,四川 瀘州 646000;德陽市中江縣人民醫院 2神經內科;3急診科;4西南醫科大學附屬中醫院綜合內科)
多發性硬化癥(MS)是一種自身免疫介導的以中樞神經系統(CNS)炎性脫髓鞘病變為主要特點的疾病,脫髓鞘病變可累及白質、皮質、深層灰質,研究證實適應性免疫在該病的發病機制上有著關鍵的作用,且主要由T細胞介導〔1〕。全世界有超過200萬人受該病影響,每10萬人中有50~300人患有MS〔2〕,考慮到包括我國和印度在內的大量人口數據的相對缺乏,這個數據或許有一定程度地被低估。在很多國家包括我國估計尚有較多MS患者未被明確診斷。大多數MS患者在青壯年發病,老年發病者多呈進展性發病〔3〕。由于未知的原因,大約3/4的MS患者是女性,而這種性別差異在自身免疫疾病中是很常見的。該病可導致四肢無力、感覺喪失、共濟失調、單眼視力喪失、復視、膀胱或直腸功能障礙等,目前無法治愈〔4〕,是導致青年殘疾最常見的CNS疾病。其病因尚不明確,可能與遺傳、環境、病毒感染等多種因素相關,目前診斷依賴于臨床表現及磁共振成像(MRI)影像學檢查,尚無特異性的生物學標志物可用于MS的診斷〔5〕,其MRI表現為 CNS白質廣泛髓鞘脫失并伴有少突膠質細胞壞變,同時還可伴有神經細胞及其軸索壞變等。對非典型病例準確診斷十分困難,其他很多疾病(如炎癥性CNS疾病)與MS臨床癥狀相似導致鑒別診斷難度大。MS的誤診很常見,對病人的治療、健康狀況及醫療成本有重大影響。然而,由單次發作的CNS炎性脫髓鞘事件而組成的臨床綜合征被定義為臨床孤立綜合征(CIS),CIS具有MS的早期臨床表現,而一半以上的CIS患者可最終發展為MS。目前數據庫中有少量基因芯片分析MS患者外周血T細胞部分基因改變的研究結果,但樣本量均不多,且結果有一定差異,且缺乏系統的、大樣本的整合性分析。本研究通過多因素、大樣本的整合性基因芯片的生物信息學分析,試圖找到MS患者外周血T細胞的關鍵基因及通路改變,有助于進一步闡明MS的發病機制及為尋找臨床上可用的MS早期診斷、預后判斷和靶向治療的靶點提供一定的線索。
1.1基因芯片數據 從GEO數據庫下載轉錄組基因表達譜數據系列GSE43591,GSE13732,GSE32988。GSE43591和GSE13732是在GPL570 Affymetrix Human Genome U133 Plus 2.0 Array平臺上進行測序,而GSE32988是在GPL6480基因芯片Agilent-014850 Whole Human Genome Microarray 4x44K G4112F平臺上進行測序。本研究從GSE43591篩選了包括6例MS患者(實驗組)和6例健康對照組(對照組)的外周血CD3+T淋巴細胞樣本;從GSE13732中篩選出28例CIS患者(實驗組)及25例健康對照者(對照組)的外周血CD4+T淋巴細胞樣本;GSE32988含有8例MS患者(實驗組)和4例健康對照者(對照組)的外周血CD4+T淋巴細胞樣本及CD8+T淋巴細胞樣本,共計24個樣本。本研究的所有基因表達數據在公共數據庫下載。表1列出了本研究使用的樣本信息。

表1 本研究中使用的樣本信息
1.2數據預處理和差異表達基因(DEGs)的篩選 處理數據時使用Affy程序包和impute程序包。預處理過程包括基于RMA算法的背景校正、數據規一化和處理缺失值等。根據相應的Affy探針注釋文件及Agilent注釋文件,將每個系列矩陣的探針名轉換成基因符號,Affy芯片及Agilent芯片均使用limma程序包在R軟件中通過建立比較模型、貝葉斯檢驗等方法對每個數據系列的數據進行處理篩選出DEGs。用P<0.05及│fold change│>2的準則定義DEGs,其中P值用Benjamini & Hochberg(“BH”者它的別名“fdr”)〔6〕方法進行校正。每兩個數據系列中篩選出DEGs分別使用上調組和下調組進行交集。
1.3層次聚類分析 在R軟件中利用gplots程序包和RColorBrewer程序包,提取3個GEO數據系列中DEGs的表達值分別進行層次聚類分析,并在熱圖中進行可視化。
1.4候選DEGs基因本體論及通路富集分析 每兩個數據系列中上調或下調DEGs的交集被認為是候選DEGs用于進一步分析。分別用上調候選DEGS和下調候選DEGS,利用多個在線數據庫和軟件對候選DEGS的基因本體論(GO)和通路富集進行了分析,這些工具包括DIVID(6.7版本,網址:https://david-d.ncifcrf.gov/)、PATHER(13.1版本,網址:http://www.pantherdb.org)、Reactome(網址:http://reactome.org)、Cytoscape軟件(3.6.1版本)中的ReactomeFIPlugIn app應用程序。使用錯誤發現率(FDR)<0.05、P值<0.05、基因計數>2的結果進行綜合分析。
1.5構建PPI網絡 一方面,通過將所有候選DEGs導入STRING數據庫(10.5版本,網址:http://string-db.org)并在線計算,研究了候選DEGs編碼蛋白質之間的相互作用網絡。隨后,加載了STRING網絡并使用Cytohubba應用程序(版本0.1版本)用于關鍵基因分析。Cytohubba提供了12種分析方法,可以從復雜的相互作用體中識別出樞紐對象和子網絡。我們提取12種分析方法計算出的前30位結果,并計算出≥5種方法都分析出現的基因,得到34個基因結果。最后計算這34個基因中每個基因的權重,并以權重顯示出了由前29個基因編碼蛋白質的PPI網絡。另一方面,使用ReactomeFIPlugIn應用程序(2017版),分別將上調候選DEGs和下調候選DEGs及所有候選DEGs加載到Cytoscape,進行Reactome功能交互作用(FI)基因集分析。得到PPI網絡,在Cytoscape中使用CytoHubba應用程序通過上述12種方法之一的MCC方法計算出并可視化了這些關鍵基因。
2.1DEGs篩選 分別從GEO數據系列GSE43591、GSE13732、GSE32988中得到了466個(274個上調和192個下調),1 667個(684個上調和983個下調)和1 875個(1 187個上調和688個下調)差異表達基因。每兩個數據系列中分別從上調DEGs組和下調DEGs組獲得交集后,篩選得到77個上調DEGs和61個下調DEGs作為候選DEGs用于進一步分析(表2)。此外,在3個數據系列的交集中,有1個上調DEGs,為OTUD1及1個下調的DEGs,為PURA。
2.2DEGs的層次聚類分析 獲得DEGs的表達值之后,對DEGs進行層次聚類分析(圖1),結果顯示3個GEO數據系列的差異表達基因,可清楚地區分出實驗樣本和對照樣本。

表2 候選DEGs 對3個GEO數據系列中表達上調及下調的DEGs

圖1 3個數據集的熱圖
2.3候選DEGs基因本體論及通路富集分析 利用多種在線數據庫和軟件,包括DAVID,PATHER,Reactome,Cytoscape軟件里的ReactomeFIPlugIn應用程序,對候選DEGs的GO和通路富集進行了整合性的分析。整合前的結果包括通過DAVID、PATHER、Cytoscape軟件里的Reactome FI節點功能分析等方法分析的生物學過程、細胞成分、分子功能,及通過PATHER、Reactome、DIVID里的KEGG京都基因和基因組百科全書(KEGG)通路、Cytoscape軟件里的Reactome FI節點功能分析分析出通路富集結果。在表3中列出了生物學過程、分子功能、通路的前10位,在圖2,3,4中顯示并列出了整合結果的前10位。如表3所示,GO生物過程的前10結果顯示位依次為:單核細胞、中性粒細胞、自然殺傷細胞趨化作用的正調節、趨化因子介導的信號通路、病毒轉錄、T細胞趨化作用的正調節、翻譯起始、宿主對病毒轉錄的負調節作用、炎癥應答;GO分子功能的前10位依次為:RNA結合、CCR1趨化因子受體結合、蛋白結合、CCR5趨化因子受體結合、多聚(A)RNA結合、熱休克蛋白結合;通路富集的前10位結果依次為:IL-10信號、含帽內含子前mRNA的加工、真核翻譯起始、趨化因子和細胞因子信號通路介導的炎癥、減數分裂、脂肪細胞因子信號通路。上述GO生物過程和通路富集項的P值均小于0.000 1,分子功能的P值均小于0.001。
2.4PPI網絡分析和關鍵基因分析 首先,通過將所有候選DEGs導入STRING數據庫并在Cytoscape軟件里加載STRING網絡,再使用上述方法計算關鍵基因,138個候選DEGs中的78個DEGs(43個上調基因和35個下調基因)被篩選進入到DEGS PPI網絡復合體中,包含78個節點和102條聯線(圖5A),其中60個候選DEGs沒有進入該DEGs PPI網絡;隨后,在Cytoscape中使用Cytohubba應用程序并通過對12種分析方法的結果進行整合,得到了前33位關鍵基因(圖5B)。其次,通過在Cytoscape中進行Reactome FI基因集分析,我們從138個候選DEGs中獲得了包含32個DEGs(20個上調基因和12個下調基因)的PPI網絡(圖5C),從77個上調的候選DEGs中獲得了包含17個DEGs的PPI網絡(圖5D)、61個下調的候選DEGs中獲得了包含7個DEGs的PPI網絡(圖5E)。對這些PPI網絡進行關鍵基因分析,結果在圖5中以不同的顏色顯示在相應的八角形(代表上調DEGs)或六邊形(代表下調DEGs)中。結果表明,最重要的關鍵DEGs是:EIF4E,RPL37A,RPS24,RPL31,EIF4G1,HIST2H2BE,CCL5,NACA,SMC3,SRSF11,TPR,ZEB1,CCR2,HNRNPA0(按圖5中出現頻率數從4到2的順序排序)。

表3 用候選DEGs富集得到的GO條目及通路的前10位
1)類別中BP:生物學過程;MF:分子功能;CC:細胞組分

圖2 用所有的候選DEGs富集得到的GO條目及通路的前10位

圖3 用表達上調的候選DEGs富集得到的GO條目及通路的前10位

圖4 用表達下調的候選DEGs富集得到的基因本體(GO)條目及通路的前10位

A.EIF4E,RPL37A,EIF4G1,RPS24,RPL31,HIST2H2BE,CCL5,EHMT1,NACA,SMC3;B.HIST2H2BE,CD69,RPL31,EIF4E,RPS24,CCL5,NACA,EIF4G1,SMC3,RPL37A;C.EIF4G1,RPS24,RPL37A,RPL31,EIF4E,SRSF11,TPR,ZEB1,CCR2,HNRNPA0;D.SRSF11,TPR,RPS24,RPL37A,ZEB1,EIF4E,SOCS3,HNRNPA0,RPL31,CDK6;E.CCL4,SART3,HIST2H2BE,ITGB2,COL6A2,CCR2,CCL5圖5 PPI網絡圖及權重從大至小排序的關鍵基因前10位
MS特征是針對組成髓鞘的少突膠質細胞源性抗原的慢性炎癥,由此導致的局灶性脫髓鞘和軸突損傷進而產生運動、感覺和認知功能障礙。MS患者的發病機制目前并不明確,遺傳易患性及環境因素〔7〕共同參與了MS的發病過程。人類淋巴細胞抗原(HLA)復合體中的基因是與MS最相關的遺傳危險因素,研究發現,HLA-Ⅱ類變異基因HLA-DRB1*15:01與MS的風險增加相關,而HLA-Ⅰ類變異基因HLA-A*02與預防MS有關〔8〕。環境因素有EB病毒感染、低維生素D攝入、紫外線照射的缺乏、吸煙〔9,10〕等。然而,MS患者CNS病變中豐富的免疫細胞如T淋巴細胞及其產物支持了MS是一種免疫介導疾病的觀點。在外周活化的T淋巴細胞表達大量的分子,包括趨化因子受體、黏附分子、整合素、細胞因子、基質金屬蛋白酶和活性氧,這些分子促進T細胞穿過MS患者的血腦屏障進入CNS從而致病。Th1細胞分泌髓鞘特異性IFNγ及Th17產生的IL17可誘發CNS炎癥及脫髓鞘病變。CD8+T淋巴細胞被證實參與MS患者CNS的損傷〔11〕。除了T淋巴細胞參與MS的發生發展,其他免疫因子,如B淋巴細胞和抗體也被發現參與了這些脫髓鞘疾病的發病。目前MS患者的病因及發病機制尚不十分明確。本研究通過功能富集顯示:MS患者外周血T淋巴細胞中一些通路如IL-10信號、趨化因子和細胞因子信號通路介導的炎癥、脂肪細胞因子信號通路;涉及及生物學過程如:單核細胞、中性粒細胞、自然殺傷細胞趨化作用的正調節、趨化因子介導的信號通路、病毒轉錄、T細胞趨化作用的正調節、宿主對病毒轉錄的負調節作用、炎癥應答;涉及分子功能如:RNA結合、CCR1趨化因子受體結合、蛋白結合、CCR5趨化因子受體結合、多聚(A)RNA結合、熱休克蛋白結合等。目前有研究證實上述信號通路、生物學過程、分子功能與MS及其他一些免疫性疾病及炎癥性疾病的發生密切相關。例如:IL-10通過T細胞在體內免疫應答和耐受性控制及調節免疫和炎癥反應中起著重要作用〔12〕。在MS患者中包括IL-10的多種細胞因子動態平衡顯著失衡。還有,大量趨化因子和趨化因子受體參與了T細胞在MS形成過程中的遷移,在MS發展過程中扮演著重要的角色。最近研究表明,MS患者血液和腦脊液中某些趨化因子和趨化因子受體表達水平會升高〔13〕。另外,T細胞、樹突細胞、單核細胞、中性粒細胞、自然殺傷細胞等的趨化作用及許多細胞因子也涉及了MS的發生發展。熱休克蛋白、脂肪細胞因子與瘦蛋白與MS的發展有一定相關的作用;多種病毒如Epstein-Barr病毒(EBV)、人皰疹病毒6型(HHV-6)、水痘-帶狀皰疹病毒(VZV)、麻疹病毒(MV)、犬瘟熱病毒〔14〕也被認為是MS或MS相關疾病活動的潛在原因,但尚沒有任何病毒被明確證實在MS的發病中起到決定性的作用。治療方面,目前已經許多利用多種方法(如病毒載體、裸質粒DNA、包裹IL-10-pDNA的聚合物微粒子等)以IL-10為基礎的對MS模型進行基因治療的研究也取得了有希望的結果。在臨床研究中,一些針對相關趨化因子和趨化因子受體的藥物通過調節MS患者免疫應答而顯現治療效果。這些能夠在MS發病過程中發揮關鍵作用的細胞因子、趨化因子、細胞因子受體及趨化因子受體都可能成為MS的治療靶點。
通過PPI網絡分析和hub基因分析,我們篩選出了最重要的樞紐基因,包括:EIF4E、RPL37A、RPS24、RPL31、EIF4G1、HIST2H2BE、CCL5、NACA、SMC3、SRSF11、TPR、ZEB1、CCR2、HNRNPA0;3個GEO數據系列的共同交集基因:OTUD1、PURA;這些基因可能通過相應的分子功能或信號通路在自身免疫性疾病、炎癥性疾病中發揮重要作用。事實上,其中一些關鍵基因通過調節外周血或組織中T淋巴細胞的趨化與激活而影響T淋巴細胞的功能并與這些疾病相關聯。另外,這些基因還被用作自身免疫性疾病、炎癥性疾病的治療靶點。EIF4E可參與T淋巴細胞中蛋白合成并涉及全身自身免疫,而EIF4E結合蛋白1/2可限制巨噬細胞的抗炎反應。同時,抑制MNK-1能通過作用EIF4E以控制mRNA的穩定性、出核和翻譯進而調節蛋白質的表達從而起到治療減少炎癥和哮喘氣道重塑的作用。CCL-5在MS患者中可誘導淋巴細胞和單核細胞向CNS遷移而甲潑尼龍(MP)和米托蒽醌(MTX)的治療則可減少這種遷移。ZEB-1是參與T淋巴細胞發育的IL-2抑制劑并涉及了作為MS模型的實驗性自身免疫性腦脊髓炎(EAE)大鼠的遺傳調控〔15〕。CCR-2在白細胞轉運中起著重要的作用,特別是在單核細胞向炎癥部位募集和隨后轉化為巨噬細胞或樹突細胞方面。同時,CCR-2及其配體在CNS自身免疫性炎癥性疾病(包括MS)中得到廣泛研究。在T淋巴細胞、未成熟B細胞、自然殺傷細胞、嗜堿性細胞和樹突細胞中可檢測到CCR-2 mRNA。CCL-2和CCR-2在中樞神經系統中炎癥的招募浸潤過程具有重要作用,CCL-2和CCR-2可能是MS特異性有效治療的靶點。而SOCS-3功能失調可引起多種疾病,包括自身免疫性疾病、炎癥、過敏和癌癥,尤其在CNS免疫中有重要作用。
總之,這些研究報告支持我們這項生物信息學研究的結果。本研究雖已經發現了一些關鍵的基因和途徑,但仍缺乏實驗驗證,結果可能是不完整的。在今后的研究中,通過生物信息學分析得到的預測結果可以通過進一步的實驗研究如qPCR等得以驗證。同時,本研究獲得的關鍵基因和信號通路在MS及其他自身免疫性疾病、炎癥性疾病的作用還有待進一步驗證。