鄭超越, 張升校, 賀培鳳, 于 琦, 程靈婧,馮 爽, 孔 騰, 孫翔飛
(山西醫科大學, 1. 管理學院, 2. 第二臨床醫學院, 3. 人文社會科學學院, 山西 太原, 030001)
皮肌炎(DM)是一種自身免疫缺陷性疾病,主要損害患者的肌肉和皮膚,影響多個器官和系統,伴發腫瘤和其他結締組織病的概率較高[1]。DM病因和發病機制尚未完全闡明,且相關并發癥預后效果不佳,治療也局限于激素和免疫抑制劑等傳統方案[2], 因此尋找新的治療方法顯得尤為迫切。生物信息學作為一門新型學科,可與基因芯片或高通量測序技術相結合,其已成為發現各種疾病潛在生物標志物、重要通路和基因功能的有效方法。本研究基于生物信息學方法,通過對基因芯片的公共數據庫(GEO)中符合篩選條件的芯片數據進行分析,探討影響DM發生發展的潛在生物標志物,以此挖掘治療DM的小分子化學藥物和中藥,為臨床研究與預后及新藥開發提供理論依據和思路。
以"Dermatomyositis"作為關鍵搜索詞,在GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)中進行搜索,獲取已公布的DM基因芯片信息,下載符合本研究標準的數據集,具體信息見表1。

表1 數據集基本信息
用R語言軟件讀取并下載原始數據集,通過oligo包進行數據處理及背景矯正,標準歸一化后,使用sva包和limma包處理不同平臺間的批次效應后合并3個肌肉組織數據集,采用limma包分別對肌肉組織和皮膚組織數據集進行分析,以|log2FC|≥0.58和調整后的P<0.05為存在差異,篩選出DEGs。
利用富集分析工具DAVID(http: //david.ncifcrf.gov), 分別勾選基因本體(GO)分析的生物過程(BP)、細胞組分(CC)、分子功能(MF)以及京都基因與基因組百科全書(KEGG)分析的Pathway, 使用R語言軟件包可視化分析結果,明確差異基因參與的 GO 功能富集和KEGG 通路富集情況。
將目標導入STRING在線工具(http: string-db.org/)獲得蛋白互相作用的網絡,同時導出combined score>0.7的文檔信息文件到Cytoscape軟件中進行可視化。此外,使用插件MCODE執行PPI網絡,聚類功能按score進行排序,識別出最重要的模塊; 使用CytoHubba插件,根據Degree算法進一步篩選核心基因。
使用OECloud(https: //cloud.oebiotech.cn)工具上的ROC曲線分析曲線功能,對10個核心基因進行分析,以此來驗證核心基因的可靠性。
對2個不同組織數據集樣本分別進行了免疫細胞浸潤分析, CIBERSORT R軟件包和LM22文件被用來在本地運行算法,過濾掉P>0.05的樣本,得到免疫細胞浸潤矩陣,按照不同組織中免疫細胞占比中位數進行排序。R語言中ggplot2包用于繪制22種免疫浸潤細胞的箱線圖,并可視化免疫細胞浸潤的差異。使用Spearman相關性分析研究10個核心基因表達量與22種免疫浸潤細胞豐度之間的相關性,并繪制相關性熱圖。
DREIMT是一種新的假設生成網絡工具,用于對免疫調節進行藥物優先級分析。使用DREIMT在線分析工具(http://www.dreimt.org),輸入差異基因進行小分子藥物預測。
Coremine Medical(https://coremine.com/medical/)數據庫是基于本體的國際醫學信息檢索平臺,可以通過輸入基因名檢索出與該基因相關的疾病及潛在治療藥物。在Coremine Medical數據庫中導入10個核心基因名稱及dermatomyositis, 下載traditional Chinese medicine模塊中的數據,得到可用于DM治療的中藥。
使用limma包識別了數據集中疾病和對照之間的DEGs。結果發現,與健康者相比,DM肌肉組織中有552個基因存在差異表達,其中402個基因表達上調,150個基因表達下調; 皮膚組織中有970個差異基因,其中686個基因表達上調, 284個基因表達下調。此外,共確定了170個交集DEGs,去除6個上調、下調不一致的基因,剩余164個DEGs成為分析目標,見圖1。

A: 肌肉組織差異基因火山圖(藍色、灰色、紅色分別表示下調、無差異、上調);B: 肌肉組織差異基因熱圖(紅色代表DEGs高表達,藍色代表DEGs低表達); C: 皮膚組織差異基因火山圖;D: 皮膚組織差異基因熱圖; E: 2組差異基因交集Venn圖。
DEGs的GO注釋獲得了BP、CC、MF共3個部分的結果。提取BP、CC、MF富集數目分別前5位的條目,由BP分析可知富集基因數較多的條目為固有免疫應答、對病毒的防御反應、信號轉導、對病毒的反應和免疫應答; 由CC分析可知富集基因數較多的條目為細胞質、細胞質膜、細胞質溶膠、胞外區和細胞外間隙等; 由MF分析可知,大量基因主要富集在蛋白質結合、相同蛋白結合、蛋白質同源二聚活性、受體結合和雙鏈RNA結合,見圖2。

圖2 BP、CC、MF差異基因富集數目分別前5位的條目
KEGG信號通路富集分析結果顯示, DEGs主要涉及的信號通路有: 新型冠狀疾病病毒、甲型流感、Epstein-Barr病毒感染、麻疹、丙型肝炎、Kaposi肉瘤相關皰疹病毒感染、NOD樣受體等,見圖3。

圖3 差異基因KEGG信號通路富集結果圖
目標基因通過STRING在線數據庫構建了一個包含164個節點和1 014條邊的PPI網絡(圖4A), 將關于PPI網絡的tsv格式的數據文件導入Cytoscape軟件(圖4B), 通過MCODE插件識別出最重要的模塊,該模塊包含32個上調基因(圖4C); CytoHubba插件通過Degree算法篩選出前10位基因作為關鍵基因(圖4D), 按照連接度由高到低分別為:STAT1、MX1、IFIT3、OAS2、IFI35、RSAD2、IFIT1、OAS1、ISG15、IRF7。

A: 交集DEGs在STRING中的PPI圖; B: 交集DEGs在Cytoscape中的PPI圖;C: 重要模塊核心子網絡圖; D: 10個核心基因網絡圖。
ROC的曲線下面積(AUC)在0~1, 數值越大說明該模型的性能越好,是目前認為評估預測分布模型準確性的標準方法。本研究通過繪制ROC曲線圖,評估10個核心基因作為DM疾病預測靶點的準確性,其中STAT1(AUC=0.88)、RSAD2(AUC=0.87)、OAS2(AUC=0.87)、OAS1(AUC=0.75)、MX1(AUC=0.83)、ISG15(AUC=0.92)、IRF7(AUC=0.87)、IFIT3(AUC=0.81)、IFIT1(AUC=0.89)、IFI35(AUC=0.91)的AUC基本在0.8以上,進一步證明上述核心基因作為靶點基因的可靠性。
免疫浸潤結果顯示,與正常肌肉組織相比,血漿細胞浸潤在DM疾病肌肉組織中占主導地位,且差異有統計學意義(P<0.05)(圖5A); 肌肉組織中10個核心基因與血漿細胞、M1巨噬細胞和M2巨噬細胞的免疫浸潤水平呈正相關(P<0.05), 與調節性T細胞以及單核細胞的免疫浸潤水平呈負相關(P<0.05)(圖5B)。與正常皮膚組織相比, M2巨噬細胞浸潤在DM疾病皮膚組織中大量滲透,差異有統計學意義(P<0.05)(圖6A),皮膚組織中10個核心基因與M1巨噬細胞、M2巨噬細胞和記憶性活化CD4+T細胞的免疫浸潤水平呈正相關,與靜息肥大細胞、調節性T細胞以及靜息性樹突狀細胞的免疫浸潤水平呈負相關(P<0.05)(圖6B)。

A: 免疫浸潤細胞結果圖; B: 核心基因與免疫細胞之間含量的相關性熱圖。

A: 免疫浸潤細胞結果圖; B: 核心基因與免疫細胞之間含量的相關性熱圖。
根據藥物優先級評分(|tau|)選擇排名前10位的潛在小分子藥物,見表2。將藥物名字分別輸入到DrugBank數據庫(https://go.drugbank.com)中進行檢索,獲得10個潛在小分子藥物的相關信息,為之后的實驗驗證提供了理論依據。

表2 排名前10位的潛在小分子藥物
借助Coremine Medical數據庫,獲得核心基因可用于治療DM的中草藥分別為丹參、三七葉、三七花、茶樹根、三七、原蠶蛾、蠶沙、厚樸花和厚樸共9種,見表3。

表3 靶基因用于治療DM的中草藥信息
DM是一種慢性自身免疫性疾病,主要發生在骨骼肌和皮膚[2], 常常快速進展成肺間質病變[3]。本研究通過分析DM芯片數據集,得到與病理過程密切相關的致病基因,旨在探索可能治療DM的潛在化學藥物和中草藥,為后續疾病的治療提供新思路。本研究通過對肌肉和皮膚組織數據集進行DEGs篩選,對2組DEGs的交集基因進行了GO和KEGG富集分析。相關研究[4]提出,新冠肺炎相關肌炎可能是DM的假設,主要是因為COVID-19中的器官損傷部分歸因于Ⅰ型干擾素(IFN-I), 而現在已知干擾素在DM的肌纖維損傷中起著重要作用,特別是IFN-I與DM等自身免疫性疾病的發病機制相關。KEGG主要富集在病毒性通路上,除上面提到的新型冠狀病毒以外,還有甲型流感、Epstein-Bar病毒(EBV)感染、麻疹、丙型肝炎、卡波西肉瘤-相關皰疹病毒感染,病毒感染可影響DM患者巨噬細胞的分化,從而影響M1與M2巨噬細胞的平衡,導致病情惡化[5]。個體免疫細胞功能和分化異常以及體液免疫發生改變,會引起細胞因子和化學分子不適當產生,引發炎癥反應,導致骨骼肌肉損傷以及其他系統受累[6], 這與本研究DEGs的GO富集結果一致。
免疫浸潤分析在DM的研究中一直發揮重要作用。本研究免疫細胞浸潤結果顯示,在肌肉組織中,漿細胞和T細胞被認為高度表達。研究[7]證明,漿細胞可能與肌肉炎癥有關,但不能證明漿細胞紊亂直接與DM的發病機制有關; 在皮膚組織中,巨噬細胞占炎癥浸潤的大部分,研究[8]表明, M2巨噬細胞的高表達能夠抑制免疫反應,巨噬細胞分泌的細胞因子可能與DM有關,因此巨噬細胞紊亂可能是DM的另一個致病機制。
通過STRING和Cytoscape篩選出來的前10位核心基因依次為STAT1、MX1、IFIT3、OAS2、IFI35、RSAD2、IFIT1、OAS1、ISG15、IRF7。STAT1是STAT蛋白家族的成員,具有信號轉導和轉錄激活的雙重功能,許多參與自身免疫和炎癥疾病發病機制的細胞因子使用STAT來轉導細胞內信號。STAT1是由干擾素-γ(IFN-γ)激活的轉錄因子。研究[9]證明, STAT1在DM中的萎縮性肌纖維中高度表達。MX1屬于IFN誘導的GTP結合蛋白,對各種RNA病毒和一些DNA病毒具有抗病毒活性,在誘導的抗病毒效應因子中,一些MX蛋白成為抵御甲型流感病毒的關鍵組成部分[10], 這與本研究中DEGs富集的KEGG通路內容高度一致。IFIT3作為一種新型的抗病毒基因[11], 是細胞和病毒過程、細胞遷移、增殖、信號傳導和病毒復制的抑制劑,是IFN-I系統的代表基因之一; IFIT1也是一種抗病毒蛋白,與IFIT3一樣,二者在生物過程中都參與免疫、對病毒的防御反應[12], 表現在疾病上,則是參與DM的免疫反應。OAS2和OAS1同屬于OAS家族,是由IFN誘導的雙鏈RNA激活酶,在細胞先天抗病毒反應中起著關鍵作用[13], 已有研究[14]分析數據表明,所有OAS基因都在青少年DM肌肉活檢中顯著上調;OAS基因可能在其他細胞過程中發揮作用,如生長、分化、凋亡及基因調節,狼瘡(CLE)和DM的皮膚病變中發生了過度的角質細胞凋亡,這也證實了這一點[15]。IFI35主要參與并調節先天免疫系統的響應,抑制內皮細胞增殖和遷移[16]。IFN誘導基因可能與DM的發病機制有關[17-18], 而IFI35作為一種IFN誘導的蛋白質,應當予以重視。RSAD2是一種IFN誘導抗病毒蛋白,在Ⅰ型和Ⅱ型IFN誘導的細胞抗病毒狀態中起著重要作用[19], 能夠抑制廣泛的DNA和RNA病毒,包括KEGG通路中的甲型流感、丙型肝炎等病毒。RSAD2已被發現與各種自身免疫性疾病有關,如類風濕關節炎、系統性紅斑狼瘡、強直性脊柱炎等[20]。研究[21]證明, ISG15共軛物存在于自身免疫性人類疾病組織樣本中。ISG15可以誘導自然殺傷細胞增殖,充當中性粒細胞的趨化因子,并作為IFN-γ誘導的細胞因子,在抗菌免疫中發揮重要作用[22]。研究[23]指出, IFN刺激基因15(ISG15)、IFN調節基因7(IRF7)的mRNA表達顯著上調,并且發現成人發病臨床肌病性皮肌炎(CADM)患者的外周血中過度產生IFN-α蛋白。IRF7是IFN-I依賴性免疫反應的關鍵轉錄調節劑,在對DNA和RNA病毒的先天免疫反應中也起著關鍵作用。在一項青少年DM的研究[24]中,高表達基因為ISG15(408倍)、IFIT3(261倍)、MX1(99倍)和IRF7(37倍)。
治療DM的藥物主要局限在糖皮質激素、硫唑嘌呤、霉酚酸酯、環磷酰胺、靜脈免疫球蛋白等,還有一些老藥新用的藥物,如環孢素A、他克莫司等[25], 但患者預后普遍不佳。本研究通過分析DEGs, 獲得10個得分較高的小分子藥物,分別為芐達明(benzydamine)、脫氧皮質酮(desoxycorticosterone)、甲砜霉素(thiamphenicol)、胡椒堿(piperine)、二氟拉松(diflorasone)、骨化三醇(calcitriol)、阿利維A酸(alitretinoin)、阿爾維林(alverine)、維A酸(tretinoin)、氟尼縮松(flunisolide), 這些藥物在治療DM方面具有豐富的潛力,可以在未來的實驗中加以驗證。
鄧韻珊等[26]通過統計使用頻次得出治療DM的中藥主要有黃芪、當歸、白術、丹參、薏苡仁、茯苓、黨參、赤芍、牛膝、山藥、牡丹皮、甘草、生地黃、金銀花、紅花、熟地黃、雞血藤、連翹、蒼術、黃柏等藥物。本研究通過對疾病和核心基因的探索,除丹參以外,還分析出三七葉、三七花、三七、茶樹根、原蠶蛾、蠶沙、厚樸花、厚樸存在治療DM的可能性,為今后中醫治療DM提供了臨床用藥思路。