劉靜 魯明 李春惠 劉志紅
2型糖尿病(type 2 diabetes,T2DM)以慢性高血糖為特征,目前已發展成為一種主要的健康問題,導致全世界超過3億人早期發病和死亡[1]。骨骼肌是胰島素發揮葡萄糖攝取的重要部位,骨骼肌對胰島素的反應減弱,是T2DM的重要特征[2]。因此,鑒別T2DM患者和健康對照者骨骼肌組織中表達差異的基因可以為T2DM的發病機制提供必要信息[3]。近年來,越來越多的基因表達譜數據可以從公共數據庫里得到[4,5]。本研究通過應用生物信息學手段,從基因表達數據庫 (gene expression omnibus,GEO)中尋找到關于2型糖尿病骨骼肌的基因芯片數據集,分析與T2DM相關的差異表達基因(differentially expressed genes,DEGs)及其通路,探索疾病新的治療靶點。
1.1 數據來源 通過檢索詞“type 2 diabetes”和“skeletal muscle”在 GEO 數據庫(https://www.ncbi.nlm.nih.gov/geo/) 中下載數據集 GSE29221,該芯片數據由Jain等[6]于 2011年5月提交,以GPL6947 Illumina HumanHT-12 V3.0 expression beadchip為研究平臺,分析12例2型糖尿病(GSM722680-GSM722691)及12例正常(GSM722668-GSM722679) 骨骼肌組織的基因表達矩陣。
1.2 差異基因篩選與可視化 利用 GEO2R在線分析工具對 GSE29221數據集樣本進行分組并篩選出DEGs ,以校正P值<0.01以及logFC絕對值>1為篩選條件。使用ggplot2進行差異基因的可視化[7]。
1.3 功能富集分析 將DEGs提交至 DAVID 數據庫(https://david.ncifcrf.gov/,version 6.8),進行基因本體論(Gene Ontology,GO) 分析和京都基因與基因組數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG ) 分析,同時以P<0.05為篩選條件。
1.4 蛋白互相作用網絡分析 將DEGs列表提交到 STRING在線數據庫(https://string-db.org/),設置最小交互評分為0.4構建蛋白質互相作用(proteinprotein interaction,PPI) 網絡圖。使用 Cytoscape 3.8.0軟件里的插件 cytoHubba篩選PPI網絡里得分最高的前 10個基因作為關鍵基因,選用MCC算法。
2.1 2組差異基因 根據篩選條件,2型糖尿病組和健康組之間共得到 116個DEGs,其中上調DEGs 19個,下調DEGs 97個。根據 logFC 數值大小列出排名最靠前的 10 個上調及下調 的DEGs。見表1、2。

表1 上調的前10個 DEGs
2.2 差異基因的GO及KEGG分析 (1)生物過程(biological processes,BP):DEGs 主要富集于細胞外基質的組織、細胞外結構組織、細胞基質黏附、一氧化氮

表2 下調的前10個 DEGs
介導的信號轉導、細胞-底物黏附的調節、黏多糖代謝過程等;(2)細胞組成(cellular components,CC):DEGs 主要富集于細胞外基質、細胞外基質成分、內質網等;(3)分子功能(molecular functions,MF):DEGs 主要富集于細胞外基質結構成分、纖連蛋白結合、整合素結合等)。KEGG 通路富集分析中,DEGs 富集于PI3K-Akt信號通路、糖尿病并發癥中的AGE-RAGE信號通路、AMPK信號通路等。見表3、4。

表3 GO分析

表4 KEGG 分析
2.3 PPI 網絡和關鍵基因 將116個DEGs提交到 STRING數據庫,除去與其他基因無聯系孤立節點,分析后得到113個蛋白和 124條邊,下載PPI 網絡圖。使用Cytoscape 軟件選取cytoHubb的MCC 算法得到10 個關鍵基因:COL1A1、THBS2、TIMP2、 CD44、 BGN、 FBLN1、FMOD、SPARC、THBS1、VEGFA。見圖1、2。

圖1 PPI 網絡圖

圖2 關鍵基因;節點顏色越深代表 MCC 分值越高
T2DM是一種體內血糖代謝失衡,特征是肌肉和脂肪對葡萄糖攝取能力下降,以及降低血糖的胰島素分泌發生改變,同時肝糖異生增加,導致血糖水平升高,目前全球約有4.1億T2DM患者,預計20年后將超過6.4億[8,9]。T2DM的發生是多因素相互作用的結果,內在基因水平的改變發揮重要作用。生物信息學分析的應用為研究糖尿病中差異基因表達提供了更多技術手段。
在本研究中,我們從 GEO 數據庫選取 GPL6947平臺的 GSE29221 基因數據集,分為以2型糖尿病患者骨骼肌組織樣本的實驗組和健康人群骨骼肌組織樣本的對照組,利用 GEO2R 在線分析篩選與2型糖尿病相關上調、下調DEGs。結果發現,2型糖尿病患者擁有 19個上調DEGs和97個下調DEGs。
GO分析發現,2型糖尿病的 DEGs 與一氧化氮介導的信號轉導、細胞-底物粘附的調節、黏多糖代謝過程等有關。研究發現,生物利用度的改變可導致內皮功能障礙,增加糖尿病及其慢性并發癥的易感性[10]。在T2DM中,高血糖誘導晚期糖基化終末產物(AGEs)產生增多,進而增強多元醇、蛋白激酶C 和氨基己糖通路,導致氧化應激加重,然后,過量的活性氧與一氧化氮自由基快速結合,形成過氧亞硝酸鹽陰離子,導致組織損傷[11]。
KEGG分析中PI3K-Akt信號通路是胰島素發揮作用的關鍵途徑,在調控血糖代謝方面起重要作用,參與糖異生、糖酵解等血糖代謝過程,該通路上任何分子異常表達都可能導致胰島素傳導障礙,加重T2DM的發生發展[12,13]。AGE-RAGE信號通路參與T2DM多種并發癥的發生,慢性高血糖會刺激AGEs合成增加,加重其與AGE受體(RAGE)的結合進一步激活刺激大量促纖維化生長因子分泌,導致膠原沉積增加引起組織纖維化,以及RAGE表達增加[14]。同時該信號通路的激活可促進ECM蛋白表達升高。此外,激活p38、核因子-kappab (NF-κB)、c-Junn末端激酶(JNK)等來刺激生長因子的表達和ECM蛋白的累積[15]。AGE-RAGE參與T2DM相關的動脈損傷、腎病和視網膜病變的發生[16]。
本研究應用PPI網絡發現了COL1A1、 THBS2、 TIMP2、 CD44、 BGN、 FBLN1、FMOD、SPARC、THBS1、VEGFA這10個關鍵基因。Ⅰ型膠原α1鏈(COL1A1)是細胞外基質受體相互作用途徑中最重要的基因,參與ECM受體相互作用,它負責編碼Ⅰ型膠原蛋白[17]。近來Lin等[18]發現COL1A1表達水平在T2DM大鼠空腸組織中降低,它的異常表達可能與T2DM的發病相關,COL1A1有可能在未來成為T2DM潛在的新的生物標志物和診治靶點。基質金屬蛋白酶(MMP-2)是一類不斷擴大的內肽酶家族,具有對細胞外基質組分的蛋白水解的活性[19]。基質金屬蛋白酶組織抑制因子2(TIMP2)通過結合相應的 MMP-2而影響組織基質的活性。MMP-2/TIMP-2 比值的紊亂參與糖尿病患者組織纖維化的過程[20]。Ⅰ型跨膜糖蛋白CD44(CD44)分子廣泛分布于白細胞、軟骨細胞、上皮細胞等,具有誘導多種炎性細胞因子活性,參與調節炎性反應[21]。CD44可能參與嚙齒動物及人類的脂肪組織炎癥和胰島素抵抗的發展[22]。纖調蛋白(fibromodulin,FMOD)是一種富含亮氨酸的小蛋白多糖,是一種有效的 TGF-β 調節劑,FMOD 治療顯著減輕糖尿病大鼠尿中蛋白[23]。
富含半胱氨酸的酸性分泌蛋白(SPARC)是一種廣泛表達的纖維化蛋白,源自脂肪組織的SPARC與胰島素抵抗相關,并且胰島素和瘦素可促進脂肪組織分泌SPARC[24]。SPARC在糖尿病大鼠的肝臟中肝臟顯著上調而在胰腺中下調。糖尿病肝臟和胰腺中SPARC的相反表達可能與炎癥和免疫細胞浸潤,凋亡和纖維化程度,細胞保護機制以及細胞胰島素水平有關[25]。同時有研究表明SPARC介入了增生性糖尿病視網膜病變的發生[26]。血管內皮生長因子A (VEGFA)可表達于腫瘤和正常組織,其表達增加促進糖尿病視網膜病變發生[27]。