(福建醫科大學省立臨床醫學院,福建省立醫院老年科,福建省臨床老年病研究所,福州 350001)
根據國際糖尿病協會的報告,2017年全球有4.25億糖尿病患者,其中2型糖尿病占90%以上。有研究[1]預測2045年糖尿病患者數量將增至6.29億。糖尿病常導致全身血管及神經并發癥,嚴重影響患者生活質量。2型糖尿病的發病機制尚不明確。因此,從基因水平闡明2型糖尿病的發病機制對于預防和治療有重要意義。
隨著高通量測序技術的發展,生物信息學分析成為深入了解2型糖尿病的一種新工具。基因表達匯編(gene expression omnibus,GEO)數據庫存儲許多表達譜芯片數據。有學者通過單個數據集對糖尿病患者和健康人群血液中的差異基因進行了研究[2-3],然而,國內尚未有使用R語言通過去除批次間差異的方式對單個數據集進行聯合分析的報道。另外,糖尿病和阿爾茨海默?。ˋlzheimer disease,AD)關系密切[4],本研究將GEO數據庫中2個人類2型糖尿病數據集進行聯合分析,探索糖尿病發病的分子機制;同時利用基因集富集分析(gene-set enrichment analysis,GSEA)分析2型糖尿病關鍵基因與AD的關系。
GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)下載芯片GSE85192(平臺GPL16956)、GSE95849(平臺GPL22448)、GSE97760(平臺GPL16699)、GSE85426(平臺GPL14500)。GSE95849中納入12份樣品,其中6份為2型糖尿病不伴糖尿病周圍神經病變患者,6份為健康者。GSE85192中納入18份樣品,其中12份為治療前的2型糖尿病患者,6份為健康者。GSE97760中納入19份樣品。其中10份非AD患者,9份為AD患者。GSE85426中納入180份樣品,其中90份為AD患者,90份為正常對照組。以上樣本均來自外周血。下載芯片中的矩陣文件和平臺文件。
1.2.1 矩陣注釋:運用Perl軟件(版本 5.30.1)對GSE95849、GSE97760、GSE85426 3個數據集進行處理,利用平臺文件中的基因名將原始矩陣文件ID重注釋為基因名。對于GSE85192數據集,從Gencode數據庫(ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/)下載人類轉錄本序列文件。使用BLAST軟件將人類轉錄本序列與矩陣中探針核酸序列比對,得到含有基因名的重注釋平臺文件[5]。
1.2.2 多芯片矩陣合并及批次校正:將矩陣探針表達量數據進行log2 轉化后,使用Perl軟件將GSE95849、GSE85192 2個數據集的表達矩陣合并為1個矩陣。使用R軟件(版本3.6.2)的sva包(sva包能使用對照探針消除批次間效應,還能直接構建新的替代變量用于分析,去除批間差[6])進行批次校正。
1.2.3 差異分析:使用R軟件的limma包分析矩陣中的差異基因,以基因表達量log2差異倍數(log2 fold change,logFC)>0.5或者<-0.5,并且校正后P值<0.05為篩選參數,得到差異基因。用R軟件繪制差異基因聚類熱圖。
1.2.4 加權基因共表達網絡分析(weighted gene coexpression network analysis,WGCNA):利用R軟件的WGCNA包,輸入差異基因的表達矩陣,設置閾值為0.6,根據基因表達相似性,將基因劃分成不同的模塊,計算每個模塊與2型糖尿病、年齡、性別3種臨床性狀的Pearson相關系數及P值,選取P<0.01的模塊內的基因用于后續分析。
1.2.5 基因功能注釋和信號通路分析:將與2型糖尿病相關模塊中的基因輸入 DAVID6.8(https://david.ncifcrf.gov/)進行基因本體論(gene ontology,GO)功能分析,主要分析生物過程(biological process,BP)。再利用京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)工具對這些基因進行分析,以P<0.05同時伴通路所含基因數>4個為篩選標準,按P值從小到大篩選前10條項目。
1.2.6 蛋白互作網絡構建與模塊分析:使用STRING數據庫(https://string-db.org/)分析差異基因編碼蛋白的相互作用。再將得到的蛋白互作(protein-protein interaction,PPI)網絡數據輸入 Cytoscape 軟件(版本3.7.2),使用 cytoHubba 插件進行分析。
1.2.7 GSEA:Toll樣受體4(Toll-like receptor,TLR4)基因是關鍵基因,在GSE97760中AD患者和非AD患者間的表達量差異具有統計學意義(校正后P<0.05),且在AD中高表達,因此對GSE97760矩陣中TLR4的表達量從小到大進行排序,以前10個為低表達組,后9個為高表達組,分析與TLR4高表達相關的信號通路。P<0.05為差異有統計學意義。
1.2.8TLR4表達量驗證:獲得GSE85426中各樣本中TLR4的表達量,對正常組和AD組的表達量進行t檢驗,用R語言繪制箱圖使結果可視化。
結果顯示,與健康組比較,2型糖尿病組共獲得626個差異表達基因,其中336個上調,290個下調。前100個(校正后P值從小到大排序)差異基因見圖1。

圖1 差異表達基因分層聚類樹形圖和熱圖Fig.1 Tree and heat map showing hierarchical clustering of differentially expressed genes
將得到的差異基因輸入WGCNA后,得到3個共表達基因模塊,見圖2。結果顯示,灰色和綠色模塊內基因與2型糖尿病有關(P<0.01);2個模塊中共有567個基因。3個模塊中基因與年齡、性別均無關(P>0.01),見圖3。
結果顯示,差異基因主要參與的生物過程包括炎癥反應,細胞對機械刺激的反應,Toll樣受體(Tolllike receptor,TLR)信號通路,趨化因子、β干擾素產生的正向調節,組蛋白脫乙酰化等,見圖4。

圖2 基因聚類樹狀圖Fig.2 Gene clustering dendrogram

圖3 臨床特征與模塊特征相關性熱圖Fig.3 Heat map showing the correlation between clinical features and module features
差異基因主要參與的KEGG信號通路有嘧啶代謝通路、TLR信號通路、瘧疾、麻疹、RNA降解,見圖5。
共有567個mRNA輸入STRING數據庫,以置信度得分>0.4為篩選參數,除外孤立的蛋白,共得到1 686對蛋白互作關系,470個蛋白。使用cytoHubba 插件,按照度值和強度得分選取前10個基因,見表1、2。之后取交集,最終得到的關鍵基因為ILF2、TLR4、POLR2G、MMP9。
在GSE97760中,與TLR4高表達相關的KEGG通路富集于半胱氨酸和蛋氨酸代謝、基礎轉錄因子、細胞周期、TLR信號通路、嘧啶代謝信號通路等(P<0.05),見圖6A~6E。

圖4 差異基因參與的生物學過程Fig.4 Biological processes involved in differential genes

圖5 差異基因參與的KEGG通路Fig.5 KEGG pathways involved in differential genes

表1 關鍵基因篩選(按照度值排序)Tab.1 Hub gene screening by degree

表2 關鍵基因篩選(按照強度排序)Tab.2 Hub gene screening by stress
結果顯示,在GSE85426中,正常人和AD患者外周血中的校正后TLR4水平差異有統計學意義(P<0.01)。見圖6F。
生物學過程顯示,外周血中2型糖尿病患者與健康人差異基因的生物學功能富集在TLR信號通路、趨化因子產生的正向調節、β干擾素產生的正向調節、炎癥反應,而且四者之間存在密切聯系。TLR信號通路激活后,可以通過趨化因子和β干擾素產生2種途徑誘導全身慢性炎癥反應,進而引起胰島素抵抗。研究[7]顯示高脂飲食會導致腸道通透性增加,使脂多糖從腸道進入血液。脂多糖可以激活TLR4并與免疫細胞表面的CD14結合,觸發多種細胞因子產生和趨化因子介導的炎癥細胞募集,引起胰島素抵抗,并導致低強度全身性炎癥。炎性細胞因子還能使巨噬細胞在脂肪組織中募集,促進巨噬細胞釋放促炎性細胞因子[8],從而干擾組織中的胰島素信號,促進2型糖尿病發生[9]。還有學者[10-11]發現TLR3也能激活TLR信號通路,通過誘導β干擾素等激活Ⅰ型β干擾素,加速胰島β細胞功能障礙和凋亡。動物實驗[12]證實β干擾素突變小鼠就不會有TLR3介導的胰島炎癥反應。因此根據富集分析結果,可能存在“TLR-β干擾素/趨化因子-胰島炎癥反應軸”,這可能是導致2型糖尿病的重要原因之一。
KEGG通路顯示,差異基因富集在嘧啶代謝、TLR信號通路、瘧疾、麻疹、RNA降解上。有學者[13]通過動物實驗對與2型糖尿病相關的診斷標志物進行分析發現,糖尿病大鼠體內核苷酸(包括嘧啶)水平較低,提示嘧啶代謝途徑受到干擾。有學者[14]分析了糖尿病腎病大鼠和正常大鼠之間的代謝差異,發現差異富集在嘧啶代謝等代謝途徑上,說明糖尿病腎病小鼠中存在嘧啶代謝紊亂。
本研究對關鍵基因的分析結果顯示,TLR4、POLR2G、MMP9、ILF2可能是2型糖尿病發生的關鍵基因。糖尿病通過血管、葡萄糖代謝改變導致神經變性。AD通過下丘腦功能障礙、衰弱等影響全身葡萄糖代謝[15]。通過GSEA分析發現在AD患者中,TLR4升高也與嘧啶代謝和TLR信號通路有關,兩者同時在2型糖尿病發生中起作用,可能是AD和2型糖尿病共同的發病機制。嘧啶是腦磷脂酰膽堿合成的原料。用尿嘧啶核苷源的飼料灌胃,可使沙土鼠腦磷脂酰膽堿增加,軸突神經突觸膜的數量增加[16]。有學者[17]對AD模型小鼠海馬進行分析,結果顯示小鼠海馬尿嘧啶明顯增加,這可能是由于AD磷脂酰膽堿的合成減少而分解增多所致。AD可以表現為嘧啶代謝異常,但嘧啶代謝異常是否也是AD的病因尚待進一步驗證。近年研究[18-20]發現,TLR通過識別病原體并啟動炎癥過程,在大腦中,尤其是在小膠質細胞中發現了TLR。腸道菌群與腸道和大腦(菌群-腸-腦軸)相互作用是引起AD的機制之一。腸道菌群失調可激活大腦中TLR信號通路,加重炎癥反應,導致AD發生。因此,TLR4可能是2型糖尿病與AD之間的潛在聯系。

圖6 TLR4高表達有關的KEGG通路Fig.6 Analysis of KEGG pathways related to high expression of TLR4
綜上所述,2型糖尿病發生可能與TLR-干擾素β/趨化因子-胰島炎癥反應軸密切相關。ILF2、TLR4、POLR2G、MMP9為2型糖尿病發病的關鍵基因,TLR4上調可通過影響嘧啶代謝及TLR信號通路影響2型糖尿病及AD的發生。本研究不足之處在于GSE95849數據集選取的對象為女性糖尿病患者,可能影響差異基因的分析結果,將來如果有更多的糖尿病外周血轉錄組數據,可以將組間性別、年齡等基線資料進行匹配后再進行分析,進而提高結果的準確性。