劉玲玲,王國佐,李子瀅,李晟,陳彥霖,林霞,黃娟,秦莉花
《美國心臟協會心臟病和卒中統計報告——2020年更新版》[1]顯示,腦卒中是世界人口死亡的第二大原因。研究顯示,腦卒中是我國居民死亡的第一大病因[2]。數據調查顯示,2017年全球腦卒中患者總數為1.042億例,其中自發性腦出血1 790萬例(占17.2%),占因腦卒中死亡患者總數的50%[1,3-4]。自發性腦出血好發于中老年期,且隨著我國老齡化社會進程的加快,老年自發性腦出血的發生率呈大幅上升趨勢[5]。近年來,自發性腦出血的診斷、治療、預防等方面已取得重大進展,常用的診斷方法有腦成像和血管成像如CT或MRI等;治療包括急性醫療管理、外科手術管理、二級預防和抗血栓藥物管理等[6]。然而,自發性腦出血患者的臨床預后仍很差,具有高死亡率和高致殘率的特點[7],給患者、家庭和社會帶來巨大的負擔。因此,需要進一步明確自發性腦出血發生、發展的分子機制,尋找用于早期篩查的潛在分子靶標和診斷標志物。本研究從基因表達數據庫(gene expression omnibus,GEO)下載GSE24265數據集,利用生物信息學技術分析在老年自發性腦出血發生、發展中可能發揮重要作用的相關通路及關鍵基因,從而為老年自發性腦出血的早期診斷和防治提供借鑒。
1.1 數據集的獲取 2021年9—10月,從GEO下載GSE24265數據集,平臺號為GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array。GSE24265數據集包括4例老年自發性腦出血死亡患者(中位年齡為79歲)的11個腦樣本,本研究從其中選取4個血腫周圍區域樣本(包括GSM596842、GSM596845、GSM596848、GSM596850)作為實驗組,相應的4個對側灰質樣本(包括GSM596843、GSM596846、GSM596849、GSM596851)作為對照組。
1.2 數據預處理 去掉GSE24265數據集中一個探針對應多個分子的探針,當遇到對應同一個分子的探針時,僅保留信號值最大的探針;采用R軟件(3.6.3版本)對過濾后的數據進行統計分析與可視化,其中統一流形逼近與投影(uniform manifold approximation and projection,UMAP)包(0.2.7.0版本)用于UMAP分析,ggplot2包(3.3.3版本)用于繪制樣本數據歸一化的箱式圖、主成分分析(principal components analysis,PCA)散點圖和UMAP圖。
1.3 差異基因的篩選 差異基因的篩選參數標準為logFC>1,校正P值<0.05。采用R軟件(3.6.3版本)進行數據的統計分析與可視化:采用ggplot2包(3.3.3版本)繪制火山圖,以直觀地展示每個差異基因在每個樣本中的分布情況;采用ComplexHeatmap包(2.2.0版本)繪制熱圖,以直觀地展示每個差異基因在每個樣本中的表達情況[8]。
1.4 GO功能、KEGG通路富集分析及基因集富集分析(gene set enrichment analysis,GSEA) 利用R軟件(3.6.3版本)進行GO功能、KEGG通路富集分析及GSEA,其中org.Hs.eg.db包(3.10.0版本)用于ID轉換,clusterProfiler包(3.14.3版本)用于富集分析,ggplot2(3.3.3版本)包用于可視化圖的制作[9]。GSEA參考的基因集為c2.cp.v7.2.symbols.gmt[Curated],基因集數據庫為MSigDB Collections。GO功能、KEGG通路富集分析以校正P值<0.05為閾值來篩選差異基因的主要富集功能和通路;GSEA以錯誤發現率(false discovery rate,FDR)<0.25且校正P值<0.05為顯著富集[10]。
1.5 蛋白質互作網絡(protein-protein interaction networks,PPI)的制作及關鍵基因的選取 采用STRING數據庫[11](http://string-db.org)對差異基因制作PPI,其互作分數閾值為0.40,再將所得結果導入cytoscape軟件(3.8.2版本)以分析PPI圖,采用MCOD、cytoHubba插件的MCC計算法進行關鍵基因的篩選;利用韋恩圖在線工具將MCOD、cytoHubba插件篩選出來的關鍵基因進行交叉比對,最終獲得老年自發性腦出血的關鍵基因。
2.1 數據預處理結果 箱式圖分析結果顯示,各個樣本中位數基本在一個水平線上,提示樣本間歸一化程度好,見圖1;PCA散點圖和UMAP圖分析結果顯示,各組的樣本基本分開,提示后續差異分析有意義的結果可能會較多,見圖2~3。

圖1 兩組樣本數據的箱式圖Figure 1 Boxplots of two sets of sample data

圖2 兩組樣本數據的PCA散點圖Figure 2 PCA scatter plot of two sets of sample data

圖3 兩組樣本數據的UMAP圖Figure 3 UMAP plot of two sets of sample data
2.2 差異基因篩選結果 兩組樣本數據比較共有415個差異基因,其中高表達53個、低表達362個,見圖4~5。

圖4 差異基因的火山圖Figure 4 Volcano map of differential genes

圖5 差異基因的熱圖Figure 5 Heatmap of differential genes
2.3 GO功能、KEGG通路富集分析及GSEA結果 GO功能富集分析共得到226條有明顯差異的GO條目,包括145條生物過程(biological process,BP)條目、44條細胞組成(cellular component,CC)條目、37條分子功能(molecular function,MF)條目,差異基因介導的BP主要富集于化學突觸傳遞的調節、突觸信號轉導的調控、神經元投射發育的調節、樹突發育、軸突發生,CC主要富集于突觸膜、突觸后密度蛋白、谷氨酸能突觸、神經元到神經元突觸、非對稱性突觸,MF主要富集于陽離子通道活性調控、門控通道活性調控、鈣離子跨膜轉運蛋白活性調控、離子門控通道活性調控、跨膜腎上腺素受體活性調控,見圖6A~6C。KEGG通路富集分析結果顯示,差異基因主要富集于軸突導向信號通路、催產素信號通路、肥厚型心肌病、擴張型心肌病、致心律失常性右心室心肌病等17條通路,見圖6D。GSEA結果顯示,共有734個基因集,其中顯著富集的基因集共有364個,包括人體補體系統、無意義介導的衰變、流感病毒感染、含硒氨基酸的代謝、信號識別粒子(sigllal recogllition panicle,SRP)依賴性共翻譯蛋白靶向膜、真核翻譯起始、Slits和Robos的表達調節、細胞核和胞質中的rRNA修飾等,見圖7。

圖6 GO功能、KEGG通路富集分析排名前5位的差異基因的可視化圖Figure 6 Visualization of the top 5 differential genes in GO function and KEGG pathway enrichment analysis
2.4 PPI及關鍵基因選取結果 MCOD插件分析結果顯示,一共有11個聚類,選擇分數最高的聚類1,得分為10.364分、節點為12個、邊數為57條,篩選出的關鍵基因為RPS6、RPL8、KCNV1、FAU、RPL35、KCNS1、SMKR1、RPS5、DOCK4、KCNQ5、RPS19、RPLP1,見圖8;cytoHubba插件分析結果顯示,按照得分由高到低的關鍵基因依次為RPS6、RPS5、RPS19、RPL8、RPL35、RPLP1、FAU、EPHB1、EFNB3、EFNB2,見圖9。最終篩選出老年自發性腦出血的關鍵基因為RPS6、RPL8、FAU、RPL35、RPS5、RPS19、RPLP1。

圖8 MCODE插件分析結果Figure 8 MCODE plug-in analysis results

圖9 cytoHubba插件分析結果Figure 9 cytoHubba plug-in analysis results
自發性腦出血是一種致命的腦血管疾病,具有高死亡率和高發病率的特點,占所有腦卒中患者的10%~20%[12-13],會導致不良預后和嚴重的精神運動性障礙。隨著全球人口老齡化的加劇,老年自發性腦出血患者越來越多,尤其在人口老齡化問題尤為突出的中國[13]。迄今為止,尚未發現有效的手術或藥物療法可以改善自發性腦出血患者的功能預后。因此,探索并尋找老年自發性腦出血新的生物標志物和治療靶點非常重要。本研究旨在利用生物信息學技術分析老年自發性腦出血的相關通路及關鍵基因。
本研究結果顯示,兩組樣本數據比較共有415個差異基因,其中高表達53個、低表達362個。進一步進行GO功能富集分析,結果顯示,差異基因介導的BP主要富集于化學突觸傳遞的調節、突觸信號轉導的調控、神經元投射發育的調節、樹突發育、軸突發生,CC主要富集于突觸膜、突觸后密度蛋白、谷氨酸能突觸、神經元到神經元突觸、非對稱性突觸,MF主要富集于陽離子通道活性調控、門控通道活性調控、鈣離子跨膜轉運蛋白活性調控、離子門控通道活性調控、跨膜腎上腺素受體活性調控。既往研究表明,突觸后密度蛋白有望成為改善腦出血患者預后的靶標,并可提高腦出血大鼠的認知功能和學習能力,減輕腦出血后繼發性腦損傷和行為認知障礙[14-15]。谷氨酸能突觸在大鼠腦出血發病12 h和24 h后過渡到細胞內進行信號轉導[15]。本研究KEGG通路富集分析結果顯示,差異基因主要富集于軸突導向信號通路、催產素信號通路、肥厚型心肌病、擴張型心肌病、致心律失常性右心室心肌病等17條通路。既往研究表明,軸突導向蛋白濃度與腦出血的炎癥反應、出血嚴重程度和臨床預后密切相關[16];腦卒中后抑郁患者差異表達基因主要作用于軸突導向信號通路[17]。
由于傳統篩選差異基因的方法會掩蓋一些表達上調倍數較低但具有重要生物學意義的基因,本研究采用GSEA來篩選與老年自發性腦出血有關的基因集,結果顯示,共有734個基因集,其中顯著富集的基因集共有364個,包括人體補體系統、無意義介導的衰變、流感病毒感染、含硒氨基酸的代謝、SRP依賴性共翻譯蛋白靶向膜、真核翻譯起始、Slits和Robos的表達調節、細胞核和胞質中的rRNA修飾等。既往研究表明,補體系統在腦出血發生后被激活,主要表現為癥狀出現后的最初24 h內腦出血患者補體系統的凝集素通路介導的蛋白濃度與健康個體存在明顯差異[18],激活的補體系統可對神經元產生細胞毒性作用,對腦組織產生繼發性損傷[19]。突變體COL4A1的無意義介導的衰變明顯減少,使COL4A1的單倍體不足,這是腦出血的原因[20]。流感病毒感染觸發細胞因子級聯反應,可加重缺血性腦損傷并增加組織纖溶酶原激活劑治療后腦出血的發生風險[21],也可使腦卒中后溶栓患者的血漿MMP-9水平升高,而血漿MMP-9水平升高與溶栓后腦出血相關[22]。Slits是一種分泌型糖蛋白,可與跨膜受體家族成員Robos結合,在大腦海馬區中廣泛表達,具有區域偏好[23]。
本研究最終篩選出老年自發性腦出血的關鍵基因為RPS6、RPL8、FAU、RPL35、RPS5、RPS19、RPLP1。其中RPS6是一種核糖體蛋白,是40S核糖體亞基的關鍵結構成分[24],在膠質母細胞瘤干細胞的發育和維持中起著至關重要的作用,且與放化療和多形性膠質母細胞瘤復發相關[25];限制RPS6可抑制上皮性卵巢癌細胞的增殖、侵襲和遷移能力,故RPS6可能成為上皮性卵巢癌的新型生物標志物和分子靶標[26]。RPS6是第一個顯示出磷酸化作用的核糖體蛋白[27],RPS6磷酸化是被廣泛使用的跟蹤腦神經元活性變化的標志物[28],且RPS6磷酸化對于神經元的整個蛋白質合成是不可或缺的,可能控制特定大腦區域[29]。RPL8是一種核糖體蛋白,研究表明,RPL8在腦出血患者腦組織中的表達水平增加[30]。FAU是一種核糖體蛋白,可能是缺血性腦卒中的新預后生物標志物和潛在治療靶標[31]。RPL35是一種核糖體蛋白,研究表明,人類神經母細胞瘤組織中RPL35水平升高提示預后不良[32]。RPS5是一種核糖體蛋白,與酒精相關性肝癌的發展有關,對患者預后具有重要的預測價值[33],且被確定為結腸癌患者復發和進展的危險因素[34]。RPS19是一種核糖體蛋白,是40S核糖體亞基的構成成分,其精氨酸67缺失,先天性純紅細胞再生障礙性貧血患者可表現出顱面、骨骼和腦部異常,并伴有各種神經行為異常[35]。RPLP1是一種關鍵的核糖體蛋白,對神經系統胚胎和大腦發育至關重要[36],其與腫瘤發生和原代細胞永生化有關,是三陰性乳腺癌患者預后不良的潛在生物標志物和阻止癌癥轉移的治療靶標[37]。
綜上所述,與老年自發性腦出血發病機制有關的信號通路包括軸突導向信號通路、催產素信號通路、肥厚型心肌病、擴張型心肌病、致心律失常性右心室心肌病等;其關鍵基因為RPS6、RPL8、FAU、RPL35、RPS5、RPS19、RPLP1。這為進一步研究老年自發性腦出血的機制提供了理論基礎,為腦出血的臨床診治和預防提供了理論依據。但本研究是基于生物信息學方法對GEO中的4例老年自發性腦出血死亡患者的4個血腫周圍區域樣本和相應的4個對側灰質樣本進行比較分析,研究結果具有一定局限性,只能對相關信號通路和關鍵基因參與老年自發性腦出血的發生發展過程提出合理猜想,其相互作用的具體機制還需要更多的探究與實驗證實。
作者貢獻:秦莉花進行文章的構思與設計,負責文章的質量控制及審校,對文章整體負責、監督管理;劉玲玲撰寫、修訂論文;王國佐、李子瀅、黃娟負責數據收集、整理;李晟、陳彥霖、林霞負責數據分析。
本文無利益沖突。