徐佳慧,李潔華,陳潔霞,歐陽歡
安徽醫科大學第一附屬醫院,a 全科醫學科,b 普外科,合肥 230022
頸動脈粥樣硬化性狹窄是由頸動脈內膜下粥樣硬化性斑塊的慢性累積引起的,有20%~30%的缺血性腦卒中或短暫性腦缺血發作與之相關[1-2]。明確頸動脈粥樣硬化的發病與進展機制是防治腦血管意外的關鍵。研究發現,頸動脈粥樣硬化的發生與發展受到包括血管內皮細胞功能障礙、慢性炎癥反應、循環白細胞的募集、脂代謝紊亂、血管平滑肌細胞的增殖與遷移在內的多種因素的調節[3-4]。鑒于影響頸動脈粥樣硬化的相關因素較多,深入探索和找尋其中的關鍵調控基因及潛在信號通路具有重要意義。
基因芯片是分析基因表達的高通量平臺,已被廣泛用于研究人類疾病相關基因的表達譜。生物信息學分析可以在基因組水平上篩選出相關疾病的差異基因。然而,獨立的微陣列分析常導致假陽性率。本研究從基因表達公共數據庫(GEO)中下載關于研究早期和晚期頸動脈粥樣硬化的2個微陣列數據集(GSE43292[5]、GSE28829[6]),再將原始數據進行一系列預處理后,篩選出與頸動脈粥樣硬化進展相關的差異基因。再對差異基因進行基因本體論(GO)功能注釋和京都基因與基因組百科全書(KEGG)信號通路富集分析以尋找潛在的信號通路。然后,利用蛋白質-蛋白質相互作用(PPI)網絡數據庫(STRING)和Cytoscape軟件分析差異基因的關聯性,篩選出調控頸動脈粥樣硬化進展的Hub基因。這項研究的結果或有助于進一步認識頸動脈粥樣硬化發病與進展的分子機制。
1.1 微陣列數據下載和處理 首先,從GEO數據庫中下載關于早期和晚期頸動脈粥樣硬化研究的GSE28829和GSE43292這2個數據集。GSE28829是在GPL570[HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array平臺基礎上檢測出來的,由13個早期和16個重度病變的樣本組成。而包含32個早期和32個重度病變樣本的GSE43292使用GPL6244[HuGene-1_0-st]Affymetrix Human Gene 1.0 ST Array[transcript (gene) version]平臺。然后,將下載的數據集原始文件依據其平臺提供的注釋配置文件分別進行注釋,獲得2個基因表達矩陣文件,再將兩者合并為一個文件。利用R語言(版本3.6.3,http://r-project.org/)中的“sva”軟件包來消除合并后的表達矩陣數據的批次效應,最終得到標準化的基因表達矩陣文件。用boxplot圖展示合并后的表達矩陣的批次效應。
1.2 差異基因的篩選 差異基因的篩選是利用R語言中的“limma”軟件包實現的。用Benjamini-Hochberg法校正P值,然后計算出P值的錯誤發現率(FDR)。基因表達的差異用差異倍數(FC)表示。本研究設定的差異基因的篩選標準為|log2FC|>0.585并且FDR<0.01[7]。為了展示差異基因的表達差異,分別用“ggplot2”和“pheatmap”軟件包繪制出差異基因的火山圖和重要基因的表達熱圖。
1.3 差異基因的GO功能注釋和KEGG信號通路富集分析 利用“clusterProfiler”軟件包分別對篩選出的差異基因進行GO功能注釋和KEGG信號通路富集分析。其中GO功能注釋是按照生物過程(BP)、分子功能(MF)和細胞組分(CC)3個部分對目標基因的功能進行注釋。KEGG是將目標基因按照所在生物學通路進行富集分析。以校正后的P值<0.05為界值。分析結果以氣泡圖展示。
1.4 差異基因的PPI網絡構建與Hub基因篩選 利用 STRING(版本11.0,http:/ / string-db.org/)工具來構建差異基因的PPI網絡,探索差異基因與互作網絡間的關系。PPI的閾值設定為≥0.9(最高置信度)。用Cytoscape軟件(3.7.2版)來進一步分析和可視化PPI網絡數據。分別應用 CytoHubba 中的“Degree”“Maximal Clique Centrality (MCC)”和“Maximum Neighborhood Component (MNC)”分析方法從所有差異基因中發現各自的特征節點。采用Venn圖法將各自排列前十的節點取交集獲得的共有基因定為Hub基因。
2.1 數據處理和差異基因的篩選及分析 首先,本組用boxplot圖展示了從GSE28829和GSE43292數據集合并而來的表達矩陣的批次效應。圖1展示了2個數據集中包含的多個樣本數據中多個基因的差異表達情況。對比圖1A與圖1B的結果可知“sva”軟件包可以很好地消除這2個不同數據集合并后的批次效應。這說明合并后的數據具備進一步分析處理的必要條件。然后,利用“limma”包來分析合并后的表達矩陣文件共獲得197個表達下調和379個表達上調的差異基因,所獲結果可視化為火山圖,見圖2。用“pheatmap”包繪制差異最顯著的前15個上調和下調基因的熱圖(圖3)。其中下調的基因有TPH1、CASQ2、PLD5、CNTN1、HAND2-AS1、ACADL、ITLN1、PDE8B、SLC22A3、ANGPTL1、CNN1、FHL5、ATRNL1、SCRG1、ATP1A2;上調的基因有MMP9、MMP12、FABP4、FABP5、IGHM、CD36、MMP7、CD52、ADAMDEC1、AQP9、IGLJ3、CHI3L1、ACP5、CCL19、CCR1。

圖1 2個不同數據集合并前后的批次效應:

圖2 數據集GSE43292與GSE28829合并后的火山圖

圖3 早期和晚期頸動脈粥樣硬化斑塊之間差異最顯著的前15個上調和下調基因的熱圖
2.2 差異基因的GO功能注釋和KEGG信號通路富集分析 利用R語言“clusterProfiler”包對差異基因進行GO功能注釋和KEGG通路富集分析的結果見圖4。按富集基因數目排序前10的GO功能注釋結果如圖4A所示,BP途徑中差異基因主要富集于中性粒細胞活化、中性粒細胞脫顆粒及參與免疫反應的中性粒細胞活化等與免疫、炎癥反應的途徑;CC途徑中差異基因主要富集于分泌顆粒膜、分泌顆粒內腔及胞質囊腔等途徑;MF途徑中差異基因主要富集于肌動蛋白結合蛋白、糖結合蛋白及免疫受體活性等途徑。基于KEGG信號通路分析可見差異基因在結核病、脂質和動脈粥樣硬化、細胞因子-細胞因子受體相互作用、吞噬小體、趨化因子信號通路、細胞黏附分子、肌動蛋白細胞骨架調節、中性粒細胞胞外誘捕網形成等通路顯著富集(圖4B)。以上結果提示,免疫與炎癥反應或在頸動脈粥樣硬化的發生與進展中起重要作用。

注:GO為基因本體論;BP為生物過程,CC為細胞組分,MF為分子功能;KEGG為京都基因與基因組百科全書。

注:紅色代表上調基因;綠色代表下調基因;PPI為蛋白質-蛋白質相互作用。
2.3 差異基因的PPI網絡構建與Hub基因篩選 從STRING數據庫下載的差異基因的PPI網絡由566個節點和503條邊組成。經Cytoscape軟件進行可視化分析的結果如圖5所示,紅色和綠色注釋分別表示上調和下調的基因,各節點大小與Degree呈正相關。利用 CytoHubba 中的Degree、MCC和MNC分析方法分析得到各自排序前十的差異基因見表1。采用Venn圖法取以上3種方法獲得的基因的交集,如圖6所示,交叉部分的3個LYN、SYK和HCK是Hub基因,其對應的蛋白可能是核心蛋白或具有重要生理調控功能的關鍵候選基因。

注:MCC為Maximal Clique Centrality;MNC為Maximum Neighborhood Component。

表1 利用Degree、MCC、MNC方法計算獲得的排列前十的基因列表
據統計,腦卒中已成為世界上第二大常見的致死因素,也是最普遍的致殘原因之一[8]。頸動脈內膜下粥樣硬化性斑塊的慢性累積導致的頸動脈粥樣硬化約占缺血性腦卒中致病因素的20%~30%[1]。因此,了解頸動脈粥樣硬化發生與進展的病因和分子機制對于防治腦卒中至關重要。基于基因芯片技術獲得的基因表達譜可用來同時比較成千上萬個基因的表達變化,而生物信息學的快速發展,使暴增的基因芯片表達譜大數據能夠得到更好地解析,也使得更多蘊藏在大數據中的生物信息能夠被挖掘。本研究利用生物信息學分析技術對從GEO數據庫下載來的GSE28829和GSE43292這2個關于頸動脈粥樣硬化研究的數據集進行重注釋、合并數據并標準化處理后分析,共獲得576個差異基因,其中下調基因197個,上調基因379個;它們共同構成了頸動脈粥樣硬化進展的差異基因表達譜,與頸動脈粥樣硬化的進展密切相關。目標差異基因的GO功能注釋和KEGG信號通路富集分析結果顯示主要與炎癥反應、免疫應答、細胞因子-細胞因子受體相互作用、吞噬小體、趨化因子信號通路和細胞黏附分子信號通路等有關。PPI網絡分析篩選LYN、SYK、HCK為Hub基因,可能在頸動脈粥樣硬化進展中發揮重要的作用。
LYN編碼一種非受體型酪氨酸蛋白激酶,可以從細胞表面受體傳遞信號,在調節先天性和獲得性免疫反應、造血、對生長因子和細胞因子的反應、整合素信號轉導以及對DNA損傷和遺傳毒性物質的反應中發揮重要作用。LYN是調節糖蛋白Ⅵ信號轉導的主要Src家族激酶,在激光損傷模型中,它的缺失導致激活延遲和血小板在膠原上的聚集顯著減少[9]。然而,另一項明顯相互矛盾的研究表明,LYN抑制了血小板的激活,并且隨著血小板聚集的進行,LYN的活性越來越低[10]。Miki等[11]認為LYN在血脂代謝中起重要作用,在高脂飲食的動脈粥樣硬化病變發展過程中可誘導與動脈粥樣硬化相關的單核細胞趨化蛋白-1的表達。SYK編碼的也是非受體型酪氨酸蛋白激酶家族的成員,這種蛋白在造血細胞中廣泛表達,并參與將激活的免疫受體與下游信號事件偶聯,介導不同的細胞反應,包括增殖、分化和吞噬。研究發現SYK可通過激活單核細胞趨化蛋白-1的表達參與動脈粥樣硬化的發病[12]。Choi等[13]發現SYK通過激活自噬調節巨噬細胞MHC-Ⅱ的表達在人類動脈粥樣硬化的慢性炎癥中起作用。此外,SYK的抑制劑福他替尼可減輕了小鼠的動脈粥樣硬化形成,表明SYK是動脈粥樣硬化的潛在抗感染治療靶點[14]。HCK是酪氨酸激酶Src家族中的一員,它傳遞膜受體信號,在免疫細胞的存活、增殖、遷移和吞噬過程中發揮重要作用[15]。另據報道,HCK可以調節炎癥小體(NOD樣受體家族蛋白3)的表達從而影響類似于動脈粥樣硬化、多發性硬化、2型糖尿病、帕金森病等與炎癥相關的疾病[16]。此外,HCK還參與了白細胞的黏附和遷移,這可能促進動脈粥樣硬化斑塊的形成[17]。
本研究通過生物信息學的方法研究了與頸動脈粥樣硬化進展相關的差異基因及其相關通路變化,為頸動脈粥樣硬化進展機制研究奠定基礎;篩選出的LYN、SYK和HCK等3個Hub基因可能成為頸動脈粥樣硬化斑塊的潛在治療靶點。然而,相關基因的功能還需要進一步分子生物學實驗來證實。