楊 曼 ,趙興安 ,葛蕓娜 ,秦 娟 ,王璽雅 ,陶四明
(1)大理大學臨床醫學院/大理市第一人民醫院心內科,云南 大理 671000;2)云南大學附屬醫院/云南省第二人民醫院/云南省眼科醫院心內科,云南 昆明 650021)
心房顫動(atrial fibrillation,AF)增加心力衰竭和缺血性卒中的風險,并且對疾病相關的發病率和死亡率有顯著貢獻。AF 的發病機制非常復雜,一系列神經、體液、炎癥反應、氧化應激等因素激活多種細胞因子和信號通路,最終導致心肌纖維化和心臟功能受損。然而,確切的病因和病理生理機制迄今尚未完全闡明。隨著分子免疫學的發展與新興技術的應用,許多基因表達譜已被應用于研究免疫細胞的分布和遺傳生物標志物[1],為AF 的靶向預防和個體化治療提供參考。
研究表明,活化的免疫細胞如中性粒細胞、單核細胞/巨噬細胞、肥大細胞、T 細胞、樹突狀細胞可能是組織修復、重塑和纖維化的關鍵參與者[2-3]。近年來的研究從免疫浸潤的角度,提出了基于炎癥反應的房顫發病機制的新見解[4]。然而,免疫炎癥反應在房顫中的潛在機制仍然知之甚少。巨噬細胞是心臟免疫細胞中最重要的成員[2],對心臟穩態起著關鍵的調節作用。巨噬細胞與炎癥密切相關[4],減少促炎巨噬細胞的數量或功能的治療策略在一些臨床研究中逐漸顯現[5]。進一步探索炎癥相關基因和免疫細胞,特別是巨噬細胞在AF 中的作用和機制將有助于臨床工作者更好地理解該疾病。
在本研究中,一方面,筆者從綜合數據集中篩選出AF 和竇性心律(sinus rhythm,SR)患者左心耳組織樣本的差異表達基因(differentially expressed genes,DEGs);另一方面,筆者使用CIBERSORT 算法和加權基因共表達網絡分析(weighted gene correlation network analysis,WGCNA)的組合方法來識別浸潤免疫細胞的相關基因(immunerelatedgenes,IRGs)。隨后,對2 種方法共享的基因(differentially expressed immune-related genes,DEIRGs)進行生物功能富集分析,并通過蛋白-蛋白相互作用(protein-protein interactions,PPI)網絡分析、Cytoscape 軟件篩選出候選基因。接著,筆者使用3 種機器學習算法構建預測模型,識別關鍵基因;并通過ROC 曲線驗證關鍵基因的診斷效能,最后,使用Spearman 分析了關鍵基因與免疫細胞亞型之間的相關性。本研究旨在探討免疫細胞在AF 中的浸潤特征,尋找潛在的診斷和治療靶點,為后續的臨床研究提供指導。
下載的AF 和SR 基因表達譜數據及相應臨床信息來自基因表達綜合數據庫(GEO,https://www.ncbi.nlm.nih.gov/geo/)。5 個包含人左心耳組織RNA含量的微陣列數據集(GSE14975、GSE31821、GSE79768、GSE41177 和GSE115574)被納入進一步評估。以上5 個數據集均基于GPL570 平臺,總共包含了來自 31 名SR 和44 名 AF 瓣膜病患者的左心耳組織樣本。本研究中的所有數據均來自公共數據庫,因此不需要獲得該機構的倫理批準。生物信息學分析流程,見圖1。

圖1 生物信息學分析的流程圖Fig.1 Flow diagram of the bioinformatics analysis
利用R(4.3.1)軟件合并下載的5 個微陣列數據集,矩陣文件通過“sva”包標準化和去批次效應處理,并用主成分分析(principal component analysis,PCA)圖可視化。探針ID 通過perl 語言(5.28.1)轉換為基因符號,創建基因表達矩陣。AF 和SR 患者之間的DEGs 篩選采用R 軟件的“limma”軟件包進行。選擇P<0.05 和| log2(fold change,FC)|>1 作為閾值。最后,根據上述數據使用“pheatmap”R 包繪制熱圖和火山圖。
在R 中使用CIBERSORT 算法[6]對整合的基因表達矩陣文件進行免疫浸潤分析,采用P<0.05對樣本進行過濾,得到22 種免疫細胞亞型的浸潤比例和相關性。“ggplot2”R 包和“ggpubr”R 包用于繪制細胞比例堆積圖,AF 和SR 2 組間22 種免疫細胞亞型的浸潤分數用R 中的“vioplot”包生成小提琴圖。對22 種浸潤性免疫細胞進行Spearman 相關分析,并采用“Corrplot”包生成相關熱圖。
加權基因共表達網絡[7]使用R 軟件構建,將表達模式相似的基因進行聚類,探討基因表達與免疫細胞浸潤之間的關系。綜合數據集使用絕對中位差對基因進行降序排列,選擇前10 000 個基因,選擇軟閾值來驗證無尺度網絡。基于拓撲重疊矩陣(topological overlap matrix,TOM)的差異度對平均連鎖層次進行聚類,然后將表達模式相似的基因聚類為模塊,采用平均連鎖層次聚類方法,用不同的顏色進行標記。每個模塊的最小基因數為30 個,模塊合并的閾值為0.25。根據免疫浸潤的特征,選擇P值最小、相關性最高的模塊作為關鍵模塊。關鍵模塊中的基因(IRGs)被篩選出用做下一步分析。
取DEGs 和IRGs 交集的基因(DEIRGs)在維恩圖[Draw Venn Diagram(ugent.be)]中呈現。利用注釋、可視化和富集分析數據庫(DAVID,2021-Update,https://david.ncifcrf.gov/home.jsp)對DEIRGs進行GO 和KEGG 富集分析。研究模塊基因的生物學功能包括生物過程(biological processes,BP)、細胞成分(cellular components,CC)、分子功能(molecular functions,MF)和信號通路,P值<0.05和計數≥3 被認為顯著富集。
在STRING(https://cn.string-db.org)網站中將DEIRGs 導入檢索工具,生成PPI 網絡,評估蛋白質之間相互作用關系。評分>0.4 識別基因間相互作用的閾值。節點代表蛋白質,邊代表PPI 網絡中的蛋白質-蛋白質關聯。然后使用Cytoscape軟件(v3.8.1)對從STRING 數據庫中下載的結果進行可視化。Cytoscape 軟件的MCODE 插件來識別樞紐基因,基于MCC(maximum clique centrality)算法從得分排名篩選出候選基因。
利用最小絕對值收斂和選擇算子算法(least absolute shrinkage and selection operator,LASSO)、隨機森林(random forest,RF)、支持向量機遞歸特征消除(support vector machine recursive feature eilmination,SVM-RFE)3 種機器學習算法在R 中使用“mlr3verse”、“randomForest”和“e1071”包構建AF 的預測模型。對每個預測模型的特征重要性進行分析和排序,篩選出關鍵基因。具體而言,首先,基于“mlr3”R 包,候選基因的表達數據根據7∶3 的比例隨機分配到訓練集和測試集。接著,使用交叉驗證篩選出最佳的變量組合。最后,使用“pROC”R 包繪制ROC 曲線。獲得ROC 曲線下的面積(area under curve,AUC)值和95%的置信區間(confidence interval,CI)值,以評估關鍵基因的敏感度和特異度。
為了驗證關鍵基因的診斷有效性和預測價值,一方面,關鍵基因在綜合數據集中的差異表達用“ggpubr”R 包繪制箱線圖,并用“glm”函數進行Logistic 回歸分析,構建AF 診斷模型,評價關鍵基因的預測價值。另一方面,從GEO 數據庫中下載了包含10 個左心耳組織樣本的獨立數據集GSE128188(AF=5,SR=5,GPL18573 平臺),采用“pROC”R 包建立ROC 曲線,計算AUC 值和95%CI值驗證關鍵基因的診斷效能。
在R 中導入關鍵基因在綜合數據集中的表達矩陣和免疫浸潤分析結果文件,使用“corrplot”包中的“Spearman”方法對關鍵基因和浸潤免疫細胞進行相關性分析,結果通過“ggpubr”包可視化。
將5 個數據集合并后的基因表達矩陣進行標準化,批次效應去除后的結果用二維PCA 聚類圖呈現(圖2A),PCA 圖表明,2 組樣本的聚類明顯,說明樣本來源是可靠的。在44 個AF 和31 個SR樣本中,使用 “limma”包共鑒定出593 個DEGs,其中387 個表達上調,216 個表達下調,見圖2B和圖2C。

圖2 AF 和SR 樣本組間的DEGs 鑒定Fig.2 Identification of DEGs between AF and SR samples
使用CIBERSORT 算法分析了綜合數據集中免疫細胞的浸潤水平。圖3A 說明了來自44 個AF 樣本和31 個SR 樣本的免疫細胞比例。圖3B表示7 種免疫細胞亞型的浸潤豐度在2 組樣本間有差異(P<0.05),與SR 相比,來自AF 患者的左心房組織樣本含有更高的活化的CD4 記憶T 細胞、M1 巨噬細胞、M2 巨噬細胞、活化的肥大細胞,而原始的B 細胞、靜息的樹突狀細胞、靜息的肥大細胞含量更低。22 種免疫細胞相關性分析表明,M2 巨噬細胞與單核細胞的正相關關系最強(r=0.51),而M2 巨噬細胞與M0 巨噬細胞呈明顯負相關(r=-0.82),見圖3C。


圖3 免疫細胞浸潤的分布和相關性Fig.3 Distribution and correlation of immune cell infiltration
為了進一步闡明AF 相關免疫細胞的潛在機制和功能,在R 中使用“WGCNA”包,構建無尺度分布網絡(圖4A),選擇軟閾值β=10 來驗證,結果顯示R2=0.81,slope=-0.5,符合無尺度網絡的標準。采用分層聚類的方法將網絡劃分為多個模塊,模塊合并后共獲得4 個模塊(圖4B)。免疫浸潤的特征和模塊的相關性熱圖表明,黑色模塊與M2 巨噬細胞、靜息的樹突狀細胞、活化的肥大細胞呈正相關,而與靜息的肥大細胞呈負相關,見圖4C。選擇黑色模塊作為關鍵模塊,其中包含3 441 個IRGs,見圖4D。

圖4 WGCNA 分析Fig.4 WGCNA analysis
對DEGs 和IRGs 共享 的190 個DEIRGs 進 行GO 和 KEGG 分析以了解這些基因的生物學功能和富集信號通路。BP、CC、MF 顯示了10 個最顯著的結果(圖5A),最與免疫反應(如體液免疫反應、補體激活)、免疫細胞(髓系白細胞分化的負調控作用)和免疫活動(MHCII 類蛋白復合物)有關。KEGG 通路富集分析表明,這些DEIRGs 主要在擴張性心肌病、肥厚性心肌病、病毒性心肌炎、風濕、系統性紅斑狼瘡(systemic lupus erythematosus,SLE)等疾病中富集,并參與吞噬、同種異體移植物的排斥、抗原處理和呈遞、細胞粘附等免疫功能,同時在TGF-β 信號通路富集,見圖5B。

圖5 DEIRGs 的GO 和KEGG 功能富集分析Fig.5 GO and KEGG functional enrichment analysis of the DEIRGs
在3 441 個IRGs 中,共有190 個基因與DEGs重疊,見圖6A。筆者使用 STRING 數據庫構建了一個由190 個DEIRGs 相交的PPI 網絡,去除孤立節點后,使用CytoScape 構建了包含131 個節點和284 條邊的PPI 網絡,見圖6B。節點之間的高互聯性在 PPI 網絡表明了蛋白質之間的功能內聚性。此外,MCC 算法確定了前10 個候選基因。這些候選基因的排名,見圖6C。

圖6 PPI 網絡篩選候選基因Fig.6 PPI network screening for candidate genes
為了獲得較高的準確性,應用3 種機器學習算法從10 個候選基因(COL1A2、IGF1、TIMP1、PTGS2、FMOD、FOS、C3、THBS2、FBLN1 和PPARG)中篩選出核心基因。使用 LASSO 回歸算法降低了候選基因數量,確定了3 個關鍵基因作為預測模型(IGF1、PTGS2 和PPARG),見圖7A;在RF 算法中筆者選擇MeanDecreaseGini 值大于2 的基因作為預測模型(C3、IGF1、PPARG、TIMP1、THBS2、PTGS2 和COL1A2),見圖7B;SVM-RFE 算法確定了5 個基因作為預測模型(PPARG、TIMP1、PTGS2、IGF1 和C3),見圖7C。ROC 曲線驗證了3 種算法的預測效果(AUC,95%CI),見圖7D。最終,筆者選擇了預測效果最好的LASSO 回歸算法中的的3 個關鍵基因(IGF1、PTGS2、PPARG)作為AF 的潛在生物標志物,筆者發現這3 個基因同時也在3 種算法的預測模型中共享。

圖7 機器學習算法識別 AF 生物標志物Fig.7 Machine learning algorithm identifies AF biomarkers
為了評估3 個標志物的預測價值,使用箱線圖展示了3 個關鍵基因在綜合數據集中的表達情況,結果顯示在AF 組中IGF1、PTGS2 和PPARG的表達量高于SR 組,見圖8A。接著,基于3 個關鍵基因的表達情況筆者構建了列線圖作為診斷模型,如圖8B 所示,總的評分越高,AF 的風險就越高。此外,在另一個獨立的數據集(GSE128188)中,3 個關鍵基因的診斷有效性使用ROC 曲線得到進一步驗證,PPARG 的AUC 為0.880(95%CI=0.626~1),IGF1 的AUC 為0.760(95%CI=0.372~1),以及PTGS2 的AUC 為0.72(95%CI=0.365~1),見圖8C~8E。

圖8 生物標志物的診斷及預測效能Fig.8 Diagnostic and predictive efficacy of the biomarkers
為了進一步說明3 個關鍵基因與浸潤免疫細胞的相關性,分析結果用棒棒糖圖可視化,圖9A~9C 分別代表IGF1、PTGS2 和PPARG 和22 種免疫細胞亞型的相關性和P值。


圖9 3 個關鍵基因與22 種免疫細胞亞型的相關性分析Fig.9 Correlation analysis of three key genes with 22 immune cell subtypes
免疫炎癥反應在許多心臟病理生理過程中起著重要的作用,包括AF 導致的心肌損傷和纖維化修復過程[8]。然而,由于免疫炎癥反應在房顫發生和發展過程中的復雜性和多樣性,它們在AF 發病機制中的作用仍需進一步研究。據報道,一些炎癥相關基因與AF 密切相關,如趨化因子受體CXCR2,可能在心房重構和AF 誘導過程中發揮重要的作用[9];基因SPP1 通過與局部免疫細胞和基質細胞的串擾促進心房顫動[10]。基于免疫細胞浸潤特征,分析炎癥生物標志物及其信號分子可能有助于預測患者AF 的風險[11]。
筆者的分析結果表明,AF 的進展與免疫細胞的浸潤密切相關。在本研究中,采用 CIBERSORT 算法探索AF 中免疫細胞的浸潤特征,發現炎癥相關免疫細胞在AF 組中比例增多,并且M2巨噬細胞與單核細胞和M0 巨噬細胞相關性最強。巨噬細胞是心臟中最豐富的白細胞,是細胞因子的主要來源,參與許多重要的免疫、炎癥反應、內環境穩態和代謝過程[11]。研究發現,AF 患者左心耳組織中單核細胞和巨噬細胞是最具有免疫活性的[12]。M2 巨噬細胞極化后可表現出一些與M1 的重疊特征[13],具有促炎的作用。這些結果說明巨噬細胞是心臟的重要免疫細胞,在炎癥刺激后巨噬細胞的極化狀態在維持心臟的穩態和心房重塑過程中發揮著重要作用。筆者的研究進一步證明并強調了這些標記的重要性。
DEIRGs 是AF 免疫炎癥過程中的特征基因。基于WGCNA 的結果,筆者提取了與M2 相關性最強的黑色模塊基因,并篩選出與DEGs 共享的190 個DEIRGs,這些DEIRGs 的GO 分析結果主要涉及免疫細胞、免疫活動和免疫反應過程。研究表明,體液免疫反應、補體激活、髓系白細胞分化的負調控、受體配體活性和細胞粘附等生物過程和分子功能與房顫的進展密切相關[14-15]。MHCII 類蛋白復合物作為巨噬細胞移動抑制因子(macrophage migration inhibitory factor,MIF)的主要受體,協同MIF 促進心房炎癥和纖維化[16]。KEGG 結果主要在擴張性心肌病、肥厚性心肌病、病毒性心肌炎、風濕、SLE 和TGF-β 信號通路富集。眾所周知,心肌病是AF 的基礎,可能與遺傳、免疫相關。另外,研究表明,SLE 可能是房顫的獨立危險因素[17],在AF 中,TGF-β 是促進心房纖維化發生和維持的重要信號通路[18]。筆者的結果說明了這些DEIRGs 參與了AF 的免疫和炎癥過程。
IGF1、PPARG 和PTGS2 被識別為AF 的炎性生物標志物。通過構建PPI 網絡和基因顯著性評分,筆者篩選出了10 個候選基因。據報道,其中一些基因已被證明與房顫發病機制有關[19-21],這說明了本結果的可靠性。通過機器學習算法和ROC 曲線分析,3 個 關鍵基因(IGF1、PTGS2 和PPARG)最終被確定為AF 相關生物標志物。研究表明,IGF1 具有促生長活性,調節心臟的收縮、新陳代謝、肥大、自噬、衰老和細胞凋亡,與心血管疾病風險升高有關[22]。在炎癥刺激下,IGF1作為IGF1R(IGF-1 receptor)的配體,激活酪氨酸激酶的活性,從而激活PI3K-AKT、MAPK 等下游信號通路[23]。先前的研究表明,PI3K-AKT[24]、MAPK[25]信號通路介導心房重構,在房顫發生、發展過程中發揮作用。PTGS2 是1 種前列腺素生物合成中的關鍵酶,可以激活巨噬細胞的吞噬作用[26],在炎癥反應中具有特殊作用[27]。一項心肌細胞試驗證明CV-3 可能通過調節PTGS2 治療房顫[28]。PPARG 是1 種蛋白編碼基因,與PPARG相關的疾病包括胰島素抵抗、糖尿病和高血壓[29]。研究發現,PPARG 通過抑制NF-kappa-B 介導的促炎反應,作為腸道穩態的關鍵調節器[30]。房顫患者的心肌重塑與環形時鐘基因BMAL1 的表達減少有明顯的相關性[31],而PPARG 可通過調節血管中BMAL1 的轉錄來調節心血管晝夜節律[32]。這些研究結果表明,3 個關鍵基因參與了房顫的病理生理過程,和炎癥密切相關。
IGF1、PPARG 和PTGS2 與浸潤免疫細胞關系密切。相關性分析結果表明,3 個關鍵基因的表達與靜息CD4 記憶T 細胞、M0 巨噬細胞呈顯著正相關,而與M2 巨噬細胞呈顯著負相關,基于這些發現,筆者推測IGF1、PPARG 和PTGS2可能通過調節免疫細胞浸潤在AF 的發生發展過程中發揮作用。然而,這些結果需要額外的體內或體外實驗來證明關鍵基因和免疫細胞浸潤之間的復雜相互作用。
綜上所述,本研究通過綜合生物信息學分析鑒定了3 個與AF 炎癥相關的生物標志物(IGF1、PTGS2 和PPARG),筆者還對這些基因與特異性免疫細胞的關系進行了分析與評價。這些結果可能為AF 的免疫系統浸潤模式提供新的見解。