吳昱升,林栩▲,王蓉,黃慕源,徐璐瑤,張潔,楊嵐茵,藍夢麟
(1.右江民族醫學院附屬醫院腎內科,廣西百色533000;2.廣西免疫相關性疾病醫學科研基礎保障重點實驗室,廣西百色 533000)
系統性紅斑狼瘡(systemic lupus erythematosus,SLE)是一種涉及對內源性核顆粒的不適當免疫反應[1],狼瘡性腎炎(lupus nephritis,LN)是SLE最常見和最嚴重的靶器官表現之一[2]。10%~30%的LN患者在確診后15年內發展為終末期腎病(end-stage renal disease,ESRD),這是SLE死亡的主要原因[3]。最近的研究表明,LN易感基因(破壞免疫耐受)可以增強先天免疫信號通路,促進淋巴細胞活化,從而導致腎損傷[4]。鐵死亡是一種新發現的程序性細胞死亡,其特點是產生脂質活性氧(reactive oxygen species,ROS)和鐵超載,導致胱天蛋白酶和壞死體非依賴性細胞死亡。中性粒細胞鐵死亡在狼瘡發病機制中起到關鍵作用,鐵死亡抑制劑治療可以顯著改善狼瘡小鼠的疾病嚴重程度[5]。本研究以鐵死亡相關基因(ferroptosis-related genes,FRGs)為目的基因篩選LN的生物標志物,旨在為LN的治療提供新的策略。
1.1 數據來源從GEO數據庫(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo/query)下載LN患者的轉錄組數據和臨床數據。GSE32591數據集包含93例腎小管間質樣本和腎小球樣本,提取腎小球樣本為本研究的研究對象,其中包含14例正常樣本和32例LN患者。GSE157293數據集包含3例正常樣本和3例LN患者的長鏈非編碼RNA(long noncoding RNA,lncRNA)和miRNA表達數據。此外,從FerrDB數據庫(http://www.zhounan.org/ferrdb)中獲得了349個FRGs,包括激活基因、抑制基因和標記基因。
1.2 方法
1.2.1 差異分析使用“limma”R軟件篩選GSE32591數據集中的14例正常樣本和32例LN樣本之間的差異表達基因(differentially expressed genes,DEGs),篩選標準為P<0.05, |Log2FC|>0.5,利用“ggplot”和“pheatmap”R包繪制DEGs的火山圖和熱圖。
1.2.2 差異表達的LN相關基因(LN-related DEGs,LN-DEGs)的篩選本研究使用“WGCNA”R包進行加權基因共表達網絡分析(weighted gene co-expression network analysis,WGCNA),用good Samples Genes函數來過濾離群樣本。為了確?;蛑g的相互作用最大限度地符合無尺度分布,首先確定了軟閾值。設置每個模塊的最小基因數為100,通過動態剪切樹算法合并模塊,設置MEDissThres為0.2來合并相似的模塊。最后分析LN與模塊之間的相關性來尋找LN相關基因(LN-related genes,LNGs),并將DEGs和LNGs相交得到LN-DEGs。
1.2.3 功能富集分析為了尋找LN-DEGs的功能和相關通路,使用“clusterProfiler”包進行GO和KEGG富集分析,P<0.05為顯著富集。
1.2.4 蛋白質互作網絡(protein-protein interaction,PPI)為了研究LN-DEGs之間的相互作用,使用STRING(https://string-db.org)網站構建蛋白質相互作用網絡,并選擇置信水平為0.4。
1.2.5 篩選診斷基因將上述LN-DEGs與349個FRGs取交集,得到狼瘡性腎炎-鐵死亡相關差異表達基因(LN-FR DEGs)。使用“glmnet”R包對LN-FR DEGs進行LASSO回歸分析。同時,利用“e1071”R包對LN-FR DEGs進行支持向量機遞歸特征消除(support vector machine recursive feature elimination feature,SVM-RFE)分析,獲得特征基因。將LASSO和SVM得到的特征基因取交集,并繪制受試者工作特征(ROC)曲線,得到診斷基因。
1.2.6 免疫細胞與診斷基因的相關性分析用“GSVA”R包計算LN和正常樣品中23種免疫細胞的含量,并通過Wilcoxon秩和檢驗比較兩組樣品中的免疫細胞含量。并通過Pearson相關分析探索23種免疫細胞與診斷基因的關系。
1.2.7 CeRNA網絡分析使用“DESeq2”R包篩選GSE157293數據集中的差異miRNA和差異lncRNA,篩選條件為P<0.05和|Log2FC|>0.5。然后我們使用miRWalk網站,設置置信水平為1,預測與上述交叉miRNA結合的lncRNA,與差異lncRNA取交集。用上述交叉miRNA,lncRNA和診斷基因構建ceRNA網絡。
1.2.8 診斷基因表達量的驗證為了驗證診斷基因的表達量,分別在GSE32591和GSE157293數據集中比較了LN樣本和正常樣本的同源性磷酸酶-張力蛋白(phosphatase and tensin homolog,PTEN)和孤束核受體4A1(NR4A1)的表達。
2.1 差異分析本研究共篩選出了1221個DEGs,包括694個上調基因,527個下調基因。熱圖展示了DEGs的表達(圖1)。
2.2 差異表達的LN相關基因的篩選樣本和性狀聚類樹圖顯示不需要對基因進行過濾(圖2)。當軟閾值為5時,基因間的相互作用符合無標度分布(圖3)。通過動態混合樹剪切算法得到13個模塊(圖4),合并后得到11個模塊(圖5)。LN與模塊之間的相關性顯示Blue模塊與LN顯著相關(圖6)。Blue模塊與LN相關性散點圖如圖7。1221個DEGs與Blue模塊中的2278個LN相關基因相交,共得到628個LN-DEGs。

注:每個小方格代表每個樣本,每行表示每個基因,表達量越高顏色越紅,越少越藍圖1 差異基因表達熱圖 圖2 樣本和性狀樹形圖

圖3 無尺度軟閾值的篩選

圖4 聚類模塊樹形圖

注:基因通過層次聚類被分為各種模塊,不同的顏色代表不同的模塊,其中灰色默認是無法歸類于任何模塊的基因 注:縱坐標為不同模塊,橫坐標為臨床性狀,每一個方塊表示某模塊和某性狀的相關性系數圖5 模塊的識別與合并 圖6 模塊與臨床性狀相關性熱圖

注:橫坐標表示Blue模塊內的連通度,縱坐標表示臨床性狀圖7 Blue模塊與LN性狀相關性散點圖
2.3 功能富集分析628個LN-DEGs共富集到1619個GO條目(圖8),主要富集到免疫相關通路,包括白細胞黏附和信息、激活免疫反應、白細胞增生、免疫反應調節信號通路和淋巴細胞增殖等。KEGG富集結果顯示富集到了98條KEGG通路,圖9顯示了15個KEGG條目,包括病毒性心肌炎、病毒感染、肺結核、金黃色葡萄球菌感染、甲型流感、破骨細胞分化、抗原加工和呈遞等通路。

注:橫軸表示GO詞條包含的目標基因數,縱軸表示GO詞條的名稱,顏色表征-log10(P-value)圖8 LN-DEGs的GO富集圖

注:橫軸表示KEGG詞條包含的目標基因數,縱軸表示KEGG詞條的名稱,顏色表征-log10(P-value)圖9 LN-DEGs的KEGG 富集圖
2.4 PPI網絡蛋白質通過相互作用構成網絡來參與生物信號傳遞、基因表達調節及細胞周期調控等生命過程的各個環節。628個LN-DEGs構建的PPI網絡如圖10所示。有557個基因有相互作用,共有5028個相互作用關系。

圖10 蛋白質相互作用網絡
2.5 診斷基因的篩選628個LN-DEGs與349個FRGs相交共得到21個LN-FR DEGs。通過LASSO回歸分析得到基因系數圖和交叉驗證誤差圖(圖11),lambdamin為0.0049時篩出7個特征基因。SVM-RFE模型的特征基因排名如表1所示,SVM準確率和泛化誤差與特征數的關系圖表明,當基因從1~21變化時,預測LN樣本和正常樣本最佳點的錯誤率為0.0167,精確率為0.983,共納入了5個特征基因(圖12)。然后將LASSO和SVM得到的特征基因取交集,得到關鍵基因PTEN和NR4A1,繪制ROC曲線驗證診斷模型的預測能力,發現診斷模型具有良好的診斷能力(AUC=0.98),PTEN(AUC=0.90)和NR4A1為診斷基因 (AUC=0.79)(圖13)。

圖11 LASSO回歸分析篩選診斷基因

注:橫坐標代表的是特征基因的個數,左圖縱坐標表示5折交叉驗證下的準確性,右縱坐標表示5折交叉驗證下的泛化誤差。折線圖線的趨勢代表特征基因個數與準確度和泛化誤差的關系圖12 SVM準確率和泛化誤差與特征數的關系圖

圖13 LASSO、SVM篩選預后診斷基因的ROC曲線

表1 SVM-RFE模型特征基因排名
2.6 免疫細胞與診斷基因的相關性分析LN和正常樣本中23個免疫細胞的小提琴圖如圖14所示。LN樣本中eoslinophils、NKCD56bright、NK細胞、TFH和Th17細胞含量低,aDC、毒性細胞、iDC、巨噬細胞、Tcm和Tgd含量高。相關性結果表明PTEN與aDC、iDC、巨噬細胞、中性粒細胞、Tcm、Tgd、Th1細胞、Th2細胞呈正相關,與NK CD56dim細胞、NK細胞、TFH、Th17細胞呈負相關。NR4A1與嗜酸性粒細胞、NKCD56bright、NK CD56dim細胞、Th1細胞、Th17細胞呈正相關,與aDC、iDC、巨噬細胞、T輔助細胞、Th2細胞呈負相關(圖15)。

注:“*”表示P-value<0.05;“**”表示P-value<0.01;“***”表示P-value<0.001;“****”表示P-value<0.0001圖14 ssGSEA算法免疫細胞類型小提琴圖展示

圖15 ssGSEA算法免疫細胞類型在各亞型中的免疫評分柱狀堆疊圖展示
2.7 CeRNA網絡分析本研究共篩選出36個差異miRNAs,包括12個上調的差異miRNAs和24個下調的差異miRNAs。共篩選出992個差異lncRNAs,包括412個上調的差異lncRNAs和580個下調的差異lncRNAs。將差異miRNA和lncRNA與miRWalk網站預測到的miRNA和lncRNA取交集得到4個miRNA(hsa-miR-183-5p,hsa-miR-129-5p,hsa-miR-1269b,hsa-miR-642b-5p),3個lncRNA(MIR497HG,LINC01963,TBX2-AS1),構建的ceRNA網絡見圖16。結果表明LINC01963可能通過hsa-miR-129-5p調節PTEN,TBX2-AS1和MIR497HG可能通過hsa-miR-642b-5p調節NR4A1。

注:綠色菱形表示miRNA,紅色圓形表示mRNA,黃色矩形表示lncRNA圖16 核心基因ceRNA網絡構建
2.8 診斷基因的表達驗證在GSE32591數據集中,PTEN在LN樣本中高表達,NR4A1在LN樣本中低表達(圖17)。在GSE157293數據集中,PTEN和NR4A1的表達趨勢與GSE32591數據集相同(圖18),說明獲得的診斷基因具有可靠性。

注:此處統計方法為Wilcoxon.test,“****”表示表示P-value<0.0001,“**”表示P-value<0.01 注:此處統計方法為Wilcoxon.test,“****”P-value<0.0001,“**”表示P-value<0.01圖17 診斷基因表達量展示 圖18 診斷基因外部數據集的驗證
LN是SLE病人的常見并發癥,目前對于LN的診斷和治療標準還不完善[6]。鐵死亡是新近發現的一種伴隨著大量鐵積累和脂質過氧化的細胞死亡形式。鐵死亡與許多疾病的病理生理過程密切相關,包括腫瘤、神經系統疾病、缺血再灌注損傷、腎損傷和鐵代謝疾病等[7]。研究LN中鐵死亡所涉及的機制有助于為LN的治療提供新的策略。
本實驗通過機器學習得到了PTEN、NR4A1兩個診斷基因。PTEN基因是一種磷酸酶和張力蛋白的同系物,能夠編碼一個同時具有雙特異性蛋白和磷脂酸化酶功能的腫瘤抑制蛋白(PTEN蛋白)。PTEN蛋白廣泛表達并介導黏附、遷移、細胞存活和凋亡等細胞過程[8]。有研究報告指出,PTEN缺乏在體內外以多種方式加重高血糖狀態下的腎臟足細胞損傷,包括足細胞骨架重排、焦亡、細胞自噬和上皮細胞-間充質轉化[9]。足細胞中PTEN的表達升高可能通過代償性改善自噬以及抑制凋亡保護腎臟免受高血糖的影響,特異性敲除足細胞中PTEN基因可以引起尿白蛋白排泄增加,中度腎小球硬化等癥狀[10-12]。這些研究結果增強了PTEN成為LN新的治療干預手段的可能性。
孤束核受體NR4A1(nuclear receptor subfamily 4,group A,member 1),也稱為TR3、Nur77m或NGF-IB,屬于類固醇/甲狀腺激素受體家族[13],參與很多細胞活動,如葡萄糖和脂質代謝、凋亡和血管內穩態等[14]。NR4A1的表達可由多種炎癥刺激快速誘導并通過單核細胞和巨噬細胞中的核NF-κB途徑激活,活化的NR4A1反過來可以通過阻斷p65與DNA的結合以及直接誘導其他NF-κB抑制劑表達來抑制NF-κB的活化。NR4A1在生理條件下是炎癥反應的天然對應物,但在炎癥和慢性疾病(如神經炎癥和纖維化等)中,NR4A1常常表達為下調或失活[15]。NR4A1作為細胞凋亡傳感器和組織穩態協調器,維持自身免疫耐受,有望成為自身免疫性疾病治療中新的靶點。
本文GO條目主要涉及多種細胞生物學活動,如白細胞黏附和信息、激活免疫反應、白細胞增生、免疫反應調節信號通路、白細胞游走等。致病性自身抗體的產生、免疫復合物(IC)的沉積和補體級聯的激活都是狼瘡患者引發腎炎的原因[16];巨噬細胞和淋巴細胞(主要是T細胞)的間質浸潤,常常引起腎臟細胞損傷、間質纖維化和腎小管萎縮;細胞免疫在腎小球腎炎發病機制中也起到重要作用,白細胞從循環中遷移到周圍組織在發炎的血管內皮上初始滾動、趨化因子對白細胞的激活、整合素及其配體相互作用介導的血管壁附著以及跨內皮遷移等一系列活動貫穿LN的發展[17]。在LN開始階段,免疫沉淀物和自身抗體上調,從而引起炎性細胞因子和趨化因子表達及白細胞浸潤和激活,活化的白細胞繼而產生增強炎癥反應的細胞因子,多種觸發因素持續產生的細胞因子與LN的進展相關[18]。因此,從LN的起始階段到進展階段,細胞活動以及細胞因子是必不可少的。
KEGG富集結果表明,LN-DEGs主要富集于病毒性心肌炎、病毒感染、肺結核、金黃色葡萄球菌感染、甲型流感、破骨細胞分化、抗原加工和呈遞、EB病毒感染、補體和凝血級聯反應、自然殺傷細胞介導的細胞毒性等條目。獲得性免疫缺陷的易感因素包括補體缺陷(尤其是C1q和C4)、細胞因子調節受損、T細胞增殖和B細胞功能改變,與外部因素(主要是感染)共同引發了SLE的發展[19-20]。有研究表明,狼瘡性腎炎與EBV抗原潛伏膜蛋白(LMP)1之間存在關聯,與健康對照組相比,SLE患者中EBV定向抗體的頻率更高,滴度更高,表明EBV頻繁被再激活[21]。EB病毒可能參與LN患者體內各種自身抗體的形成,并有望成為LN治療的新策略。
ssGSEA結果顯示LN樣本中eoslinophils、NKCD56bright細胞、NK細胞、TFH和Th17細胞含量低,aDC、毒性細胞、iDC、巨噬細胞、Tcm和Tgd含量顯著升高。腎小球中的免疫復合物沉積,以及T細胞、B細胞和髓樣細胞(主要位于腎小球外)參與的炎癥過程是LN的主要致病特征。有研究顯示,與健康人相比,SLE患者外周血中NK細胞的比例和總數顯著降低,細胞毒性降低,并最終引起免疫失調[22],這與本文的免疫浸潤分析結果一致。此外,也有實驗結果證實了處于活動期SLE病人體內的IFN-α濃度顯著超過非活動期SLE病人[23],因此IFN-α是SLE發病機制中的一個關鍵細胞因子,重要的是,研究表明血清IFN-α水平與NK細胞中IFN-γ的產生直接相關。NK細胞產生IFN-γ的能力和IFN-α血清水平之間的直接相關性以及在先天免疫和適應性免疫之間的聯系可能成為LN新型免疫治療策略的發展。
ceRNA全稱內源競爭RNA(competing endogenous RNA),一般常用的分析結構有lncRNA-miRNA-mRNA分析或circRNA-miRNA-mRNA分析,其中miRNA處于調控的核心地位,當miRNA被lncRNA或circRNA這類ceRNA競爭結合時,受miRNA家族調控的mRNA轉錄水平會上升。本文ceRNA網絡結果表明LINC01963可能通過hsa-miR-129-5p調節PTEN,TBX2-AS1和MIR497HG可能通過hsa-miR-642b-5p調節NR4A1,這在以往的文獻中還沒有報道過,可能成為LN治療的新的靶向策略。
綜上所述,本研究通過GEO數據庫中LN患者轉錄組數據和臨床數據,以及349個鐵死亡(激活、抑制、標記基因)相關基因進行生物信息學分析,得到PTEN、NR4A1兩個診斷基因,其表達量在外部數據集中的驗證結果均有顯著差異,這為LN的發病機制研究及治療提供了新的思路。
利益沖突:所有作者都聲明不存在利益沖突。