施楠婧 馬麗珍
局部節段性腎小球硬化癥(Focal Segmental Glomerulosclerosis,FSGS) 是 慢 性 腎 臟 病(Chroic Kidney Disease,CKD)的常見組織病理學病變,占全球原發性腎小球疾病的2%~41%[1]。FSGS主要表現為腎病綜合征,會持續進展為終末期腎病(End Stage Renal Disease,ESRD)。數據表明,美國近幾十年來由FSGS引起的ESRD急劇增加,尤其是黑人中,約占成年人ESRD的4%[2]。據報道,FSGS可能通過體內活性氧種類的變化,自噬功能的損害,促炎細胞和補體的增加等多種途徑損傷足細胞[3]。但FSGS的發病機制目前尚未明確,迫切需要更深入研究。本研究通過生物信息學方法,提取基因表達綜合數據庫(Gene Expression Omnibus,GEO)中16例FSGS和21例正常腎小球組織標本信息,通過加權基因共表達網絡分析(Weighted Gene Co-expression Network Analysis,WGCNA)篩選與FSGS相關的模塊和樞紐基因,并通過從開放數據庫中獲得的臨床數據進一步驗證其可靠性。
1.1 數據收集 從公開的基因表達數據庫 GEO(https://www.ncbi.nlm.nih.gov/GEO/)中下載獲取本研究中表達譜芯片GSE104948,包括18例正常腎小球組織和21例FSGS患者的腎小球組織的芯片數據[4]。本研究下載并使用原始數據并對數據進行探針注釋、異常樣本排除、無方差基因過濾的統一預處理。
1.2 WGCNA 利用R語言中的WGCNA軟件包[5]進行WGCNA。首先將表達譜轉換成Pearson相關矩陣,該矩陣是通過計算基因間的Pearson相關系數形成的。其次構建無標度網絡,以無尺度網格指數(R2)=0.8作為滿足無尺度條件的標準,根據平均連接度確定軟閾值(β值)。再將該矩陣轉化為拓撲重疊矩陣(Topological Overlap Matrix,TOM)后,通過對基因構建層次聚類樹圖形,采用動態剪枝法計算基因模塊的顏色,將加權共表達網絡中的基因分為不同的模塊,并合并相似度>0.75的模塊,找出與FSGS發生相關性最高的模塊即為樞紐模塊。為了進一步驗證樞紐模塊的價值,計算相關模塊內基因顯著性(GS)及基因在模塊內的模塊隸屬度(MM)[5]。并對樞紐模塊內基因進行基因本體(Gene Ontology,GO)注釋[6]和京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析[7]。利用R語言中的clusterProfiler軟件包[8]進行可視化分析。均取數據庫中結果P<0.01和Benjamin-Hochberg校正P<0.01為統計顯著性閾值。
1.3 基因表達差異分析 使用轉錄組數據中的Reads count 評估基因表達水平,利用R語言中的limma軟件包[9]對數據標準化,并進行差異表達分析,篩選條件為log FC絕對值>1,P值<0.01,并利用R語言中的heatmap軟件包[10]對數據進行可視化。
1.4 子網絡的提取與樞紐基因的鑒定 從樞紐模塊最顯著GO分析項中提取了基因共表達網絡的子網絡,并利用Cytoscape軟件中的cytoHubba插件[11]進行差異表達基因的樞紐基因的鑒定,利用具有最大團中心性(Maximal Clique Centrality,MCC)的分析方法[12]對子網絡的中心性進行了評估。MCC值最高的基因即為FSGS中潛在的樞紐基因。同時利用Nephroseq芯片數據庫(https://www.nephroseq.org/resource/login.html)驗證樞紐基因的臨床意義,該數據庫提供了腎臟相關的表達譜以及臨床信息,例如肌酐、腎小球濾過率和蛋白尿等。
2.1 數據預處理 本研究下載原始數據后進行歸一化、對數化,探針注釋后共獲得11884個基因的表達譜。在樣本聚類和異常樣本排除后保留了21例正常和16例FSGS樣本的表達譜,見圖1。再刪選出基因表達量方差大于所有方差四分位數的基因共得到5942個基因用于后續分析。

圖1 FSGS與正常對照的臨床性狀熱圖聚類樹狀圖
2.2 WGCNA構建基因共表達模塊 當無尺度網絡指數>0.8時,β=9,其平均連接度最高,見圖2。采用動態分層剪切樹法將5942個基因分為9個共表達模塊,以顏色的英文命名,其中grey模塊表示未納入任何模塊的基因集合(含167 基因),見圖3A。所有分析基因的相關性熱圖顯示,見圖3B。基因主要與同一模塊的基因共表達,與不同模塊的基因共表達關系較弱。通過皮爾遜相關系數評估模塊與臨床特征之間的相關性,見圖4A。brown模塊與FSGS具有最高的正相關系數,因此被確定為進一步分析的樞紐模塊(FSGS相關模塊)。同時,對此模塊的GS與MM值的相關性進行了分析(cor=0.83,P<1E-200,圖4B),再次表明了模塊-性狀相關關系的可靠性。

圖2 選擇合適的軟閾值(β值)

圖3 模塊劃分與驗證

圖4 FSGS相關模塊的識別與驗證
2.3 FSGS相關模塊基因的富集分析及差異表達分析 對FSGS相關模塊的基因進行了富集分析,GO生物過程中主要與免疫細胞的活化相關,如白細胞遷移、T細胞活化、血管發育的調節。GO分子功能中主要與生長因子結合、細胞因子結合和細胞因子受體結合相關。GO細胞成分主要與細胞膜的外側、細胞-基質結合、局灶性粘附。KEGG通道富集分析的結果與GO生物過程相似,基因與細胞因子-細胞因子-受體相互作用、趨化因子信號途徑和細胞粘附分子等密切相關。對FSGS相關模塊中的基因進行了差異表達分析,總共獲得了74個差異表達基因,包括68個上調基因和6個下調基因。與模塊特征關系分析的結果一致,FSGS相關模塊中的大多數基因異常上調。
2.4 子網的挖掘和樞紐基因的鑒定 選取GO生物過程中最相關的“白細胞遷移”進一步分析,從整個共表達網絡中提取基因及其加權鄰接關系,構建一個子網絡。基于CytoHubba插件利用MCC分析方法評估了前500個加權鄰接關系的基因的中心性。MCC值最高的前10位的樞紐基因以黃色和紅色為主,顏色約紅表示MCC值約高,CD48具有較高的MCC值,見圖5。進一步篩查FSGS與正常對照之間CD48的差異表達水平,發現CD48是與FSGS相關的顯著上調的差異表達基因(logFC=1.629,P=4.63E-11),即為FSGS發病機理的中心樞紐基因。同時利用Nephroseq芯片數據庫驗證樞紐基因的相關臨床意義,在21例正常樣本和25例FSGS樣本的數據集分析結果提示CD48在FSGS腎小球組織中明顯過表達,見圖6A。此外,FSGS患者中CD48和GFR呈負相關,見圖6B,提示CD48的增加可能致腎功能惡化。

圖5 從整個共表達網絡中提取子網絡

圖6 CD48在FSGS中的臨床意義驗證
近幾十年來,FSGS已成為慢性腎臟疾病的主要原因。由于該疾病的發病機理尚未發現,并且無針對FSGS的靶向治療,因此該疾病的預后并不樂觀。因此,更好地闡明其致病機制并為該疾病提取新的潛在治療靶標已迫在眉睫。WGCNA是一種重要的生物信息學工具,可以根據相似的表達模式確定基因共表達關系,將基因分為多個共表達模塊,識別與疾病有重要關系的模塊并進行顯著性關聯分析[4]。WGCNA已被廣泛用于發現不同醫學領域的預后生物標志物和治療靶標。
本研究利用WGCNA處理21例正常和16例FSGS標本基因的數據,共篩選出5942個基因,8個共表達模塊,其中brown模塊(FSGS相關模塊)被認為與FSGS顯著相關,對其行GO和KEGG富集分析,主要富集于炎癥、細胞外基質和細胞因子相互作用等生物學方面,且此模塊中大部分差異表達基因都是上調的。從GO富集分析中篩選出最有意義的白細胞遷移,構建共表達子網絡,用MCC法確定該網絡核心的CD48基因為樞紐基因。同時在Nephroseq芯片數據庫檢測發現CD48在FSGS患者的腎小球組織中明顯過表達且CD48表達與腎小球濾過率呈負相關,提示CD48可能在FSGS的發病和發展中發揮作用,但具體的機制仍需深入研究。
CD48基因位于1號染色體的1q21-23帶[13],編碼分子量為40~45kD的糖基磷脂酰肌醇錨定蛋白[14]。CD48廣泛存在于免疫細胞表面,如T淋巴細胞、B淋巴細胞、自然殺傷細胞、單核細胞、中性粒細胞和肥大細胞[15]。CD48在涉及信號蛋白復合物中具有高度的運動性和聚集性[16]。但目前尚無相關報道說明腎小球組織中異常上調的CD48表達水平與FSGS相關。
因此,為了探究CD48在FSGS發生和發展中的作用,重點研究了其他與FSGS較相關的MCC值較高的基因,如CD44、PYCARD、LYN、FCER1G、ITGAM等。CD44在嚙齒動物和人類的正常耳道組織中幾乎未檢測到,但在FSGS足細胞損傷后,腎小球壁上皮細胞(PEC)中急劇增加[17-18],提示PECs中CD44的上調可能在腎小球硬化中起重要作用。而小鼠實驗中已經證實,腎小球中PECs中CD44的激活與FSGS的進展有關[19]。此外,CD44還與蛋白尿和血清肌酐呈正相關[20]。CD44陽性的腎小球細胞已被廣泛證實是FSGS致病機制中的重要環節。本研究中,作者通過WGCNA證實CD48與CD44具有高度的正相關關系,并通過皮爾遜相關分析進一步驗證了共表達關系(cor=0.805,P=1.831E-09)。且CD48的表達水平與腎小球濾過率呈負相關。本研究結果提示CD48可能通過與CD44共同表達的方式參與FSGS的發病。PYCARD編碼人細胞凋亡相關斑點樣蛋白,已有研究發現PYCARD與急進性腎小球腎炎的炎癥反應和中性粒細胞活化相關[21]。LYN是編碼酪氨酸蛋白激酶的基因,已證實LYN可通過抑制阻止纖溶酶原激活物抑制物-1(PAI-1,一種強有力的促纖維化介質)減少慢性移植腎病(CAN)的纖維化[22]。有研究者揭示FCER1G在子宮內膜異位病變中產生纖維化和粘連的作用[23]。ITGAM是一種編碼整聯蛋白的基因,據報道,ITGAM可以加速腎小球和腎小管損傷和腎纖維化[24]。雖然這些基因對FSGS的影響尚不清楚,但它們在其他腎病中的作用以及與CD48的明顯共表達關系,可能為FSGS的發病機制提供新的線索。
綜上所述,本研究通過WCGNA構建加權基因共表達網絡,初步得到與FSGS發病相關的樞紐基因CD48,為FSGS提供了潛在的特異性標志物和新的治療靶標。