韓君
(北京康仁堂藥業有限公司,北京 101301)
常染色體顯性多囊腎病(ADPKD)是最常見的單基因腎臟疾病[1]。大多數ADPKD患者出生時是健康的,但雙腎的漸進性囊性轉化會誘發腎功能的持續下降,導致腎衰竭,瞬時受體電位通道相互作用多囊蛋白1(PKD1)和瞬時受體電位通道相互作用多囊蛋白2(PKD2)這兩個基因的突變導致ADP‐KD,這些基因的蛋白產物多囊素-1(PC-1)和瞬時受體電位通道多囊素-2(TRPP2)形成一個大分子復合物發揮作用,調節多種信號通路以維持正常的腎小管結構和功能[2-3]。Song X等[4]闡明了調節ADPKD中腎囊腫生長的分子途徑,Friedrich S等[5]對常染色體顯性多囊腎病上皮細胞進行了轉錄組分析,數據表明包括6個重復的C3、FSTL1、PCOLCE、PCSK9、SPP1和ZFP37和8個 新 發 現 的CD34、CDH2、CSF2RA、DLX5、HOXC9、PIK3R1、PLCB1和TLR6基因可以為ADPKD的后續功能研究選擇目標,Menezes LF等[6]發現常染色體顯性多囊腎病Pkd1-小鼠模型的網絡分析確定HNF4α為疾病調節因子,Zhang C等[7]發現細胞周期蛋白依賴性激酶1的活性是多囊腎病中囊腫生長的驅動力,Pandey P等[8]用系統生物學方法確定多囊腎病進展過程中的轉錄組重編程和候選microRNA目標,Malas TB等[9]多囊腎病表達譜的Meta分析確定了損傷修復過程的強烈參與,Kunnen SJ等[10]剪切應力處理的Pkd1(-/-)細胞和前囊腫腎的比較轉錄組學揭示了參與早期多囊腎病的途徑,盡管已經發現了許多潛在的生物標記物。然而,ADPKD發展的分子機制還沒有被充分探索。
1.1 數據預處理和DEGs鑒定 本實驗通過GEO數據庫中的GSE7869數據集進行分析,根據相應平臺注釋信息,統一將探針ID轉換為gene symbol,同時剔除多個基因的探針。該數據集包括3個正常腎冠狀細胞對照樣本和13個不同大小的常染色體顯性遺傳性多囊腎病樣本(<1毫升,n=5;10~20毫升,n=5;>50毫升,n=3)。通過R軟件中的“limma”軟件包篩選差異基因,常染色體顯性遺傳性多囊腎病DEGs篩選標準:log2轉換的倍數變化(FC)的絕對值>1且調整后的P<0.05。
1.2 ADPKD的DEGs基因本體論(GO)和京都基因與基因組百科全書(KEGG)富集分析 為了系統地探索所鑒定的DEGs的潛在生物學功能。本研究將前200個上調和下調的差異基因納入分析,使用R軟件“clusterProfiler”包分別對上調和下調的前200個差異基因行了GO富集分析,以P<0.05為標準進行篩選,分別以炫圖形式展示。WebGestalt(基于網絡的基因集分析工具包)是一個功能豐富的分析網絡工具,供研究者理解大量基因背后的生物學意義。本研究將ADPKD的DEGs輸入DAVID數據庫進行KEGG分析,以P<0.05為標準進行篩選。
1.3 ADPKD的DEGs PPI的關鍵基因分析及核心模塊基因的KEGG富集分析 為了檢查DEGs的蛋白質產物之間的互動關聯。本研究將1000個上調和下調明顯的DEGs輸入STRING(the Search Tool for the Retrieval of Interacting Genes)數據庫(http://string-db.org/)進行PPI分析,選取得分大于0.4的基因輸入Cytoscape軟件進行可視化。應用軟件中的Cytohubba插件對網絡圖中節點進行統計,蛋白互作網絡中各個節點度值(Degree)的大小,Degree越大,該節點在網絡中的生物功能越多。根據節點的Degree算出排名前10的基因,即為ADPKD的關鍵基因。本研究使用Cytoscape插件Molecular Complex Detection(MCODE)被用來探索前1000個下調和上調基因蛋白互作網絡中重要的模塊,其中MCODE分數>5,度數截止值=2,節點得分截止值=0.2,最大深度=100,和k-core=2被用作過濾標準,最后使用R軟件“clusterProfiler”包分別對各個模塊中的基因行了KEGG富集分析,以P<0.05為標準進行篩選。
1.4 評價關鍵基因的表達水平和診斷價值 從GEO數據庫獲得已發表的ADPKD數據集,用于評價八個關鍵DEGs(CD44、MMP2、FGF2、MYC、COL1A1、CAT、EGF和JUN)的表達水平。使用R軟件中的pROC包進行ROC分析,評估這八個DEGs的診斷價值,計算了曲線下的面積(AUC)并建立了ROC曲線。
2.1 DEGs的鑒定在GSE7869數據集中,鑒定了1000個DEGs。前25個上調和下調的表達基因熱圖見圖1。

圖1 GSE7869數據集的前50個DEGs熱圖
2.2 DEGs的GO和KEGG富集度分析 在確定了上調和下調的DEGs后,進行了富集分析。生物過程(BP)類型的富集結果顯示,上調的DEGs是明顯富集于參與跨膜受體蛋白絲氨酸/蘇氨酸激酶信號通路、結締組織發育、成骨細胞分化和膠原纖維組織(圖2A);下調的DEGs富集于小分子分解代謝過程、細胞氨基酸分解代謝過程、有機酸分解代謝過程和細胞氨基酸代謝過程參與(圖2B)。對于細胞成分(CC)類型,上調的DEGs與細胞外基質成分、血小板α顆粒、內質網腔和基底膜有關(圖2C),而下調的DEGs則主要富集在過氧化物酶體、微體腔和基底外側質膜(圖2D)。關于分子功能(MF)類型,上調的DEGs主要富集在纖連蛋白結合、內肽酶調節劑活性和酶抑制劑活性中(圖2E),而下調的DEGs富集于二級主動跨膜轉運蛋白活性、有機酸跨膜轉運蛋白活性、溶質:鈉轉運體活性、有機陰離子跨膜轉運蛋白活性和主動跨膜轉運蛋白活性中(圖2F)。KEGG主要富集于纈氨酸、亮氨酸和異亮氨酸及丙氨酸、天冬氨酸和谷氨酸代謝、近端小管碳酸氫鹽再生、PPAR信號通路、蛋白質消化吸收、丙酮酸代謝、補體和凝血級聯、精氨酸生物合成和 糖酵解/糖異生(圖2G)。

圖2 GSE7869數據集的GO和KEGG富集分析
2.3 ADPKD的DEGs PPI的關鍵基因分析及核心模塊基因的KEGG富集分析 根據STRING的信息,篩選出10個中心基因(圖3A),主要包括CD44、MMP2、FGF2、MYC、COL1A1、CAT、EGF、FN1、JUN、ALB。通過MCODE插件進行分析使3個模塊被選中,接下來,對這些模塊中的基因進行KEGG途徑分析,模塊一中涉及的基因主要涉及PI3K-Akt信號通路、蛋白質消化吸收和Relaxin信號通路,該模塊二中的基因與HIF-1信號通路、補體和凝血級聯、纈氨酸及亮氨酸和異亮氨酸降解和脂肪酸降解有關,此外,該第三個模塊中的基因與PPAR信號通路、碳代謝、膽固醇代謝和丙酸代謝有關(圖3B)。

圖3 篩選出前三個模塊的富集路徑條形圖及關鍵基因分析
2.4 評價關鍵基因的表達水平和診斷價值 從GEO數據庫獲得一個外部數據集(GSE32586)。八個關鍵 基 因(CD44、MMP2、FGF2、MYC、COL1A1、CAT、EGF和JUN)被選擇在GSE32586中驗證。GSE32586數據集的基因差異表達分析顯示(圖4),JUN上調明顯,這與整合分析一致。ROC分析是一種常用的評估基因診斷價值的方法,在以前的生物醫學工作中已經使用,GSE32586數據集的結果顯示,基因JUN對ADPKD有診斷價值(圖5)。

圖4 GSE32586數據集中八個差異表達基因的箱型圖

圖5 GSE32586數據集中選定差異表達基因的ROC曲線
ADPKD發病率約為1/2500,屬于世界衛生組織和歐盟規定的罕見病范疇,男女發病率相同,子代遺傳患病概率為50%[11]。在這項研究中,納入了13個不同大小的常染色體顯性遺傳性多囊腎病樣本,確定了1000個DEGs(556個上調的DEGs和444個下調的DEGs)。在ADPKD和正常樣本之間。這些基因在KEGG途徑中明顯富集,如HIF-1信號通路和PPAR信號通路等,Kocyigit I等[12]研究了常染色體顯性多囊腎病伴或無高血壓患者系統性琥珀酸、缺氧誘導因子-1α和IL-1β基因表達。有文獻報道PPARα異常降低影響ADPKD細胞代謝,PPARα是ADPKD小鼠囊腫進展的調節因子,將PPARα作為治療ADPKD的新靶點[13]。
CD44、MMP2、FGF2、MYC、COL1A1、CAT、EGF、FN1、JUN和ALB是PPI網絡中的樞紐基因。李林等[14]觀察了腎臟組織中表皮生長因子(EGF)及其受體(EGFR)的表達,探討二者在多囊腎病發病過程中的作用,結果多囊腎病大鼠發病過程中存在EGF/EGFR信號轉導通路的異常激活,Seeman T等[15]發現蛋白尿在兒童ADPKD比較常見,最常見的類型是管狀蛋白尿,它應該在ADPKD兒童中測量。研究發現COL1A1和COL3A1與腎臟間質纖維化有關,COL4A1與腎臟基底膜增厚有關[16]。Aslam N等發現FN1是纖維連接蛋白腎小球病家系中的一個新變型[17],FN1基因突變導致腎小球疾病伴纖維連接蛋白沉積[18]。綜上所述,本研究推斷EGF、ALB、COL1A1、FN1可能與ADPKD發病機制有關。
此外,關鍵基因的表達模式被選入已發表的數據集(GSE32586)中進行驗證。JUN也稱為c-Jun是AP-1家族的重要成員,研究證明,c-Jun在多種腎臟損傷中均有高表達,對腎損傷的發生及轉歸發揮重要作用[19],與基因差異表達顯示JUN上調結果一致。本研究結果顯示,JUN在ADPKD樣本中的表達量上調,這個基因又是PPI分析中的樞紐基因。這些結果意味著JUN可能與ADPKD的潛在機制有關。然而,JUN上調對ADPKD進展的潛在影響還需要進一步研究。盡管本研究確定了與ADPKD相關的基因特征,但這些工作仍有局限性。本研究的結論是在生物信息學分析的基礎上得出的。因此,需要額外的實驗來證實本研究的結論。此外,更大的樣本量驗證也將提高結論的可靠性。此外,應收集臨床信息以評估生物標志物對ADPKD患者的診斷價值。最后,關鍵生物標志物的生物學意義將在模型系統或細胞系中進行研究。
綜上,本研究在ADPKD和正常樣本之間共鑒定了1000個DEGs。其中,JUN的上調可能是ADP‐KD的基因特征。然而,應該用更大的樣本量和體內或體外試驗進行全面的生物信息學分析來證實本研究的結果。