陳 慧 陳光輝 梁映亮 王萬黨 尹志軍
(南方醫科大學附屬小欖醫院,廣東 中山 528415)
妊娠糖尿病(gestational diabetes mellitus,GDM)是常見的妊娠期代謝紊亂綜合征,發病率約為18%,近年來呈持續增高趨勢[1]。GDM不僅可導致妊娠高血壓、孕期感染、巨大胎兒、羊水過多、難產、新生兒肺透明膜病等母嬰不良圍生期結局,還可增加孕婦產后和嬰兒肥胖、血脂異常、2型糖尿病等代謝異常風險[2]。除改變生活方式、服用降糖藥和監測血糖外,目前尚無治愈GDM的方法和更有效的預防策略[3]。因此,探究GMD發病機制,開發新的治療策略尤為重要。基因表達數據庫(gene expression omnibus,GEO)是一個儲存芯片、二代測序和其他高通量測序數據的數據庫[4]。本研究利用GEO數據庫整合GDM相關實驗測序數據,進行生物信息學分析,確定關鍵基因,并評價其診斷效能,為GDM早期診斷和個體化預防、治療提供更準確和可靠的生物標志物。
從GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)下載與GMD相關的微陣列數據。入選標準:1)同時具有對照者和GMD患者樣本;2)樣本總數≥20例。最終選取GSE103552數據集用于本研究,芯片平臺為GPL6244,樣本類型為胎兒胎盤內皮細胞,共37例,其中對照組17例[年齡(28.6±7.1)歲,身高(1.68±0.07)m,體重(81.9±3.6)kg,孕周(40.0±1.6)周]、GDM組20例[年齡(30.0±6.8)歲,身高(1.62±0.07)m,體重(83.4±3.3)kg,孕周(40.0±1.6)周]。2個組之間年齡、身高、體重、孕周差異均無統計學意義(P>0.05)。根據芯片對應的平臺信息對芯片數據進行ID轉換,采用R軟件中的“limma”程序包進行校正。
采用R軟件中的“limma”程序包分析GDM組和對照組差異表達基因,篩選標準為|log2FC|>1且P<0.05;采用R軟件中的“Clusterprofiler”程序包對差異表達基因進行基因本體(Gene Ontology,GO)和京都基因與基因組數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析。篩選標準設置為P<0.05,富集分析結果圖由R軟件中的“ggplot2” 程序包呈現。
使用R軟件WGCNA數據包確定模塊基因。使用網絡拓撲分析確定軟閥值,進一步構建共表達網絡,確定模塊和樣本特征關系,找到所需的模塊,輸出模塊基因。
取模塊基因與差異表達基因的交集,并使用STRING數據庫(https://string-db.org/)構建蛋白互作網絡,使用Cytoscape v3.8.2軟件進行可視化處理,并使用Cytohubba插件的Degree方法篩選關鍵基因。
采用R軟件分析關鍵基因表達水平,采用受試者工作特征(receiver operating characteristic,ROC)曲線評價關鍵基因診斷GDM的效能。
從GSE103552數據集中共獲得GDM組與對照組差異表達的基因118個,其中表達上調65個、表達下調53個。見圖1。
圖1 GDM組和對照組差異表達基因的篩選
差異表達基因GO富集分析和KEGG通路富集分析結果顯示,差異表達基因涉及細胞外基質組織、細胞外結構組織和DNA構象變化等多個反應,主要調控RNA轉運和味覺轉導等多個通路。見圖2。
圖2 GDM差異表達基因涉及的生物學功能
R軟件WGCNA程序包分析結果顯示,本研究無離群樣本,樣本的聚類特征熱圖見圖3(a)、(b)。
圖3 GDM組和對照組WGCNA分析
使用網絡拓撲分析確定13個模塊的軟閥值為8(r2=0.9)。根據軟閾值構建共表達網絡,分析樣本特征與13個模塊之間的關系,選擇與GDM最顯著相關的模塊,確定為包含122個基因的模塊(cor=0.52,P<0.001)。見圖3(c)~(f)。
取模塊基因與差異表達基因的交集,得到33個特征差異表達基因。采用Cytohubba插件的Degree方法篩選關鍵基因,選擇節點度最高的5個基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1)作為GDM關鍵基因。見圖4。
圖4 關鍵基因篩選
GDM組5個關鍵基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1)相對表達量均高于對照組(P<0.05)。見圖5(a)。
圖5 對照組和GDM組關鍵基因相對表達量比較及其診斷GDM的ROC曲線
ROC曲線分析結果顯示,ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1診斷GDM的曲線下面積分別為0.891、0.818、0.909、0.891和0.885。見圖5(b)。
GDM是一種以胰島素抵抗、胰島β細胞代償不足為主要特征的妊娠并發癥,目前尚無有效的診療方法[5]。ZHAO等[6]通過WGCNA分析篩選出10個與GDM病理進程相關的候選基因。CHEN等[7]通過WGCNA分析篩選出5個與GDM病理進程相關甲基化程度高的低表達基因(ABLIM1、GRHL1、HLA-F、NDRG1和SASH1)和1個甲基化程度低的高表達基因(EIF3F)。尹志芳等[8]通過分析GDM相關基因表達數據集GSE51546和GSE87295發現7個差異表達基因,分別為CD34、TACSTD2、LDB2、CLDN5、NTN4、COLEC12和IGFBP6。本研究通過分析GSE103552數據集獲得5個在GDM中呈高表達的關鍵基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1),均具有較高的診斷價值。但應注意的是,因不同研究的樣本信息來源和數據不同,所以可能導致得出的差異表達基因完全不同。
在妊娠末期,胎盤內皮細胞對胎盤功能的調節有重要意義,GDM患者胎盤內皮細胞功能受損,且有408個基因發生改變[9]。ZHU等[10]的研究結果顯示,GDM患者胎盤內皮細胞中有2 095個基因表達上調,3 117個基因表達下調。本研究結果顯示,GSE103552數據集中有65個基因表達上調,53個基因表達下調。由此可見,胎盤內皮細胞基因水平異常可能會導致其功能受損,這些差異基因或可作為GDM潛在的診斷標志物。
本研究通過生物信息學分析獲得5個GDM的關鍵基因,分別為ANKRD36C、CLK1、LUC7L3、NKTR、RSRP1。這5個關鍵基因在GDM中的表達水平和調控機制還需進一步研究。在血栓性血小板減少性紫癜患者體內存在ANKRD36C變異,與炎癥相關;GDM常常伴隨過度的炎癥反應,抑制炎癥反應可以緩解GDM病情,提示GDM中高表達的ANKRD36C可能與GDM過度炎癥有關[11]。過度的胰島素抵抗和胰島素分泌不足均與GDM發生密切相關,胰島素可促進絲氨酸/蘇氨酸激酶2磷酸化,敲低AKT2會促進CLK1表達,提示胰島素分泌不足會導致GDM患者CLK1水平上調,但CLK1在GDM疾病進程中的調控機制還需進一步研究[12]。同樣,LUC7L3作為致癌基因參與了調控胰島素抵抗[13],但其在GDM中的作用尚未見報道。本研究發現,LUC7L3與GDM病理變化有關。有研究通過WGCNA分析發現NKTR基因參與了疾病病理進程[14],但其在GDM中的作用亦未見報道。RSRP1位于1號染色體,目前對其功能的研究較少[15]。
綜上所述,本研究采用生物信息學分析方法,在GSE103552數據集中獲得5個GDM關鍵基因(ANKRD36C、CLK1、LUC7L3、NKTR和RSRP1)。5個關鍵基因在GDM中表達均上調,診斷GDM的AUC均>0.8。但本研究尚有一定的局限性:本研究利用生物信息學技術篩選GDM關鍵基因,并分析其診斷價值,但未進行臨床樣本驗證,胎盤內皮細胞差異基因分析還處于臨床前研究,目前尚不能用于常規臨床診斷;本研究所有分析均基于GSE103552數據集,目前GEO數據庫中尚無中國漢族人群GDM微陣列數據。因此,這5個關鍵基因在GDM中的表達水平和調控機制還需進一步研究。