張 凱 張 峻 李詩琴 蔣 煒 王 超▲
1.復旦大學附屬中山醫院廈門醫院消化科,福建廈門 361015;2.復旦大學附屬中山醫院消化科,上海 200032
2020國際專家小組新命名代謝相關脂肪性肝病(metabolic associated fatty liver disease,MAFLD)替代非酒精性脂肪性肝病,亞太肝臟研究協會也頒布了MAFLD相關診療指南[1-2]。目前MAFLD已成為全球最常見的慢性肝臟疾病,其對患者生活造成的影響與疾病負擔也高于其他肝損疾病[3]。生物鐘是機體維持正常生理和行為節律的調控機制,它由一系列生物鐘相關基因所調節[4-5]。研究發現睡眠時間縮短會增加MAFLD的發病風險,這與晝夜節律紊亂有關[6-7]。生物鐘參與調節糖脂代謝、炎癥及氧化應激等過程,提示其可能在分子水平參與MAFLD的發病[8]。本研究通過生物信息學和機器學習方法進一步探究生物鐘相關基因在MAFLD中的潛在關系。
數據集來自美國國立的生物信息中心GEO數據庫。根據MAFLD的診斷標準[2],獲得GSE89632數據集與GSE48452數據集。通過對目前發現的和人體生物節律調節有關的51個生物鐘基因進行探究[9-10]。
將數據集51個生物鐘基因的表達情況進行篩選重組并制成表達矩陣,按照|log2 FC|>1和P< 0.05作為篩選標準,對表達數據進行差異性分析。通過R軟件對篩選出生物鐘相關差異性基因,進行京都的基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)的信號通路及基因本體論(gene ontology,GO)分析。
本研究分別進行最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)分析和隨機森林分析,對兩種算法結果取交集,獲得特征基因;通過logistic算法構建基于特征基因的診斷模型。通過繪制受試者工作特征(receiver operator characteristic,ROC)曲線并計算曲線下面積(area under the curve,AUC)評價基因的診斷性能。最后通過GSE48452來驗證篩選出的特征基因在MAFLD與健康對照組的差異及對疾病的潛在診斷價值。
使用R4.1.3版本進行所有數據分析和可視化。使用t檢驗計算MAFLD和健康對照組中特征基因表達的差異。P< 0.05為差異有統計學意義。
數據集GSE89632共有63個數據被納入研究,包括20例單純性脂肪性肝病患者(simple fatty liver disease,SS),19例脂肪性肝炎患者(non-alcoholic steatohepatitis,NASH),24名健康對照組(health comparison,HC)。51個生物鐘基因中,兩組共同上調的基因有8個,分別是DBP、NR1D2、TEF、PPP1CA、CSE1L、RORC、PPP1CC、BTRC;共同下調的基因有8個,分別是NFIL3、CSNK1E、PER2、CRY1、AHR、CSNK1D、NR1D1、CREB1(圖1A),其差異基因表達熱圖(圖1B)。

圖1 生物鐘相關基因在MAFLD中的差異表達基因韋恩圖及表達熱圖
GO富集通路情況:在生物學過程主要富集在調節晝夜節律及細胞糖類代謝等過程;在細胞組分過程主要富集在樹突棘、蛋白磷酸酶復合體等;在分子功能上主要富集在核受體活性、轉錄共調節因子結合等過程(圖2A)。

圖2 生物鐘相關基因GO、KEGG富集氣泡圖
KEGG富集通路情況:主要富集于晝夜節律、Hippo信號通路及Hedgehog信號通路等通路(圖2B)。
構建LASSO回歸模型并進行交叉驗證,誤差最小值對應5個特征基因(DBP、CSE1L、NFIL3、CSNK1E、PER2)(圖3A~B);隨機森林分析通過對每個基因的重要性進行排序,選擇前5個重要基因(NFIL3、PER2、CRY1、TEF、PPP1CA)(圖3C)。取交集得到NFIL3、PER2 2個特征基因(圖3D)。
分析特征基因診斷價值:ROC結果表明2個特征基因NFIL3、PER2的AUC>0.85,具有較高的診斷價值(圖3E)。基于logistic算法構建NFIL3、PER2的診斷模型,結果表明模型AUC為0.973,具有較高的診斷效能(圖3F)。
在數據集GSE48452對NFIL3、PER2進行外部驗證,結果發現健康對照組和MAFLD組NFIL3、PER2的表達量比較,差異有統計學意義(P< 0.05)(圖4A)。模型ROC曲線顯示基于NFIL3、PER2構建的模型在驗證數據集的AUC>0.85(圖4B)。

圖4 特征基因NFIL3、PER2及其診斷模型在驗證集的分析
MAFLD是當今全球最主要慢性肝病之一[2]。深入研究MAFLD的發病機制,對減少MAFLD發病率,延緩疾病的進展具有重大意義。研究通過GEO數據庫分析了51個生物鐘相關基因在MAFLD的表達情況。結果共有8個生物鐘基因上調,8個生物鐘基因下調,主要富集于晝夜節律、Hippo信號通路及Hedgehog信號通路等通路。通過機器學習篩選的NFIL3、PER2基因及通過特征基因構建的模型對MAFLD的診斷具有較高的診斷效能。
生物鐘廣泛存在于哺乳動物中,對生命活動進行調控,使復雜的生命活動有序進行。本研究中生物鐘差異表達基因富集于Circadian rhythm通路,主要調節晝夜節律。PER2作為生物鐘核心基因的組成部分,在影響中樞和周圍神經系統的晝夜節律中起主導作用[11],它參與調控糖脂代謝,其表達水平的降低,可導致血糖水平的升高及脂肪合成的增加[12-15]。在本研究中,PER2在MAFLD組中表達下調,表明該生物鐘基因可能通過影響糖脂代謝,參與MAFLD的發生與發展。這與前人研究一致,晝夜節律可通過參與機體糖脂等營養物質的代謝來調節代謝平衡,影響疾病發展[16-18]。NFIL3在各種人體組織中廣泛表達,通過參與晝夜節律來調節免疫細胞分化和能量代謝等過程[19-20]。相關研究表明晝夜節律與腸道微生物的相互作用參與MAFLD的發生[21-22]。Wang等[23]的研究發現微生物群可通過NFIL3控制晝夜節律脂質代謝程序的表達,并調節腸上皮細胞中的脂質吸收進而參與宿主代謝。因此NFIL3可能通過腸道菌群參與影響MAFLD。
根據富集分析結果,生物鐘差異基因還富集在Hippo信號、Hedgehog信號等通路。相關研究表明Hedgehog及Hippo信號通路參與肝癌的發生和發展[24-25]。Hedgehog信號通路在胚胎發育及調節多種細胞功能中起重要作用,可通過ERK通路及調控自噬等機制參與肝癌的發生與轉移[24,26]。而Hippo信號通路對于肝臟生長發育起到交通樞紐作用[27],可以抑制肝細胞生長、誘導細胞凋亡、控制肝臟大小及抑制肝臟腫瘤形成。這也支持了生物鐘相關基因還可能促進MAFLD向肝癌的發生與發展。
本研究通過使用GEO數據庫并結合機器學習和生物信息學方法來探究生物鐘相關基因在MAFLD中的作用。但還具有一定的局限性,該研究完全基于GEO數據庫中的數據,后續還需進一步通過動物實驗或人體標本進行研究分析。
綜上所述,本研究通過檢索GEO數據庫中MAFLD相關數據集并進行生物信息學分析,提示生物鐘相關基因可能通過調節人體晝夜節律和相關代謝通路參與MAFLD的發生發展,為繼續深入研究MAFLD的發生機制提供了研究思路及潛在的生物診斷標志物。