高小蓮,肖明中,陶軍秀,艾亞婷
目前,非酒精性脂肪性肝病(nonalcoholic fatty liver disease,NAFLD)已成為全球最常見的慢性肝病和重要的公共衛生問題[1]。最近的一篇薈萃分析顯示中國成年人NAFLD患病率現已高達29.2%[2]。據馬爾可夫模型預測,至2030年,中國將成為NAFLD總體患病率和相對患病率增幅最大的國家,屆時中國將超過美國成為因肝臟相關并發癥而死亡人數最多的國家[3]。目前,超聲檢查為篩查NAFLD的首選檢查方法,但其僅對中重度脂肪肝的靈敏度高,容易遺漏輕度脂肪肝;磁共振成像檢查的質譜分析及質子密度脂肪分數對輕度脂肪肝的靈敏度高,但有賴于患者的依從性并存在費用顧慮;肝活檢是診斷NAFLD特別是非酒精性脂肪性肝炎(NASH)的“金標準”,但有創傷,可發生并發癥和采樣誤差,臨床應用極為謹慎,可重復性差[4]。作為疾病風險評估的量化工具,疾病預測模型可為患者和醫務人員提供更直觀、科學的信息。借助無創的體檢指標或低成本、易采集的實驗室檢查項目構建靈敏度和特異度高的疾病預測模型對評估高危人群NAFLD發生風險(概率)、促進個體分級分層管理具有重要的衛生經濟學意義。本文擬對已追溯到的8種NAFLD預測模型特征進行分析,包括其建模方法、模型的質量表現、模型的表達和應用現狀等方面,以期為NAFLD預測模型的選擇和進一步研究提供參考依據。
本文采取文獻檢索法,檢索不設定起止時間,限定為學術期刊。在基于專業知識的前提下,以“Nonalcoholic fatty liver disease”“fatty liver disease”“prediction”為英文關鍵詞檢索PubMed、Web of Science;以“非酒精性脂肪性肝病”“脂肪肝”“預測模型”為中文關鍵詞檢索中國知網、維普網、萬方數據知識服務平臺。研究人員通過小組討論和共識會議,制定納入標準和排除標準。納入標準:完整的研究性論文且可以在網上找到;論文的研究對象為普通人群;論文中有明確的模型表達式;模型的預測因子必須無創、易收集、低成本。排除標準:排除針對肝纖維化的預測模型。第一批論文是僅通過在標題和摘要中搜索特定的關鍵字獲得,從中篩選出有明確的模型表達式的論文,然后對篩選出的論文進行分析,剔除研究對象為肝病患者的論文,對保留下來的論文進行全文閱讀,進一步排除針對肝纖維化的預測模型,如NAFLD纖維化評分(NFS)、FI4、BARD評分、Pohl評分等。
按照上述納入及排除標準,共查找到8種預測模型[5-12],表1歸納了8種預測模型名稱、第一作者、首發時間、期刊名稱、研究地點及研究內容。

表1 8種預測模型文獻的基本情況Table 1 General data of studies of eight NAFLD prediction models
2.1 建模方法 除Mika Aizawa模型[12]使用蒙特卡洛法(又稱隨機模擬方法或統計模擬方法)建模外,其余7種預測模型均為Logistic回歸建模。Logistic回歸分析在醫學研究中的應用非常廣泛,是研究二分類或多分類反應變量與多個影響因素之間關系的多重回歸分析方法,主要用于探索疾病發生的危險因素,利用回歸模型計算結局的發生率,對結局做出概率性的預測[13]。
然而,隨著人工智能的興盛,機器學習(machine learning,ML)[14]因其方法學優勢而已經成為大數據時代統計學的方向,如基于人工神經網絡(artificial neural network,ANN)等的建模方法正逐漸變成分析數據的流行工具[15]。ANN具有并行處理方式、自組織、自學習、聯想記憶和容錯等能力,尤其在疾病的早期預防、診斷和預后評估等方面可起到專家系統的作用[16]。至今,研究小組未能檢索到基于機器學習算法的NAFLD預測模型,分析其原因可能在于:NAFLD的危險因素及診斷標準尚處于探討階段,研究者在權重系數的假設檢驗、計算權重系數的可信區間及隱含層權重系數的醫學解釋等方面尚有爭議。
2.2 模型的質量表現 預測模型的評價指標常從區分度和校準度兩個方面衡量[17]。衡量區分度的最常用的指標是C統計量,當終點事件是二分類變量時,受試者工作特征曲線下面積(AUC)即為C值,C值越接近1,表示模型區分度越好[17]。校準度則考察預測結果和實際狀況的吻合程度,常用Hosmer-Lemeshow卡方(H-L χ2)檢驗進行評價。H-L χ2檢驗中P≥0.05代表模型效準度較好;P<0.05代表模型效準度較差[18]。本文最終納入的8種NAFLD預測模型預測NAFLD的AUC為0.797~0.870,靈敏度為71.7%~93.1%,特異度為71.0%~93.4%,說明模型區分度較好。但是,除了AUC,其他指標鮮見報道,究其原因,首先在于AUC簡單直觀、易于理解,其次是絕大多數研究系內部驗證(先建模后驗證),僅用AUC即可說明問題。8種NAFLD預測模型的預測因子、截斷值及質量表現詳見表2。

表2 8種NAFLD預測模型的預測因子、截斷值及質量表現Table 2 Predictors,cutoff values and performance accuracy of eight NAFLD prediction models
2.3 模型的表達及應用現狀
2.3.1 脂肪肝指數(FLI)[5]根據原始研究,FLI對肝脂肪變性的預測準確性良好,AUC為0.840;預測因子包括腰圍、體質指數(BMI)、三酰甘油(TG)和谷氨酰轉肽酶(GGT)。FLI臨床意義為:FLI取值范圍為0~100,FLI<30排除肝脂肪變性,靈敏度為87.0%;FLI≥60判定為肝脂肪變性,特異度為 86.0%。FLI計算公式如下:
目前已有眾多學者將FLI引用到NAFDL的篩查。KOEHLER等[19]報道FLI能準確識別NAFLD,在2 652名〔平均年齡(76.3±6.0)歲〕老年白種人中,FLI診斷NAFLD的AUC為0.813。伊朗學者MOTAMED等[20]根據其隊列研究第一階段(2009—2010年)的數據運用FLI進行計算,評估FLI對NAFLD的預測能力,結果顯示,在相關數據存在的情況下,男性和女性FLI的AUC分別為0.712和0.721,FLI顯示出較好的預測NAFLD新發病例的能力。韓國學者KIM等[21]在成年人中進行FLI的驗證,結論為FLI是預測NALFD的一個有用的指標,但其并不優于腰圍和BMI。CHEN等[22]研究認為男性和女性受試者FLI的截斷值可分別設置為20和10,以增加在該地區人群中預測NAFLD的敏感性。HUANG等[23]證實FLI可準確識別NAFLD,其AUC為0.834,最佳截斷值為30,靈敏度為79.89%,特異度為71.51%。經FLI診斷的NAFLD患者的代謝特征(腰圍、BMI、血壓、血脂、轉氨酶)較超聲診斷的NAFLD患者更差(均P<0.05),提示FLI可早預警,有助于NAFLD的早干預。
2.3.2 肝脂肪變性指數(HSI)[6]原始研究顯示HSI預測NAFLD的準確性良好且操作簡單。HSI臨床意義為:HSI<30時,可排除NAFLD,靈敏度為93.1%;HSI>36時,可判定為NAFLD,特異度為92.4%。驗證隊列中HSI<30或>36的2 692名受試者中2 305名(85.6%)被正確分類。HSI計算公式:HSI=8×丙氨酸氨基轉移酶(ALT)/天冬氨酸氨基轉移酶(AST)+BMI(+2,如果女性;+2,如果糖尿病)。
郭蕓蕾等[24]研究認為HSI結合超聲的實時剪切波彈性成像(SWE)技術更有利于準確檢出中重度NAFLD,AUC為(0.904±0.028)、靈敏度為88.3%、特異度為87.0%。CHEN等[25]在成年阻塞型睡眠呼吸暫停低通氣綜合征(OSAHS)患者中進行了FLI和HSI篩查NAFLD的準確性驗證,結果顯示,FLI和HSI預測NAFLD的AUC分別為0.802〔95%CI(0.762,0.839)〕 和 0.753〔95%CI(0.710,0.793)〕,FLI的 AUC顯著高于HSI(P=0.038 3),FLI和HSI的最佳截斷值分別為60(靈敏度66%、特異度80%)和35(靈敏度81%、特異度60%),因此FLI和HSI均可作為成年OSAHS患者NAFLD的篩查工具,但FLI優于HSI。
2.3.3 肝脂肪百分比[7]肝脂肪百分比
肝脂肪百分比是利用代謝和遺傳因素預測NAFLD和肝臟脂肪化。原始研究結果表明代謝綜合征和2型糖尿病、空腹血清胰島素水平、AST、AST/ALT是NAFLD的獨立預測因子。模型預測組AUC為0.870,驗證組AUC為0.860,最佳截斷值為-0.640,高于此值預示NAFLD的存在,靈敏度為86%,特異度為71%[7]。遺傳信息的加入僅使肝脂肪百分比預測精度提高了不到1%,說明遺傳僅作為內因存在,后天環境因素在NAFLD發病方面具有更重要的作用。
2.3.4 Framingham脂肪變性指數(FSI)[8]FSI以年齡、性別、BMI、TG、高血壓、糖尿病、ALT/AST作為預測因子。FSI=7.981+0.011×年齡(years)-0.146×性別(女性=1;男性 =0)+0.173×BMI(kg/m2)+0.007×TG(mg/dl)+0.593× 高血壓(是=1;不是=0)+0.789×糖尿病(是=1;不是=0)+1.1×ALT/AST(≥1.33,是=1;不是=0)。
總體上,FSI預測NAFLD的AUC為0.830。當模型中加入ALT/AST≥1.33這一預測因子時,AUC整體提高到0.845。在23的截斷值上,FSI推導隊列中識別NAFLD的靈敏度為79%,特異度為71%。模型的外部驗證顯示,FSI對非西班牙裔白人的AUC為0.775(n=1 714),整個驗證隊列的AUC為0.760(n=4 489),模型擬合度較好。在23的截斷值上,FSI驗證隊列對NAFLD的靈敏度較低,特異度較高。研究者認為,FSI可用于NAFLD的流行病學研究,但還需要在臨床實踐中評估FSI的準確性和成本效益[8]。
2.3.5 ZJU指數[9]ZJU指數以BMI、空腹血糖(FPG)、TG、ALT/AST為預測因子。ZJU指數<32時,排除NAFLD,靈敏度為92.4%;ZJU指數>38時,判定為NAFLD,特異度為93.3%。ZJU指數=BMI(kg/m2)+FPG(mmol/L)+TG(mmol/L)+3×ALT(U/L)/AST(U/L)(+2,如果女性)。
ZJU指數已得到國內學者的驗證。劉捷等[26]驗證了ZJU指數對健康體檢人群NAFLD患病風險的預測價值,結果顯示,30 826名體檢者基于ZJU指數所得NAFLD的患病率為34.83%,其中男性人群為40.53%,女性人群為29.26%,且患病趨勢隨著年齡的增長而升高。LI等[27]通過一項橫斷面研究評估了ZJU指數在中國人群中預測NAFLD的準確性,結果顯示ZJU指數預測NAFLD的AUC為0.925〔95%CI(0.919,0.931)〕,顯著高于脂肪肝指數、肝脂肪變性指數、脂肪累積產物、內臟脂肪指數四種模型(P<0.001)。
2.3.6 NAFLD篩查評分(NSS)[10]NSS也是面向中國人群的簡易評分模型,是由年齡、FPG、BMI、TG、ALT/AST、尿酸(UA)組成的基本評分(表3)。NSS預測男性和女性NAFLD的截斷值有差異,其中男性截斷值為32,AUC為0.825,靈敏度為79.86%,特異度為66.13%;女性截斷值為29,AUC為0.861,靈敏度和特異度分別為89.39%和68.98%。研究者開發NSS的目的在于識別NAFLD高危人群,但NSS的外部驗證尚未見文獻報道。

表3 NSS評分(分)Table 3 Scoring of the NSS
2.3.7 Young Jin Park模型[11]Young Jin Park模型用來篩選需要行腹部超聲檢查的NAFLD患者。研究者利用多因素Logistic回歸分析確定了ALT/AST、γ-谷氨酰轉肽酶(γ-GTP)、TG、BMI四個獨立的危險因素。通過將1個臨床評分點與0.7個Logistic回歸系數進行比較,確定指數系統分值為0~6分(表4)。Young Jin Park模型預測NAFLD的AUC為0.797,以3分作為截斷值,靈敏度為71.7%,特異度為75.9%;以4分作為截斷值,靈敏度降低至46.9%,特異度升高至92.3%。

表4 Young Jin Park模型評分(分)Table 4 Scoring of the Young-Jin Park model
2.3.8 Mika Aizawa模 型[12]Mika Aizawa模 型 針 對 的 是NAFLD的預防與管理,其以生活方式相關風險因素為基礎,應用蒙特卡洛法建立脂肪肝的自然史模型,探討影響脂肪肝發病過程的主要因素,結果顯示,BMI和低密度脂蛋白膽固醇/高密度脂蛋白膽固醇(LDL-C/HDL-C)顯著升高有助于預測脂肪肝的發生。利用30~39歲的受試者的數據模擬脂肪肝的自然史時,患病率從40~59歲時的20%上升到32%,然后下降到70~79歲時的24%。當BMI和LDL-C/HDL-C每年更新降低/增加1%時,脂肪肝的最高患病率(32%)分別降低/增加-8.0%/10.7%和-1.6%/1.4%。研究者認為BMI和LDL-C/HDL-C對預測脂肪肝的發生具有重要作用,而個體BMI的年度變化對脂肪肝的自然史影響更大,持續控制個人BMI可能是減少脂肪肝發生、預防NAFLD最有效的選擇[12]。
2.4 模型的優缺點 綜上所述,8種NAFLD預測模型均是借助無創、低廉、易采集的預測因子預測NAFLD發生風險,擬合的數學模型簡易、精煉,這既有助于評估普通人群在當前的健康狀態下未來患NAFLD的情況,也為健康管理工作者實施健康教育和行為干預提供了便捷、有說服力的工具。同時,相較于目前臨床常用的肝臟瞬時彈性檢測(FiborTouch)技術,疾病預測模型還具有不受操作員手法及患者性別、體位、皮下組織等因素影響的優勢。不過,疾病的發生并不能通過建立一個數學公式就足以判定。從統計建模的角度來說,上述模型的結局多為是否發生,屬于二分類變量,所以,在模型的技術層面上還是存在待解決的問題,如預測因子的選擇、模型的外部驗證等環節分歧較大,也限制了模型的推廣。
NAFLD預測模型研究正處于起始階段,尤其是建模方法還有優化的空間。ML與NAFLD大數據結合,有望為我國NAFLD的一級預防提供更為準確的預測模型。隨著衛生信息技術的快速發展,人們多通過電子病歷、醫療檢查和監護設備、可穿戴健康設備、手機健康應用程序(APP)等進行大數據的收集。ML屬于人工智能模型的一個分支,是基于計算機系統對大數據的訓練,能實現高精度的預測和決策[28]。當今ML程序框架發展迅速,極大地簡化了訓練過程,為慢性病精準管理提供了可能性。基于NAFLD大數據與ML融合進行展望,肝病研究者可從以下入手:第一,強化和提高數據管理能力。大數據包含結構化、半結構化或非結構化信息,具有復雜的相互關系和組織網絡。數據管理過程的某些不確定性可影響ML的質量,導致決策的偏倚,如數據損壞、數據輸入錯誤、重復或丟失記錄、不完整記錄等。因此,研究團隊必須從數據標準化、存儲和傳輸等方面強化和提高數據管理能力。第二,加強學科協同、交叉、融合,科學地使用ML算法。支持向量機、神經網絡、決策樹等ML算法的精準度、靈敏度和適應性各有不同[29],醫學研究者只有與計算機工程師進行優勢互補、熟悉不同算法的適用條件及優缺點和方法學特征、根據大數據來源選擇合適的算法才有可能創造出具有最佳效果的NAFLD預測模型。
作者貢獻:高小蓮進行文章的構思及論文撰寫;肖明中負責文章的質量控制及審校,對文章整體負責,監督管理;陶軍秀、艾亞婷進行文獻收集及整理。
本文無利益沖突。