摘要: 隨著人工智能技術的發展,機器學習在醫療健康領域中展現出巨大的應用潛力。機器學習通過對患者的臨床特征、血液檢驗、影像學檢查等數據進行綜合分析,建立相應的數學模型,以實現對疾病的診斷、治療及病情評估的預測,指導疾病的管理。本文結合最新的研究成果,綜述了機器學習在慢性丙型肝炎中的應用情況及研究進展。
關鍵詞: 丙型肝炎, 慢性; 機器學習; 診斷; 治療學
基金項目: 首都醫科大學附屬北京佑安醫院2022年度院內中青年人才孵育項目(BJYAYY-YN2022-08)
Application of machine learning in the diagnosis and treatment of chronic hepatitis CHAN Hua 1 , DUAN Zhongping 2a , WANG Yang 2b
1. Department of Internal Medicine, North China Electric Power University Hospital, Beijing 102206, China; 2. a. FourthDepartment of Liver Diseases, b. Department of Medical Oncology, Beijing YouAn Hospital, Capital Medical University, Beijing100069, China
Corresponding author: WANG Yang, wangyangdoc@126.com (ORCID: 0000-0002-7631-1660)
Abstract: With the development of artificial intelligence, machine learning has shown great potential in the field of medical health.Machine learning conducts a comprehensive analysis of patient data including clinical features, blood tests, and imagingexaminations and establishes corresponding mathematical models to achieve the diagnosis and treatment of diseases and theprediction of disease conditions, thereby guiding disease management. With reference to the latest research findings, this articlereviews the application of machine learning in chronic hepatitis C and related research advances.
Key words: Hepatitis C, Chronic; Machine Learning; Diagnosis; Therapeutics
Research funding: Scientific Research Project of Beijing YouAn Hospital, CCMU, 2022 (BJYAYY-YN2022-08)
目前,全球約有 1. 13 億 HCV 感染者,其中 70%~80% 的急性 HCV 感染者會進展為慢性攜帶者,10%~20%的慢性HCV感染者會出現肝硬化、肝功能衰竭或肝細胞癌[1]。HCV感染具有隱匿性,發展速度慢[2],導致診斷率不足20%。傳統的HCV診斷依賴于血清學檢測和聚合酶鏈式反應技術,早期感染預警存在假陰性可能。盡管直接抗病毒藥物(direct antiviral agent,DAA)在治療上極大地提高了治愈率,但目前丙型肝炎的早期診斷率低,導致患者知曉、接受治療的比例偏低。隨著機器學習對醫學的賦能,利用大數據和高級算法,可以在疾病的早期診斷、療效評估及預后等方面協助長期管理。本文旨在概述機器學習技術在慢性丙型肝炎診斷、治療和預后中應用的研究進展。
1 機器學習概述
機器學習作為人工智能的一種形式,是使計算機具備學習能力的技術,通過數據學習和算法對未出現的情況作出預測[3] 。根據訓練方法的模式,機器學習分為無監督式學習、監督式學習、半監督式學習和強化學習[4] 。無監督式學習的一大優勢在于其能夠處理大量的非結構化數據,如文本、圖像等,而且能夠發現數據內的潛在結構和規律,這對于數據預處理、特征提取以及異常檢測等具有重大意義,其常用的算法有:k-均值法、主成分分析等。監督式學習適合處理帶注釋的數據,通過帶標簽的訓練數據來訓練模型,然后用此模型來預測未知數據,多用于圖像識別、語音識別等領域,其常用的算法包括:線性回歸算法、邏輯回歸算法、決策樹、支持向量機、隨機森林、樸素貝葉斯分類和梯度增強等[3] 。隨機森林和梯度增強是兩種基于決策樹的集成統計方法,可以構建分類和回歸預測模型。半監督式學習是介于監督式學習和無監督式學習之間的一種方法,其利用大量的未標記數據和少量的標記數據進行學習,降低了人工標注的成本,同時提高模型的泛化能力。不同于上述三種主要依賴于數據驅動的方法,強化學習側重于智能體與環境的交互以學習最優的行為策略,無需大量標注數據,而是通過試錯和接收環境反饋來逐漸優化決策過程。
深化學習則是機器學習的一個子集,其通過深度神經網絡來模擬人類大腦的認知功能,構建復雜的神經網絡結構以實現更高級的學習任務。深化學習模型通常包含更多層次,能夠自動提取更加抽象的特征,從而提供更準確的預測和分類。機器學習方法可以優化深化學習模型的性能,深化學習也擴展了機器學習的范疇,使其能夠解決更為困難的問題,例如語音和圖像識別。
不同于傳統統計方法只能處理線性數據,機器學習可以處理線性和非線性信息,并識別大數據中變量和結果之間的隱藏關系[5] 。機器學習具有以下優勢:(1)高度的數據適應性,通過機器學習模型可以捕捉到數據中的非線性關系和高維特征;(2)能夠處理大規模數據集,便于作出精準的預測;(3)通過集成學習和深度學習等技術實現復雜任務的自動化,從而節省時間和資源。近些年,機器學習已逐漸用于臨床的決策,包括診斷、治療和預后的評估等。
2 機器學習在慢性丙型肝炎診斷中的應用
酶聯免疫吸附測定法雖然具有較高的敏感性,但在感染初期可能會出現假陰性結果。利用機器學習技術,分析電子健康記錄、問卷預測、臨床實驗室檢測等數據,創建HCV的診斷模型,可以提高丙型肝炎的早期診斷率,并降低其傳播風險,有助于縮短慢性感染未經治療的時間,進而降低進展風險。
Doyle等[6]通過分析美國約1 000萬患者的處方數據和縱向醫療索賠等電子健康記錄數據,開發了預測模型,來識別未確診的HCV患者。該研究從患者的病史中提取了與HCV相關的人口統計學信息、危險因素、癥狀、治療等特征,基于邏輯回歸、隨機森林、梯度增強和集成等算法,從284個特征中確定了46個HCV感染最重要的危險因素。該研究表明,被診斷為HCV的患者在診斷前平均 2~3年表現出已知的 HCV 癥狀。當召回率lt;10%時,所有算法的準確率至少為95%;當召回率gt;50%時,集成算法表現最好,準確率為97%[受試者工作特征曲線下面積(AUC)為0. 96],而梯度增強樹的精度為87%,邏輯回歸的精度僅為 31%。Elshewey 等[7] 建立了 hyOPTGB模型,利用梯度增強模型和 OPTUNA 超參數調整來預測埃及的HCV相關疾病,同時使用前向選擇法來識別數據集中的基本特征,采用Min-Max歸一化預處理技術將數據集的值縮放到固定范圍,準確率可達 95. 3%。Reiser等[8] 通過Kohonen人工神經網絡分析了180萬參保者的社會醫學數據,建立了識別早期HCV感染的自組織圖譜。該網絡使用從2 544例確診HCV患者亞組中獲得的變量進行訓練,排除了與HCV診斷直接相關的變量,并將訓練結果三維可視化,從而在地圖中探索聚類的分布與特征。這種人工神經網絡方法可以更有效地篩查HCV感染,但預測模型還需要額外的研究進一步驗證。
對于無癥狀人群,可以通過針對性的問卷數據識別HCV 感染。Butaru 等[9] 使用 12 項問卷建立了用來預測HCV感染的深度人工神經網絡(deep artificial neural network,DANN),DANN預測器與第三代快速HCV抗體測試報告的特異度和陰性預測值分別為99. 7% vs 99. 7%和99. 2% vs99. 99%,可以將其推廣為資源有限的高流行環境中排除HCV感染的快速低成本工具。
基于常規血液檢測數據,利用機器學習來預測丙型肝炎,可以提高患者的確診率和接受治療的比例。一項基于患者血液檢查的 HCV 發病分類概率自動分類器研究[10] ,通過結合隨機森林和邏輯回歸的級聯兩階段混合算法,再利用人工蜂群算法確定濾波分離所需的最優閾值,建立了HCV檢測模型,準確率最高達94. 5%。Alizargar等[11]利用美國國家衛生與營養檢查調查數據庫,比較了各種機器學習算法在預測丙型肝炎方面的性能,支持向量機和XGBoost技術具有較高的準確率(AUCgt;80%),可以作為基于血液檢測數據預測丙型肝炎的有效工具。
該研究還確定了丙氨酸轉氨酶、白蛋白、堿性磷酸酶、天冬氨酸轉氨酶、總膽紅素、膽固醇、膽堿酯酶、γ-谷氨酰轉移酶、血肌酐、性別和年齡等變量在診斷中的重要性。
3 機器學習在慢性丙型肝炎治療中的應用
DAA的出現徹底改變了HCV感染的治療,90%以上的患者接受治療8或12周后,可以實現持續病毒學應答(sustained virologic response,SVR),幾乎沒有副作用[12] 。Chirikov等[13] 利用反映腎臟和肝臟功能的15個臨床變量以及HCV特征(RNA載量、基因型、耐藥相關突變)建立了數學模型來預測SVR,在接受DAA治療的隊列中,輸入器顯示外部馬修斯相關系數(Matthews correlationcoefficient,MCC)和F1評分分別為0. 98和0. 999,MCC和F1評分都是用于評估二元分類模型性能的常用指標。
DAA的治療帶來了革命性的變化,固定時間的DAA治療轉變為個體化治療,可以顯著節約醫療資源,并為其他病毒感染的抗病毒治療提供啟示。HCV動力學的數學模型為評估抗病毒治療的有效性和估計治療結果,提供了一種有效手段。Churkin等[14] 使用模擬體內病毒動力學的雙方程動力學模型為假設的HCV感染者創建了HCV RNA載量測量的訓練數據集,再用該數據集訓練了一個多層感知回歸器,以預測DAA治療后病毒轉陰的確切時間。將臨床研究的患者數據與來自計算機患者的數據集相結合,機器學習算法可以幫助處理關于優化治療持續時間的過程,有助于準確地預測丙型肝炎的治愈時間,從而通過個體化抗病毒治療的持續時間來改變丙型肝炎的治療模式。
Park等[15] 評估了4個機器學習模型的性能,以預測DAA治療的無應答。經典的多變量邏輯回歸只能檢查6個臨床和實驗室可能的危險因素,而機器學習模型設法調查179個人口統計學和臨床變量作為治療失敗的候選預測因素。其中,梯度增強是最突出的機器學習算法,但該模型的 MCC 和 F1 評分分別為 0. 14 和 0. 15。Haga等[16] 將從109例SVR和64例非SVR患者中分離的HCV基因組的全長序列納入9個機器學習模型,研究結果表明,支持向量機是最準確的機器學習預測器,其MCC和F1評分分別為0. 88和0. 94,而且在1 867個基因變異序列中,支持向量機識別出81個導致DAA治療失敗的遺傳變異。Janczewska等[17] 也開發了4個機器學習模型,通過14 012例患者記錄的36個變量,包括人口統計學特征和臨床相關因素,來確定與DAA治療失敗相關的因素。除此之外,隨機森林分類器達到了最佳的外部性能,準確率和k統計量約為100%。根據該模型,控制治療失敗的最重要變量是肝功能、病毒載量和基因型、年齡、身體質量指數、血紅蛋白以及血清肌酐水平。相反,共感染HBV或艾滋病毒、肝外表現和肝細胞癌共存對治療失敗的影響最小。
4 機器學習在慢性丙型肝炎預后方面的應用
肝纖維化分期是丙型肝炎病情管理中評估患者預后的重要組成部分,機器學習技術可以作為預測慢性丙型肝炎肝纖維化風險的非侵入性方法,以減少肝活檢。Shousha等[18] 將數據挖掘策略和白細胞介素28B基因分型相結合,使用比天冬氨酸轉氨酶與血小板比值和FIB-4指數性能更高的神經網絡算法多層感知機(multilayerperceptron,MLP)來預測HCV患者的晚期纖維化。MLP屬于監督神經網絡,是一種通過反向傳播學習的多層前饋人工神經網絡模型,對427例慢性丙型肝炎患者白細胞介素28B基因型和生化標志物的回顧性研究顯示,MLP作為最佳分類器來預測晚期纖維化,其敏感度為0. 825,特異度為0. 811,AUC為0. 880。Hashem等[19]通過39 567例慢性丙型肝炎患者的血清生物標志物和臨床信息建立了分類模型,開發了決策樹、多元線性回歸、粒子群優化和遺傳算法,這些算法的準確率為66. 3%~84. 4%,AUC為0. 73~0. 76,能夠成功預測慢性丙型肝炎患者的晚期肝纖維化,而且預測中起重要作用的變量為年齡、血小板計數、天冬氨酸轉氨酶和白蛋白。在長期抗病毒治療肝硬化的慢性丙型肝炎患者隊列中,Konerman等[20] 利用縱向臨床數據和使用邏輯回歸、隨機森林以及梯度增強構建的進展模型,預測纖維化進展(增加≥2個Ishak分期)和肝臟相關死亡(肝失代償、肝細胞癌、肝移植或Child-Pugh評分≥7),其AUC分別為0. 79、0. 86和0. 84。納入縱向數據的預測模型可以捕捉慢性丙型肝炎的非線性疾病進展,在不影響風險預測準確性的情況下合并大量預測變量,從而克服傳統統計分析形式的局限性。該模型能夠準確區分高風險和低風險患者,敏感度為74%,特異度為78%,陰性預測值為94%,并且進一步證實對模型預測能力貢獻最重要的變量是晚期肝病的縱向實驗室標志物,包括血小板計數、天冬氨酸轉氨酶與血小板比值和白蛋白的變化。
深度學習是一系列使用人工神經網絡的機器學習模型,其使用的循環機制可以幫助捕獲數據中的動態信息,還可以處理具有不同隨訪長度的縱向數據。Ioannou等[21]通過使用電子健康記錄中提取的原始縱向數據,建立了深度學習遞歸神經網絡模型,而且該模型在預測HCV相關肝硬化患者發生肝細胞癌的風險方面優于傳統的邏輯回歸算法模型。該研究表明,通過循環神經網絡模型計算的肝細胞癌風險評分前51%的樣本中,包含80% 的未來 3 年將發展為肝細胞癌的患者,而目標前66%的樣本包含90%將發展為肝細胞癌的患者。
5 展望
早期發現和治療HCV感染對于成功治療和預防長期并發癥至關重要。機器學習技術能夠幫助識別HCV感染的高風險患者并給予個體化的治療方案。機器學習在丙型肝炎的應用中具有巨大的潛力,然而這些方法也存在一些局限性,比如對大數據集的依賴、算法偏見、模型解釋性的限制,以及臨床實踐中技術實施的挑戰。未來的研究應致力于解決這些問題,并進一步驗證這些算法在多樣化人群中的有效性和可擴展性。機器學習在丙型肝炎中的應用仍然是一個新興領域,需更多的跨學科合作,通過不斷的方法優化,最終實現更高效的健康服務。
利益沖突聲明: 本文不存在任何利益沖突。
作者貢獻聲明: 王揚負責課題設計,資料分析,擬定寫作思路;韓華負責查閱文獻,撰寫論文,修改論文;段鐘平負責指導文章撰寫并最后定稿。
參考文獻:
[1] FARRAG AN, KAMEL AM, EL-BARAKY IA. Opportunities and chal?lenges for the application of artificial intelligence paradigms into themanagement of endemic viral infections: The example of chronichepatitis C virus[J]. Rev Med Virol, 2024, 34(2): e2514. DOI: 10.1002/rmv.2514.
[2] BRUNNER N, BRUGGMANN P. Trends of the global hepatitis C dis?ease burden: Strategies to achieve elimination[J]. J Prev Med Pub?lic Health, 2021, 54(4): 251-258. DOI: 10.3961/jpmph.21.151.
[3] LE BERRE C, SANDBORN WJ, ARIDHI S, et al. Application of artifi?cial intelligence to gastroenterology and hepatology[J]. Gastroen?terology, 2020, 158(1): 76-94. DOI: 10.1053/j.gastro.2019.08.058.
[4] NADIF M, ROLE F. Unsupervised and self-supervised deep learningapproaches for biomedical text mining[J]. Brief Bioinform, 2021, 22(2): 1592-1603. DOI: 10.1093/bib/bbab016.
[5] HASSABIS D, KUMARAN D, SUMMERFIELD C, et al. Neuroscience-inspired artificial intelligence[J]. Neuron, 2017, 95(2): 245-258. DOI:10.1016/j.neuron.2017.06.011.
[6] DOYLE OM, LEAVITT N, RIGG JA. Finding undiagnosed patientswith hepatitis C infection: An application of artificial intelligence topatient claims data[J]. Sci Rep, 2020, 10(1): 10521. DOI: 10.1038/s41598-020-67013-6.
[7] ELSHEWEY AM, SHAMS MY, TAWFEEK SM, et al. Optimizing HCVdisease prediction in Egypt: The hyOPTGB framework[J]. Diagnos?tics, 2023, 13(22): 3439. DOI: 10.3390/diagnostics13223439.
[8] REISER M, WIEBNER B, HIRSCH J, et al. Neural-network analysis ofsocio-medical data to identify predictors of undiagnosed hepatitis Cvirus infections in Germany (DETECT)[J]. J Transl Med, 2019, 17(1): 94. DOI: 10.1186/s12967-019-1832-4.
[9] BUTARU AE, M?MULEANU M, STREBA CT, et al. Resource man?agement through artificial intelligence in screening programs-key forthe successful elimination of hepatitis C[J]. Diagnostics, 2022, 12(2):346. DOI: 10.3390/diagnostics12020346.
[10] LI TH S, CHIU HJ, KUO PH. Hepatitis C virus detection model by us?ing random forest, logistic-regression and ABC algorithm[J]. IEEEAccess, 2022, 10: 91045-91058. DOI: 10.1109/ACCESS.2022.3202295.
[11] ALIZARGAR A, CHANG YL, TAN TH. Performance comparison ofmachine learning approaches on hepatitis C prediction employingdata mining techniques[J]. Bioengineering (Basel), 2023, 10(4): 481.DOI: 10.3390/bioengineering10040481.
[12] FLAMM S, LAWITZ E, BORG B, et al. Efficacy and safety of sofosbu?vir/velpatasvir plus ribavirin in patients with hepatitis C virus-relateddecompensated cirrhosis[J]. Viruses, 2023, 15(10): 2026. DOI: 10.3390/v15102026.
[13] CHIRIKOV VV, MARX SE, MANTHENA SR, et al. Development of acomprehensive dataset of hepatitis C patients and examination ofdisease epidemiology in the United States, 2013-2016[J]. Adv Ther,2018, 35(7): 1087-1102. DOI: 10.1007/s12325-018-0721-1.
[14] CHURKIN A, KRISS S, UZIEL A, et al. Machine learning for math?ematical models of HCV kinetics during antiviral therapy[J]. MathBiosci, 2022, 343: 108756. DOI: 10.1016/j.mbs.2021.108756.
[15] PARK H, LO-CIGANIC WH, HUANG J, et al. Machine learning algo?rithms for predicting direct-acting antiviral treatment failure in chronichepatitis C: An HCV-TARGET analysis[J]. Hepatology, 2022, 76(2):483-491. DOI: 10.1002/hep.32347.
[16] HAGA H, SATO H, KOSEKI A, et al. A machine learning-based treat?ment prediction model using whole genome variants of hepatitis Cvirus[J]. PLoS One, 2020, 15(11): e0242028. DOI: 10.1371/journal.pone.0242028.
[17] JANCZEWSKA E, KO?EK MF, LORENC B, et al. Factors influencingthe failure of interferon-free therapy for chronic hepatitis C: Datafrom the Polish EpiTer-2 cohort study[J]. World J Gastroenterol,2021, 27(18): 2177-2192. DOI: 10.3748/wjg.v27.i18.2177.
[18] SHOUSHA HI, AWAD AH, OMRAN DA, et al. Data mining and ma?chine learning algorithms using IL28B genotype and biochemicalmarkers best predicted advanced liver fibrosis in chronic hepatitis C
[J]. Jpn J Infect Dis, 2018, 71(1): 51-57. DOI: 10.7883/yoken.JJID.2017.089.
[19] HASHEM S, ESMAT G, ELAKEL W, et al. Comparison of machinelearning approaches for prediction of advanced liver fibrosis inchronic hepatitis C patients[J]. IEEE/ACM Trans Comput Biol Bioin?form, 2018, 15(3): 861-868. DOI: 10.1109/TCBB.2017.2690848.
[20] KONERMAN MA, ZHANG YW, ZHU J, et al. Improvement of predic?tive models of risk of disease progression in chronic hepatitis C byincorporating longitudinal data[J]. Hepatology, 2015, 61(6): 1832-1841. DOI: 10.1002/hep.27750.
[21] IOANNOU GN, TANG WJ, BESTE LA, et al. Assessment of a deeplearning model to predict hepatocellular carcinoma in patients withhepatitis C cirrhosis[J]. JAMA Netw Open, 2020, 3(9): e2015626.DOI: 10.1001/jamanetworkopen.2020.15626.
收稿日期:2024-05-22;錄用日期:2024-07-05
本文編輯:劉曉紅