孫科 肖欽引 范嗣涓 翁越男 陳琴 張桃 韓楠
摘要:由SARS-CoV-2病毒引發的新冠肺炎造成了全球范圍內的疫情爆發,政府、企業和科研機構都致力于遏制新冠肺炎疫情的蔓延。人工智能作為一種大數據驅動的知識學習技術,被廣泛應用于疫情防控的諸多方面,如疾病檢測、藥物和疫苗研究以及疫情傳播預測等。基于人工智能方法的模型有助于改進病毒在人群中的傳播模式,識別并預測疫情在不同地理位置的爆發情況。首先,對用于抗擊新冠肺炎的人工智能算法進行綜述,包括機器學習算法和深度學習算法;總結了人工智能技術在后疫情時代中的各項應用;最后,討論了人工智能技術在傳染病疫情防控中所面臨的主要挑戰和潛在的發展方向。
關鍵詞:人工智能;疫情防控;疾病診斷;藥物研發;疫情傳播預測
中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2022)14-63-6

SARS-CoV-2是一種新出現的人類傳染性冠狀病毒,并在2020年3月11日被世界衛生組織確認為新冠肺炎。這一新發傳染病對人類生命健康構成了持續威脅,給社會經濟帶來了極大的打擊。為緩解疫情的蔓延趨勢并復蘇社會經濟,各國政府和機構都采取了嚴格的措施以控制病毒在個體之間的迅速傳播,并對病毒學、起源和分類、基因組變異以及發病機制等進行了深入的研究。自20世紀以來,研究人員開發和提出了許多先進的醫療支持系統用于幫助流行性疾病的診斷和治療。其中,數學分析工具的發展,如經典的傳染病動力學模型[1],有助于學者更好地了解病原體的性質,識別潛在的藥物靶標,并根據現有的數據預測可能出現的傳染病。在所有的分析工具中,基于人工智能(Artificial Intelligence,AI)算法的模型被認為是最有幫助的,被廣泛應用于智慧醫療的各個領域,如疾病輔助診斷[2]、醫學圖像檢測[3]、疫情趨勢分析[4]和醫療大數據整合。信息和通信技術的進步使得從公共衛生監測中獲得的數據量大幅增加,基于AI的分析預測工具和疾病管理平臺有望成為疫情防控的一條有效途徑,幫助相關機構快速且正確地應對傳染病爆發。本文基于新冠肺炎大流行的背景,綜述了AI技術在傳染病疫情防控方面的應用、前景和貢獻。
AI被定義為一種允許計算機模仿人類思維來處理事物的技術,旨在當存在未知和復雜的關聯模式時,在數據中發現復雜的潛在模式[5]。由于其具備出色的學習與挖掘能力,在疫情爆發時期許多研究領域都引入了AI技術來解決新冠肺炎相關的難題。具體地,AI技術通過醫學圖像檢查來完成新冠肺炎的診斷,避免了接觸式的檢測方案以防止醫務人員感染;通過基因組研究實現病毒源追蹤;AI技術被用于病毒學研究以分析SARS-CoV-2相關蛋白質的結構,并預測可用于藥物和疫苗開發的新化合物。此外,AI技術還可用于學習大規模新冠肺炎病例數據和社交媒體數據來構建疫情傳播模型,以準確預測疾病的爆發時間、傳播路線、傳播范圍和影響。AI算法可分為傳統機器學習算法和深度學習算法。
機器學習算法可分為有監督學習、無監督學習和強化學習3類。在監督學習中,算法在有標記的數據集上進行訓練,即每個輸入都存在一個基本事實輸出,適用于分類和回歸任務。無監督學習中,數據集不含任何標注,該類算法通常旨在發現數據中的潛在模式,適用于降維和聚類任務。強化學習的目的則是提高累計獎勵,適用于連續的決策問題。圖1給出了不同的機器學習算法及其適用的任務類型。

常見的機器學習算法包括隨機森林、支持向量機、邏輯回歸和決策樹等。隨機森林是一種簡單、高性能的算法,該算法通過生成多個決策樹并將它們均衡在一起以做出正確的預測,是解決分類和回歸問題最有效的分類器之一,常被用于評估新冠肺炎患者的病情嚴重程度[6]。支持向量機是一種廣泛應用于分類和回歸問題的有監督算法,其主要目標是找出一條完美的決策邊界或直線,將維空間劃分為正確的類別。由于支持向量機算法高精度和高性能的特點,該類模型已經在包括衛生部門在內的許多機構中得到了應用[7-8],常被用于病例的早期發現和診斷。而邏輯回歸算法則是通過使用Logistic函數計算概率以衡量因變量與一個或多個自變量之間的關系,常被用于新冠肺炎時間序列數據集的回歸分析。決策樹算法被用于新冠肺炎基因組的分類。
深度學習是機器學習的一個子集,通過表征學習來解決復雜的難題,如模式識別、預測和分類等。基于深度學習的算法,包括卷積神經網絡、遞歸神經網絡(Recurrent Neural Network,RNN)和長短期記憶(Long Short-Term Memory,LSTM)網絡等,已被學者用于傳染病疫情防控的各方面,如病例檢測、診斷、藥物開發和疫情趨勢預測[9]。其中,卷積神經網絡的優點是不需要進行特征提取,且需要的預處理步驟相比于傳統方法較少,常被用于醫學圖像分析,如CT圖片和X射線圖。RNN是一種按順序使用信息的前饋神經網絡推廣,它對每一次數據輸入執行相同的步驟,且當前輸出總是依賴于先前的計算。與前饋神經網絡不同,遞歸神經網絡有一個內部狀態存儲器,可以處理輸入序列并捕獲有關已計算內容的輸入和輸出信息,這種能力使得RNN適用于實時臨床決策任務。LSTM網絡是一種特別的遞歸神經網絡,具備學習順序依賴關系的能力并可存儲先前的狀態信息,適用于時間序列數據的預測問題。在疫情防控方面,LSTM常被用于進行感染人數和死亡人數的預測分析。圖2給出了人工智能技術在疫情防控中的應用方案。

2.1疾病檢測與診斷
疾病檢測與診斷是傳染病研究中的一項重要內容,如正在世界范圍內爆發的新冠肺炎大流行,對感染個體的早期檢測與診斷是遏制疫情持續發展、降低感染率和死亡率的重要手段。目前,用于SARS-CoV-2病毒和新冠肺炎病的檢測和診斷方法主要包括核酸檢測、血清學診斷、胸部X光和CT圖像檢查等非侵入性方法。
核酸檢測利用實時逆轉錄聚合酶鏈式反應(RT-PCR)來檢測樣本中的病毒核酸,是目前診斷SARS-CoV-2病毒和細菌感染的一種標準檢測技術。該方法具有靈敏度高、特異性強等特點,但同時其檢測結果的準確性易受到樣本質量、樣本采集時間和實驗室誤差的影響,導致假陰性率高達20%[10]。通過基于AI的深度學習輔助診斷系統的補充,一些最初假陰性的RRT-PCR結果可被確認為陽性。除了基于核酸檢測的診斷外,血清學和臨床體征的診斷也常用于新冠肺炎的快速篩查。在血清學檢測方法中,常采用機器學習分類算法以提取重要的血液學和生化指標,從而提供對病例的感染分類。雖然人工智能技術很少直接參與RT-PCR和血液檢測,但這些方法中收集的病毒樣本和新冠肺炎病例數據為后續基于AI的分析提供了重要的數據源。臨床特征的診斷則依賴于醫學圖像檢查,主要包括胸部X光和CT圖像。AI技術在醫學圖像檢測中發揮著重要作用,在圖像采集、器官識別、感染區域分割以及疾病分類等方面取得了顯著的成果,不僅大大縮短了放射科醫生的圖像診斷時間,并且提高了診斷的準確性。基于AI的新冠肺炎CT圖像檢測通常包含感興趣區域分割、肺組織特征提取、候選感染區域檢測和分類4個步驟,用于CT圖像分類和新冠肺炎檢測的AI典型架構如圖3所示。

與CT圖像相比,胸部X光(CXR)圖像在放射檢查中更容易獲得。雖然X線平掃是診斷新冠肺炎的典型影像方法,但普遍認為其敏感性不如CT圖像,存在早期新冠肺炎患者的部分CXR圖像表現為正常的問題。基于AI的CXR圖像檢測通常包括數據預處理、DL模型訓練和新冠肺炎分類等步驟。與CT圖像不同,因為肋骨會被投影到軟組織上,會與圖像對比度混淆,使得CXR圖像分割更具挑戰性。在這種情況下,大多數DL模型側重于對整個CXR圖像進行分類,而很少致力于從CXR圖像中分割出感興趣區域和肺部器官。針對基于CXR圖像的新冠肺炎分類,一些研究通過嵌套或組合現有的機器學習和深度學習模型來構建基于AI的分類模型。圖4顯示了具有代表性的CXR圖像分類和檢測的AI體系結構。

新冠肺炎患者的胸部CT會表現出典型的X線特征,利用胸部CT圖像和CXR圖像的AI方法在診斷新冠肺炎陽性病例中是相輔相成的。研究表明,輔以基于AI的圖像分析,可以以一種及時有效的方式實現對新冠肺炎的高準確率診斷。通過計算機輔助診斷系統對大量新冠肺炎患者的CT掃描結果和CXR圖像進行預訓練,利用基于機器學習或深度學習的方法輔助解釋肺部圖像,可以提高診斷的準確性,避免單獨使用核酸檢測所造成的誤檢事件。
2.2藥物與疫苗研發
基于蛋白質組學和基因組學的研究,已經提出了針對SARS-CoV-2病毒的諸多藥物和疫苗開發計劃。AI技術在藥物和疫苗研發中的應用是智慧醫療的主要貢獻之一,在傳染病疫情防控中發揮著重要作用。在藥物開發領域,AI技術可以通過分析現有藥物與新冠肺炎蛋白質靶點之間的相互作用,篩選出新冠肺炎的現有候選藥物。此外,AI技術還可以通過在分子水平上構建抑制蛋白酶的新分子結構,幫助發現針對新冠肺炎的新型類藥物化合物。藥物開發分為小分子藥物發現和生物制品開發。其中,小分子藥物的發現主要集中在化學合成的小分子活性物質上,這些活性物質可以通過不同的有機和無機化合物之間的化學反應制成小分子藥物。而生物制品是具有治療作用的蛋白質產品,是由微生物細胞通過生物技術過程制備的,主要與參與疾病過程的特定細胞受體結合。圖5展示了用于新型類藥物化合物發現的代表性AI體系結構[11]。
與其他領域的顯性應用相比,在疫苗開發領域,AI技術通常隱含地應用于疫苗研發的子流程中。針對包括SARS和MERS在內的致病性人類冠狀病毒的疫苗開發策略或者針對整個病毒,或者針對其結構蛋白、刺突蛋白或膜蛋白。研究表明,AI和系統生物學在疫苗設計和開發中的應用可以改變現有智慧醫療系統,加快臨床實驗進程,并減少藥物開發的成本和時間[12]。基于AI的方法有助于基于計算機的分析、預測和驗證,在疫苗設計中發揮關鍵作用,進一步可以通過擴大針對病毒威脅的免疫抑制劑庫來緩解新冠肺炎大流行和類似的新發傳染病。

2.3預測
目前,大多數國家的疫情尚未得到控制。如果能夠利用一定的技術手段來預測新冠肺炎的發展趨勢,及制定相關防疫措施,將會減少因新冠肺炎致死的人數。大數據可以實時監測疾病爆發,關于新冠肺炎的各種數據都是廣泛可用的。為了掌握疫情發展趨勢,減少傳播流程與因病死亡率,相關研究基于AI技術構建了預測分析框架,并將其應用于真實數據,為政府政策及臨床決策提供支持。傳染病的預測包括2個方面:患者死亡率和存活率預測以及疫情傳播預測。對患者進行分類的能力至關重要,但常規使用的嚴重性評估系統常做出低于真實值的預測,因此臨床死亡率及存活率預測模型至關重要。在對患者的預測中,預測模型可以從先前新冠肺炎患者的相關數據中學習,以預測哪些患者將出現嚴重癥狀,或者哪些患者將需要重癥監護病房設施。最具預測性的臨床特征包括丙氨酸氨基轉移酶升高、身體疼痛和高血紅蛋白水平,模型對危重病例的預測準確率可達80%[13]。雖然死亡率及存活率預測的研究不能像藥物研發那樣直接對抗新冠肺炎,也不能從根本上解決疫情,但可以讓研究人員盡早發現病毒感染的嚴重程度,并做出相應的政策。更重要的是,在該過程中可以發現與新冠肺炎感染相關的重要因素。
在疫情傳播預測中,結合AI技術和真實的疫情數據,可在一定程度上預測新冠肺炎的傳播。為此,各項研究通過使用卷積神經網絡、LSTM網絡、支持向量機等機器學習和深度學習算法以及傳統時間序列數據分析方法,對疫情發展趨勢進行了多方面、多角度的預測,包括死亡人數和新感染人數等[14]。此外,也有部分研究將AI技術與傳統的傳染病動力學模型相結合,利用神經網絡等方法進行模型參數優化和模型訓練,以此提高模型預測的準確性[15]。AI技術通過使用社交網絡、公開可用的疫情數據等來識別和預測病毒的存在以及潛在傳播的可能性,這種形式有助于確定受疫情影響較大的地區、種群以及國家,以便相關機構提前采取有效措施。圖6展示了用于傳染病疫情預測的代表性AI體系結構。

本文綜述了AI在傳染病疫情防控方面的主要應用。與2003年非典冠狀病毒大流行和2012年中東呼吸綜合征冠狀病毒大流行相比,AI已成功應用于抗擊新冠肺炎的各個領域。首先,對可應用于傳染病研究的AI技術進行了概述,包括機器學習算法和深度學習算法;其次,介紹了該類技術在傳染病研究中的各類應用,可概括為疾病檢測與診斷、藥物與疫苗研發、疫情與傳播預測3個主要方面。其中,醫學圖像分析、藥物發現和疫情預測是AI技術應用于傳染病研究的主戰場。雖然AI技術已經成功應用于傳染病疫情防控領域,但仍面臨著一些關鍵挑戰,包括可用數據集不足、正負樣本數據不均衡以及計算機科學與醫學交叉領域的知識有限等難題。為進一步促進AI技術與傳染病研究領域的融合,未來可考慮引入遷移學習技術解決訓練數據不足和樣本類別不平衡的問題,此外也可將研究重點聚焦于如何評估人工智能模型的有效性。本文為醫學和AI研究人員提供了一個全面的視角,旨在使其了解人工智能在傳染病疫情防控方面的應用和潛在貢獻,幫助發揮AI和大數據的優勢以抗擊傳染病疫情。
[1] TANG L, ZHOU Y, WANG L, et al. A Review of Multi-compartment Infectious Disease Models[J]. International Statistical Review, 2020, 88(2): 462-513.
[2] KAMDAR J H, PRABA JJ, GEORRGE J J. Artificial Intelligence in Medical Diagnosis: Methods, Algorithms and Applications[M]. Machine Learning with Health Care Perspective. Cham:Springer, 2020.
[3] LIU X, WANG H, LI Z, et al. Deep Learning in ECG Diagnosis: A Review[J]. Knowledge-Based Systems, 2021, 227: 1-13.
[4] AGREBI S, LARBI A. Use of Artificial Intelligence in Infectious Diseases[M]. Artificial Intelligence in Precision Health. Washington, DC:Academic Press, 2020.
[5] LU Y. Artificial Intelligence: A Survey on Evolution, Models, Applications and Future Trends[J]. Journal of Management Analytics, 2019, 6(1): 1-29.
[6] TANG Z, ZHAO W, XIE X, et al. Severity Assessment of COVID-19 Using CT Image Features and Laboratory Indices[J]. Physics in Medicine & Biology, 2021, 66(3): 035015.
[7] SINGH V, POONIA R C, KUMAR S, et al. Prediction of COVID-19 Corona Virus Pandemic Based on Time Series Data Using Support Vector Machine[J]. Journal of Discrete Mathematical Sciences and Cryptography, 2020, 23(8): 1583-1597.
[8] JAIN G, MITTAL D, THAKUR D, et al. A Deep Learning Approach to Detect Covid-19 Coronavirus with X-Ray Images[J]. Biocybernetics and Biomedical Engineering, 2020, 40(4): 1391-1405.
[9] FARHAT H, SAKR G E, KILANY R. Deep Learning Applications in Pulmonary Medical Imaging: Recent Updates and Insights on COVID-19[J]. Machine Vision and applications, 2020, 31(6): 1-42.
[10] XIE X, ZHONG Z, ZHAO W, et al. Chest CT for Typical Coronavirus Disease 2019 (COVID-19) Pneumonia: Relationship to Negative RT-PCR Testing[J]. Radiology, 2020, 296(2): 41-45.
[11] CHEN J, LI K, ZHANG Z, et al. A Survey on Applications of Artificial Intelligence in Fighting Against COVID-19[J]. ACM Computing Surveys (CSUR), 2021, 54(8): 1-32.
[12] RUSSO G, RECHE P, PENNISI M, et al. The Combination of Artificial Intelligence and Systems Biology for Intelligent Vaccine Design[J]. Expert Opinion on Drug Discovery, 2020, 15(11): 1267-1281.
[13] MALIK Y S, SIRCAR S, BHAT S, et al. How Artificial Intelligence May Help the Covid-19 Pandemic: Pitfalls and Lessons for the Future[J]. Reviews in Medical Virology, 2021, 31(5): 1-11.
[14] MOHIMONT L, CHEMCHEM A, ALIN F, et al. Convolutional Neural Networks and Temporal CNNs for COVID-19 Forecasting in France[J]. Applied Intelligence, 2021, 51(12): 8784-8809.
[15] YANG Z, ZENG Z, WANG K, et al. Modified SEIR and AI Prediction of the Epidemics Trend of COVID-19 in China Under Public Health Interventions[J]. Journal of Thoracic Disease, 2020, 12(3): 165-174.