趙亞芳 蔡青山
根據世界衛生組織《2022 年全球結核病報告》[1],2021 年全球估算新發結核病患者1060 萬例,新報告患者640 萬例,死亡患者160 萬例。在傳染病中,結核病仍是全球死亡的主要原因之一。盡管目前結核病檢測方法趨于多樣化,但仍有耗時長、費用高、存在主觀性等缺點。隨著大數據收集及計算機技術的進一步發展,極大地促進了人工智能(artificial intelligence,AI)在醫學領域的應用,基于影像、臨床信息等大數據的AI 系統已被用于篩查、診斷、評估嚴重程度及預后。本綜述旨在總結AI 在結核病領域的應用情況及最新進展,為該領域的研究者提供參考。
1.1 AI 發展簡介 1956 年第一次明確提出AI 的概念,60 多年來,隨著計算機的不斷發展,AI 已經取得了很大的進步。它是一門新興技術,基本目的在于利用計算機模擬、延伸和擴展人的智能的理論、方法、技術及應用系統[2]。AI 在醫學領域的應用,目前正處于早期發展階段,主要聚焦于醫學影像輔助診斷、醫學大數據的采集、生物標記物及基因檢測等分子生物學。20 世紀60 年代,AI 開始應用于醫學圖像處理。AI 在病理圖像較影像學起步晚,全切片數字掃描圖像(WSI)的出現加速了數字病理學的發展[3]。隨著深度學習數據庫的產生,生物信息學中的深度學習算法等得到了進一步的發展,AI 在分子領域也逐漸起步。目前AI 已形成了基本的工作模式。以影像AI為例,為解決圖像分類問題,以人工標記數據,進一步使用卷積神經網絡處理圖像信息,然后通過人類專家來評估系統的性能,最終應用臨床[4]。
1.2 AI 技術 機器學習(ML)是實現AI 的關鍵,主要研究計算機如何從數據中學習并挖掘信息的學科[5]。ML 經歷了早期的人工神經網絡及近期的熱門研究-深度學習(DL)。與傳統ML 相比,DL 在圖像識別領域的應用更為廣泛,它通過模擬大腦的結構,從中提取出圖像的特征,有效避免人為圖像分割導致圖像信息準確度低的問題。主要包括深度神經網絡(DNN)、卷積神經網絡(CNN)、循環神經網絡(RNN)等。其中CNN 是研究最多的,主要利用以多層組成的卷積神經網絡(CNN),可靈活設定網絡層數及神經元個數,更有效地處理高維數據[6]。同時,CNN 在圖像處理方面也較為突出,多應用于圖像分割及醫學圖像識別[7]。
2.1 醫學影像應用
2.1.1 結核病的檢出 對于肺內結核、脊柱結核、胸壁結核等,X 線具有一定的輔助診斷作用,但在細微的實質改變、縱隔或肺門淋巴結受累時可能不明顯[8],易漏診。經近些年的探索,AI 已在肺部結核X 線篩查中具備較強的診斷能力。
Hwang 等[9]在10848 張韓國結核病研究院的胸部X 線數據集基礎上,70%用一種深度卷積神經網絡模型AlexNet 進行訓練,15%用于診斷肺結核,與美國國立衛生院(NIH)138 張X 線以及深圳三院662 張X 線的診斷結果進行比對,AlexNet 診斷肺結核的曲線下面積(AUC),在KIT 數據集可達到0.96,NIH 數據集為0.88,深圳三院數據集可達0.93。王曉林等[10]采用AI 和DL 肺結核智能管理系統,對520張胸部X 線進行肺結核診斷的敏感性和特異性可達到93.5%及86.0%。安超等[11]在ChinaSet、MontgomerySet 及深圳三院數據集的基礎上,運用以ResNeXt-FPN 為基礎網絡的檢測模型,其AUC 分別為0.95、0.93、0.98。
2.1.2 耐藥性及敏感性結核病的鑒別 我國耐藥結核病患者日漸增多[1],早期快速區分耐藥及敏感結核病患者,對減少傳播及結核病治療具有重要意義。結核分枝桿菌藥物敏感性試驗可使臨床醫師了解患者所感染的結核分枝桿菌對各種抗結核藥物的敏感或耐受程度,對診斷耐藥結核病至關重要。目前常用檢測技術包括Gene-Xpert MTB/RIF、線性探針、基因芯片、熔解曲線、基因測序等[2],均受時間、成本、技術等的限制。利用AI 診斷耐藥結核病可極大縮小時間、成本等限制。
敏感肺結核和耐多藥肺結核胸部影像特征有一定差別,耐藥結核可在胸部X 線圖像上表現較大的病變及厚壁腔等[12]。Jaeger 等[13]利用交叉驗證得到一個人工神經網絡,利用胸部X 線識別耐多藥結核病患者。實驗1 運用135 例病例(61 例敏感型+74 例耐藥型),其AUC 為0.65。實驗2 將胸部X 線的數量增加到327(157 例敏感型+170 例耐藥型),其AUC 僅為0.66,可能與數據量偏少有關。接著,該團隊使用了更大的數據集,包括5642 個胸部X 線(來源于結核病門戶網站、蒙哥馬利縣和深圳胸片組、TB X11K 大規模結核病數據集及各種CNN),通過靜態或動態數據增強,InceptionV3 的AUC 增加到0.85。對于自定義CNN,六層CNN 表現出最佳性能,AUC 為0.74[14]。Cha等[15]研究53 例耐多藥肺結核及141 例敏感肺結核CT影像發現,耐多藥肺結核中多發空洞、大結節、支氣管擴張顯著多于敏感肺結核。楊鈞等[16]比較51 例耐多藥及46 例非耐藥肺結核患者胸部CT 發現,肺內多發結節、播散病灶、空腔及毀損肺在耐多藥肺結核中多見。這些胸部影像特征的差異為AI 在影像上篩選耐多藥肺結核提供可能性。Gao 和Qian[17]受CLEF 比賽的啟發,為提高分類的準確性,采用CLEF 比賽病例,根據230 例(敏感134 例,耐多藥96 例)肺結核患者的胸部CT 影像,聯合基于補丁的神經網絡模型和支持向量機建模,測試214 例肺結核患者胸部CT 影像是否耐多藥,分類準確率可達91.11%。但該研究仍存在納入的耐藥人群少,人群單一等不足,不能確保建立模型的可靠性和泛化能力。
目前AI 應用于耐藥肺結核影像診斷的研究相對較少,且存在用于建模的病例少、未采用CT 影像、模型預測結果的準確性不高等不足。
2.2 分子生物學應用 遺傳基因也可作為結核的診斷工具。如上所述,各種分子方法能夠檢測結核耐藥性,結核分枝桿菌在繁殖分裂過程中發生少量的基因突變,從而引起某種抗結核藥物產生耐藥,并可在菌株的傳代中,產生不同的變化[18]。基于基因組信息的快速分子檢測較基于培養物檢測的時間更短、更有效,已被廣泛應用于檢測結核病耐藥性[19]。因此,目前已探索一些基于基因序列的AI 來鑒定結核分枝桿菌的耐藥性。
Yang 等[20]使用8388 株對4 種一線抗結核藥物(異煙肼、乙胺丁醇、利福平、吡嗪酰胺)具有藥敏試驗表型檢測的分離物,開發了一個具有深度去噪自動編碼器的多任務學習模型(DeepAMR)。結果顯示,該模型對4 種一線藥物、多藥耐藥結核病和泛敏感結核病的耐藥率預測優于其他方法,平均AUROC 為94.4%~98.7%(P<0.05)。在異煙肼、乙胺丁醇、吡嗪酰胺和多藥耐藥結核病中,DeepAMR 的平均敏感性分別為94.3%、91.5%、87.3%和96.3%。此外,該團隊另開發的一個名為“HGAT-AMR”的深度圖形神經網絡[21],使用從結核分枝桿菌遺傳數據翻譯出的圖形為輸入量,包含了13402 個分離株,對多達11 種的藥物敏感性進行測試。結果表明,該模型對異煙肼和利福平測試中表現最佳,AUROC 分別為98.53%和99.10%,對3 種一線藥物產生了最好的敏感性(異煙肼94.91%,乙胺丁醇96.60%和吡嗪酰胺90.63%),同時,排除一些數據高度不平衡情況下(分離株數據僅能通過異煙肼和乙胺丁醇測試,不能通過其他藥物測試),HGATAMR 優于SVM 和LR。該小組構建的多種機器模型,較前基于規則的方法,表現出更高的靈敏性(異煙肼、利福平、吡嗪酰胺的敏感性分別增加了2%~4%,達到97%(P<0.01);對于環丙沙星和耐多藥結核病,敏感性增加到96%[22]。對莫西沙星和氧氟沙星的敏感性分別從83%和81%增加到95%和96%(P<0.01)。對吡嗪酰胺和鏈霉素的敏感性分別從15%和24%提高至84%和87%(P<0.01)。Deelder 等[23]使用16688 株經過全基因組測序(WGS)和藥物敏感性試驗的14 種抗結核藥物的結核分枝桿菌分離株,其中22.5%的樣本具有多重耐藥性,2.1%的樣本具有廣泛耐藥性。使用非參數分類樹和梯度提升樹模型來預測耐藥性,在耐多藥結核病識別的準確性達到95.5%。
2.3 醫學數據應用 臨床數據在一定程度上也可協助診斷結核病。結核病是艾滋病患者最常見的機會性感染之一,由于其早期癥狀不典型,早期診療不及時,極大地增加了艾滋病合并結核病患者的死亡率,目前結核病仍是全球感染HIV 患者(成人及兒童)住院及死亡的首要原因[24]。在南非,Rajpurkar 等[25]利用CXRS 以及某些臨床數據(來自兩家醫院的677 例HIV 陽性患者的年齡、體溫、血紅蛋白和白細胞計數等),建立了名為CheXaid 的深度學習算法EB/OL。該算法的使用提高了臨床醫師對于結核病的診斷準確性(0.65 比0.60,P=0.002),該算法的性能優于由AI 輔助的臨床醫師(精度為0.79 比0.65,P<0.001)。此外,使用CXR 添加臨床變量的訓練策略提高了本研究中算法的性能(僅組合模型和模型中的AUC 分別為0.83 和0.71),并提出了以各種方式整合輸入以增強模型功效的重要性。
2.4 病理學應用 病理學診斷也是臨床診斷結核病的重要手段之一,但由于細菌體積及數量偏小,不利于臨床醫師診斷。目前,基于AI 輔助病理診斷也成為一定的主流趨勢。2018 年Xiong 等[26]建立了一個CNN 模型,命名為結核病AI(TB-AI),包含訓練集45 例(30 例陽性),測試集201 例(108 例陽性),將TB-AI 的診斷結果與病理科醫師通過顯微鏡和數字幻燈片雙重確認的診斷相比,TB-AI 獲得了97.94%的敏感性和83.65%的特異性,但仍存在實驗數據偏少的缺陷。
AI 技術應用到醫學領域仍存在許多局限性。數據是AI 的重點,數據的正確獲取、數據的安全性、對數據的高質量處理及標注較難做到[27]。其次,AI 得出結果應該由誰承擔法律責任,假如出現漏診、誤診、應該由誰承擔相關責任,仍需要我們進一步思考。再者,AI 應用收集的數據在數據主體不知情的情況下很容易傳播給第三方,隱私數據的傳播可對數據主體及其家庭產生不可避免的傷害,更有甚者危害國家及社會安全,目前國家并未頒布相關法律約束隱私泄露相關問題[28]。但可以肯定的是,目前隨著計算機技術的不斷發展,數據量的不斷增多,AI 將越來越多投入臨床使用,進一步提高醫師的診斷決策。
綜上所述,AI 目前廣受大眾關注。在結核病領域的研究應用日趨深入。據調查顯示,從20 世紀90 年代開始,醫學圖像數據急劇增長,呈指數上升的趨勢,診療活動過程中所需的醫療數據有90%以上來源于醫學影像[29],發展迅速,是健康創新最具有希望的領域。借力于醫學影像的診斷與各種臨床治療的輔助決策,進一步提高結核病診斷率、縮短耐藥結核的診斷時間,大步提升我國結核病的診治水平。未來AI 在智能結核病領域的研究應用上,將發揮更加重要的作用和具有廣闊的前景。