姚澤陽 謝 穩 邱海龍 黃美萍 袁海云 莊 建
(廣東省人民醫院 廣州 050081)
人們對醫療健康的需求日益增長的同時海量醫學數據不斷產生。數據來源包括高分辨率醫學成像、連續輸出生理指標的生物傳感器、基因組測序和電子病歷,這些海量數據有必要利用機器來處理。與此同時,人們越來越依賴于醫療系統的衛生保健服務,亟需新的技術來提供幫助。 人工智能(Artificial Intelligence, AI)尤其是深度學習的使用已經通過大量標記的數據、顯著增強的計算能力和云存儲支持大多數領域的發展。在醫學上其在3個層面產生影響:對于臨床醫生,主要是提供快速、準確的圖像解釋;對于衛生系統,改進工作流程和減少醫療差錯;對于患者,使其處理個人數據來促進健康。本文綜述人工智能在醫學領域的現有研究,在此基礎上進行分析并展望該領域未來發展。
人工智能的根源可以追溯到80多年前艾倫·圖靈(Alan Turing)、沃倫·麥卡洛克(Warren McCulloch)和沃爾特(Walter)提出的概念[1-2]。歷史上人工智能曾被不同的研究架構所影響,直到2012年深度學習才被廣泛接受為AI的一種可行形式[3]。深度學習神經網絡由數字化輸入(如圖像或語音)和輸出組成。它通過多層連接的神經元不斷檢測輸入特征,最終提供輸出。深度神經網絡(Deep Neural Network,DNN)架構,見圖1。其由1個輸入層、若干個隱藏層(范圍5~1 000)和1個輸出層構成,每個隱藏層響應輸入的不同特征。與其他類型的人工智能相比,深度學習的關鍵特征是其自學能力。神經網絡不是由人類設計的,而是由數據本身決定層數。圖像和語音識別主要使用監督學習,從已知模式和標記輸入數據(通常稱為基本事實)進行訓練。從未知的模式學習且沒有標記輸入數據稱為無監督學習,目前很少被應用。DNN和深度學習有很多種類型,包括卷積、遞歸、生成對抗性、轉移、強化、表示等[4-5]。

圖1 深度神經網絡架構
3.1.1 概述 幾乎所有類型的臨床醫生,從專科醫生到護理人員都將在未來使用人工智能技術,尤其是深度學習。主要涉及使用DNN進行模式識別,幫助解釋醫學掃描、病理切片、皮膚損傷、視網膜圖像、心電圖、內鏡、面部和生命體征。神經網絡預估通常與醫生評估相比較。使用真實陽性與假陽性比率的曲線圖稱為接受者操作特征(Receiver Operating Characteristic, ROC),曲線下的面積(Area Under the Curve, AUC)用來表示準確度水平。
3.1.2 放射學 人工智能應用中特別受到關注的一個領域[6]。胸部X光是最常見的醫學掃描方式,全球每年進行X光檢查超過20億次。研究人員將基于121層卷積神經網絡的一種算法與4名放射科醫生在112 000多張標記的胸部X線圖像中診斷出肺炎的準確率進行對比,結果表明該算法的AUC為0.76,準確率優于放射科醫生。谷歌的一個研究小組使用一種不同算法分析與之前研究相同的圖像集,得到的AUC評分從肺炎的0.63到心臟腫大或肺塌陷的0.87不等[7]。
3.1.3 病理學 數字化病理切片的深度學習有可能提高解釋的準確性和速度。在一項乳腺癌的WSI研究中無論有無淋巴結轉移,將11名病理學家的表現與多種算法解釋的表現進行比較,結果各不相同,在一定程度上受到病理學家審閱幻燈片時間長短的影響[8]。
3.1.4 皮膚病學 對于利用圖像對皮膚癌進行分類分析的算法,將深度學習網絡與皮膚科醫生的診斷精度進行廣泛比較。在一項使用近13萬張攝影和數字化圖像的大型訓練數據集的研究中,21名皮膚科醫生的表現至少與一種算法相匹配,該算法對肉瘤患者診斷的AUC為0.96,對黑色素瘤患者診斷的AUC為0.94[9]。
3.1.5 眼科學 目前有很多比較算法和眼科醫生對于特定眼科疾病診斷效率的案例。在一項用視網膜眼底照片來診斷老年性黃斑變性的研究中DNN算法準確率在88%~92%之間,幾乎和眼科專家的準確率一樣高[10]。雖然對視網膜OCT和眼底圖像的研究主要集中在眼科疾病方面,但最近的研究表明視網膜照片的潛在用途不僅僅在于眼科疾病。已有研究利用這些圖像對阿爾茨海默病[11]進行早期診斷。
3.1.6 心血管病學 在包含549個心電圖的小型回顧性數據集中使用深度學習診斷心臟病發作,報告的敏感性為93%,特異性為90%,與心臟病學家的診斷表現相當[12]。對于超聲心動圖,DNN和心臟病學家將267例患者研究(包括83萬多張靜態圖像)按照15種標準分類,該算法對單一靜止圖像的總體準確率為92%,而4名專業超聲心動圖醫師的準確率為79%[13]。
3.1.7 胃腸科學 在結腸鏡檢查中發現小的(<5毫米)腺瘤性息肉或無柄息肉對胃腸科醫生來說較為困難。在325例共466個小息肉的患者中首次對人工智能進行前瞻性臨床驗證,在常規結腸鏡檢查中其準確率為94%,陰性預測值為96%。人工智能光學診斷的速度為35秒,該算法在無需注射染料的情況下對新手和胃腸病學專家都同樣有效[14-15]。
3.1.8 精神健康 全世界有3.5億人在與抑郁癥抗爭[16],人工智能有潛力向受影響的患者和臨床醫生提供支持。通過鍵盤交互、語音、面部識別、傳感器和交互式聊天機器人[17-22]對抑郁和情緒進行數字跟蹤。
3.1.9 臨床其他環節 在臨床許多其他環節也有使用人工智能算法的案例,如促進中風、自閉癥或腦電圖儀的診斷[23-24]等。
從理論上講,臨床關鍵結果的成功預測可以使醫院衛生治療資源的使用更加有效和精確。例如使用一種算法來評估患者重新入院的風險,而根據通常的出院臨床標準,這種風險是無法檢測到的,可以采取相應措施避免患者出院,合理協調安排將資源。對于危重患者,極有可能在短期內存活下來,用于患者、家屬和醫生進行復蘇、氣管內機械通氣管的插入和其他搶救措施。而通過人工智能預測工具來決定哪些患者可能從姑息治療中受益,以及確定哪些患者有發展為膿毒癥或膿毒性休克的風險,將發揮極為重要的作用。利用電子健康記錄數據和深度學習算法已能夠預測許多諸如老年癡呆癥、死亡等[25-30]重要的臨床事件。
開發深度學習算法使公眾能夠掌握個人健康情況。如2017年底美國食品藥品管理局通過一種智能手表算法檢測房顫[31],隨后2018年蘋果公司獲得批準將該算法應用于Apple Watch系列[32-33]。
人工智能技術仍存在很大的局限性。一個有缺陷的算法可能對患者造成重大傷害,醫療算法的醫源性風險巨大。人工智能算法應用于臨床實踐中需要系統調試、審查、廣泛的模擬以及前瞻性的真實世界驗證[34]。在使用DNN的情況下可能無法理解算法的輸出結果。歐盟一般數據保護規定要求在算法用于患者護理之前對算法的黑盒進行透明性解釋[35]。關于在患者護理中使用非透明算法是否可以接受的爭論尚未解決,但是醫學實踐的許多方面都無法解釋,例如沒有已知作用機制的藥物處方。人工智能在醫學領域發展最重要的問題在于數據隱私和安全保障。鑒于黑客攻擊和數據泄露等問題,使用有可能泄露患者病史細節的算法將十分危險[36]。
人工智能與醫學的融合才剛剛開始。對于機器算法能夠幫助臨床醫生預測臨床結局的研究,目前還沒有顯著的前瞻性驗證來證實其對衛生系統是有價值的,對以患者為中心的算法來說更是如此。該領域前景很好,但數據和證據卻相對不足。人工智能算法能夠快速、準確、低成本地處理大量數據,助力醫學發展。