高萌 楊仙鴻 姜祎群
中國醫學科學院北京協和醫學院皮膚病醫院病理科,南京210042
隨著技術發展,醫療行業正進入“大數據”的新紀元[1]。作為一門集合了計算機科學、信息學、神經生理學等多學科智慧的新興交叉學科,人工智能(artificial intelligence,AI)在醫學領域可以輔助診療,減輕醫生的數據分析壓力。本文主要探討醫學領域AI的研究進展,同時為AI在皮膚科的研究拓寬思路,提供參考。
AI 的研究可以理解為通過智能的機器,增強人類在各項工作中的能力和效率[2]。其發展分為兩個階段。第一階段以數理邏輯和符號推理為主。第二階段從1990年代至今,以概率統計為主。在此階段,機器學習(machine learning)為最重要的方法領域,是一系列通過任務處理累積經驗,從而自動調整參數、提高效能的算法。機器學習分為監督學習和無監督學習。在監督學習中,輸入的訓練數據由特征和標簽兩部分組成,機器分析得到兩者之間的關系,當有特征無標簽的數據輸入后,即可得到數據標簽。監督學習常用于圖像的自動識別和風險評估。在無監督學習中,樣本沒有標簽,機器發掘數據的隱藏特征并進行聚類分析,從而揭示人不易察覺的新機制,可用于探究疾病的潛在發病因素[3]。
近幾年,機器學習的分支——人工神經網絡(artificial neural networks,ANN)與深度學習(deep learning)得到廣泛關注。受人類神經系統的啟發,ANN 仿照神經元的連接方式建立了多層“神經元”結構,每層“神經元”從上層接收數據并進行計算,再將輸出值傳遞給下層。深度學習在ANN的基礎上進一步優化,與ANN 相比,深度學習有更多的隱藏層,可以以分層方式,發現更高級別的數據特征,目前,ANN和深度學習被廣泛應用于診斷系統、疾病預后評估、圖像識別等多個方面[4]。
1.圖像識別:作為重要的輔助檢查手段,醫學圖像包括X線圖像、CT圖像、病理圖像、眼底鏡圖像等,在疾病診療中起著非常重要的作用。近幾年,計算機輔助檢測(computeraided detection,CAD)在醫學圖像識別領域迅速發展[5]。CAD能夠發現圖像中的異常區域,向臨床醫生提供參考,提高病變檢出率,降低假陰性率,主要應用于良惡性病變的鑒別以及疾病的識別。
許多團隊已成功應用AI 進行了多種醫學圖像的檢測。如,Google Brain 團隊研發了一項自動檢測眼底照片中糖尿病性視網膜病變的算法,經過9 963 張眼底圖像的驗證,其靈敏度為97.5%,特異度為93.4%,診斷能力堪比專業醫師[6]。Kooi 等[7]設計了一個獨立閱讀乳腺鉬靶X 線照片神經網絡模型,經過約45 000 幅圖像的訓練后,該模型的AUC為0.852,檢測效能接近人類專家水平。Herweh等[8]開發了一個可通過斷層掃描圖像自動診斷急性卒中的機器學習模型,其敏感度為46.46%,特異度為94.15%,與人類專家無顯著差異。
2.遺傳學和基因組學分析:遺傳學和基因組學的變異是許多疾病的始動因素,對治療方面也有很大影響。由于基因組數據量極大,單純依靠人力很難完成分析任務。AI已被應用于遺傳學和基因組學分析的很多方面,包括大型基因組數據集的分析,基因組序列元件注釋等[9]。
例如,IBM 公司的Watson 模型可進行與肌萎縮側索硬化(amyotrophic lateral sclerosis,ALS)相關的RNA 結合蛋白(RNA binding protein,RBP)的篩選。首先,該模型分析了所有已知的ALS 相關RBP,隨后,對基因組中1 542 個RBP 片段按照與已知RBP 的相似性進行排序,篩選出與ALS 相關的新RBP。研究人員對前10位RBP進行了驗證,發現有5個RBP與ALS明顯相關[10]。Kim等[11]開發了一項可自動檢測間質性肺炎相關RNA 的機器學習模型,研究者收集了125 個肺活檢標本,并對所有標本的微陣列中33 297 個轉錄物的RNA水平進行檢測,用一部分數據訓練模型,找出在間質性肺炎中異常表達的RNA,并在另一部分數據中進行測試,該模型的特異度為92%,靈敏度為82%。Dorman等[12]利用機器學習算法對已知乳腺癌化療抵抗基因的表達和拷貝數進行組合分析,查找到與化療抵抗相關的基因組。
3.智能診療:隨著患者臨床信息的迅速增長,疾病的診斷及醫療決策的制定變得更加復雜,AI 可以提高醫生的診療效率和準確性。Chamberlain等[13]開發了一款可以自動篩查哮喘和慢性阻塞性肺疾病的智能手機軟件。該應用程序主要由電子聽診器和患者問卷調查組成,通過機器學習算法分析、整合數據,對哮喘和慢性阻塞性肺疾病患者進行診斷。經測試,該程序在普通人群中篩查哮喘或慢性阻塞性肺疾病患者的AUC 為0.95,鑒別哮喘患者和慢性阻塞性肺疾病患者的AUC為0.97。
在國內,廣州醫科大學、四川大學等單位與加州大學合作開發了一種使用遷移學習技術的深度學習系統,利用類似領域的數據解決給定領域的數據缺乏問題,能夠精確診斷眼病和肺炎兩大類疾病。該系統可以有效地區分黃斑變性和糖尿病性視網膜病變,并在30 s 內確定患者是否應該接受治療,準確度達到95%以上;在區分病毒性肺炎和細菌性肺炎上,準確率也超過90%[14]。第三軍醫大學的研究人員利用機器學習技術,可在30 s 內檢測到ABO 抗原和5 種主要恒河猴抗原,準確率超過99.9%。這對于急需輸血搶救的病人意義重大,可以增加病人的生還概率,可用于搶險救災、戰場急救等急需驗血的情景[15]。
4.預測預后:AI 可以通過患者的臨床特征、影像學表現、基因組學特征等相關因素對疾病的發生、發展,可能的治療反應等進行預測,為疾病的診療提供重要參考。
如,Weng 等[16]比較了美國心臟病學會指南與4 種機器學習算法在預測首次心血管事件的數據分析效率。研究者用英國378 256 名患者的電子病歷對機器學習算法進行訓練和測試,該模型在與心血管疾病發作有關的記錄中找到共同特征,然后對剩余的病歷記錄進行測試。結果顯示,機器學習的表現明顯優于美國心臟病學會指南,其中表現最好的神經網絡算法比指南的正確預測率高7.6%,考慮的變量比指南多出22 個。Menden 等[17]設計了一個機器學習模型來預測癌細胞系對藥物的治療反應。該模型通過基于細胞系的基因組學特征和藥物的半抑制濃度(IC50)來量化治療反應。結果表明,該模型能夠以較高的準確性(決定系數R2為0.61)來預測細胞系的IC50,不僅可用來優化藥物篩選方案,還可將患者的基因組特征與藥物敏感性相聯系,實現個體化醫療。韓國高科技科學院的研究人員開發了一個深度卷積神經網絡模型,可以通過分析PET圖像,預測輕度認知障礙患者未來發展為阿爾茲海默病的可能。研究人員輸入139 例阿爾茲海默病患者和182 例健康者的PET 圖像對該模型進行訓練,隨后對171 例輕度認知障礙患者的PET圖像進行檢測,判斷其未來3年發展為阿爾茲海默病的可能,結果表明,該算法預測的準確度高達84.2%[18]。Hazlett等[19]用深度學習算法根據腦磁共振成像的表面積信息,預測有高遺傳風險的6 ~12月齡兒童在2 歲診斷自閉癥的風險,預測值為81%,靈敏度為88%。
AI 在皮膚科的主要應用為圖像識別。AI 模型從經處理的臨床圖像、皮膚鏡圖像、數字病理圖像中提取特征,進行分類診斷,在皮膚癌特別是黑素瘤的識別中有大量研究[20-21]。其中影響力較大的是斯坦福大學團隊研發的卷積神經網絡模型,研究者輸入近13萬張皮膚圖像和疾病標簽對該模型進行訓練,圖像包含皮膚鏡圖像、手機照片以及標準化照片。隨后對比該模型與至少21 位皮膚科醫生在角質形成細胞癌、良性脂溢性角化病、惡性黑色素瘤與良性痣鑒別中的表現。該模型的AUC 在0.91以上,達到人類專家水平[22]。近年來,智能手機發展迅速,數款可自動識別皮膚病的手機軟件被開發,其中SkinVision是第一個采用分形幾何算法實現實時診斷皮膚癌的手機軟件,其檢測黑色素瘤的準確度為81%[23]。在數字病理圖像方面,Arevalo 等[24]報道了一個自動識別基底細胞癌的非監督學習模型,經過1 417張數字病理切片訓練和另外671張切片測試,其AUC為0.98,值得注意的是,該模型有一個視覺解釋層,可以顯示出發現的與癌組織相關的區域。國內的中山大學團隊采用多實例多標簽機器學習算法對皮膚活檢圖像進行注釋,選擇了在診斷中重要的15種注釋術語,將12 700張皮膚活檢圖像按3∶7 的比例分別對模型進行訓練和測試,注釋的準確度最高達85%[25]。
目前,AI 在皮膚圖像識別的應用主要集中于皮膚癌的診斷,對其他疾病也有一定研究,但總體較少。Shrivastava等[26]開發了一種機器學習模型,可自動從銀屑病患者的臨床照片中獲取皮損的顏色、質地等特征,進行風險分級。Han等[27]使用基于區域的卷積神經網絡生產了包含49 567張標準化指甲圖像的數據集,然后對AI 模型進行訓練,另外選取1 164張指甲圖像對該模型進行測試,其診斷甲癬的準確度高達96%,優于大多數參加該研究的臨床醫生。浙江大學團隊開發了一個面部痤瘡自動診斷模型,基于卷積神經網絡在臨床照片中提取特征,隨后通過分類器對特征進行分類,自動檢測痤瘡的類型[28]。
此外,AI 在預測分析、基因組學等方面也有一定研究。耶魯大學團隊建立了一個多參數ANN 模型來早期檢測非黑色素瘤皮膚癌。研究者用2 056 個非黑色素瘤皮膚癌和460 574個非癌癥病例的個人健康信息對模型進行訓練、測試。該模型提取了性別、年齡、糖尿病狀態、吸煙狀況、哮喘、種族等共13 個潛在預測指標,經驗證,其靈敏度為86.2%,特異性為62.7%,AUC 為0.81[29]。皮膚致敏物質預測模型可有效預測潛在的人類皮膚致敏劑[30-31]。皮膚滲透性預測模型可以對多種化學分子的皮膚滲透性進行預測分析,從而為皮膚外用制劑和護膚品的配制篩選合適的成分[32-33]。利用已知皮膚癌基因的生物學特征,通過機器學習模型尋找潛在的皮膚癌基因[34]。
AI在皮膚圖像識別領域的應用可以參考其他學科在圖像預處理、特征選擇、分類過程中較好的設計方法,如遷移學習。在非圖像識別領域,其他學科的研究思路值得皮膚科借鑒,如綜合患者的臨床特征、輔助檢查結果等對皮膚病進行智能診斷,并篩選最佳治療方案;對常見皮膚病的預后進行預測;通過基因分析藥物的治療敏感性等等。
總之,AI作為一門新興交叉學科,在醫學領域的研究主要涉及圖像識別、遺傳學和基因組學分析、智能診療、預測預后等多個方面。其中,AI在圖像識別方面的研究最多,包括皮膚圖像識別。在非圖像識別領域,AI 在皮膚科的研究較少,可以借鑒其他學科的研究方法,拓寬思路。AI在醫學領域的應用眾多,本文僅列舉了部分研究進展,仍存在很多不足之處。隨著研究的深入,AI 在醫學中將有著更廣泛的應用,從而提高診療效率,降低醫療成本,使醫患雙方共同獲益。