李錫榮
中國(guó)人民大學(xué) 1數(shù)據(jù)工程與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室 2信息學(xué)院人工智能與媒體計(jì)算實(shí)驗(yàn)室,北京 100872 3北京致遠(yuǎn)慧圖科技有限公司人工智能實(shí)驗(yàn)室,北京 100872
以深度學(xué)習(xí)為代表的新一代人工智能(artificial intelligence, AI)技術(shù)對(duì)各行各業(yè)的影響是前所未有的。例如美國(guó)科學(xué)家利用AI輔助新型冠狀病毒疫苗研發(fā)[1],訓(xùn)練深度卷積網(wǎng)絡(luò)根據(jù)咳嗽聲音篩查新型冠狀病毒肺炎患者[2];日本農(nóng)民利用深度學(xué)習(xí)模型根據(jù)黃瓜品相對(duì)其進(jìn)行自動(dòng)分類(lèi)[3],等等。這種影響的形成,與深度學(xué)習(xí)自身的技術(shù)特點(diǎn)密不可分。
深度學(xué)習(xí)是一種以深層人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),以原始數(shù)據(jù)為輸入,以目標(biāo)任務(wù)為輸出,具備端到端(end-to-end)學(xué)習(xí)能力的機(jī)器學(xué)習(xí)算法[4- 5]。相比傳統(tǒng)機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)具有強(qiáng)學(xué)習(xí)能力和高易用性的特殊優(yōu)勢(shì)。以圖像分類(lèi)任務(wù)為例,傳統(tǒng)方法分為特征提取(feature extraction)和分類(lèi)器訓(xùn)練(classifier training)兩個(gè)階段。前者負(fù)責(zé)從原始圖像樣本中提取與當(dāng)前指定任務(wù)相關(guān)的向量化的視覺(jué)特征,而后者基于視覺(jué)特征和樣本所對(duì)應(yīng)的類(lèi)別標(biāo)簽,尋找最優(yōu)分類(lèi)決策邊界。這兩個(gè)階段之間并不存在反饋機(jī)制。分類(lèi)器訓(xùn)練只能在既定特征空間進(jìn)行,即使不同類(lèi)別的樣本在該特征空間缺乏區(qū)分性。與之相反,深度學(xué)習(xí)將特征提取和分類(lèi)器訓(xùn)練納入一個(gè)神經(jīng)網(wǎng)絡(luò)框架中,輸入數(shù)據(jù)經(jīng)過(guò)多層神經(jīng)網(wǎng)絡(luò),逐次提取表達(dá)能力更強(qiáng)的視覺(jué)特征,最后經(jīng)任務(wù)層給出分類(lèi)結(jié)果。任務(wù)層獲得的錯(cuò)分信息經(jīng)后向傳播(back propagation)反饋給特征層,使其不斷調(diào)整、優(yōu)化特征提取過(guò)程,從而實(shí)現(xiàn)特征提取和分類(lèi)器訓(xùn)練的聯(lián)合優(yōu)化。值得進(jìn)一步指出的是,由于傳統(tǒng)方法天然缺乏聯(lián)合優(yōu)化能力,因此特征提取[一些文獻(xiàn)稱(chēng)之為特征工程(feature engineering)[6]]非常關(guān)鍵,往往需要密集的領(lǐng)域知識(shí)和大量的經(jīng)驗(yàn)式設(shè)計(jì)。相比之下,深度學(xué)習(xí)的特征提取過(guò)程更為精簡(jiǎn),相同或相似的神經(jīng)網(wǎng)絡(luò)架構(gòu)可用于解決傳統(tǒng)意義上完全不同的兩個(gè)任務(wù)(如圖像分類(lèi)和文本分類(lèi))。
鑒于醫(yī)學(xué)影像在健康篩查、疾病診斷、精準(zhǔn)治療、預(yù)后評(píng)估等諸多任務(wù)中的關(guān)鍵作用,用于醫(yī)學(xué)影像結(jié)構(gòu)分析與語(yǔ)義理解的深度學(xué)習(xí)正成為重要的交叉學(xué)科研究方向。由于眼睛是全身唯一活體能夠直接觀察到血管和神經(jīng)的部位,關(guān)于該部位的多種類(lèi)型醫(yī)學(xué)影像如眼底彩照 (color fundus photography, CFP)、超廣角眼底圖像 (ultra-wide-field fundus images, UWF)、光學(xué)相干斷層成像(optical coherence tomography, OCT)、裂隙燈照片等(圖1)具有無(wú)創(chuàng)、非侵入、經(jīng)濟(jì)等優(yōu)點(diǎn),因此發(fā)展眼科AI對(duì)于在不同年齡段開(kāi)展大規(guī)模眼健康篩查具有重要意義。

圖1 不同類(lèi)型眼科影像示例
以CFP為例,眼科AI涉及結(jié)構(gòu)分析(左右眼識(shí)別、黃斑定位、視杯視盤(pán)分割、血管提取等)和語(yǔ)義理解(圖像質(zhì)量評(píng)估、眼底病灶分割、眼底疾病識(shí)別等)兩大類(lèi)任務(wù)。近年來(lái)關(guān)于特定子任務(wù)的代表性研究案例逐年增多(表1)。例如,谷歌2016年發(fā)表于JAMA的研究[7],首次證實(shí)了利用深度卷積網(wǎng)絡(luò)從單張后極部CFP中識(shí)別糖尿病視網(wǎng)膜病變(diabetic retinopathy, DR)的可行性。谷歌下屬的DeepMind公司于2018年在Cell發(fā)文表明,以O(shè)CT圖像序列作為輸入的AI模型在多個(gè)病種的轉(zhuǎn)診判斷上,有望達(dá)到臨床專(zhuān)家的水平[9]。北京協(xié)和醫(yī)院的新近研究證實(shí),基于單張CFP,AI模型在10余種常見(jiàn)眼底疾病的識(shí)別精度上已可媲美住院醫(yī)師[19]。

表1 單模態(tài)深度學(xué)習(xí)在眼科領(lǐng)域的應(yīng)用舉例
上述眼科AI方向的工作均以單一類(lèi)型影像(如CFP、OCT、UWF等)作為AI模型的輸入。而在臨床實(shí)踐中,醫(yī)生為了實(shí)現(xiàn)更精準(zhǔn)的診斷,往往需同時(shí)參考不同類(lèi)型、不同模態(tài)的影像樣本進(jìn)行綜合分析、交叉驗(yàn)證和判斷。以CFP和OCT為例,考量二者成像部位的物理位置關(guān)系可以發(fā)現(xiàn),CFP反映的是視網(wǎng)膜平面,而OCT圖像反映的是視網(wǎng)膜切面,兩種不同模態(tài)的影像包含的信息存在互補(bǔ)性。為充分利用不同模態(tài)影像之間的互補(bǔ)性,需要從單模態(tài)深度學(xué)習(xí)轉(zhuǎn)向多模態(tài)深度學(xué)習(xí)。
關(guān)于模態(tài)(modality)一詞,既往文獻(xiàn)為了覆蓋盡可能多的研究領(lǐng)域,其定義要么語(yǔ)焉不詳,要么過(guò)于抽象[21- 22]。考慮到AI輔助診斷的背景,本文給出如下定義:模態(tài)是對(duì)由一種特定類(lèi)型裝置采集的具有相同表達(dá)形式的數(shù)據(jù)的總稱(chēng)。根據(jù)該定義,CFP是一種模態(tài),而OCT是另外一種模態(tài),因此圖1亦可視為不同模態(tài)的眼科影像。上述定義也區(qū)分了數(shù)據(jù)本身的多樣性(diversity)和模態(tài)在概念上的根本差異。因個(gè)體因素(如具體設(shè)備型號(hào)、拍攝者、被拍攝者、拍攝條件等)導(dǎo)致的影像上的差異,不能形成一個(gè)單獨(dú)的模態(tài)。同一模態(tài)的樣本因數(shù)據(jù)采集過(guò)程中的系統(tǒng)性偏差形成的風(fēng)格各異的數(shù)據(jù)集合,稱(chēng)為域 (domain)[23]。
相比單模態(tài)深度學(xué)習(xí),多模態(tài)深度學(xué)習(xí)架構(gòu)的一個(gè)重要特性是其數(shù)據(jù)層要具備同時(shí)接受不同模態(tài)輸入的能力。在其學(xué)習(xí)過(guò)程中,不但要充分提取和利用各個(gè)模態(tài)內(nèi)部的有用信息,同時(shí)要挖掘各模態(tài)之間的互補(bǔ)性并進(jìn)行有效的多模態(tài)信息融合,以實(shí)現(xiàn)較單模態(tài)網(wǎng)絡(luò)更優(yōu)的性能。根據(jù)融合發(fā)生的位置,多模態(tài)深度學(xué)習(xí)包括數(shù)據(jù)層、特征層和任務(wù)層融合3種范式(圖2)。

圖2 多模態(tài)深度學(xué)習(xí)的3種范式(虛線方框)A.數(shù)據(jù)層融合;B.特征層融合;C.任務(wù)層融合
數(shù)據(jù)層融合將不同模態(tài)的樣本混在一起作為“單模態(tài)”輸入,強(qiáng)制神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中提取與模態(tài)無(wú)關(guān)的特征[24](圖2A)。這種范式的優(yōu)點(diǎn)是可以直接使用現(xiàn)有的單模態(tài)架構(gòu),缺點(diǎn)是對(duì)模態(tài)之間的空間關(guān)聯(lián)性要求較高,不適用于類(lèi)似CFP和OCT這兩種空間上正交的模態(tài)。
特征層融合嘗試在各個(gè)模態(tài)的特征提取過(guò)程中融合不同模態(tài)的信息(圖2B)。淺層特征仍保留相當(dāng)多的原始數(shù)據(jù)信息,而深層次的特征包含更多與任務(wù)相關(guān)的語(yǔ)義特征,因此一般選擇在深層特征上進(jìn)行融合。常見(jiàn)的融合算法有簡(jiǎn)單的特征向量拼接[25]和旨在獲取高階關(guān)聯(lián)信息的雙線性池化 (bilinear pooling)、張量融合 (tensor fusion)等[26]。
任務(wù)層融合是將基于各個(gè)模態(tài)分別給出的預(yù)測(cè)結(jié)果進(jìn)行融合[27](圖2C),因此,在概念上可以看成是多個(gè)單模態(tài)網(wǎng)絡(luò)的集成。各個(gè)網(wǎng)絡(luò)既可以獨(dú)立并行訓(xùn)練,也可以聯(lián)合訓(xùn)練。對(duì)比3種范式,數(shù)據(jù)層融合實(shí)現(xiàn)最簡(jiǎn)單,但適用范圍較窄;特征層融合的適用范圍廣、模型學(xué)習(xí)能力強(qiáng),但對(duì)融合模塊的設(shè)計(jì)和訓(xùn)練數(shù)據(jù)量也提出了更高要求;任務(wù)層融合則介于二者之間。在實(shí)踐中選取何種范式,需具體問(wèn)題具體分析。目前,第2種范式是研究者采用的主流方案。
多模態(tài)深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的最新應(yīng)用主要集中于各類(lèi)腫瘤/癌癥的輔助診斷和預(yù)后預(yù)測(cè)方面(表2)。例如,針對(duì)乳腺癌分類(lèi)任務(wù),Wang等[28]提出了一種多模態(tài)分類(lèi)網(wǎng)絡(luò)。該網(wǎng)絡(luò)以普通超聲、彩色多普勒超聲、剪切波彈性成像、應(yīng)變彈性成像4種不同模態(tài)的圖像同時(shí)作為輸入,并在特征層以特征拼接的形式實(shí)現(xiàn)多模態(tài)信息融合。

表2 多模態(tài)深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域的應(yīng)用舉例
針對(duì)腦腫瘤患者的總生存期預(yù)測(cè)任務(wù),Zhou等[29]將總生存期分為短期(<10個(gè)月)、中期(10~15個(gè)月)、長(zhǎng)期(>15個(gè)月)3類(lèi),從而將一個(gè)連續(xù)值的回歸問(wèn)題簡(jiǎn)化為三分類(lèi)問(wèn)題。研究者提出了一種多模態(tài)、多通道分類(lèi)網(wǎng)絡(luò),接受4種模態(tài)的MR影像作為輸入;為降低計(jì)算復(fù)雜度,引入了預(yù)處理模塊,將三維MR立體圖像投影得到不同方向的二維平面圖。與Wang等[28]的研究類(lèi)似,該研究從不同模態(tài)圖像提取的特征以及腫瘤大小、患者年齡等輔助信息,也是通過(guò)特征拼接的形式實(shí)現(xiàn)了多模態(tài)信息的融合。
鑒于特征拼接的局限性,研究者們嘗試探索更復(fù)雜、表達(dá)能力更強(qiáng)的多模態(tài)融合策略。Chen等[26]以組織病理學(xué)圖像和基因組特征為多模態(tài)輸入,構(gòu)建了針對(duì)癌癥診斷與預(yù)后預(yù)測(cè)任務(wù)的模型。該模型采用張量融合(tensor fusion)提取組織病理學(xué)圖像特征和基因組特征之間的關(guān)聯(lián)關(guān)系。Jiang等[30]嘗試?yán)渺o脈期CT和動(dòng)脈期CT圖像的互補(bǔ)性以實(shí)現(xiàn)更準(zhǔn)確的胰腺分割。神經(jīng)網(wǎng)絡(luò)先分別從靜脈期CT和動(dòng)脈期CT圖像中提取不同層次的深度特征,之后進(jìn)行多層次、選擇性特征融合。
上述特征融合策略,無(wú)論是簡(jiǎn)單的特征拼接還是相對(duì)復(fù)雜的具備學(xué)習(xí)能力的融合,均是由研究者根據(jù)其經(jīng)驗(yàn)人工設(shè)計(jì)。為了克服人工設(shè)計(jì)的局限性,Peng等[31]針對(duì)癌細(xì)胞遠(yuǎn)端轉(zhuǎn)移預(yù)測(cè)任務(wù),嘗試通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)搜索(network architecture search, NAS)在訓(xùn)練過(guò)程中動(dòng)態(tài)確定對(duì)于融合PET和CT特征最有效的特征融合網(wǎng)絡(luò)。盡管該 研究表明了NAS在性能上的優(yōu)勢(shì),由于其本身需要額外的訓(xùn)練數(shù)據(jù),這種動(dòng)態(tài)生成的網(wǎng)絡(luò)結(jié)構(gòu)存在過(guò)擬合的風(fēng)險(xiǎn)。此外,NAS以性能為導(dǎo)向,由此獲得的網(wǎng)絡(luò)結(jié)構(gòu)較之前人工設(shè)計(jì)的網(wǎng)絡(luò)的可解釋性較差。
相較于其他醫(yī)學(xué)領(lǐng)域,眼科AI的多模態(tài)深度學(xué)習(xí)應(yīng)用目前仍處于起步階段(表3)。筆者在主流期刊檢索到該方向的首篇應(yīng)用成果發(fā)表于2019年[32],內(nèi)容為多模態(tài)年齡相關(guān)性黃斑變性(age-related macular degeneration,AMD)分類(lèi)問(wèn)題。研究者采用了一種雙流(two-stream)網(wǎng)絡(luò)架構(gòu),分別從CFP和OCT B-scan圖像中提取相關(guān)特征,之后將不同模態(tài)特征進(jìn)行拼接,再輸入到后續(xù)的分類(lèi)任務(wù)層,實(shí)現(xiàn)正常眼底/干性AMD/濕性AMD的三分類(lèi)。Xu等[33]采用了類(lèi)似的網(wǎng)絡(luò)架構(gòu),并將任務(wù)進(jìn)一步細(xì)分為四分類(lèi)問(wèn)題(正常眼底/干性AMD/濕性AMD/息肉狀脈絡(luò)膜血管病變)。上述研究結(jié)果均表明,相比僅采用CFP或OCT圖像的單模態(tài)網(wǎng)絡(luò),多模態(tài)網(wǎng)絡(luò)在分類(lèi)準(zhǔn)確率方面明顯提升,初步顯示了多模態(tài)深度學(xué)習(xí)在眼科AI上的應(yīng)用潛力。

表3 多模態(tài)深度學(xué)習(xí)在眼科領(lǐng)域的應(yīng)用舉例
不同于以CFP和OCT圖像作為多模態(tài)輸入,Li 等[24]嘗試將CFP和經(jīng)生成對(duì)抗網(wǎng)絡(luò)[34]合成的熒光素眼底血管造影(fluorescein fundus angiography, FFA)混在一起,通過(guò)數(shù)據(jù)層融合,引導(dǎo)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中學(xué)習(xí)模態(tài)無(wú)關(guān)而與任務(wù)相關(guān)的視覺(jué)特征。因此,該技術(shù)方案在本質(zhì)上可以視為一種比基于傳統(tǒng)底層圖像處理技術(shù)更為復(fù)雜的數(shù)據(jù)增強(qiáng)。
北京協(xié)和醫(yī)院在國(guó)際視覺(jué)與眼科研究協(xié)會(huì)2021年會(huì)上報(bào)告的一項(xiàng)工作[27]表明,以CFP和OCT圖像序列為輸入的多模態(tài)深度學(xué)習(xí)模型也可用于同時(shí)檢測(cè)多種常見(jiàn)致盲性眼底疾病,如DR、AMD、視網(wǎng)膜前膜、病理性近視等。相比之前的工作,除檢測(cè)病種數(shù)量增加外,在OCT分支網(wǎng)絡(luò)中引入了一種深度多示例學(xué)習(xí)模塊[18],可直接接受整個(gè)OCT圖像序列,無(wú)須人工選擇OCT B-scan圖像作為多模態(tài)網(wǎng)絡(luò)的輸入。
雖然上述探索得出了令人鼓舞的研究結(jié)果,但眼科AI的多模態(tài)深度學(xué)習(xí)仍存在相當(dāng)多的技術(shù)挑戰(zhàn)需要攻克,主要集中于數(shù)據(jù)和算法兩個(gè)層面。
數(shù)據(jù)層面,相比單模態(tài)場(chǎng)景,多模態(tài)數(shù)據(jù)存在配對(duì)要求,其前期原始數(shù)據(jù)采集和后期人工標(biāo)注的難度及成本顯著增加。因此,需加強(qiáng)各相關(guān)單位合作機(jī)制創(chuàng)新,以獲得更多的多模態(tài)研發(fā)數(shù)據(jù);此外,在數(shù)據(jù)高效深度學(xué)習(xí) (data-efficient deep learning)方面需進(jìn)行技術(shù)創(chuàng)新,以在訓(xùn)練數(shù)據(jù)規(guī)模受限的條件下實(shí)現(xiàn)有效的多模態(tài)學(xué)習(xí)。
算法層面,盡管現(xiàn)有的研究結(jié)果表明,多模態(tài)模型總體性能優(yōu)于單模態(tài)模型,但在特定病種中,多模態(tài)模型并不總能超過(guò)在該病種上表現(xiàn)最優(yōu)的單模態(tài)模型。單一模態(tài)影像并不能覆蓋所有疾病特征。比如DR作為血管病,特征表現(xiàn)面積較大, CFP相比OCT可反映更多的疾病信息;而黃斑水腫的特征反映在視網(wǎng)膜層次厚度和結(jié)構(gòu)的變化上,OCT的優(yōu)勢(shì)則更明顯。如何設(shè)計(jì)更加智能的、具有自主選擇能力的多模態(tài)信息融合機(jī)制是值得深入探索的研究課題[35]。
需要指出的是,由于現(xiàn)有關(guān)于多模態(tài)眼科AI的研究相對(duì)較少,多模態(tài)深度學(xué)習(xí)在病種亞型分類(lèi)、分期和相應(yīng)的處置建議推薦等方面,較單模態(tài)的優(yōu)勢(shì)尚未充分體現(xiàn)。以干性AMD為例,玻璃膜疣是干性AMD的特征性臨床表現(xiàn),在早期階段,玻璃膜疣較小,OCT相比CFP更容易觀察到這一表現(xiàn)。理論上可以利用不同模態(tài)影像在病種不同階段的不同適應(yīng)性,實(shí)現(xiàn)更細(xì)粒度的分類(lèi),從而推薦更恰當(dāng)?shù)奶幹媒ㄗh。
在數(shù)據(jù)形態(tài)上,現(xiàn)有研究主要考慮融合不同模態(tài)的影像,而在臨床實(shí)踐中,患者信息除影像數(shù)據(jù)外,還有非影像數(shù)據(jù),比如定性的病史、定量的視光檢查結(jié)果等。當(dāng)前,這些非影像數(shù)據(jù)存在記錄不準(zhǔn)確或不完整等問(wèn)題。隨著電子病歷系統(tǒng)的普及和建設(shè)水平的提高,能夠有效融合影像和非影像數(shù)據(jù)的多模態(tài)AI有望在青少年近視綜合防控、成人慢病管理、個(gè)性化醫(yī)療保健等多個(gè)應(yīng)用場(chǎng)景發(fā)揮關(guān)鍵作用。
深度學(xué)習(xí)是當(dāng)前醫(yī)學(xué)人工智能的核心技術(shù)。現(xiàn)有研究結(jié)果表明,在眼底疾病輔助診斷方面,多模態(tài)深度學(xué)習(xí)較基于單一模態(tài)的技術(shù)方案在識(shí)別性能上存在明顯優(yōu)勢(shì)。發(fā)展面向眼科的多模態(tài)深度學(xué)習(xí)技術(shù)具有廣闊的應(yīng)用前景。由于多模態(tài)影像對(duì)于眼底疾病診斷的高效性和必要性,眼底成像設(shè)備已呈現(xiàn)“一體化”和“低成本化”的趨勢(shì),多模態(tài)AI輔助診斷具有巨大的普及空間。此外,眼底作為非侵入式觀察全身健康狀況的“窗口”,對(duì)于慢性病進(jìn)展的檢測(cè)和管理起著重要提示作用。我們有理由相信,多模態(tài)眼底分析在眼科以外的醫(yī)療健康領(lǐng)域也有著巨大的需求和應(yīng)用潛力。
利益沖突:無(wú)
志謝:感謝北京致遠(yuǎn)慧圖科技有限公司丁大勇博士對(duì)本文的建議,中國(guó)人民大學(xué)博士生林海斕在本文修訂方面提供的幫助。