曹玉紅,徐 海,劉蓀傲,王紫霄,李宏亮
(1.中國電子學(xué)會(huì),北京 100036;2.中國科學(xué)技術(shù)大學(xué)信息科學(xué)技術(shù)學(xué)院,合肥 230026;3.中國科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京 100049)
隨著醫(yī)學(xué)影像成像技術(shù)和成像設(shè)備的快速發(fā)展和普及,全球每天產(chǎn)生大量的醫(yī)學(xué)影像數(shù)據(jù),借助計(jì)算機(jī)進(jìn)行醫(yī)學(xué)影像分析在臨床診斷、手術(shù)方案制定中的重要性日益凸顯[1]。其中,醫(yī)學(xué)影像分割能夠有效地提取目標(biāo)區(qū)域的形狀和空間信息,是進(jìn)行醫(yī)學(xué)影像定量分析的關(guān)鍵步驟之一[2],目的是以機(jī)器視覺方式自動(dòng)從醫(yī)學(xué)圖像中逐像素地識(shí)別出目標(biāo)區(qū)域(器官、組織或病灶)。早期的醫(yī)學(xué)影像分割系統(tǒng)主要基于傳統(tǒng)的圖像分割算法搭建,如基于邊緣檢測(cè)的分割算法[3]、基于閾值的分割算法[4]和基于區(qū)域的分割算法[5]。但醫(yī)學(xué)圖像通常具有對(duì)比度低、組織紋理復(fù)雜、邊界區(qū)域模糊等特點(diǎn),極大地限制了此類圖像分割算法的效果和應(yīng)用場(chǎng)景。隨后,針對(duì)特定任務(wù)設(shè)計(jì)手工特征的分割算法很長一段時(shí)間成為了醫(yī)學(xué)影像分割的研究主流[6],然而手工特征的設(shè)計(jì)極大依賴醫(yī)生的專業(yè)先驗(yàn)知識(shí),而且往往泛化能力差,無法遷移到新的任務(wù)場(chǎng)景下。因此在實(shí)際應(yīng)用中基于傳統(tǒng)圖像分割技術(shù)的醫(yī)學(xué)影像分割系統(tǒng)仍然不夠成熟,無法獲得令人滿意的分割效果。
近年來,隨著計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[7-9]強(qiáng)大的建模能力被廣泛研究,相比傳統(tǒng)的算法,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法在圖像處理各領(lǐng)域帶來了突破性的進(jìn)展,如圖像分類[10]、語義分割[11]等,基于深度學(xué)習(xí)的圖像分割算法也被引入到醫(yī)學(xué)影像分割[12-15]中。深度學(xué)習(xí)算法的自動(dòng)提取特征能力有效地克服了傳統(tǒng)醫(yī)學(xué)圖像分割算法過多依賴醫(yī)療專家先驗(yàn)認(rèn)知這一弊端,且深度學(xué)習(xí)算法的可移植性高,借助遷移學(xué)習(xí)能夠快速地拓展到不同的任務(wù)場(chǎng)景下。
盡管深度學(xué)習(xí)在圖像分割中取得了突破性的提升,醫(yī)學(xué)影像其區(qū)別于自然場(chǎng)景圖像的特點(diǎn)決定了醫(yī)學(xué)影像分割需要面臨更大的挑戰(zhàn),主要來源于以下幾個(gè)方面:
受限于成像技術(shù),醫(yī)學(xué)影像相較于自然圖像往往有對(duì)比度低、噪聲較大的特點(diǎn),同時(shí)醫(yī)療影像中組織紋理復(fù)雜,邊界模糊不易區(qū)分。此時(shí)如何提升網(wǎng)絡(luò)模型的抗干擾能力和魯棒性,以及對(duì)邊界附近像素的準(zhǔn)確性是一個(gè)非常大的挑戰(zhàn)。
醫(yī)學(xué)影像數(shù)據(jù)獲取困難(尤其對(duì)于罕見疾病),同時(shí)圖像分割任務(wù)訓(xùn)練過程中需要對(duì)圖像每個(gè)像素的類別進(jìn)行標(biāo)注,而且醫(yī)學(xué)影像標(biāo)注對(duì)醫(yī)療專業(yè)知識(shí)依賴性高,因此,獲取足夠多的標(biāo)注樣本是極度耗時(shí)耗力的。如何在有限的標(biāo)注樣本下,減輕訓(xùn)練分割模型時(shí)對(duì)像素級(jí)標(biāo)注的依賴,是醫(yī)學(xué)影像分割的另一挑戰(zhàn)。
醫(yī)學(xué)影像病變形態(tài)學(xué)上高度異質(zhì)化,使得標(biāo)注過程極大依賴于醫(yī)療專家的認(rèn)知和經(jīng)驗(yàn),而考慮到標(biāo)注醫(yī)生主觀標(biāo)準(zhǔn)上的不確定性和不同專家客觀上的認(rèn)知差異化,標(biāo)注過程中漏標(biāo)、誤標(biāo)不可避免,標(biāo)注的準(zhǔn)確度并不完全可靠。如何在有限的醫(yī)療標(biāo)注資源下,對(duì)模型不確定性的準(zhǔn)確量化,是當(dāng)前面臨的又一挑戰(zhàn)。
綜上所述,深度學(xué)習(xí)在醫(yī)學(xué)影像分割中具有廣闊的應(yīng)用前景,但同時(shí)也面臨巨大的挑戰(zhàn)。
隨著深度學(xué)習(xí)的崛起,研究人員將應(yīng)用于自然圖像的分割算法[11,16-17]引入到醫(yī)學(xué)領(lǐng)域。其中最具代表性的研究工作是全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[11],F(xiàn)CN實(shí)現(xiàn)了不改變圖像尺寸的情況下對(duì)分割網(wǎng)絡(luò)進(jìn)行端到端(End to End)的訓(xùn)練,并較傳統(tǒng)方法取得了顯著性的提升。伴隨著FCN的成功,研究人員開始關(guān)注如何針對(duì)醫(yī)療影像的特點(diǎn)對(duì)分割網(wǎng)絡(luò)進(jìn)行改進(jìn),考慮到醫(yī)療圖像具有豐富的空間信息(如復(fù)雜的紋理結(jié)構(gòu)),而網(wǎng)絡(luò)下采樣過程容易丟失空間信息,基于編碼-解碼(Encoder-Decoder)的網(wǎng)絡(luò)結(jié)構(gòu)開始嶄露頭角。中國科學(xué)院慈溪醫(yī)工所團(tuán)隊(duì)[12]結(jié)合具有對(duì)稱結(jié)構(gòu)的編解碼網(wǎng)絡(luò)對(duì)視網(wǎng)膜血管進(jìn)行了精細(xì)化分割,并基于分割結(jié)果量化分析了健康人群視網(wǎng)膜和阿茲海默癥患者之間的差異。實(shí)際上醫(yī)學(xué)影像數(shù)據(jù)大多數(shù)為3D的容積數(shù)據(jù)(如CT(Computed Tomography)、MRI(Magnetic Resonance Imaging)數(shù)據(jù)),為了保留不同層間的位置關(guān)系,Cicek等[18]通過將二維卷積層替換為三維卷積層構(gòu)建了3D U-Net,實(shí)現(xiàn)了3D數(shù)據(jù)的端到端處理。隨著基礎(chǔ)模型的完善,人們開始更多地考慮如何優(yōu)化分割的效果,如引入注意力機(jī)制來優(yōu)化特征,以達(dá)到減小類內(nèi)差異同時(shí)增大類間差異的目的。中國科學(xué)技術(shù)大學(xué)Xie等[15]根據(jù)腫瘤位置關(guān)系提出級(jí)聯(lián)的注意力分割網(wǎng)絡(luò),有效提高了腦膠質(zhì)瘤區(qū)域分割精度。此外,研究人員嘗試從目標(biāo)函數(shù)、增大感受野、解決類別不平衡等多種角度對(duì)分割模型進(jìn)行優(yōu)化。
盡管深度神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)算法表現(xiàn)出了顯著的進(jìn)展,但在實(shí)際應(yīng)用中醫(yī)學(xué)圖像標(biāo)注過程耗時(shí)耗力,限制了深度學(xué)習(xí)算法在該領(lǐng)域的進(jìn)一步發(fā)展。相對(duì)地直接獲取大量的醫(yī)學(xué)影像數(shù)據(jù)較為容易,因此為了減輕對(duì)標(biāo)注的依賴、降低成本,半監(jiān)督學(xué)習(xí)算法得到了廣泛的關(guān)注和研究。半監(jiān)督醫(yī)學(xué)影像分割的核心是如何利用未標(biāo)注的數(shù)據(jù),基于自訓(xùn)練(Selftraining)和協(xié)同訓(xùn)練(Co-training)的算法是此領(lǐng)域最常見的半監(jiān)督分割算法,此類方法通過為未標(biāo)注數(shù)據(jù)生成偽標(biāo)簽(Pseudo Label)并優(yōu)化更新方式進(jìn)行迭代訓(xùn)練。半監(jiān)督學(xué)習(xí)中為了能夠使用少量標(biāo)注數(shù)據(jù)訓(xùn)練出更加魯棒的模型,提出了對(duì)未標(biāo)注數(shù)據(jù)添加擾動(dòng)并對(duì)預(yù)測(cè)一致性進(jìn)行約束的方法[19-20],如基于均值教師(Mean Teacher,MT)的半監(jiān)督方法[20]和基于幾何變換一致性的方法[21]。此外,研究人員開始考慮更多樣的利用未標(biāo)注數(shù)據(jù)的方式,如基于圖(Graph)進(jìn)行正則化[22-23],基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[24]來生成更多的可用于訓(xùn)練的數(shù)據(jù)也是提升半監(jiān)督分割效果的方法之一。
由于標(biāo)注醫(yī)生主觀標(biāo)準(zhǔn)上的不確定性和不同專家客觀上的認(rèn)知差異化,標(biāo)注的準(zhǔn)確度并不完全可靠,因此對(duì)醫(yī)學(xué)影像分割中的預(yù)測(cè)結(jié)果給出定量的不確定性度量是輔助診斷的重要補(bǔ)充,近期關(guān)于醫(yī)學(xué)影像分割的不確定性也開始引起新的研究熱潮。根據(jù)不確定性的分布類型角度,Swiler等[25]將其分為認(rèn)知不確定性(Epistemic uncertainty)和隨機(jī)不確定性(Aleatoric uncertainty)。認(rèn)知不確定性是指模型認(rèn)知上的不確定性,研究者根據(jù)對(duì)模型不確定性評(píng)估的方式不同,將其大致分為兩大類,即深度模型集成(Deep model ensemble)[26]和深度貝葉斯網(wǎng)絡(luò)(Deep Bayesian Neural Network)[27]。隨機(jī)不確定性指的是觀測(cè)中固有的噪聲,這部分不確定性來源于醫(yī)療設(shè)備成像的數(shù)據(jù)本身噪聲以及標(biāo)注存在的不可控誤差。
近年來,卷積神經(jīng)網(wǎng)絡(luò)[7-8]已經(jīng)成為處理圖像分割任務(wù)的主流方法,并被廣泛拓展到醫(yī)學(xué)圖像分割當(dāng)中。卷積網(wǎng)絡(luò)能夠通過學(xué)習(xí)特定的卷積核提取豐富的圖像特征,從而生成有效、準(zhǔn)確的分割結(jié)果。受限于計(jì)算資源,卷積網(wǎng)絡(luò)通常由多個(gè)小尺寸的卷積層堆疊而成,并在此過程中進(jìn)行下采樣操作以減小圖像的空間尺寸,從而逐步擴(kuò)大卷積核的感受野,實(shí)現(xiàn)由淺到深、由局部到整體的多級(jí)特征提取。
全監(jiān)督學(xué)習(xí)是醫(yī)學(xué)影像分割任務(wù)最基本、應(yīng)用最廣泛的方法。全監(jiān)督的語義分割要求提供像素級(jí)的標(biāo)注作為訓(xùn)練參考,對(duì)于訓(xùn)練數(shù)據(jù)量以及標(biāo)注具有較高的要求。盡管醫(yī)學(xué)影像數(shù)獲取困難,數(shù)據(jù)集構(gòu)建成本高,但是為了滿足醫(yī)學(xué)領(lǐng)域的巨大需求,目前已經(jīng)出現(xiàn)了許多公開的醫(yī)學(xué)圖像數(shù)據(jù)集,保證了全監(jiān)督醫(yī)學(xué)圖像分割研究的充分發(fā)展。
醫(yī)學(xué)圖像在數(shù)據(jù)結(jié)構(gòu)上與自然圖像類似,同時(shí),醫(yī)學(xué)圖像也存在與自然圖像明顯不同的特性,如空間尺寸、目標(biāo)大小、成像質(zhì)量等。基于這些特性,研究者對(duì)自然圖像的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),構(gòu)建更適用于醫(yī)學(xué)領(lǐng)域的模型。總體來說,目前用于醫(yī)學(xué)分割的網(wǎng)絡(luò)都沿用了編碼器-解碼器的對(duì)稱結(jié)構(gòu),并在此基礎(chǔ)上強(qiáng)化圖像特征的提取。本節(jié)將首先介紹編碼器-解碼器的一系列經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu),隨后介紹改進(jìn)模塊,如注意力機(jī)制與新型卷積等,最后將介紹針對(duì)特定任務(wù)使用的模型級(jí)聯(lián)策略。
2.1.1 編碼器-解碼器結(jié)構(gòu)
與圖像分類任務(wù)不同,分割任務(wù)要求生成與輸入圖像尺寸一致的像素級(jí)分割結(jié)果,因此無法直接將分類任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于分割任務(wù)。全卷積網(wǎng)絡(luò)[11]通過將全連接層替換為卷積層,實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割。由于在特征提取過程中存在下采樣操作,在生成分割結(jié)果時(shí)需要通過插值計(jì)算進(jìn)行上采樣。在此基礎(chǔ)上,Ronneberger等[14]提出了用于細(xì)胞分割的U-Net,這一結(jié)構(gòu)隨后被廣泛應(yīng)用于各種醫(yī)學(xué)圖像分割任務(wù)中。U-Net包括用于特征提取的編碼器,以及與之對(duì)稱、用于恢復(fù)空間分辨率并生成分割結(jié)果的解碼器,具體結(jié)構(gòu)如圖1所示。由于網(wǎng)絡(luò)整體形狀類似于字母U,故被稱作U-Net。U-Net的編碼器部分通過堆疊3×3卷積層與激活函數(shù)實(shí)現(xiàn)特征提取,并通過2×2最大池化層降低分辨率,每次將空間尺寸減半并加倍通道數(shù)。在解碼器部分,使用2×2的轉(zhuǎn)置卷積恢復(fù)空間分辨率,并通過跳躍連接(Skip Connection)將上采樣后的特征與編碼器部分同層的特征進(jìn)行級(jí)聯(lián)(concatenation),作為后續(xù)卷積層的輸入。

圖1 U-Net的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structureof U-Net
U-Net最初被設(shè)計(jì)用于2D圖像的細(xì)胞分割,而很多醫(yī)學(xué)圖像數(shù)據(jù)實(shí)際為3D的容積數(shù)據(jù)。盡管可以將容積數(shù)據(jù)拆分為2D圖像序列進(jìn)行處理,但這種方式忽視了不同層間的位置關(guān)系,并且往往不同位置的圖像差別較大,不利于網(wǎng)絡(luò)學(xué)習(xí)通用特征。因此Cicek等[18]通過將二維卷積層替換為三維卷積層構(gòu)建了3DU-Net,實(shí)現(xiàn)了3D數(shù)據(jù)的端到端處理。結(jié)合深度學(xué)習(xí)領(lǐng)域的相關(guān)研究,Milletari等[13]提出了V-Net以更好地處理容積數(shù)據(jù)。相比于3DU-Net,V-Net的改進(jìn)包括:1)使用更有效的激活函數(shù)PReLU(Parametric Rectified Linear Unit);2)使用步長為2的2×2卷積代替最大池化(Max Pooling)實(shí)現(xiàn)下采樣;3)在卷積層引入了殘差連接以提升學(xué)習(xí)效果。
U-Net通過跳躍連接實(shí)現(xiàn)了不同層級(jí)的特征融合,提高了分割精度。Zhou等[28]進(jìn)一步對(duì)多層特征的融合方式進(jìn)行改進(jìn),提出了U-Net++,結(jié)構(gòu)如圖2所示。U-Net++將U-Net中簡(jiǎn)單的跳躍連接替換為卷積層,并且在同分辨率下的不同卷積層、相鄰分辨率下的卷積層間添加跳躍連接,從而形成密集連接以強(qiáng)化特征融合。為了保證網(wǎng)絡(luò)的充分學(xué)習(xí),U-Net++還添加了多個(gè)中繼監(jiān)督層同時(shí)計(jì)算損失函數(shù)。得益于此,U-Net++可以根據(jù)算力情況通過剪枝減小模型規(guī)模,而性能僅有小幅度下降。

圖2 U-Net++的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structureof U-Net++
2.1.2 注意力機(jī)制
隨著對(duì)神經(jīng)網(wǎng)絡(luò)研究的不斷深入,注意力機(jī)制逐漸得到了廣泛的應(yīng)用,這一機(jī)制在人類視覺系統(tǒng)中同樣至關(guān)重要。概括地說,注意力機(jī)制通過計(jì)算注意力權(quán)重,對(duì)特征進(jìn)行重加權(quán),以達(dá)到強(qiáng)化有效特征、抑制無效特征的目的。根據(jù)應(yīng)用位置的不同,可以分為空間注意力與通道注意力。通道注意力的 典 型 代 表 為SENet(Squeeze-and-Excitation Network)[29]。SENet提出了壓縮-激發(fā)(Squeeze-and-Excitation,SE)模塊以對(duì)不同通道的特征進(jìn)行加權(quán),如圖3所示。該模塊通過全局平均池化(Average Pooling)將尺寸為C×H×W的輸入特征壓縮為C×1×1,再通過全連接層計(jì)算通道注意力權(quán)重,與輸入通道相乘得到加權(quán)后的權(quán)重。此模塊的優(yōu)點(diǎn)在于計(jì)算量小且即插即用,因此常被應(yīng)用在醫(yī)學(xué)任務(wù)中作為對(duì)U-Net的改進(jìn)[30],取得了較好的效果。

圖3 SE模塊結(jié)構(gòu)Fig.3 Structure of SE module
空間注意力則以Non-local[31]的一系列工作為代表。區(qū)別于通道注意力,空間注意力給每個(gè)像素計(jì)算注意力圖以實(shí)現(xiàn)全圖范圍的特征提取,從而有效地彌補(bǔ)了卷積操作因感受野有限導(dǎo)致的全局特征提取能力的不足。標(biāo)準(zhǔn)的Non-local空間注意力計(jì)算流程如圖4所示。給定輸入特征X={x1,x2,…,xHW},首先計(jì)算像素間的特征相似度:

其中θ(?),?(?)為線性變換,由1×1卷積實(shí)現(xiàn)。σ(?)為softmax函數(shù),用于將相似度歸一化:

至此,可以得到每個(gè)像素的全圖注意力圖。隨后進(jìn)行特征重加權(quán):

在圖4的模塊中,還額外加入了殘差連接以保證訓(xùn)練過程的穩(wěn)定性。空間注意力優(yōu)越的長距離特征提取能力同樣也可應(yīng)用在醫(yī)學(xué)圖像分割當(dāng)中,例如He等[32]表明,引入空間注意力可以有效地提升醫(yī)學(xué)圖像分割網(wǎng)絡(luò)對(duì)于對(duì)抗攻擊的魯棒性。

圖4 Non-local模塊結(jié)構(gòu)Fig.4 Structureof Non-local module
注意力機(jī)制的核心是通過計(jì)算注意力圖實(shí)現(xiàn)特征的重加權(quán),遵循這一思想,可以根據(jù)特定的醫(yī)學(xué)圖像分割任務(wù)設(shè)計(jì)與上文不同的注意力計(jì)算模塊。以腦膠質(zhì)瘤的分割為例,在腦部腫瘤分割挑戰(zhàn)賽(BraTS)[33]數(shù)據(jù)集中,膠質(zhì)瘤被劃分為三個(gè)等級(jí):全腫瘤(Whole Tumor,WT)、腫瘤核心(Tumor Core,TC)和增強(qiáng)腫瘤(Enhancing Tumor,ET),而三者存在包含關(guān)系,即ET?TC?WT。因此,可以通過依次分割三個(gè)等級(jí)的腫瘤實(shí)現(xiàn)由粗到精的精細(xì)分割。
OMNet(One-pass Multi-task Network)[34]將這種逐級(jí)分割的思想引入通道注意力中,根據(jù)前一級(jí)腫瘤的分割情況調(diào)整通道重要性,用于強(qiáng)化下一級(jí)腫瘤的分割效果。而DCAN(Deep Cascaded Attention Network)[15]則以此改進(jìn)空間注意力,根據(jù)前一級(jí)的分割結(jié)果對(duì)背景區(qū)域的像素進(jìn)行抑制,使下一級(jí)腫瘤的分割更集中在前一級(jí)的分割區(qū)域。
2.1.3 改進(jìn)卷積計(jì)算
標(biāo)準(zhǔn)卷積的問題在于感受野有限且固定,導(dǎo)致其無法有效地提取全局信息。為了增大感受野,需要堆疊多層卷積層并通過下采樣操作降低空間分辨率。然而,這種操作仍存在局限性,因此出現(xiàn)了許多對(duì)卷積運(yùn)算的改進(jìn)工作,例如空洞卷積[35]與可變形卷積(圖5)[36]。空洞卷積的優(yōu)勢(shì)在于可以在不進(jìn)行下采樣、不增加參數(shù)量的前提下擴(kuò)大卷積運(yùn)算的感受野,從而可以在更高的分辨率下進(jìn)行特征提取,避免因下采樣造成的空間信息損失,而將空洞卷積整合到U-Net的編碼器結(jié)構(gòu)中已經(jīng)被證明對(duì)醫(yī)學(xué)圖像分割同樣具有提升效果[37-38]。

圖5 標(biāo)準(zhǔn)卷積、空洞卷積和可變形卷積示意圖Fig.5 Schematic diagram of standard convolution,dilated convolution and deformable convolution
空洞卷積僅是在標(biāo)準(zhǔn)卷積的基礎(chǔ)上增加空洞以擴(kuò)大計(jì)算范圍,因此與后者同樣是計(jì)算位置固定的卷積操作。然而對(duì)于不同的像素,模型希望卷積核能夠根據(jù)像素之間的相關(guān)性自適應(yīng)地選擇計(jì)算位置,從而實(shí)現(xiàn)更有效的特征提取。為了實(shí)現(xiàn)這一目標(biāo),可變形卷積通過額外的偏移預(yù)測(cè)分支,為輸入特征的每個(gè)像素計(jì)算卷積計(jì)算時(shí)的偏移量,使特征提取更集中、高效。這一運(yùn)算同樣可以應(yīng)用于醫(yī)學(xué)圖像分割中,例如Guo等[39]提出了使用可變形卷積進(jìn)行多模態(tài)器官分割,并通過在偏移預(yù)測(cè)中引入全局信息進(jìn)一步強(qiáng)化了可變形卷積的特征提取能力。
如前文所述,與自然圖像不同,相當(dāng)一部分醫(yī)學(xué)圖像(如磁共振影像)實(shí)際上為三維容積數(shù)據(jù)。盡管可以使用三維卷積網(wǎng)絡(luò)直接計(jì)算,但相較于二維網(wǎng)絡(luò),三維網(wǎng)絡(luò)的參數(shù)量呈指數(shù)級(jí)增加,限制了其推廣應(yīng)用。而如果使用二維網(wǎng)絡(luò)計(jì)算,則會(huì)完全忽略一個(gè)維度的信息,影響分割效果。為了緩解這一問題,WNet(Whole tumor Network)[37]提出使用二維卷積提取平面信息,并隨后使用一維卷積提取第三個(gè)維度的信息。同時(shí)如圖6所示,醫(yī)學(xué)三維影像對(duì)于三個(gè)維度的切面具有明確的定義,即冠狀面(Coronal)、矢狀面(Sagittal)和橫斷面(Axial),每個(gè)切面能夠顯示的醫(yī)學(xué)信息有所不同。由于不對(duì)稱的卷積結(jié)構(gòu)對(duì)三個(gè)維度的提取能力不同,WNet提出多視角訓(xùn)練策略,即將三維數(shù)據(jù)以三個(gè)方向輸入網(wǎng)絡(luò)分別訓(xùn)練,但也導(dǎo)致了計(jì)算時(shí)間的加倍。區(qū)別于WNet,MFNet(Multidirection Fusion Network)[38]在 將 三 維 卷 積 拆 分 為 偽 三 維 卷積[40]的基礎(chǔ)上提出了多方向融合模塊,如圖7所示。該模塊使用三支并行的計(jì)算分支,每個(gè)分支從不同方向?qū)?×3×3卷積拆分為3×3×1與1×3×3卷積。相較于WNet,該方法同時(shí)從三個(gè)方向提取特征并進(jìn)行融合,避免了多次訓(xùn)練與推理的額外計(jì)算開銷。

圖6 醫(yī)學(xué)影像的切面劃分Fig.6 Section division of medical image

圖7 多方向融合模塊結(jié)構(gòu)Fig.7 Structureof multi-directional fusion module
2.1.4 模型級(jí)聯(lián)
對(duì)于腦膠質(zhì)瘤分割一類的醫(yī)學(xué)分割任務(wù),由于存在由粗到精的分割過程,除了使用一個(gè)模型完成一次性分割,另一種經(jīng)典而有效的處理方式是將多個(gè)模型級(jí)聯(lián)起來,每個(gè)模型分別完成一個(gè)分割子任務(wù),并根據(jù)分割結(jié)果為下一個(gè)任務(wù)提供范圍更小的感興趣區(qū)域,圖8展示了級(jí)聯(lián)模型分割的基本流程。例如,Wang等[37]使用三個(gè)模型進(jìn)行膠質(zhì)瘤的分割,第一個(gè)模型預(yù)測(cè)全腫瘤,根據(jù)預(yù)測(cè)結(jié)果計(jì)算包圍全腫瘤的矩形框,在輸入容積數(shù)據(jù)上將該部分裁剪出來,送入第二個(gè)模型預(yù)測(cè)腫瘤核心。最后,根據(jù)預(yù)測(cè)的腫瘤核心使用模型3分割增強(qiáng)腫瘤。

圖8 級(jí)聯(lián)模型的基本流程Fig.8 Basic flow of cascade model
與單模型分割相比,級(jí)聯(lián)模型可以根據(jù)預(yù)測(cè)結(jié)果逐步縮小感興趣區(qū)域,從而減少過度分割的情況。但由于使用多個(gè)模型,受算力限制,每個(gè)模型的規(guī)模往往無法與單模型相同。此外,由于后續(xù)分割直接依賴于前一級(jí)的分割結(jié)果,因此對(duì)分割準(zhǔn)確性有很高的要求。為了保證后續(xù)分割的效果,級(jí)聯(lián)模型通常采取分步訓(xùn)練的策略,以保證在增加更精細(xì)分割任務(wù)時(shí)能夠提供較好的粗分割結(jié)果。雖然隨著對(duì)卷積神經(jīng)網(wǎng)絡(luò)的研究,不斷有更有效的單模型分割方法被提出,但基于簡(jiǎn)單模型的級(jí)聯(lián)方法仍表現(xiàn)出十分出色的效果,例如Jiang等[41]通過兩個(gè)U-Net的級(jí)聯(lián)模型贏得了2019年腦腫瘤分割挑戰(zhàn)的第一名。因此,對(duì)于追求準(zhǔn)確性與實(shí)用性的醫(yī)學(xué)影像分割來說,級(jí)聯(lián)模型是與單模型同樣值得關(guān)注的方法。
在全監(jiān)督學(xué)習(xí)中,損失函數(shù)直接決定了網(wǎng)絡(luò)的訓(xùn)練目標(biāo)。對(duì)于圖像分割任務(wù)而言,最常用的損失函數(shù)為交叉熵?fù)p失,這一損失被廣泛應(yīng)用于自然圖像分割任務(wù)中。而醫(yī)學(xué)圖像相較于自然圖像又存在其獨(dú)特性,主要在于前景與背景類別的嚴(yán)重不平衡。因此,許多工作著眼于損失函數(shù)的改進(jìn),以提高分割模型在醫(yī)學(xué)圖像上的性能。此外,針對(duì)特定的醫(yī)學(xué)場(chǎng)景,多任務(wù)學(xué)習(xí)也經(jīng)常受到關(guān)注。本節(jié)將分別對(duì)目前常用的損失函數(shù)進(jìn)行介紹。
2.2.1 交叉熵?fù)p失
交叉熵(Cross Entropy)損失是圖像分割任務(wù)中應(yīng)用最廣泛的損失函數(shù),并同時(shí)適用于二分類和多分類任務(wù)。在醫(yī)學(xué)圖像分割中,任務(wù)往往定義為二分類任務(wù),即將像素劃分為前景(正例)與背景(負(fù)例)區(qū)域。用于二分類任務(wù)的交叉熵?fù)p失可以寫為:

其中:pi為網(wǎng)絡(luò)預(yù)測(cè)第i個(gè)樣本為前景的概率,yi為標(biāo)注圖中對(duì)應(yīng)樣本的標(biāo)簽,前景為1,背景為0。交叉熵?fù)p失均衡地考慮了全部像素的影響,而分割任務(wù)的難點(diǎn)在對(duì)邊界部分的準(zhǔn)確分割。為此,U-Net[14]提出為交叉熵計(jì)算增加權(quán)重,以強(qiáng)化對(duì)特定像素的學(xué)習(xí)。權(quán)重的大小受像素與分割邊界的距離控制,更靠近邊界的像素具有更高的權(quán)重。類似地,Guo等[39]提出根據(jù)距離變換計(jì)算像素級(jí)權(quán)重圖,同樣可以加強(qiáng)對(duì)于邊界部分的分割效果。
在標(biāo)準(zhǔn)的交叉熵?fù)p失中,正樣本和負(fù)樣本對(duì)損失函數(shù)具有平等的影響權(quán)重。然而對(duì)于醫(yī)學(xué)圖像分割任務(wù),前景類別如目標(biāo)器官、病變區(qū)域往往僅占整個(gè)圖像的一小部分,意味著前景像素與背景像素的數(shù)量存在嚴(yán)重的不平衡;同時(shí),大量背景像素可以被很簡(jiǎn)單地分割出來,導(dǎo)致訓(xùn)練時(shí)存在大量的簡(jiǎn)單負(fù)樣本,嚴(yán)重影響了模型的學(xué)習(xí)效果。對(duì)于這類任務(wù),一個(gè)可行的選擇是使用Focal Loss[42]取代交叉熵:

相比交叉熵?fù)p失,F(xiàn)ocal Loss增加了權(quán)重調(diào)節(jié)項(xiàng)(1-pi)γ與pγi,其中γ是指數(shù)形式的權(quán)重因子,依據(jù)正確預(yù)測(cè)的概率對(duì)樣本進(jìn)行指數(shù)加權(quán)。如果網(wǎng)絡(luò)對(duì)于像素屬于前景或背景的預(yù)測(cè)概率接近1,權(quán)重調(diào)節(jié)項(xiàng)則會(huì)接近0,從而自適應(yīng)地降低了簡(jiǎn)單樣本的權(quán)重,保證了網(wǎng)絡(luò)在訓(xùn)練過程中更關(guān)注于對(duì)難樣本的學(xué)習(xí)。
2.2.2 Dice損失
在評(píng)估醫(yī)學(xué)圖像分割任務(wù)的性能時(shí),Dice系數(shù)為一個(gè)常用的指標(biāo):

式(6)中,P表示預(yù)測(cè)結(jié)果,Y表示標(biāo)注圖。在評(píng)估Dice系數(shù)時(shí),通常只關(guān)注前景的分割結(jié)果,因此對(duì)于二分類任務(wù),更常用的Dice系數(shù)計(jì)算公式為:

其中:pi∈(0,1)為前景預(yù)測(cè)概率,yi∈{0,1}為二值標(biāo)簽。VNet[13]提出了基于Dice系數(shù)的Dice Loss:

式(8)中的拉普拉斯平滑項(xiàng)(即分子分母同時(shí)加+1)避免了分母為0的情況,同時(shí)也定義了預(yù)測(cè)結(jié)果與標(biāo)注圖均不存在前景標(biāo)簽時(shí)的Dice系數(shù)為1。相比交叉熵?fù)p失,Dice Loss直接基于分割的評(píng)價(jià)指標(biāo)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,同時(shí)避免了前景與背景像素?cái)?shù)量不均衡的問題。Dice Loss的局限性在于只適用于二分類情況。Sudre等[43]提出了廣義Dice Loss,將其擴(kuò)展到了多類別,并統(tǒng)計(jì)各類別標(biāo)簽數(shù)以增大標(biāo)簽少的類別的權(quán)重,從而實(shí)現(xiàn)不同類別的平衡。
2.2.3 多任務(wù)損失
為了增強(qiáng)分割網(wǎng)絡(luò)的特征提取能力,研究者在設(shè)計(jì)損失函數(shù)時(shí),除了最終的分割損失之外,還可以根據(jù)任務(wù)特點(diǎn)設(shè)計(jì)額外的預(yù)測(cè)分支以組成多任務(wù)損失。Ren等[44]設(shè)計(jì)了用于醫(yī)學(xué)圖像分割的多級(jí)任務(wù)分解,除了分割任務(wù)之外,還增加了類別和場(chǎng)景預(yù)測(cè)任務(wù)分支。網(wǎng)絡(luò)在生成像素級(jí)分割結(jié)果的同時(shí),預(yù)測(cè)整張圖像中存在的目標(biāo)類別種類,以及更高層級(jí)的任務(wù)類型。此外,Ren等還設(shè)計(jì)了一種同步正則化以加強(qiáng)不同任務(wù)之間的聯(lián)系,最終達(dá)到提升分割精度的效果。Guo等[45]同樣設(shè)計(jì)了類別級(jí)別的預(yù)測(cè)任務(wù),但將類別存在性的預(yù)測(cè)精度提高到網(wǎng)絡(luò)下采樣后的分辨率,不同于之前全圖級(jí)別的預(yù)測(cè)。
盡管關(guān)于改進(jìn)網(wǎng)絡(luò)模型的工作不斷出現(xiàn),但以U-Net為代表的經(jīng)典網(wǎng)絡(luò)仍然具有相當(dāng)?shù)母?jìng)爭(zhēng)力,在眾多醫(yī)學(xué)圖像分割比賽中具有重要地位。例如,2019年腦膠質(zhì)瘤分割比賽的第一名使用的是兩個(gè)級(jí)聯(lián)的U-Net結(jié)構(gòu)[41]。而nnU-Net[46]則在使用U-Net結(jié)構(gòu)的基礎(chǔ)上使用了更有效的訓(xùn)練設(shè)置,在多個(gè)醫(yī)學(xué)分割比賽中名列前茅。因此,對(duì)于醫(yī)學(xué)圖像分割而言,訓(xùn)練設(shè)置同樣是至關(guān)重要的一部分。本節(jié)旨在介紹一些不依賴于模型結(jié)構(gòu)的通用訓(xùn)練技巧,以提升最終的分割性能。
2.3.1 數(shù)據(jù)增廣
為了避免過擬合,同時(shí)增強(qiáng)網(wǎng)絡(luò)對(duì)于各種變化的魯棒性,訓(xùn)練數(shù)據(jù)增廣是模型訓(xùn)練不可缺少的操作。由于醫(yī)學(xué)圖像及標(biāo)注獲取的困難性,醫(yī)學(xué)數(shù)據(jù)集規(guī)模往往遠(yuǎn)小于自然圖像數(shù)據(jù)集,因此更容易出現(xiàn)過擬合現(xiàn)象。常用的訓(xùn)練數(shù)據(jù)增廣方法包括隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)旋轉(zhuǎn)、隨機(jī)翻轉(zhuǎn)、隨機(jī)噪聲等。更進(jìn)一步的復(fù)雜增廣方法則包括空間與灰度變換,如彈性形變[14]、B樣條插值[13]、伽馬校正[46]等。為了減少讀取開銷,數(shù)據(jù)增廣通常是在訓(xùn)練過程中實(shí)時(shí)進(jìn)行的,在實(shí)際使用中可根據(jù)數(shù)據(jù)規(guī)模和算力情況靈活選擇。
除了訓(xùn)練數(shù)據(jù)增廣之外,測(cè)試時(shí)同樣經(jīng)常進(jìn)行數(shù)據(jù)增廣以強(qiáng)化分割效果。測(cè)試數(shù)據(jù)增廣通常包括多尺度縮放以及鏡像翻轉(zhuǎn)[41,46],并將多種增廣后的預(yù)測(cè)結(jié)果取平均值作為最終預(yù)測(cè)結(jié)果。與單尺度預(yù)測(cè)相比,增廣預(yù)測(cè)通常表現(xiàn)出更精確、更穩(wěn)定的分割性能。
2.3.2 模塊優(yōu)化
隨著深度學(xué)習(xí)研究的發(fā)展,不斷有更有效的通用網(wǎng)絡(luò)模塊被提出,并可以整合到U-Net的編碼器-解碼器結(jié)構(gòu)中。例如,在卷積層與激活函數(shù)之間加入批標(biāo)準(zhǔn)化層(Batch Normalization)[47],可以使網(wǎng)絡(luò)收斂速度更快、魯棒性更好、效果更出色。然而批標(biāo)準(zhǔn)化的性能直接受批尺寸影響,在批尺寸很小時(shí)效果不理想。對(duì)于醫(yī)學(xué)影像分割中常見的三維卷積網(wǎng)絡(luò),由于其本身計(jì)算開銷較大,批尺寸通常嚴(yán)重受限(往往為1或2),此時(shí)引入批標(biāo)準(zhǔn)化并不合適。對(duì)于這類網(wǎng)絡(luò),使用計(jì)算不依賴于批尺寸的標(biāo)準(zhǔn)化方法,例如分組標(biāo)準(zhǔn)化[48]、樣本標(biāo)準(zhǔn)化[49]和層標(biāo)準(zhǔn)化[50],往往可以達(dá)到更好的效果。圖9給出了四種標(biāo)準(zhǔn)化的計(jì)算方式示意圖。其中,分組標(biāo)準(zhǔn)化的分組數(shù)為超參數(shù),可以根據(jù)實(shí)際訓(xùn)練情況進(jìn)行調(diào)整。當(dāng)分組數(shù)為1時(shí),分組標(biāo)準(zhǔn)化變?yōu)閷訕?biāo)準(zhǔn)化;當(dāng)分組數(shù)等于通道數(shù)時(shí),等價(jià)于樣本標(biāo)準(zhǔn)化。

圖9 標(biāo)準(zhǔn)化方法示意圖Fig.9 Schematic diagram of normalization
除了標(biāo)準(zhǔn)化層,對(duì)激活函數(shù)的改進(jìn)同樣值得關(guān)注。標(biāo)準(zhǔn)的ReLU(Rectified Linear Unit)激活函數(shù)僅在輸入大于0時(shí)保留激活值,而完全忽略了輸入為負(fù)值的情況。作為改進(jìn),LeakyReLU[51]在ReLU的基礎(chǔ)上為負(fù)值區(qū)域保留了較小的固定斜率,避免了完全失活的情況。PReLU[52]將負(fù)值區(qū)域的固定斜率改為可學(xué)習(xí)的參數(shù),進(jìn)一步地強(qiáng)化了激活函數(shù)的表示能力。
2.3.3 模型融合
多模型融合是醫(yī)學(xué)圖像分割比賽中的常用技巧,由于訓(xùn)練的隨機(jī)性,單個(gè)模型容易陷入局部最優(yōu)點(diǎn),而整合多個(gè)模型的預(yù)測(cè)結(jié)果通常可以提高整體分割效果,增強(qiáng)分割的魯棒性。多模型融合的方式可以是:1)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行多折劃分,多次訓(xùn)練同一個(gè)模型[53-54];2)選用多種模型,分別進(jìn)行訓(xùn)練[46,55]。類似于測(cè)試數(shù)據(jù)增廣,最終結(jié)果由多個(gè)模型的預(yù)測(cè)平均得到(圖10)。

圖10 模型融合的基本流程Fig.10 Basic flow of model fusion
2.3.4 后處理
在得到網(wǎng)絡(luò)生成的分割圖后,還可以通過后處理方法進(jìn)一步對(duì)分割結(jié)果進(jìn)行細(xì)化,例如使用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[35]來平滑分割圖的邊界,去除分割噪聲。針對(duì)特定的醫(yī)學(xué)任務(wù),還可以根據(jù)先驗(yàn)知識(shí)設(shè)計(jì)后處理方法,以彌補(bǔ)網(wǎng)絡(luò)分割的不足。閾值化[34,41]作為一種較為常見的后處理手段,目的是去除灰度不滿足閾值的像素,或者去除體積小于閾值的連通區(qū)域。OMNet[34]對(duì)于腦腫瘤分割任務(wù)進(jìn)一步提出了基于體素灰度的聚類方法,以減少對(duì)于增強(qiáng)腫瘤的誤分類情況。
盡管深度神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)算法表現(xiàn)出了顯著的進(jìn)展,但其在訓(xùn)練過程中需要大量的標(biāo)注數(shù)據(jù)作為支撐。在實(shí)際應(yīng)用中醫(yī)學(xué)圖像語義復(fù)雜且常包含3D信息,標(biāo)注過程耗時(shí)耗力,限制了深度學(xué)習(xí)算法在該領(lǐng)域的進(jìn)一步發(fā)展。相對(duì)地直接獲取大量的醫(yī)學(xué)影像數(shù)據(jù)較為容易,因此為了減輕對(duì)標(biāo)注的依賴、降低成本,半監(jiān)督學(xué)習(xí)算法得到了廣泛的關(guān)注和研究。
半監(jiān)督學(xué)習(xí)除了使用少量數(shù)據(jù)XL=(xl)l∈[1,N]和對(duì)應(yīng)的標(biāo)注YL=(yl)l∈[1,N]外,還引入了大量的未標(biāo)記數(shù)據(jù)XU=(xu)u∈[N+1,M]輔助訓(xùn)練,在研究中通常將已有數(shù)據(jù)集的部分標(biāo)簽丟棄來模擬該情況。半監(jiān)督學(xué)習(xí)在應(yīng)用時(shí)的一個(gè)必要條件是數(shù)據(jù)的分布p(x)包含后驗(yàn)分布p(y|x)的相關(guān)信息,這在多數(shù)情況下都是成立的,但是在訓(xùn)練前無法得知兩者間的關(guān)系,因此如何有效地從中提取出關(guān)于后驗(yàn)分布的信息是半監(jiān)督學(xué)習(xí)方法的關(guān)鍵。目前的方法通常遵循三個(gè)基本假設(shè)來描述p(x)與p(y|x)的關(guān)系:平滑假設(shè)(smoothness assumption)、低密度假設(shè)(low-density assumption)和流形假設(shè)(manifold assumption)。平滑假設(shè)認(rèn)為兩個(gè)在輸入空間中相近的數(shù)據(jù)點(diǎn)應(yīng)有相似的標(biāo)簽,低密度假設(shè)認(rèn)為分類時(shí)的決策邊界應(yīng)盡可能地穿過數(shù)據(jù)稀疏的區(qū)域,也稱為聚類假設(shè),流形假設(shè)認(rèn)為在同一低維流形中的數(shù)據(jù)點(diǎn)應(yīng)有相同的標(biāo)簽。
本章將介紹目前醫(yī)學(xué)分割領(lǐng)域中各類半監(jiān)督算法中的代表性工作。
自訓(xùn)練算法和協(xié)同訓(xùn)練算法均通過流形假設(shè)來利用已標(biāo)記數(shù)據(jù)傳播信息生成偽標(biāo)簽并進(jìn)行迭代優(yōu)化,已有很多研究將此思想應(yīng)用于醫(yī)學(xué)影像分割,文獻(xiàn)[54,56-57]等方法采用自訓(xùn)練的分割算法,這些算法僅使用單一模型完成訓(xùn)練過程。相對(duì)地,文獻(xiàn)[58-60]等方法使用的協(xié)同訓(xùn)練算法利用兩個(gè)或以上的模型共同完成訓(xùn)練優(yōu)化。
自訓(xùn)練算法是最常見的半監(jiān)督學(xué)習(xí)算法之一,它使用單一的模型,通過為無標(biāo)記數(shù)據(jù)預(yù)測(cè)偽標(biāo)簽,進(jìn)而在學(xué)習(xí)偽標(biāo)簽并重新預(yù)測(cè)更新的迭代過程中增強(qiáng)網(wǎng)絡(luò)的泛化能力。以LS、LU表示常用損失函數(shù)(如交叉熵),yi表示偽標(biāo)簽,則此方法訓(xùn)練時(shí)的優(yōu)化目標(biāo)可表示如下:

從優(yōu)化方式可以看出,此類方法的缺陷是需要依賴于生成偽標(biāo)簽的質(zhì)量,當(dāng)網(wǎng)絡(luò)學(xué)習(xí)到錯(cuò)誤的標(biāo)記后可能會(huì)不斷將其放大從而影響最終性能。由于自訓(xùn)練算法僅參考了網(wǎng)絡(luò)本身提供的信息,預(yù)測(cè)結(jié)果中的信息量有限且通常伴隨著部分誤判,特別是對(duì)于語義歧義性高、邊緣模糊的醫(yī)學(xué)影像,生成偽標(biāo)簽的質(zhì)量并不穩(wěn)定,因此目前對(duì)自訓(xùn)練算法的研究主要集中于如何在嘈雜的偽標(biāo)簽中進(jìn)行學(xué)習(xí)。
一個(gè)改進(jìn)的思路是對(duì)分割結(jié)果進(jìn)行后處理以精煉提升偽標(biāo)簽的質(zhì)量,Bai等[56]將條件隨機(jī)場(chǎng)的后處理方法與自訓(xùn)練算法結(jié)合并應(yīng)用于心室MRI的分割任務(wù)中。該方法首先學(xué)習(xí)已標(biāo)記數(shù)據(jù),然后對(duì)于未標(biāo)記數(shù)據(jù)進(jìn)行分割,之后使用了CRF來精煉分割結(jié)果并使用優(yōu)化后的分割圖來指導(dǎo)下一輪的迭代,最終有效地提升了分割的質(zhì)量。相似地,Tang等[57]則使用了水平集(level set)的方法來作為后處理精煉偽標(biāo)簽。另外Rajchl等[54]也基于自訓(xùn)練的方法并額外使用了邊框級(jí)的弱標(biāo)注輔助監(jiān)督過程。
自訓(xùn)練算法通過網(wǎng)絡(luò)本身的預(yù)測(cè)來分配標(biāo)簽,可以看作運(yùn)用流形假設(shè)將學(xué)到的標(biāo)簽傳播至相似的數(shù)據(jù)上,從而學(xué)習(xí)了所有數(shù)據(jù)在其特征空間上的分布特點(diǎn),并且在優(yōu)化損失函數(shù)(如交叉熵)的同時(shí)隱式地使決策邊界遠(yuǎn)離高密度數(shù)據(jù)區(qū)域,根據(jù)低密度假設(shè)最終學(xué)到了更加合理決策邊界,進(jìn)而提升了網(wǎng)絡(luò)的魯棒性。
協(xié)同訓(xùn)練算法將自訓(xùn)練算法進(jìn)行了擴(kuò)展,為了降低單一模型預(yù)測(cè)帶來的局限性提出使用多個(gè)預(yù)訓(xùn)練的模型以綜合預(yù)測(cè)偽標(biāo)簽,通過模型間的融合來提升偽標(biāo)簽的質(zhì)量。需要注意的是,協(xié)同訓(xùn)練需要使不同的模型在預(yù)訓(xùn)練過程中相互獨(dú)立以提取不同的知識(shí),實(shí)現(xiàn)時(shí)通常需要將數(shù)據(jù)集進(jìn)行額外的劃分保證子集間存在差異性或利用同一數(shù)據(jù)的不同視圖,這樣在隨后的訓(xùn)練階段就可以通過在未標(biāo)記數(shù)據(jù)上的預(yù)測(cè)來傳播每個(gè)模型學(xué)到的知識(shí)達(dá)到相互補(bǔ)充的效果,最終得到更加魯棒的網(wǎng)絡(luò)。
Zhou等[60]基于協(xié)同訓(xùn)練的方法定義了額外的學(xué)生模型來學(xué)習(xí)融合后的偽標(biāo)簽。為了獲取獨(dú)立的子數(shù)據(jù)集,Zhou等利用器官分割中3D醫(yī)學(xué)影像數(shù)據(jù)可以分解為不同的軸向視圖(矢狀面、冠狀面和軸向)的特點(diǎn),在不同的軸上對(duì)3D數(shù)據(jù)進(jìn)行切片構(gòu)造子數(shù)據(jù)集并使用2D分割網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練得到3個(gè)教師模型。融合階段通過“投票”的方式選擇偽標(biāo)簽,對(duì)于預(yù)測(cè)一致的像素直接保留結(jié)果,而對(duì)不一致的部分則取置信度得分最高的標(biāo)簽作為偽標(biāo)記。最后使用一個(gè)新的學(xué)生網(wǎng)絡(luò)在擴(kuò)充后的數(shù)據(jù)集上進(jìn)行訓(xùn)練。
另一種常見的協(xié)同訓(xùn)練方式?jīng)]有使用學(xué)生模型,而是使用了相互指導(dǎo)的學(xué)習(xí)策略,即每個(gè)模型使用其他模型融合得到的偽標(biāo)簽進(jìn)行訓(xùn)練,從而直接學(xué)習(xí)互補(bǔ)的知識(shí)。在此基礎(chǔ)之上為了進(jìn)一步過濾噪聲數(shù)據(jù),Xia等[59]提出了基于不確定性的融合生成策略,通過添加Dropout利用貝葉斯深度網(wǎng)絡(luò)估計(jì)預(yù)測(cè)的不確定性,進(jìn)而在融合階段以加權(quán)和的方式生成更可信的偽標(biāo)簽。
Peng等[58]使用多個(gè)模型預(yù)測(cè)的均值作為偽標(biāo)簽,同時(shí)為了使模型學(xué)習(xí)到更多互補(bǔ)的知識(shí),引入了對(duì)抗樣本以捕捉不同模型間的差異。此方法額外定義了差異損失函數(shù),針對(duì)每個(gè)模型fi對(duì)輸入x進(jìn)行調(diào)整生成對(duì)應(yīng)的對(duì)抗樣本gi(x),如圖11,其中無標(biāo)簽的對(duì)抗樣本由虛擬對(duì)抗訓(xùn)練(Virtual Adversarial Training,VAT)生成,有標(biāo)簽的對(duì)抗樣本則使用快速梯度法(Fast Gradient Sign Method,F(xiàn)GSM)生成,進(jìn)而在其他模型的指導(dǎo)下優(yōu)化使其對(duì)于對(duì)抗樣本更加魯棒。

圖11 對(duì)抗樣本示意圖Fig.11 Schematic diagram of adversarial samples
還有一些方法對(duì)學(xué)習(xí)偽標(biāo)簽的過程進(jìn)行了調(diào)整,通過引入額外的約束以提高偽標(biāo)簽的利用效率,Kervadec等[61]針對(duì)偽標(biāo)簽不可靠的問題提出了課程半監(jiān)督學(xué)習(xí)(curriculum semi-supervised learning),此方法通過學(xué)習(xí)更加寬松的區(qū)域表達(dá)來提升網(wǎng)絡(luò)的泛化性能。具體地,課程半監(jiān)督學(xué)習(xí)框架定義了一個(gè)輔助分類網(wǎng)絡(luò)預(yù)測(cè)輸入圖像中前景部分區(qū)域的大小R,進(jìn)而在網(wǎng)絡(luò)分割無標(biāo)記數(shù)據(jù)時(shí)統(tǒng)計(jì)輸出結(jié)果的前景區(qū)域大小并將其限制在R的附近(1-λR,1+λR),優(yōu)化時(shí)將超出的部分作為正則懲罰項(xiàng)加入到損失函數(shù)中,從而避免了利用錯(cuò)誤的像素級(jí)預(yù)測(cè)作為偽標(biāo)簽帶來的影響。最終通過左心室分割任務(wù)展現(xiàn)了其算法的優(yōu)勢(shì)。
使用帶噪的偽標(biāo)簽容易造成模型退化而約束后的偽標(biāo)簽又無法提供足夠的信息量,為了平衡兩者間的矛盾,Min等[62]定義了深度注意力網(wǎng)絡(luò)(Deep Attention Network,DAN)以自適應(yīng)地發(fā)現(xiàn)和糾正噪聲標(biāo)簽中錯(cuò)誤的信息,并且提出了分級(jí)蒸餾的方法生成更加可靠的偽標(biāo)簽,最終在多個(gè)醫(yī)學(xué)分割任務(wù)上有效地提升了網(wǎng)絡(luò)的性能。整個(gè)框架的訓(xùn)練過程分為三步,首先使用DAN在有標(biāo)記數(shù)據(jù)下進(jìn)行預(yù)訓(xùn)練,然后通過分級(jí)蒸餾的方式為無標(biāo)記數(shù)據(jù)生成偽標(biāo)簽,最后使用所有的數(shù)據(jù)和標(biāo)簽重新訓(xùn)練模型。其中DAN模型在訓(xùn)練時(shí)使用兩個(gè)學(xué)生網(wǎng)絡(luò)同時(shí)學(xué)習(xí)相同的數(shù)據(jù),并根據(jù)模型間的預(yù)測(cè)和內(nèi)部特征的關(guān)聯(lián)篩選出可靠的梯度部分執(zhí)行反向傳播,使其對(duì)錯(cuò)誤標(biāo)簽擁有一定的糾正能力。此外在生成偽標(biāo)簽時(shí),融合了數(shù)據(jù)蒸餾與模型蒸餾的特點(diǎn),通過將模型蒸餾中每個(gè)模型的預(yù)測(cè)替換為每個(gè)模型在多種數(shù)據(jù)變換下的預(yù)測(cè)將兩種方式分層次地結(jié)合起來,如圖12,從而進(jìn)一步提升偽標(biāo)簽的質(zhì)量。

圖12 分級(jí)蒸餾示意圖Fig.12 Schematic diagram of hierarchical distillation
根據(jù)平滑假設(shè),對(duì)數(shù)據(jù)進(jìn)行擾動(dòng)后應(yīng)該得到一致的輸出結(jié)果,然而通常訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)無法保證這種變換不變性,從而泛化性能較差。半監(jiān)督學(xué)習(xí)中為了能夠使用少量標(biāo)注數(shù)據(jù)訓(xùn)練出更加魯棒的模型,提出了對(duì)數(shù)據(jù)擾動(dòng)前后的一致性進(jìn)行約束的方法,實(shí)現(xiàn)上常通過定義額外的子任務(wù)提取對(duì)應(yīng)的不變性以輔助優(yōu)化網(wǎng)絡(luò)。一些代表性的研究方法包括使用均值教師的半監(jiān)督方法,如MT[19]、UAMT(Uncertainty Aware Mean Teacher)[20]。還有基于幾何變換一致性的方法,包括TCSM(Transformation Consistent Selfensembling Model)[21]、semiTC(semi-supervised Transformation-Consistent network)[63],以及兩種方法的結(jié)合TCSMv2[64]等。
在文獻(xiàn)[65]中Π-Model和Temporal Ensembling的啟發(fā)下,均值教師算法[66]對(duì)兩者的思想進(jìn)行了融合,Perone等[19]基于此方法在脊髓灰質(zhì)分割任務(wù)上進(jìn)行了實(shí)驗(yàn),整體的訓(xùn)練框架如圖13。首先在初始化時(shí)定義了相同結(jié)構(gòu)的教師模型ft和學(xué)生模型fs,其中教師模型僅通過學(xué)生模型每次迭代參數(shù)的指數(shù)滑動(dòng)平均(Exponential Moving Average,EMA)更新以融合不同時(shí)期的訓(xùn)練成果,泛化能力更強(qiáng)。訓(xùn)練時(shí)對(duì)于同一數(shù)據(jù)在添加不同了噪聲η、η'后分別讓教師和學(xué)生模型進(jìn)行預(yù)測(cè),將兩者分割結(jié)果的均方差作為輔助損失優(yōu)化學(xué)生模型,此一致性損失既包含了與時(shí)序融合后模型預(yù)測(cè)的一致性,又含有不同噪聲擾動(dòng)下的不變性,最終整體損失函數(shù)如下:


圖13 均值教師分割算法Fig.13 Mean teacher segmentation method
均值教師算法可以看作利用擾動(dòng)不變性的同時(shí)融入了偽標(biāo)簽的思想,由于進(jìn)行了時(shí)序上的融合,教師模型的預(yù)測(cè)更加穩(wěn)定并可以作為標(biāo)簽指導(dǎo)學(xué)生模型的更新方向。
Yu等[20]從不確定性的角度對(duì)教師模型的預(yù)測(cè)進(jìn)行了篩選,增加了蒙特卡羅Dropout(Monte Carlo Dropout)用于衡量教師模型預(yù)測(cè)的不確定度,進(jìn)而根據(jù)閾值選取低不確定度的部分計(jì)算一致性損失,最終模型的精度在左心室分割任務(wù)中相比原始均值教師方法得到了進(jìn)一步的提升。


此外還有一類思路使用重建的方法,即約束從編碼器輸出的特征中還原的圖像應(yīng)與真實(shí)的圖像相似,進(jìn)而強(qiáng)化編碼器的特征提取能力。Chen等[67]利用重建的方法構(gòu)建了多任務(wù)注意力機(jī)制半監(jiān)督學(xué)習(xí)(Multi-task Attention-based Semi-Supervised Learning,MASSL)框架輔助訓(xùn)練,總體框架如圖14。具體來說在經(jīng)編碼器得到深層特征后,除了執(zhí)行分割任務(wù)外,定義了重建解碼器預(yù)測(cè)前景和背景部分的輸入圖像,再與二值分割結(jié)果相乘后和真實(shí)的前背景圖計(jì)算均方誤差。

圖14 MASSL網(wǎng)絡(luò)框架Fig.14 Network structureof MASSL
基于圖的算法在特征空間中的數(shù)據(jù)點(diǎn)上建立加權(quán)無向圖G=(V,E),其中V表示數(shù)據(jù)點(diǎn),圖結(jié)構(gòu)中的邊用于描述樣本之間局部相似性,相連的樣本相似度較高,因而根據(jù)流形假設(shè)信息可以沿著圖的邊進(jìn)行傳播,最后將圖上所有數(shù)據(jù)點(diǎn)劃分到不相交的子集中完成分類過程。其中的代表性算法包括Baur等[68]提出的隨機(jī)特征嵌入的半監(jiān)督學(xué)習(xí)算法,以及使用圖正則化的[22-23]等方法。
嵌入半監(jiān)督學(xué)習(xí)(semi-supervised embedding)算法[69]通過減小相似數(shù)據(jù)距離、增大無關(guān)數(shù)據(jù)距離的方式利用圖中數(shù)據(jù)的分布進(jìn)行優(yōu)化,但對(duì)于像素級(jí)的分割任務(wù)此方法計(jì)算開支較大,因此Baur等[68]對(duì)算法進(jìn)行了調(diào)整,在多發(fā)性硬化病變分割任務(wù)中提出了隨機(jī)特征嵌入(Random Feature Embedding,RFE)的思想,針對(duì)圖像中大量的像素進(jìn)行了采樣,只使用部分像素參與計(jì)算,從而能夠在像素級(jí)分割結(jié)果上進(jìn)行優(yōu)化。
圖正則化的方法使用圖平滑(Graph-smooth Regularization)的思想來標(biāo)記額外的數(shù)據(jù),其中使用圖拉普拉斯算子衡量節(jié)點(diǎn)間的相似性,并作為正則器優(yōu)化圖的平滑性。
在腦部MRI腫瘤分割中,Song等[22]提出了一種基于圖正則化的歸納學(xué)習(xí)方法,使用隱變量來生成最終預(yù)測(cè):x→t→y并基于高斯隨機(jī)場(chǎng)(Gaussian Random Field,GRF)對(duì)潛在變量t進(jìn)行建模,之后使用圖拉普拉斯算子衡量節(jié)點(diǎn)間的相似性并作為正則器對(duì)其進(jìn)行優(yōu)化。

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[70]是一種基于對(duì)抗的學(xué)習(xí)生成模型算法,包含生成器(generator)與判別器(discriminator),其中生成器用于數(shù)據(jù)的生成,判別器用于結(jié)果的評(píng)估。訓(xùn)練時(shí)判別器學(xué)習(xí)如何將生成器產(chǎn)生的數(shù)據(jù)與真實(shí)數(shù)據(jù)區(qū)分開,而生成器學(xué)習(xí)如何產(chǎn)生可以迷惑判別器的數(shù)據(jù)。在對(duì)抗中兩個(gè)模型的能力均能夠得到強(qiáng)化提升。由于在相互對(duì)抗的過程中不需要數(shù)據(jù)本身的標(biāo)簽,GAN在半監(jiān)督學(xué)習(xí)中得到了大量的應(yīng)用與改進(jìn),基于對(duì)抗過程設(shè)計(jì)思路的不同包括Chaitanya等[71]和Mondal等[72]的生成數(shù)據(jù)的方法,Zhang等[73]、Nie等[74]和Zhou等[75]的評(píng)估分割結(jié)果的算法,以及Ross等[76]定義額外對(duì)抗任務(wù)訓(xùn)練特征提取能力的方法。
缺少數(shù)據(jù)是需要進(jìn)行半監(jiān)督學(xué)習(xí)的主要原因,而GAN的生成器本身就具有生成數(shù)據(jù)的能力。Chaitanya等[71]從該角度出發(fā),提出將GAN中的生成器用于合成虛假影像與標(biāo)簽以緩解數(shù)據(jù)不足的困難。對(duì)于生成器G,輸入標(biāo)記數(shù)據(jù)XL和隨機(jī)生成的向量z,輸出變形場(chǎng)以扭曲輸入圖像得到新的數(shù)據(jù)XG。另外定義了判別器D用于區(qū)分生成數(shù)據(jù)XG與真實(shí)數(shù)據(jù)XL∪XU,對(duì)抗訓(xùn)練時(shí)提升生成器在分類器上的得分LG=log(1-D(G(XL,z))),分 類 器 損 失LD=log(D(XL∪XU))-log(1-D(G(XL,z))),對(duì)抗學(xué)習(xí)后將新生成的數(shù)據(jù)加入分割網(wǎng)絡(luò)S的訓(xùn)練中。具體地,研究了兩種數(shù)據(jù)生成方式:變形場(chǎng)生成器和加性強(qiáng)度場(chǎng)生成器,如圖15,變形場(chǎng)生成器通過產(chǎn)生變形場(chǎng)v同時(shí)扭曲輸入圖像與標(biāo)簽進(jìn)行增廣,而加性強(qiáng)度場(chǎng)生成器輸出強(qiáng)度信號(hào)ΔI通過與輸入圖像相加并保留標(biāo)簽實(shí)現(xiàn)數(shù)據(jù)增廣。在心臟MRI分割數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了GAN可以作為一種強(qiáng)大的數(shù)據(jù)增廣方式擴(kuò)充緩解數(shù)據(jù)不足的問題。

圖15 基于GAN的數(shù)據(jù)增廣方式Fig.15 Dataaugmentation methodsbased on GAN

另一類方法結(jié)合了偽標(biāo)簽的思路,將分割網(wǎng)絡(luò)作為生成器來產(chǎn)生分割圖,進(jìn)而將分類器(如ResNet[7])作為對(duì)抗網(wǎng)絡(luò)中的判別器用于評(píng)估分割網(wǎng)絡(luò)預(yù)測(cè)的偽標(biāo)簽質(zhì)量,從而監(jiān)督分割網(wǎng)絡(luò)生成更真實(shí)的預(yù)測(cè)結(jié)果。
其中代表性的算法是Zhang等[73]提出的深度對(duì)抗網(wǎng)絡(luò)(Deep Adversarial Network,DAN)框架,DAN將對(duì)抗網(wǎng)絡(luò)應(yīng)用于腺體分割與真菌分割任務(wù),首先在有標(biāo)記數(shù)據(jù)上預(yù)訓(xùn)練分割網(wǎng)絡(luò),在加入無標(biāo)記數(shù)據(jù)后定義了判別網(wǎng)絡(luò)來評(píng)價(jià)分割網(wǎng)絡(luò)的預(yù)測(cè)質(zhì)量,使其在訓(xùn)練過程中判斷分割結(jié)果是否來源于訓(xùn)練過的有標(biāo)記數(shù)據(jù),最后固定訓(xùn)練好的判別器,鼓勵(lì)分割網(wǎng)絡(luò)欺騙評(píng)價(jià)網(wǎng)絡(luò),使其對(duì)所有數(shù)據(jù)的分割結(jié)果都判定為有標(biāo)記數(shù)據(jù),以此促使分割網(wǎng)絡(luò)從對(duì)抗學(xué)習(xí)的過程中提高預(yù)測(cè)的質(zhì)量,整個(gè)訓(xùn)練框架如圖16。

圖16 DAN訓(xùn)練框架Fig.16 Training framework of DAN
Nie等[74]根據(jù)分割任務(wù)的特點(diǎn)進(jìn)一步細(xì)化了評(píng)價(jià)網(wǎng)絡(luò)的目標(biāo),將判別器同樣改為二分類的分割網(wǎng)絡(luò),使其產(chǎn)生像素級(jí)的質(zhì)量評(píng)估,最后對(duì)無標(biāo)記數(shù)據(jù)選取高質(zhì)量的分割區(qū)域作為偽標(biāo)簽參與訓(xùn)練,之后根據(jù)自訓(xùn)練的方法迭代地優(yōu)化模型。
Zhou等[75]探討了使用了圖像級(jí)標(biāo)注的弱監(jiān)督情形下偽標(biāo)簽的優(yōu)化,仍然使用判別器評(píng)估圖像級(jí)分割網(wǎng)絡(luò)的真?zhèn)危送膺€定義了使用圖像級(jí)標(biāo)注預(yù)訓(xùn)練的分類網(wǎng)絡(luò),利用其產(chǎn)生的注意力特征輔助優(yōu)化原分割網(wǎng)絡(luò)的結(jié)果得到新的偽標(biāo)簽用于監(jiān)督分割網(wǎng)絡(luò)訓(xùn)練。

表1 半監(jiān)督醫(yī)學(xué)影像分割方法匯總Tab.1 Summary of semi-supervised medical image segmentation methods
此外還有的研究在額外的輔助任務(wù)上執(zhí)行對(duì)抗訓(xùn)練,從而間接提升網(wǎng)絡(luò)的特征提取能力。Ross等[76]在內(nèi)窺鏡器官分割任務(wù)中定義了從灰度圖中還原的著色任務(wù)。訓(xùn)練流程如圖17,與其他半監(jiān)督學(xué)習(xí)的流程不同,該方法首先在無標(biāo)記數(shù)據(jù)上學(xué)習(xí)得到預(yù)訓(xùn)練模型。具體地,考慮到此類外科分割任務(wù)中的數(shù)據(jù)為彩色影像的特點(diǎn),先將其轉(zhuǎn)換至Lab顏色空間,再使用分割網(wǎng)絡(luò)預(yù)測(cè)彩色部分分量,相對(duì)的判別網(wǎng)絡(luò)負(fù)責(zé)區(qū)分輸入圖像為原始彩色分量還是分割網(wǎng)絡(luò)輸出的結(jié)果。得到預(yù)訓(xùn)練模型后,再使用有標(biāo)記數(shù)據(jù)對(duì)分割網(wǎng)絡(luò)的最后一層進(jìn)行調(diào)整以實(shí)現(xiàn)分割任務(wù)。實(shí)驗(yàn)結(jié)果表明,著色可以為分割提供一定的特征提取能力,在只有很少的標(biāo)記數(shù)據(jù)時(shí)效果明顯。

圖17 基于重著色的訓(xùn)練流程Fig.17 Training framework based on re-colorization
基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割在醫(yī)學(xué)分割各任務(wù)中均取得了顯著的成果,但是獲取十分準(zhǔn)確而且可靠的分割結(jié)果對(duì)大多數(shù)任務(wù)來說仍然具有挑戰(zhàn),尤其是在目標(biāo)的邊緣區(qū)域。因此,在給出分割的結(jié)果的同時(shí)對(duì)預(yù)測(cè)結(jié)果不確定度進(jìn)行定量分析對(duì)理解分割結(jié)果的可靠性有重大意義[77],例如,不確定性度量可以用來指示出潛在可能的誤分割區(qū)域,從而指導(dǎo)醫(yī)生對(duì)模型不確定度高的部分進(jìn)行復(fù)查。
早期關(guān)于深度學(xué)習(xí)網(wǎng)絡(luò)不確定性度量的研究主要集中在圖像分類和檢測(cè)這些粗粒度的預(yù)測(cè)任務(wù)中,隨后,研究者Kendall等[78]在2015年將其推廣到需要對(duì)逐像素預(yù)測(cè)結(jié)果進(jìn)行不確定性度量的圖像分割領(lǐng)域。文獻(xiàn)[26]根據(jù)不確定性的分布類型角度,將不確定性分為認(rèn)知不確定性(Epistemic uncertainty)和隨機(jī)不確定性(Aleatoric uncertainty)。
認(rèn)知不確定性也稱為模型不確定性,指的是系統(tǒng)原則上具備某種認(rèn)知能力,但是受限于標(biāo)注數(shù)據(jù)量、訓(xùn)練策略以及評(píng)價(jià)體系,從而導(dǎo)致的模型認(rèn)知上的不確定性。可以通過提供額外的訓(xùn)練數(shù)據(jù)和改進(jìn)模型訓(xùn)練策略來減輕和消除這種不確定性。在有限的醫(yī)療標(biāo)注資源下,對(duì)模型不確定性的準(zhǔn)確量化,是對(duì)當(dāng)前醫(yī)療智能診斷系統(tǒng)的重要補(bǔ)充。模型不確定性的核心是獲得模型參數(shù)改變時(shí)預(yù)測(cè)結(jié)果的分布,而傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)參數(shù)固定只能得到一次預(yù)測(cè)結(jié)果。研究者根據(jù)對(duì)模型不確定性評(píng)估的方式不同,將其大致分為兩類,即深度模型集 成(Deep model ensemble)[26]和 深 度 貝 葉 斯 網(wǎng) 絡(luò)(Deep Bayesian Neural Network)[79]。
4.1.1 深度模型集成
早期深度模型集成的方式主要采用生成多個(gè)訓(xùn)練模型來近似預(yù)測(cè)分布,如圖18。文獻(xiàn)[26]改變模型初始化參數(shù)從而獲得不同初始化條件下的訓(xùn)練模型,進(jìn)一步用獲得的多個(gè)模型下的預(yù)測(cè)集成來表征模型不確定性:

圖18 深度模型集成方式Fig.18 Deep model integration method

文獻(xiàn)[80]對(duì)模型集成方式進(jìn)行簡(jiǎn)化,用多假設(shè)預(yù)測(cè)(Multiple Hypothesis Prediction)替換模型原來的單一假設(shè)預(yù)測(cè)(Single Hypothesis Prediction)。根據(jù)不同假設(shè)輸出損失將標(biāo)簽空間進(jìn)行沃羅伊諾劃分(Voronoi tessellation),更新過程計(jì)算最近標(biāo)簽空間的損失進(jìn)行反向傳播。
上述模型集成的方法能夠得到一致的輸出預(yù)測(cè),但是受限于固定的集成模型數(shù)目,無法得到更多假設(shè)數(shù)目或者連續(xù)空間假設(shè)下的輸出結(jié)果,同時(shí)訓(xùn)練隊(duì)計(jì)算資源的消耗也大大增加。隨后,Kohl等[81]在2019年NIPS(advances in Neural Information Processing Systems)會(huì)議上提出概率神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)先驗(yàn)網(wǎng)絡(luò)獲得輸入在潛在空間(Latent space)下的分布,然后通過計(jì)算KL散度(Kullback-Leibler Divergence,KLD)與后驗(yàn)網(wǎng)絡(luò)下標(biāo)簽在潛在空間的分布對(duì)齊,以獲得連續(xù)空間下的預(yù)測(cè)結(jié)果,從而獲得模型預(yù)測(cè)的不確定性。Baumgartner等[82]通過對(duì)多尺度下特征空間進(jìn)行層級(jí)化(Hierarchical)建模,進(jìn)一步提升了模型在連續(xù)空間下預(yù)測(cè)的精細(xì)化程度。
4.1.2 深度貝葉斯網(wǎng)絡(luò)
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型可以視為一個(gè)條件分布模型P(y|x,w):輸入為x,模型參數(shù)w,輸出預(yù)測(cè)y的分布。網(wǎng)絡(luò)的學(xué)習(xí)過程是對(duì)模型參數(shù)w的最大似然估計(jì):

其中D代表訓(xùn)練數(shù)據(jù)。此種優(yōu)化過程下模型的參數(shù)w是固定的取值,以此得到輸出y的預(yù)測(cè)也是固定的,無法體現(xiàn)不確定性。而深度貝葉斯網(wǎng)絡(luò)[78]為神經(jīng)網(wǎng)絡(luò)的參數(shù)引入概率分布,如圖19,根據(jù)輸入數(shù)據(jù)的分布去學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的后驗(yàn)概率分布,建立基于模型參數(shù)概率分布的預(yù)測(cè)期望以度量不確定性:

圖19 兩種神經(jīng)網(wǎng)絡(luò)的區(qū)別Fig.19 Differencebetween twoneural networks

而根據(jù)貝葉斯理論,模型參數(shù)后驗(yàn)概率P(w|D)是無法直接求解的,因?yàn)椋?/p>

式(14)中各項(xiàng)均無法直接求解。為了將求w后驗(yàn)分布的問題轉(zhuǎn)化為更好求解的優(yōu)化問題,研究者們引入變分推斷[83](variational)的思想,這類方法基于由一組參數(shù)θ控制的先驗(yàn)假設(shè)概率分布q(w|θ)去逼近待求解的模型參數(shù)真實(shí)后驗(yàn)概率分布p(w|D),轉(zhuǎn)化為如基于高斯先驗(yàn)假設(shè)的(μ,θ)的參數(shù)優(yōu)化問題。這個(gè)問題可以通過最小化假設(shè)先驗(yàn)分布和真實(shí)后驗(yàn)分布的KL散度進(jìn)行求解,

上面優(yōu)化目標(biāo)中的KL散度可以分解成DKL[q(w|θ)||P(w)]和Eq(w|θ)[logP(D|w)]兩項(xiàng)之差。文獻(xiàn)[84]中用蒙特卡洛采樣法去近似KL散度中的積分項(xiàng)求解,而以一定概率隨機(jī)關(guān)閉模型中參數(shù)的Dropout策略[27,85]可以結(jié)合蒙特卡洛采樣以達(dá)到變分貝葉斯近似的目的,同時(shí)降低模型訓(xùn)練的復(fù)雜度。
隨機(jī)不確定性指的是觀測(cè)中固有的噪聲,這部分不確定性來源于醫(yī)療設(shè)備采集成像的數(shù)據(jù)本身噪聲以及標(biāo)注存在的不可控誤差,不能通過獲取更多的數(shù)據(jù)來減輕這種不確定性。對(duì)醫(yī)學(xué)影像分割過程中隨機(jī)不確定性的量化能標(biāo)識(shí)出分割不確定性很高的區(qū)域,有助于輔助醫(yī)生的判斷。其中按照隨機(jī)不確定性的分布主要可以分為輸入不確定性和輸出不確定性。
輸入不確定性指的是由于成像設(shè)備的限制導(dǎo)致的醫(yī)學(xué)影像的模糊性,進(jìn)而導(dǎo)致標(biāo)注結(jié)果受到醫(yī)療專家主觀認(rèn)知以及客觀差異化的影響,造成誤標(biāo)、漏標(biāo)的情況,如圖20所示,圖中不同的輪廓表示了不同專家的標(biāo)注結(jié)果。Joskowicz等[86]通過多輪次標(biāo)注對(duì)標(biāo)簽的差異性進(jìn)行統(tǒng)計(jì)建模,界定差異范圍(variability range)對(duì)輸入不確定性統(tǒng)計(jì)分析,對(duì)不確定性高的樣例或者區(qū)域可以進(jìn)一步重新標(biāo)注以達(dá)到糾錯(cuò)的目的。而實(shí)際應(yīng)用過程中,不確定性統(tǒng)計(jì)建模的方式耗時(shí)耗力,無法滿足動(dòng)態(tài)高效的需求,因此基于模型輸出分布的輸出不確定性被較廣泛研究。文獻(xiàn)[78]對(duì)輸入分別賦予同方差(Homoscedastic)噪聲和異方差(Heteroscedastic)噪聲以對(duì)模型輸出的分布建模,達(dá)到對(duì)隨機(jī)不確定性量化的效果。對(duì)輸出分布的研究也可以利用測(cè)試過程對(duì)數(shù)據(jù)增廣的方式達(dá)到,Wang等[87]采用幾何變換和顏色空間變換對(duì)測(cè)試過程中輸入數(shù)據(jù)進(jìn)行增廣,觀測(cè)輸出空間的差異性,進(jìn)而推斷數(shù)據(jù)本身的觀測(cè)固有噪聲。

圖20 隨機(jī)不確定性示意圖Fig.20 Schematic diagram of random uncertainty
醫(yī)學(xué)影像分割在醫(yī)療智能輔助診斷中的價(jià)值明顯,盡管基于深度學(xué)習(xí)在醫(yī)學(xué)影像分割領(lǐng)域中已經(jīng)取得了顯著的進(jìn)展,但基于深度學(xué)習(xí)思想和方法建立更加精確、高效、魯棒的分割模型仍然值得更深入的研究。目前醫(yī)學(xué)影像分割質(zhì)量的提升主要得益于網(wǎng)絡(luò)模型在圖像表征學(xué)習(xí)能力上的優(yōu)勢(shì),以及現(xiàn)有計(jì)算技術(shù)下處理大規(guī)模數(shù)據(jù)的高效性。多數(shù)醫(yī)學(xué)影像任務(wù)場(chǎng)景下目前的分割算法還達(dá)不到符合醫(yī)療應(yīng)用的要求,算法要求標(biāo)注數(shù)據(jù)量大且重復(fù)標(biāo)注多,另外分割結(jié)果單一,有效信息少。未來醫(yī)學(xué)影像分割需要在以下幾個(gè)方向開展更深入的研究。
醫(yī)學(xué)影像中的組織不像自然圖像具有清晰的邊緣、紋理和顏色,因此病變和健康組織的視覺紋理很難被區(qū)分開,病變區(qū)域附近的背景冗余信息會(huì)嚴(yán)重干擾目標(biāo)視覺特征的表達(dá)能力。而由于病變組織的多變性和復(fù)雜性,類別內(nèi)的樣本紋理也存在著巨大的差異。因此,醫(yī)學(xué)影像分割會(huì)面臨較小的類間區(qū)分性和較大的類內(nèi)差異性。如何針對(duì)醫(yī)學(xué)影像的特點(diǎn),設(shè)計(jì)能夠?qū)⒕W(wǎng)絡(luò)注意力側(cè)重在目標(biāo)區(qū)域,且優(yōu)化網(wǎng)絡(luò)的特征表達(dá),使得提取到的目標(biāo)區(qū)域更加緊湊,和背景特征之間的距離盡可能大,是一個(gè)亟須解決的問題。
由于醫(yī)療業(yè)務(wù)數(shù)據(jù)特點(diǎn)(數(shù)據(jù)模糊、標(biāo)注不準(zhǔn)確)和應(yīng)用場(chǎng)景的特殊性,對(duì)模型的魯棒性和精度要求很高,目前的醫(yī)學(xué)影像分割算法通常僅能給出單一的分割結(jié)果,有用信息量少。醫(yī)生希望模型給出預(yù)測(cè)結(jié)果的同時(shí),對(duì)結(jié)果的不確定性也能給出量化,這樣的話醫(yī)生就可以將精力重點(diǎn)放在模型不確定度高的地方,減少重復(fù)勞動(dòng)。因此亟須在已有分割模型的預(yù)測(cè)基礎(chǔ)上,增加關(guān)于分割網(wǎng)絡(luò)不確定性的研究;同時(shí)如何結(jié)合不確定性的量化指標(biāo),優(yōu)化模型訓(xùn)練過程,提升模型的分割性能,值得進(jìn)一步的探索。
目前,醫(yī)學(xué)影像智能分析算法多以純數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行訓(xùn)練,造成模型泛化能力受標(biāo)注數(shù)據(jù)質(zhì)量的嚴(yán)重影響,過擬合嚴(yán)重。數(shù)據(jù)標(biāo)注主要問題包括樣本分布不均衡、標(biāo)注差異化、同質(zhì)樣本冗余、樣本孤立點(diǎn)等。針對(duì)這些問題,需要提出高效的與數(shù)據(jù)交互驅(qū)動(dòng)的數(shù)據(jù)標(biāo)注策略,使得模型訓(xùn)練過程中能夠主動(dòng)挑選出高價(jià)值的數(shù)據(jù)樣本,交給醫(yī)療專家進(jìn)行標(biāo)注,從而減少重復(fù)標(biāo)注工作,優(yōu)化標(biāo)注流程,達(dá)到海量樣本空間下模型高效學(xué)習(xí)的目的。
隨著醫(yī)學(xué)技術(shù)的發(fā)展,醫(yī)學(xué)影像數(shù)據(jù)將會(huì)更加龐大,而醫(yī)療資源無法對(duì)所有數(shù)據(jù)進(jìn)行標(biāo)注,因此未來半監(jiān)督學(xué)習(xí)算法還有很大的發(fā)展空間,并將獲得更多的關(guān)注與研究。目前在半監(jiān)督醫(yī)學(xué)分割領(lǐng)域中還存在一些問題,首先是現(xiàn)有算法的性能上距離全監(jiān)督學(xué)習(xí)的效果還有很大距離[88],原因主要在于無標(biāo)記數(shù)據(jù)中的信息難以被利用。一方面僅靠三個(gè)基本假設(shè)來定義數(shù)據(jù)分布與后驗(yàn)間的關(guān)系并不準(zhǔn)確,使用某些特定先驗(yàn)的半監(jiān)督學(xué)習(xí)策略在其他分布的數(shù)據(jù)上會(huì)造成一定的性能下降。另一方面盡管大多數(shù)算法對(duì)無標(biāo)記數(shù)據(jù)中的信息進(jìn)行了篩選約束,訓(xùn)練過程中仍不可避免地學(xué)習(xí)到錯(cuò)誤的信息,從而導(dǎo)致了潛在的性能下降。綜上所述,如何在醫(yī)學(xué)影像分割任務(wù)中提出新的半監(jiān)督學(xué)習(xí)算法,更深入挖掘未標(biāo)注數(shù)據(jù)的有用信息,是研究的一個(gè)重要方向。
醫(yī)學(xué)影像分割是計(jì)算機(jī)輔助診斷中的重要一環(huán),在過去幾年隨著深度學(xué)習(xí)的迅速發(fā)展得到廣泛的關(guān)注。本文充分總結(jié)了基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割的研究進(jìn)展。首先,本文重點(diǎn)介紹了醫(yī)學(xué)影像分割深度學(xué)習(xí)模型的基本框架,并對(duì)比分析了基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展過程、用于優(yōu)化的目標(biāo)函數(shù)和用于提升模型性能的各種方法。隨后本文針對(duì)醫(yī)學(xué)影像中標(biāo)注獲取困難的問題,重點(diǎn)討論了半監(jiān)督條件下醫(yī)學(xué)影像分割的發(fā)展現(xiàn)狀,對(duì)半監(jiān)督分割方法進(jìn)行了歸納整理。還對(duì)醫(yī)學(xué)影像分割中分割的不確定性研究這一較為新興的研究方向進(jìn)行了分析,論述了醫(yī)學(xué)圖像模糊、標(biāo)注噪聲大的不確定性分析的重要意義,并對(duì)比了主流的模型不確定性和隨機(jī)不確定性的研究方法。最后,本文對(duì)深度學(xué)習(xí)在醫(yī)學(xué)影像分割中的發(fā)展方向進(jìn)行了展望,深度學(xué)習(xí)的進(jìn)步也將推動(dòng)著醫(yī)學(xué)影像分割向更深、更廣的領(lǐng)域發(fā)展。