劉麗霞,宣士斌,劉暢,李嘉祥
(廣西民族大學人工智能學院,南寧 530006)
醫學圖像分割在疾病診斷、監測和治療中起關鍵作用。在醫學圖像中注釋與在自然圖像中注釋不同,醫學圖像通常是由一組專家注釋,以減輕特定專家由于專業水平不同等原因產生的主觀偏見。由于醫學圖像存在質量不高、明暗處理、噪聲等因素,使在醫學圖像中描繪精確對象邊界成為一項艱巨且繁瑣的任務,導致高度不確定的病理區域在專家之間(不同專家對同一圖像進行注釋)和專家內部(同一專家在不同時間對同一圖像進行注釋)有很大的差異,幾乎沒有一個專家的注釋能夠精確捕捉到所有圖像上的目標區域。當前大部分研究成果[1-3]通常需要唯一的標簽,而獲得唯一標簽的做法通常是多數投票、STAPLE[4]或其他融合標簽的策略[5],也有研究人員通過標簽采樣[6]或多頭策略[7]探索多專家注釋的影響。這些策略雖然易于實施,但是完全忽略了多個專家之間潛在的不確定性信息,使模型過度自信。
為避免神經網絡的預測結果過度自信,研究人員[8-9]提出不確定性估計,即對分割預測結果的可靠性程度進行評估,在已有分割模型的預測基礎上,增加關于分割網絡不確定性估計的研究,結合不確定性的量化指標,優化模型訓練過程,提升模型的分割性能。不確定性估計有助于提高深度神經網絡決策的可解釋性和分割結果的可靠性,能夠提供關于系統對給定患者執行給定任務信心的信息,可以用來指示潛在的誤分割區域,從而指導醫生對不確定性高的部分給予更多的關注,較好地輔助臨床醫學診斷。
早期利用深度學習網絡進行不確定性估計的研究主要集中在圖像分類和檢測這些粗粒度的預測任務中,此后KENDALL 等[9]將其推廣到需要對逐像素預測結果進行不確定性估計的圖像分割領域,將不確定性分為認知不確定性(Epistemic uncertainty)和任意不確定 性(Aleatoric uncertainty)。HüLLERMEIER 等[10]提出神經網絡中認知不確定性和隨機不確定性的概念,并通過不同方法對其進行建模和量化。不確定性度量除了在醫學圖像分析領域起重要作用外,在計算機視覺(自動駕駛)、自然語言處理(機器翻譯、語音識別)等領域也發揮著重要作用。文獻[11]概述了不確定性度量在這些應用領域的研究進展,并提供大量參考文獻和對開放性問題進行討論,目前貝葉斯神經網絡、集成模型、概率U-Net、測試時間擴充等方法可用于估計不確定性,但國內相關研究報道相對較少。
本文考慮標簽和數據中的人工不確定性,利用專家注釋之間的確定(一致認可)和不確定(分歧)區域來反映預測結果的可靠程度,提高模型不確定性量化的性能,并通過網絡學習生成最終的校準分割概率圖。
近年來,學者對估算深度神經網絡中的不確定性進行了研究[12],提出各種方法對其進行量化,主要研究集 中在貝葉 斯推理[9,13-14]、集成方法[16-18]、概率U-Net[20-21]或利用多個標簽和專家之間可變性來構建能反映不確定性的分割框架[24-25,30]。通過貝葉斯神經網絡(Bayesian Neural Network,BNN)學習權重分布,是目前預測不確定性常用的方法。該方法首先在BNN 參數上指定先驗分布[9],然后在給定訓練數據的情況下計算參數上的后驗分布,從而量化預測認知不確定性。任意不確定性則使網絡分割輸出均值和方差σ2,其中代表網絡的預測結果,方差σ2代表不確定性度量結果。BNN 采用蒙特卡羅(Monte Carlo,MC)dropout[13]來反映與網絡參數相關的不確定性,用MC dropout 近似BNN 的后驗概率。然而,使用MC dropout 獲得的不確定性估計值往往會被錯誤校準,即該值與模型誤差不一致[14]。HUMT 等[15]提出一種新的貝葉斯優化算法,以減輕真實權重后驗擬合不足的傾向,并證明拉普拉斯近似的超參數可以有效優化,分割預測結果的校準性能得到提高。此后,研究人員致力于利用集成學習來改進不確定性校準。LAKSHMINARAYANAN等[16]提出一種非貝葉斯神經網絡的方法,使用集成學習的優勢對與訓練數據一致的多個模型進行平均預測,從而對分類和回歸任務結果進行更準確的不確定性估計。BELUCH 等[17]和GUSTAFSSON 等[18]在圖像分類任務中發現集成方法比MC dropout 在主動學習任務上能提供更準確的校準預測。與MC dropout 不同,使用深度集成不需要修改網絡架構,但集成方法需要從頭開始訓練模型,這對大型數據集和復雜模型來說計算成本很高。STAHL 等[19]通過在MNIST 數據集上對比基于Softmax 輸出、網絡集成、貝葉斯神經網絡、自動編碼器等方法的不確定性量化結果,對深度學習中的不確定性量化進行了評估。KOHL 等[20]提出一種概率U-Net 網絡,通過將貝葉斯全連接網絡(Full Connected Network,FCN)與條件方差自動編碼器相結合,為模糊圖像提供多個分割假設。BAUMGARTNER 等[21]提出一個多尺度潛在變量的概率層次模型,并將獨立的潛在變量用于不同的分辨率,變量自動編碼器用于推理。GANTENBEIN 等[22]通過添加可逆塊提高內存效率,在保持分割精度不變的前提下節省內存。
上述方法通過使用不同策略進行不確定性估計,但仍然沒有充分利用多專家注釋工作中豐富的差異信息,浪費了現有多專家注釋的人工數據集,無法在多個專家對同一圖像的獨立注釋場景中學習圖像分割任務。圖1 提供了在眼底圖像視杯和視盤注釋過程中專家之間存在的明顯不確定或爭議區域,特別是在視杯邊界信息與背景非常相似的位置。目前,多專家間可變性問題開始引起研究人員的關注。HU 等[23]量化了因觀察者間的分歧而出現多個注釋時的不確定性,使用概率U-Net 網絡量化肺異常分割的不確定性。MIRIKHARAJI 等[24]提出使用FCN 集成來處理分割注釋中的差異,通過有效利用多個專家的意見,并從所有可用注釋中學習,捕獲了2 種類型的不確定性。ZENG 等[25]提出一個新的擴展Dice 和擴展Dice 損失函數,有效地評估多個可接受注釋的分割性能。WANG 等[26]提出一種具有不確定性的分割網絡,從每個肺結節的不同注釋中學習,預測具有高度不確定性的肺結節區域。VALIUDDIN 等[27]使用規范化流(Normalizing Flows,NFs)來建模單注釋數據和多注釋數據,允許對任意不確定性進行更復雜的建模。ZHANG 等[28]提出U-Net-and-a-half 網絡,并從多個專家對同一組圖像執行的注釋中學習。YU 等[29]提出一種多分支結構,在不同敏感度設置下生成3 個預測,以利用多評分者共識信息進行青光眼分類。YANG 等[30]提出一種基于U-Net 的多解碼器體系結構,并使用交叉損失函數彌補不同分支之間的差距,方法簡單易用。

圖1 多專家注釋的視杯和視盤對比Fig.1 Comparison of optic cup and optic disc annotated by multiple experts
JI 等[31]提出MRNet 醫學圖像分割框架,考慮多評分員之間的一致和不一致信息,包含由粗到精兩級處理管道,第1 級管道使用U-Net獲得粗略預測結果,第2 級管道由多評分者重建模塊(Multi-rater Reconstruction Module,MRM)和多評分者感知模塊(Multi-rater Perception Module,MPM)組成。提出的專業感知推斷模塊(Expertise-aware Inferring Module,EIM)將評分員的專業知識線索明確整合到高級語義特征中(即兩級管道中編解碼器的瓶頸處),使用MRM 模塊來重建單個評分員的評分,并用MPM 模塊細化粗略預測以形成最終校準的分割圖。但MRNet 模型存在幾點不足:首先模型構建過于復雜,導致模型參數過多,不易于推廣使用;其次使用兩級處理管道造成編碼結構復雜,導致特征提取存在不一致性;最后MRM 模塊將第1 級管道中的粗略預測與輸入圖像相結合,并將其作為特征提取的輸入,使生成的特征不是純粹的輸入原圖像的特征。在MRM模塊中僅在解碼器最后一層使用多個1×1 卷積層重構各個評分者的注釋,使重構存在一定的局限性。
受文獻[30]的啟發,本文僅使用單級處理管道,并將多解碼器分支作為重構模塊,以精簡模型結構。本文的改進措施具體如下:
1)在MRNet 模型體系結構的基礎上,使用多解碼器增強重構的潛在能力,并允許同時學習由多個專家對同一組圖像執行的注釋。
2)在編碼器-解碼器的瓶頸處嵌入整合了多專家專業知識的先驗信息,提高每個解碼分支的泛化性。
3)使用軟注意機制增強多解碼器中多個預測結果的模糊區域和邊界,并在公開的RIGA 視網膜杯盤分割數據集上進行實驗。
將提出的多解碼器不確定性感知(Multidecoder Uncertainty Aware)分割模型記為MUA-Net,圖2 為MUA-Net 的總體框架,包含一個編碼器、多個解碼器、EIM模塊以及雙分支軟注意機制。圖2 上半部分是編碼器-解碼器和EIM 模塊,從不同專家對同一圖像的多個注釋中學習,每個注釋獲得一個解碼器分支,解碼器的數量與專家注釋的數量一致。圖2下半部分是雙分支軟注意機制,利用不確定性映射獲得最終的分割概率圖。在該模型中,采用U-Net作為主要架構[32],考慮到VGG 架構能保留輸入圖像的拓撲和敏銳的感知特征,模型選擇以VGG16 為主干的DeepLab-V3+作為編碼器。所有輸入圖像通過同一編碼器生成圖像特征值,構成一個多解碼器共享的低維特征空間。每個專家對應一個解碼器,每個解碼器從對應專家獨立生成的注釋中學習獲得圖像掩碼。多解碼使重構的多專家信息與原始多專家信息更相似,以達到通過訓練好的模型來預測多專家注釋的目的,提高每個分支的預測能力。本文采用單個編碼器和多個解碼器結構,這是相對文獻[31]的不同之處,既簡化了模型,又增強了模型的重構能力。為提高每個分支的泛化能力,在編碼器-解碼器的瓶頸處引入文獻[31]中的EIM 模塊,因為僅使用多解碼器的每個分支學習相應的注釋是不夠的,還需通過EIM 模塊將多專家注釋的先驗信息嵌入編碼器提取的高層語義特征中,使學習的多個目標暴露于解碼器之前,以提高編碼器提取特征的動態表示能力。最后,在每個解碼分支得到的初始預測估計代表不同區域間專家可變性的像素級不確定性映射,然后利用本文提出的帶有雙分支軟注意機制的不確定性映射進一步細化、捕捉和強調模糊區域,得到最終的分割概率圖。

圖2 本文模型的整體框架Fig.2 Overall framework of model in this paper
EIM 模塊利用各專家的專業知識水平作為先驗信息,并將其以條件信息的形式嵌入到分割網絡中,以提高編碼器提取特征的動態表示能力。在EIM 模塊中,多個專家的專業知識水平形成歸一化的,其中V和N分別代表評分專家相應權重和評分專家總數。expertnessV作為先驗知識饋送到網絡,在每次訓練迭代過程中,考慮到不同專家的臨床專業知識水平不同但重要性相同,因此設置為所有專家的權重一致。
為有效將多專家專業知識線索集成到語義特征表示中,將嵌入的expertnessV作為隱藏狀態,利用ConvLSTM模塊[33]生成增強的特 征,如圖3所示。ConvLSTM 是一個功能強大的遞歸模塊,其不僅能捕獲特征和不同專業水平(即隱藏狀態)之間的相關性,還能感知有區別的動態特征。更具體地說,ConvLSTM 模塊將從編碼器獲取的高級特征圖(即f)作為EIM 的輸入,并使用歸一化expertnessV作為初始隱藏狀態h0。為了將V轉換為適合ConvLSTM模塊的格式,將V擴展到與f相同的維度,該過程可定義為式(1)所示:


圖3 EIM 模塊Fig.3 EIM module
為同時學習由多個專家對同一組圖像給出的注釋所獲得的圖像掩碼,并且共享低維的特征空間,提出多解碼器結構。每個解碼器用于測量和擬合一個注釋,嘗試捕獲多專家注釋的專業知識。具體地說,每個解碼分支能對編碼器提取的圖像高級特征逐步恢復近似配對的注釋,使重構的多專家信息與原始多專家信息更加相似,以達到通過訓練好的模型來預測多專家注釋過程的目的,提高每個分支的預測能力。
如圖2 的上半部分所示,N個注釋專家就有N個解碼器分支,它們共享相同的特征提取過程,每個解碼分支都有特定的學習目標,學習單個專家專業知識的注釋,在逐步上采樣后獲得最終的解碼特征Fi,以及通過1×1 卷積運算處理的初始預測Pi。使用重構損失Lrec衡量重建的多專家注釋與各個專家真實注釋的相似程度,其定義為表示二進制交叉熵損失,N是專家總數,Pi∈RW×H×C和表示第i個專家相應的重構預測和注釋;W、H和C分別表示圖像寬度、高度和通道數。每個解碼分支包含的二進制交叉熵損失函數能較好地給編碼器反饋提取特征的信息,多解碼器的重構損失為每個解碼器損失的組合取平均值,其表達方式為
通過N個解碼器重構N個專家的注釋后,專家之間的分歧區域通過粗預測的像素標準偏差進行估計,即不確定性映射,該方法可以從可能導致分割不確定性的區域中學習有價值的視覺特征,從而獲得更好的分割結果。使用式(2)獲得不確定性映射,并在雙分支軟注意機制中進一步處理。

多個專家之間的分歧,即爭議區域,反映了醫學圖像中不同區域的不確定性或難度水平。因此,如何更好地利用這些信息提高分割性能是一個重要的研究問題。本文利用雙分支軟注意機制能夠更好地捕捉和強調模糊區域,其中一個分支對應眼底圖像的視杯,另一個分支對應視盤。基于2.1 節獲得的不確定映射,使用空間注意策略[34]來強調高度不確定性區域。然而,估計的不確定性映射可能在對象邊界附近包含潛在的不確定性或不完整性,如果使用“硬”空間注意,可能會對模型性能產生負面影響。因此,采用“軟”注意,以擴大不確定區域的覆蓋范圍,從而有效地感知和捕捉多個專家之間的不一致線索。軟化操作可以表示為式(3)所示:

其中:FGauss表示具有高斯核和零偏差的卷積運算;Ωmax表示一個最大函數,用于保留高斯濾波圖和原始不確定性圖之間的較高值。在本文中,高斯核的大小和標準偏差可以通過模型訓練進行學習,并分別用32 和4 作為高斯核和標準偏差的初始值。
在高度不確定的區域中引入軟注意機制,以增強特征圖F的高度確定區域,其中F為每個解碼器分支最終解碼特征Fi的組合,表達式為F=,該表達式充分考慮了多專家的一致性。換言之,初始預測的高度不確定和確定區域都得到了加強。將F發送到2 個平行分支,2 個分支分別代表視杯和視盤分割任務。軟空間注意分別從中獲得,如圖2 所示,在原始特征F和空間增強特征之間采用跳躍連接,以避免傳播到網絡的注意力圖的潛在錯誤。該過程描述如下:

將細化的特征Fcup、Fdisc進一步連接并輸入到一個1×1 卷積層中以獲得最終的分割預測M,該過程的表達式如式(5)所示:

最終將分割預測概率圖M和由多個專家對同一圖像注釋的圖像掩碼乘以expertnessV中對應的權重獲得)進行二進制交叉熵損失,即LM=lBCE(M,GTs)。所以最終的損失組合如下:

RIGA benchmark[35]是一個公開的視網膜杯盤分割數據集,共750 幅彩色眼底圖像,包括來自MESSIDOR 的460 幅圖像、來 自BinRushed 的195 幅圖像和來自Magrabia 的95 幅圖像。來自不同組織的6 位眼科專家為該數據手動標記了視杯和視盤輪廓掩模。在模型訓練期間,從BinRushed 和MESSIDOR 中分別選擇195 個樣本和460 個樣本作為訓練集,選擇具有95 個樣本的Magrabia 集作為評估模型的測試集,該測試集與訓練數據集不同源。
在實驗中,MUA-Net 采用PyTorch 平臺實現,并在具有48 GB 內存的NVIDIA RTX 8000 GPU 上進行訓練和測試。所有訓練和測試圖像都統一調整尺寸為256×256 像素。提出的模型使用Adam 優化器以端到端的方式進行訓練,初始學習率設置為1×10-4,批量大小為8,共60 個epoch。
MUA-Net 模型的目標是生成概率圖M,該概率圖M可以反映潛在的多專家之間的不確定性,即校準預測,用于眼底視杯和視盤圖像分割。為更好地評估校準模型預測,使用平均精度(Mean Accuracy,Acc)、文獻[31]中的Dice 系數(Dice coefficient,D)、交并比(Intersection over Union,IoU)進行多個閾值級別的度量。本文為公平比較,將閾值參數設置為(0.1,0.3,0.5,0.7,0.9)。在每個閾值級別下,生成預測概率圖M和GTs,并與對應閾值進行二值化,然后分別計算Acc、D 和IoU。對在多個閾值處獲得的Acc、D 和IoU 取平均值,然后獲得軟度量,并分別表示為Accs、Ds和IoUs。軟分數越高,表示模型性能校準得越好。
為驗證本文模型的有效性,以單一專家注釋作為標簽,使用基線U-Net 訓練單個專家,獲得6 個不同的模型(Ophthalmologist 1~Ophthalmologist 6),并與對應的標簽進行評估。為證明GTs的有效性,使用不同的標簽訓練相同的MUA-Net,包括單個眼科專家注釋的標簽(GT1~GT6),Random(在訓練過程中,隨機從標簽池中采樣)以及STAPLE[4],結果如表1 所示,其中分別代表視杯的平均精度、Dice 系數、交并比,分別代表視盤的平均精度、Dice 系數、交并比。實驗結果表明,在模型Ophthalmologist 1~Ophthalmologist 6中,Ophthalmologist 4 在視杯分割中的各指標均獲得了最高值,與其他模型相比,其分別提 高1.15~3.54 個百分點,3.6~8.8 個百分點和4.1~11.5 個百分點,可見不同專家的專業能力差距較大,難以確定唯一的標簽。Ophthalmologist 1~Ophthalmologist 6 模型在視盤分割中的最高值與最低值的差值分別為0.86、1.09、3.41 個百分點,對視盤的分割性能比視杯的分割性能差異更小,這是因為在注釋過程中視盤相較視杯的邊界更加明顯。Ophthalmologist 1~Ophthalmologist 6 模型性能的差異體現了評分專家注釋圖像分割掩碼的差異,再次驗證了考慮多個專家專業知識并同時學習的必要性。此外,本文模型MUA-Net(GTs)的各指標均取得最優值,MUA-Net(STAPLE)次之。MUA-Net(GTs)模型的比次優的MUA-Net(STAPLE)模型分別高1.06、1.04 和1.9 個百分點。MUA-Net(GTs)模型在視盤分割的比次優的MUA-Net(STAPLE)模型分別高0.25、1.44和0.84 個百分點。這些對比實驗證明本文模型MUA-Net 和(GTs)在多個專家注釋的情況下獲得更好的校準結果。

表1 不同模型在RIGA 數據集下的結果對比Table 1 Comparison of results of different models under RIGA dataset %
MUA-Net 模型可視化的結果如圖4 所示,由圖4可知,MUA-Net 模型生成的概率圖具有很好的校準效果,特別是能較好地反映不同專家間的爭議區域。

圖4 眼底視杯和視盤的分割結果對比Fig.4 Comparison of segmentation results of fundus optic cup and optic disc
為證明本文所提MUA-Net 模型的有效性,將其與最先進的視杯視盤分割模型進行比較,模型包括AGNet[36]、CENet[37]、ResUnet[38]、pOSAL[39]、BEAL[40]和MRNet[31],結果見表2。可以看到,與最先進的眼底視杯視盤分割方法相比,本文MUA-Net 性能優異,在視杯分割時,本文模型的比MRNet 模型分別提升0.75、0.39、0.41 個百分點。在視盤分割時,本文模型的比MRNet模型分別提升了0.25、0.47 個百分點。雖然本文模型在視盤分割時的值沒有取得最優值,但僅比最先進的MRNet 模型低0.02 個百分點。綜上,本文模型具有更好的校準預測性能。

表2 不同視杯和視盤分割模型在RIGA 數據集下的結果比較Table 2 Comparison of the results of different optic cup and optic disc segmentation models under RIGA dataset%
為驗證本文MUA-Net 模型中各模塊的有效性,進行了消融實驗,結果如表3 所示,其中“√”表示使用該模塊,“×”表示不使用該模塊。所有的實驗均使用GTs進行評估。使用基本的U-Net,即單一的編碼器-解碼器結構作為基線模型。隨后在基線模型的基礎上逐步加入多解碼器、EIM 模塊、雙分支軟注意機制。添加多解碼器結構之后,模型的校準預測性能獲得了有效提高(表3 中的b 行),尤其是視杯分割時的值比基線模型(表3 中的a 行)分別增加2.40、2.73 個百分點。這有效證明了使用多解碼比單解碼更能有效重構多專家的信息。通過將EIM模塊嵌入到編碼器-解碼器的瓶頸處值分別增加了1.00,1.82 個百分點(表3 中c 行比圖3 中b 行),即具有EIM 模塊的模型有更高的校準預測性能。這是因為通過EIM 模塊引入多專家專業知識,能夠提高模型的動態表示能力,有效利用多專家線索提高校準分割結果。在未加入雙分支軟注意機制時,本文模型的各項指標均已優于MRNet 模型。為進一步提升本文模型性能,引入雙分支軟注意機制以更好地強調模糊區域和邊界,其性能比表3 中c 行的分別提升了0.27,0.28 個百分點。

表3 在RIGA 數據集下的消融實驗結果Table 3 Results of ablation experiment under RIGA dataset %
針對由多個專家對同一組圖像進行注釋時無法達成共識的問題,提出一種基于多解碼器與不確定性感知體系結構的MUA-Net 模型。以端到端的方式同時學習多個注釋,利用多解碼器重構多個專家豐富的注釋信息,在編解碼器的瓶頸處加入EIM 模塊,以此作為多專家的先驗信息,并使用軟注意機制細化模糊區域以更好地反映確定和不確定區域。實驗結果表明,本文模型與MRNet 模型相比,能夠提高模型的動態表示能力和校準預測性能。在多個專家的注釋無法達成共識的臨床應用中,預測不確定性至關重要,但由于現有的不確定性量化模型大部分在有監督的環境中提出,而在半監督環境下的研究較少,因此下一步將研究半監督的醫學圖像分割,并對其不確定性進行量化,從而更好地輔助臨床醫學診斷。