李 筠, 汪 芳, 楊海馬, 宋夜夜
(上海理工大學光電信息與計算機工程學院, 上海 200093)
隨著生活條件的改善,人們的生活飲食結構也發生了變化,流行病學研究顯示不同地區居民的大腸息肉檢出率在10.25%~26.64%,并呈逐年上升趨勢[1]。由于大腸息肉的早期癥狀不明顯,不易被發現,所以結腸檢查對結直腸癌的早期診斷和預防非常重要[2]。為了解決醫療資源不足的問題,并且提高結腸檢查的準確率,人們廣泛運用高性能計算技術協助進行醫療診斷。
在圖像分割的研究領域,ZHOU等[3]在U-Net模型的基礎上提出了UNet++,將編碼器和解碼器通過一系列嵌套的密集跳過路徑連接,從而縮小了編碼器和解碼器的特征映射之間的語義差距。FAN等[4]提出使用并行的部分解碼器組件獲取全局特征圖和遞歸反向注意模塊,然后通過全局特征圖和反向注意機制建立區域與邊界的關系,提高了對息肉分割的準確性。YEUNG等[5]采用雙通道注意力,獲取上下文的特征進行對比加權增強識別結果,彌補了傳統空間卷積丟失相關細節特征的缺陷。
從上述研究內容可以看出,人們在基于U-Net模型的基礎上提出了許多改進方案,但是這些改進方案中大部分忽略了在U-Net模型不斷地編碼解碼的層次變換中出現了信息丟失,以及同一層次之間的編碼器與解碼器的聯系,對一些畸形的不容易分割的息肉圖像無法達到預期分割效果的問題。針對上述問題,本文在U-Net模型結構的基礎上對編解碼器結構模型進行優化,提出了一種新型結腸息肉圖像分割模型。
本文基于U-Net的編碼器-解碼器結構的模型基礎提出了三種結構。
(1)軸向注意力機制的結合模塊,彌補在網絡層次加深后造成的梯度爆炸或者梯度消失的問題。同時,通過軸向注意力機制,保持了特征中較遠距離的位置之間的聯系。
(2)適應聯系的訓練。使用不同空洞膨脹率的空洞卷積彌補池化過程中的特征信息丟失問題。同時,采用自注意力模型彌補池化過程中空間結構的信息丟失問題。
(3)雙通道注意力連接,挖掘特征圖中目標區域的結構信息,將粗略和低分辨率的預測圖細化為一個完整的包含目標區域和細節高分辨率的顯著圖。
如圖1所示,本文所提研究模型基于U-Net模型的對稱編碼器-解碼器結構。編碼器階段,在進行每一層卷積運算之前加入跳躍軸向注意力模塊,解決原編碼器結構中存在的梯度問題;池化過程中,加入自適應聯系訓練,彌補池化過程中的信息丟失問題;解碼器階段,每層的輸入特征與同層的編碼器輸出特征進行雙通道注意力連接,保留目標區域信息。經過4層編碼器-解碼器運算,得到輸出結果。

圖1 模型結構Fig.1 Model structure
隨著神經網絡層次的增多,容易造成梯度爆炸和梯度消失的問題。梯度爆炸會導致神經網絡的訓練不穩定,無法獲得有效的數據,而梯度消失會導致訓練權重的更新緩慢甚至停滯。于是,本文提出跳躍軸向注意力機制解決梯度問題。跳躍軸向注意力模塊結構如圖2所示。
(1)先將每一層的輸入進行2次卷積、1次批標準化及1次激活的運算,運算結果記為R1。
(2)將每一層的輸入進行一次1×1的卷積運算和批標準化,運算結果記為R2。
(3)將R1與R2進行矩陣相加融合,運算結果記為R3。
(4)將R3加入軸向注意力模塊,軸向注意力即圖3所示的橫向注意力模塊與圖4所示的縱向注意力模塊的并聯結合,圖3中的V、Q、K分別代表值矩陣(Value Matrix)、查詢矩陣(Query Matrix)和鍵矩陣(Key Matrix)。這些矩陣都是在訓練過程中隨機初始化的權重矩陣,并在梯度下降過程中進行優化。將兩個注意力的運算結果進行矩陣相加融合,結果記為整體跳躍軸向注意力機制的輸出。

圖3 橫向注意力結構Fig.3 Row attention structure

圖4 縱向注意力結構Fig.4 Col attention structure
1×1的卷積核提供了類似全連接的運算,有效地增加了網絡的深度,保證輸入尺寸不變,同時增強了非線性運算能力,有效地提高了整個網絡的表達能力[6]。軸向注意力將平面上的特征沿著橫向和縱向進行平行的分解,將平面特征降為一維的線性特征,有效地降低了學習成本[7]。
在每一層運算結束后,模型會進行池化運算再進入下一層,這樣的池化操作會丟失較多的空間結構信息,導致出現不同尺寸大小的圖像、分割目標的尺寸相差過大,以及畸形或者尺寸較小的樣本等現象,會導致模型泛化能力變弱,無法分割出復雜樣本區域[8]。于是,本文提出了適應聯系訓練用于抽取不同尺寸的樣本關聯,從而適應更多尺寸的樣本。適應聯系訓練結構圖如圖5所示。

圖5 適應聯系訓練結構圖Fig.5 Diagram of adaptive connection training structure
(1)對輸入分別進行空洞膨脹率為1、3、5的空洞卷積,將輸出記為R1、R2、R3。
(2)將R1、R2、R3進行Concat運算融合,結果記為R4。
(3)將R4進行一次3×3卷積運算,結果記為R5。
(4)將R5加入如圖5所示的自注意力模塊,將輸入特征復制為3份,即I1、I2、I3,對I1進行1×1卷積及標準化操作,得到R6,將R6與I2進行相乘融合及兩次全連接運算,得到R7,再將R7與I3進行相加融合,作為模塊輸出。
通過空洞卷積,保留了圖像內部結構的特征。通過自注意力模型,將任意位置的信息關聯,讓模型在充分利用池化的操作增強感受野優勢的同時,也彌補了池化操作造成的信息丟失問題。
解碼階段,在進行上采樣時,通常會忽視編碼器-解碼器特有的對稱結構信息,沒有充分聯系對應編碼層輸出所包含的信息,容易造成信息缺失[9]。于是,本文改造了上采樣階段流程,具體流程如圖6所示。

圖6 雙通道注意力門控模塊Fig.6 Dual channel attention gating module
(1)將前一層產生的輸入特征進行上采樣運算,運算結果記為R1。
(2)通過長連接將對應編碼層的輸出與R1進行特征融合,結果記為R2。
(3)將R2通過圖7所示的雙通道注意力模塊,首先將模塊輸入與圖8所示的通道注意力模型進行運算,其次與模塊輸入進行融合,再次與圖9所示的空間注意力模型進行運算,最后與模塊輸入進行融合得到模塊輸出R3。

圖7 雙通道注意力結構圖Fig.7 Diagram of dual channel attention structure

圖8 通道注意力結構圖Fig.8 Diagram of channel attention structure

圖9 空間注意力結構圖Fig.9 Diagram of spatial attention structure
(4)將R3進行批標準化和激活運算,作為整個模塊輸出。

(1)
如表1所示,本文所使用的數據集分別是:CVC-ClinicDB,Kvasir-SEG,其中CVC-ClinicDB包含612張樣本數據,Kvasir-SEG包含1 000張樣本數據。將數據集分為8份訓練集、1份驗證集和1份測試集。訓練集用于模型的訓練,驗證集用來進行模型泛化使用,將得到的預測圖與標記圖進行比對,得到評價指標得分,量化模型分割效果,測試集用來將得分最高的模型進行泛化,得到預測圖。由于不同數據集的尺寸大小不一,所以訓練前需要對數據集進行預處理工作,將樣本圖片尺寸統一以保證訓練參數的一致性。

表1 實驗數據集的構成Tab.1 The composition of the experimental dataset
本文引入4個分界定義:TP(真陽性),即樣本預測為正,標記為正,預測正確;FN(假陰性),即樣本預測為負,標記為正,預測錯誤;FP(假陽性),即樣本預測為正,標記為負,預測錯誤;TN(真陰性),即樣本預測為負,標記為負,預測正確。同時,引入了4個評價指標量化檢驗所用模型的效果,具體的評價指標計算公式如下。
(1)Dice相似系數(Dice Similarity Coefficient):計算預測目標區域與實際目標區域的相似性。Dice公式計算如下:
(2)
(2)平均交并比系數(mIoU):計算預測值和實際值兩個集合的交集與并集的比值,結果的交并比系總和取平均值。mIoU公式計算如下,其中k表示類別,k+1表示加上了背景類,i表示真實值。
(3)
(3)準確率(Precision):計算機預測符合要求的正確識別物體的個數占總識別出的物體個數的百分數,準確率相關公式如下:
(4)
(4)正確率(Accuracy):計算機預測正確物體的個數占所有樣本個數的百分數,正確率計算公式如下:
(5)
如圖10所示,與同類模型相比,本文所提出的模型具有更好的分割效果。在CVC-ClinicDB數據集上,本文實驗的mIoU和Dice數值分別為0.903和0.947,Precision為0.933,Accuracy為0.933,對比其他組實驗均有更好的效果,在CVC-ClinicDB數據集上不同模型的結果對比如表2所示。

圖10 模型在CVC-ClinicDB數據集上的部分分割結果對比圖Fig.10 Comparison of partial segmentation results of the model on the CVC-ClinicDB dataset

表2 在CVC-ClinicDB數據集上不同模型的結果對比Tab.2 Comparison of results of different models on the CVC-ClinicDB dataset
在Kvasir-SEG數據集上,本文實驗的mIoU和Dice的指標分別為0.763和0.868,Precision為0.857,Accuracy為0.867,均比對比實驗組有更好的效果,在Kvasir-SEG數據集上不同模型的結果對比如表3所示。

表3 在Kvasir-SEG數據集上不同模型的結果對比Tab.3 Comparison of results of different models on the Kvasir-SEG dataset
為了驗證模型結構的合理性,在CVC-ClinicDB數據集上進行消融實驗。Baseline為骨干網絡;SAA為跳躍軸向注意力模塊;ACT為適應聯系訓練模塊;DCG為雙通道注意力門控模塊。本文設計了8組實驗進行評估:①骨干網絡;②骨干網絡引入SAA模塊;③骨干網絡引入ACT模塊;④骨干網絡引入DCG模塊;⑤骨干網絡引入SAA和ACT模塊;⑥骨干網絡引入ACT和DCG模塊;⑦骨干網絡引入SAA和DCG模塊;⑧本文模型。不同模塊的消融實驗結果對比如表4所示,在分別引入了三個模塊后對比骨干網絡均有顯著提升,引入三個模塊后,模型取得了較好的實驗結果,證明了本文模型結構的合理性。

表4 不同模塊的消融實驗結果對比Tab.4 Comparison of ablation experimental results of different modules
本文提出了以編碼器-解碼器結構模型為基礎,通過采用1個跳躍連接模塊和接入軸向注意力機制,解決了因神經網絡的層次加深導致的梯度消失或者梯度爆炸的問題,更好地獲取整個圖像遠近位置的聯系。采用適應聯系訓練,有效地減少了池化過程中空間信息的丟失。采用雙通道門控模塊,保證了解碼過程中空間信息和通道信息的完整性。經過對比實驗驗證了本文提出模型的效果和可行性。經過消融實驗驗證了本文結構的合理性。未來,需要豐富更多的數據集驗證本文模型的效果,同時對模型進行工程類的嵌入開發,實現標準化輸入與標準化輸出,實現可以完成批量工業化處理圖像的能力。