王艷梅,張佳良,張艷珠,史銘宇,李 妍
(1.沈陽理工大學信息科學與工程學院,遼寧 沈陽 110159; 2.沈陽理工大學自動化與電氣工程學院,遼寧 沈陽 110159;3.中國醫科大學附屬第四醫院,遼寧 沈陽 110005)
視網膜脫落是一種常見的眼科疾病,是視網膜與眼球后壁之間的色素上皮層發生分離,導致視網膜功能障礙或喪失的病理過程。視網膜脫落的原因有多種,如外傷、近視、糖尿病、老年性黃斑變性等。視網膜脫落的臨床表現主要有視力下降、視野缺損、閃光、飛蚊等。視網膜脫落如果得不到及時診斷和治療,可能導致視網膜萎縮、眼球萎縮、失明等嚴重后果。因此,視網膜脫落的早期發現和確診斷對于保護患者的視力和眼球健康具有重要意義。眼底超聲是一種利用超聲波探測眼球內部結構的檢查方法[1],具有無創、快速、廉價、可重復等優點,適用于各種眼科疾病的診斷,尤其是對于不能直接觀察眼底的情況,如白內障、玻璃體混濁、眼球出血等。眼底超聲可以分為B超和彩超兩種模式,B超是黑白的二維圖像,顯示眼球內部的反射強度,彩超是彩色的二維圖像,顯示眼球內部的血流速度和方向。眼底超聲可以用于視網膜脫落的診斷,通過觀察視網膜的位置、形態、活動度等,判斷視網膜是否脫落,以及脫落的范圍、程度、類型等。然而,眼底超聲圖像的質量通常較低,存在噪聲、模糊、偽影等問題,且其他模型無法充分提取圖像特征,存在特征提取不充分、信息丟失等問題[2]。以往主要通過醫生的眼睛動態判斷,人工分割視網膜脫落區域較為困難。
本文基于U-Net[3]進行改進,提出一種基于深度學習的眼底圖像疾病分割方法,將殘差網絡和可變性卷積加入到主干網絡,利用注意力機制對現有的深度學習網絡架構進行優化改進,將這個改進模型稱為RDFA-Net(Residual and Deep-scale Feature Fusion Attention Network),可以有效地對病灶部位進行分割。本文主要工作有以下四個方面:第一,對眼底超聲圖像的病灶進行圖像分割;第二,在U-Net網絡的基礎上,引入了空間注意力和通道注意力兩種注意力機制,分別用于增強圖像的局部特征和全局特征,提高網絡的感受野和表征能力,并加在網絡的深層部位;第三,在殘差主干網絡中提出可變形殘差卷積組成特殊的殘差網絡;第四,設計深層信息傳遞結構,將深層特征中的信息送到淺層網絡中進行堆疊,使得網絡模型可以聯系上下文提取多尺度特征信息。并在自建的視網膜脫落的彩超數據集上進行了實驗,與其他幾種常用的深度學習分割方法進行了對比。
本文提出了一種新的網絡結構(RDFA-Net結構),如圖1所示,用以分割視網膜脫落超聲圖像的病灶部位。新模型保留傳統U-Net的主干特征提取網絡和加強特征提取網絡的編碼器解碼器結構。原U-Net主干特征提取部分由卷積和最大池化組成,整體結構與VGG類似,本文使用改進的ResNet50[4]特征提取網絡作為主干網絡,由于視網膜脫落病灶部位目標比較大,但是形狀不一,傳統的特征提取方法使用固定的卷積視野較小,效果不佳,所以在主干網絡第四階段使用可判定可變形卷積DCNV2[5],為網絡提供更大的靈活性,可以選擇具有信息量的區域,提高對細節的捕捉能力,使模型的效果能得到提升。在解碼器部分參考多尺度特征網絡在深處提取特征進行8倍上采樣拼接到淺層特征中,不進行過多拼接,使得深層特征得到展現,有效地將多尺度信息進行特征高效化傳遞,為解碼器提供深層層次的特征信息,以此提高分割精度。同時在深層解碼器中引入通道注意力模塊和空間注意力模塊CBAM以提高對目標的關注度,產生更好的分割結果[6]。

圖1 RDFA-Net結構圖
在超聲圖像分割任務中,由于目標形狀的特征是立體動態變化的,且區域較大,普通的特征提取方法難以提取到有效的特征,且隨著網絡層數的加深,正確率會變得增長緩慢或是下降,模型的準確率會降低。為了解決這一問題,將原來U-Net中的主干特征提取網絡Vgg網絡結構替換為Resnet50殘差結構,ResNet50結構在輸入Input經過Resnet50到輸出Output,分為5個階段(STAGE0~STAGE4),如圖2所示。共經過了50個層,STAGE0中的2層(conv7×7、max pooling),STAGE1中9層(3×3),STAGE2中的12層(3×4),STAGE3中的18層(3×6),STAGE4中的9層(3×3)。其中STAGE0可以看作數據的預處理,后面的STAGE1至STAGE4都由數個Bottleneck模塊組成,結構相似,圖2虛線框中為各Bottleneck的結構,其中CONV是卷積,BN是Batch Normalization的縮寫,即BN層,RELU指ReLU激活函數。

圖2 可變形殘差卷積模塊結構
傳統的殘差結構雖然動態性較好,對于深層網絡的補償性較好,但是對于網絡性能的正面提升沒有幫助。為了加強效果,將第四個Bottlenet中的殘差通道判定部分的原卷積Conv,替換為動態的可變形卷積DCNV2,在判定通道數輸出不等于輸入時,或殘差通道起作用時,可通過可變形卷積進行下采樣,提高特征提取能力,將新的結構命名為Bottleneck3模塊。
可變形卷積DCNV2是可變形卷積DCNV1的改進版,在傳統卷積單元(卷積核)中對輸入的特征圖在固定的位置進行采樣。所帶來的問題是卷積核權重的固定導致同一CNN在處理一張圖不同位置區域時感受野尺寸都相同,這對于編碼位置信息的深層卷積神經網絡是不合理的。因為不同的位置可能對應不同尺度或者不同形變的物體,這些層需要能夠自動調整尺度或者感受野的方法。DCN卷積模塊的結構如圖3所示,偏差通過一個卷積層conv獲得,輸入特征圖,輸出偏差。生成通道維度是2N,其中的“2”分別對應X和Y這兩個2D偏移,N是通道數。一共有兩種卷積核:卷積核和卷積核學習offset對應的卷積層內的卷積核,這兩種卷積核通過雙線性插值反向傳播,同時進行參數更新。這種實現方式相當于比正常的卷積操作多學習了卷積核的偏移。在DCNV2中,每個樣本不僅需要學習DCNV1中的偏移量,而且還要通過學習到的特征幅度進行調制。這個網絡模塊因此能夠改變其樣本的空間分布和相互之間的影響,特征幅度的表達如下:
(1)

圖3 可變形卷積模塊結構
其中,Δmk是第k個位置的調制標量(k是卷積網格的表示位置的數字)。
調制標量Δmk的取值范圍為[0,1]。Δpk和Δmk可在相同的輸入特征圖x上,分別通過一個單獨的卷積得到。該卷積層與當前卷積層具有相同的空間分辨率和膨脹度。輸出通道數為3K,其中前面的2K通道對應學習到的偏移Δpk,剩下的K個通道再送到Sigmoid層[7],得到調制標量Δmk。將之后得到的Δmk加入到輸入特征上,用來在學到的偏移位置上調制特征的幅度。
本文提出的可變形殘差卷積模塊殘差結構和可變形卷積相結合,形成互補的效果,可以動態地提升特征提取能力,提升模型的精度效果。
為了解決原U-Net網絡橫向融合特征而忽略深層特征的問題,提高病灶分割的效果,將深層的橫向融合后的特征,通過深尺度特征提取,并入淺層特征融合中,之后進行預測。如圖1所示,在特征提取部分第一次拼接操作后,將拼接后的深層特征p2直接進行8倍上采樣后提出,生成具有深層語義信息的特征圖,與第四次拼接的結果再次拼接,用以同時捕捉深層的深尺度特征信息和淺層的空間幾何特征信息,之后進行兩次卷積操作和Relu激活函數運算,將通道數同步為與第四次拼接處結果相同的通道數。
令O∈R(H×W×C),P∈R(H×W×C),O表示編碼器在第二層的輸出特征圖,P表示解碼器在第二層的輸出特征圖,其中H,W,C分別表示特征圖的高度、寬度和通道數。因此深尺度信息傳遞結構可表示為:
V=Ct(Ct(C1∶Up(C2))∶Up(C3))·Cv·R,
(2)
其中,C1為解碼器第一層輸入特征,C2為編碼器第二層輸入特征,C3為第四層編碼器輸入特征,Ct(1∶2)表示將通道1和通道2進行特征通道融合操作,Up表示上采樣操作,Cv表示卷積,R為Relu激活函數。
本研究使用空間和通道結合的注意力機制CBAM(Convolutional Block Attention Module)來提取病灶特征,CBAM同時將空間注意力和通道注意力相結合,其結構如圖4所示。將圖像特征的輸入分別進行通道注意力和空間注意力的處理,擁有良好的信息獲取能力,在輸入的單層特征后依次進行全局平均池化和全局最大池化。之后對上述操作得到的結果,利用共享的全連接層進行處理,將處理后的兩個結果相加,通過Sigmoid激活函數得到輸入特征層每一個通道的0到1之間的權值。在獲得這個權值后,將這個權值乘以原輸入特征層。空間注意力機制對輸入進來的特征層,在每一個特征點的通道上取最大值和平均值,之后將這兩個結果進行一個拼接,利用一次通道數為1的卷積調整通道數,同樣使用Sigmoid激活函數得到輸入特征層每一個通道的0到1之間的權值之后乘以原輸入特征層。由于深層特征較為抽象,本文將此注意力機制加在特征提取網絡部分中的第三層輸入之后,在經過特征提取后與上采樣的結果進行拼接。

圖4 通道和空間注意力機制
實驗所用的環境為CPU:R7 5800,GPU:RTX3060,16 G內存,Windows11系統,Python3.6,在相同的環境下進行網絡訓練。
本研究所用的數據集來自合作醫院長期收集的視網膜脫落患者的彩色超聲視頻,將患者檢測的超聲視頻逐幀截取篩選,手工截取相關區域,用Yolov5深度學習網絡檢測眼眶統一數據集尺度,再進行鏡像翻轉擴充數據集的數量。通過Labelme軟件標注病灶區域,之后交給醫生修改并確認正確后,得到最終數據集。最終處理成224×224的圖像129張。將數據集的80%劃分為訓練集,20%劃分為測試集,進行深度學習網絡的訓練。
對視網膜脫落的視網膜病灶部分進行語義分割,實際是對圖像中的每個像素點進行分類。圖像中的每個像素點被分為病灶部位和非病灶部位兩類[8]。評價指標有真陽性(TP)、假陽性(FP)、真陰性(TN)、假陰性(FN)。通過計算可得到準確率(PA)、類別平均像素準確率(MPA)、交并比(IoU)、召回率(RECALL)、平均交并比(MIoU)。
在自制的數據集上進行實驗,使用RDFA-Net對相應病灶部位進行分割,分割結果如圖5所示,其中(a)(c)為原始圖片,(b)(d)為前一張對應的分割結果。RDFA-Net正確地確定到視網膜脫落的視網膜位置,并未錯誤識別附近相鄰不相關的非病灶區域,且由第二個病變的分割結果可知,分割的邊緣表現結果也較為準確。

圖5 RDFA-Net的分割結果
將RDFA-Net與HRNet[8]、ResNet、U-Net、Deeplabv3[9]方法進行比較(表1)。RDFA-Net模型的準確率達到了0.978 3,相較于U-Net提升了0.004 3;IoU值達到了0.692 5,相較于U-Net提升了0.022 6,相較于HR-Net提升了0.113 2;MPA值達到了0.917 9,均優于其他方法。

表1 RDFA-Net與其他方法的評價指標
為了進一步證明本文提出的可變形殘差卷積模塊和深層信息傳遞結構,進行消融實驗,分別保留可變形殘差卷積模塊(表2),去除CBAM注意力機制模塊(表3),去除深層信息傳遞結構(表4),與基線網絡U-Net和RDFA-Net進行對比。

表2 保留可變形殘差卷積模塊對評價指標的影響

表3 去除CBAM注意力機制模塊對評價指標的影響

表4 去除深層信息傳遞結構對評價指標的影響
由表2可以看出,在保留可變形殘差卷積模塊后,網絡性能相較于U-Net準確率提升了0.002 6,MPA值提升了0.013 1,IoU值提升了0.016 0,MIoU值提升了0.011 5。由此可見,可變形卷積模塊動態卷積對于分割是有提升效果的。
由表3可以看出,在去除CBAM注意力機制后,RDFA-Net的各項性能指標都有所下降,說明CBAM在第二層連接處可以有效地提取病變的空間和通道特征,CBAM模塊擁有優秀的特征提取能力。
由表4可以看出,在去除深層信息傳遞結構后,保留其他模塊,IoU值下降了0.029 1,其他性能指標也均有所下降,由此驗證了保留深層提取信息的有效性,深層信息傳遞結構可以有效地保留深層信息,提升分割精度。
本文針對視網膜脫落超聲圖像的病灶分割問題,以U-Net為基礎,在優化為殘差主干特征網絡的同時加入可變性卷積,可以動態卷積提取特征,引入通道和空間注意力機制,加強網絡的信息獲取能力,改進了加強特征提取網絡部分的結構,使網絡能兼顧深層尺度信息,實現了對超聲圖像視網膜脫落病灶的分割工作,實現了較好的性能,優于其他方法。視網膜脫落病灶與其他部位的超聲圖像是相似的,RDFA-Net也可以應用到其他病灶分割任務。