






關鍵詞:圖像分割;視網膜血管;多層級特征融合;并行殘差注意力機制
視網膜是眼睛中至關重要的組織之一,其中視網膜血管的異常常常是眼部疾病的重要指標,比如糖尿病視網膜病變或青光眼等.在面對這些嚴重的眼部疾病時,早期的診斷和治療顯得尤為重要.因此,視網膜圖像分析的精準性和效率成為醫學界關注的焦點.通過引入計算機輔助技術,能夠實現對視網膜血管的更精細的分割,從而為醫生提供更多有力的診斷依據.此外,通過分析血管形態屬性,不僅能夠更好地了解疾病的發展過程,還能夠為個性化的治療方案提供更為可靠的支持.
在應對眼底血管分割這一任務時,許多研究都致力于優化編碼器-解碼器結構,并通過引入設計精良的模塊[1]或后處理技術[2]來提高方法的性能.研究表明,U-Net[3]在眼底血管分割中表現出了良好的分割效果,隨后許多學者在此基礎上進行了改進.文獻[4]提出了一種用于醫學成像的新型注意力門(AG)模型,該模型自適應地調整特征圖的權重,提高了對重要特征的關注度,從而改善了血管分割的準確性.文獻[5]提出了一種基于U-Net的循環卷積神經網絡RU-Net,加強了像素之間的相關性;并且在RU-Net的基礎上使用循環殘差卷積層,提出了R2U-Net,以有效增加網絡深度,確保更好地完成分割任務.由于代表能力有限,淺層網絡將限制深度學習模型準確分割血管像素和非血管像素,文獻[6]結合殘差網絡和U-Net的結構,通過添加更多的殘差塊和強丟失來增加網絡的深度,使網絡能夠更好地提取特征,提高對視網膜圖像中細小血管的檢測和分割能力.但是,模型采用單向的編碼器-解碼器結構可能限制了信息在網絡中的傳播,導致難以充分利用局部和全局信息,影響了分割準確性和魯棒性.為了克服信息利用的限制,LadderNet[7]通過將多個U-Net鏈接到一起,使得網絡中有多個編碼器-解碼器結構,通過引入類似梯子的雙向結構,進一步增強了信息流動和梯度傳播,從而改善了網絡的性能和訓練效率.
本文借鑒LadderNet在雙向信息流動和梯度優化方面的設計,擬構建一種嵌套的多層級分割模型,通過多層次連接,充分利用上下文信息,提高分割效果.此外,在編碼器-解碼器結構的底部,加入帶有殘差連接的并行注意力機制,以使網絡能夠更好地理解圖像的局部和全局結構,并集中學習當前任務中最重要的特征,從而提升在復雜分割任務中的魯棒性和準確性.
1 NestedNet模型設計
1.1 NestedNet模型介紹
LadderNet(如圖1)可以看作是由多個U-Net連接組成的結構.與傳統的U-Net不同,LadderNet引入了多對編碼器-解碼器支路,并在每一級相鄰的支路之間都設置了跳躍連接.這樣的設計使得每個UNet解碼器的中間結果都能與后續的U-Net編碼器通過Addition連接,為后者提供來自不同尺度的額外信息.通過這種連接方式,實際上是在網絡中構建了多條信息傳遞的路徑,每條路徑可以視為FCN的一種變體.因此,LadderNet網絡在特征捕獲方面具有更強大的能力,并且潛在的精度提升空間也更大.
本文借鑒LadderNet的思想,通過構建多層級來捕獲更多高級特征,從而建立一種嵌套U型網絡(NestedNet)的結構(如圖2),最大限度地提高網絡的表達能力和特征融合能力,并進一步提升性能水平.該網絡以U型網絡的編碼器-解碼器結構為基礎,將其層級堆疊,形成多層次的特征提取和重建網絡.NestedNet網絡設計更加靈活,結構的深度可以根據特定任務的需求和網絡設計進行調整.一般而言,整個模型的嵌套深度以及每個單獨的U型結構內部的層數通常會根據任務的復雜程度和輸入數據的特征進行靈活確定.為了便于訓練,本文采用了相對簡單的三層結構.
NestedNet網絡的核心思想在于將多個U型結構嵌套在一起,形成一種倒金字塔式的結構.每個U型結構由編碼器和解碼器模塊組成,其中編碼器模塊負責從輸入圖像中提取特征,解碼器模塊則負責將這些特征映射回原始分辨率,以進行像素級別的預測.在這種結構中,最外層兩個U型結構的編碼器模塊的輸出被傳遞給下一層U型結構的編碼器模塊作為輸入.這使得網絡能夠在不同層次上捕獲和利用特征信息,有助于提高對輸入圖像的理解能力,并增強分割任務的性能和魯棒性.另外,解碼器模塊與下一個編碼器模塊進行Addition操作,從各個尺度的特征圖中獲取額外信息,進一步提高了特征的豐富性和多樣性.這種嵌套結構不僅有效促進了特征的傳遞和融合,還為網絡提供了更多路徑和信息流動方式,增強了對輸入圖像的表達能力.除此之外,在編碼器-解碼器結構的底部增加一個并行殘差注意力機制(PRAM),使得網絡能夠更好地理解圖像的局部和全局結構,并集中學習到當前任務最重要的特征,從而產生更準確、更清晰的預測結果.
1.2 殘差模塊
在深度神經網絡中,梯度消失和梯度爆炸問題是常見的挑戰.其中梯度消失問題尤為嚴重,因為隨著網絡層數的增加,梯度在反向傳播過程中逐層衰減,最終導致底層參數的更新受阻;相比之下,梯度爆炸問題可能導致數值不穩定和訓練失敗.為了解決梯度消失問題,引入了殘差連接的概念.殘差連接允許網絡學習輸入與輸出之間的殘差,即跳過層的梯度可以直接流向較淺的層,從而改善了梯度消失問題.這種設計不僅提高了網絡的穩定性,還加速了訓練過程.
本文在殘差卷積模塊中,除了利用殘差連接,還采用了ReLU激活函數和批量歸一化(BatchNormal?ization)[8],殘差模塊示意圖如圖3所示.ReLU激活函數保證了在一定范圍內梯度不會消失,同時批量歸一化可以加速網絡的收斂,提高訓練的穩定性.這些技術的結合,使得殘差卷積模塊在解決梯度消失問題上更加有效.
1.3 并行殘差注意力模塊(PRAM)
隨著網絡層數的增加,可能會丟棄低級特征,浪費特征信息.在醫學圖像等領域,標記數據稀缺,更有效地利用每個特征尤為重要,因此有必要充分利用注意機制來提高血管的識別率.針對文獻[9]中雙重注意力機制在表達圖像局部特征方面存在不足且計算開銷較大的問題,本文在CBAM注意力機制[10]的基礎上進行改進,提出一種結合通道注意力和空間注意力的并行注意力機制,并通過共享的殘差塊降低計算負擔,以提高網絡的效率和性能.模塊的結構圖如圖4所示,這種結構能夠更好地捕獲局部特征,并在減少參數和計算量的同時提高模型的表達能力.
加入帶有殘差卷積的并行注意力機制之后,val_loss(驗證集損失)的波動變小,表明模型在驗證集上的表現變得更加穩定(如圖5).其原因可能是:
(1)梯度流動改善:殘差連接緩解了梯度消失和爆炸問題[11],通過跳躍連接直接傳播梯度,保持信號強度,促進穩定訓練并減少驗證損失波動.
(2)特征表示增強:并行注意力機制結合通道和空間注意力,更好地捕捉重要特征并抑制不重要特征[12],提升模型處理復雜數據的能力,提高驗證集表現穩定性.
(3)信息保留和融合:帶有殘差的卷積層同時傳遞原始和處理后的特征,確保關鍵信息不丟失,并更好地融合新舊特征,提高模型對輸入數據的魯棒性.
(4)減少過擬合:殘差連接和并行注意力機制加速收斂并改善泛化能力,減少驗證損失波動,避免模型在訓練集和驗證集之間的表現差異過大.
(5)抑制噪聲:注意力機制有效過濾不相關背景噪聲,集中關注重要特征[13],使模型在驗證集上表現更穩定,更一致地識別和利用有用特征信息.
2 實驗結果及分析
2.1 實驗數據及其預處理
在兩個經典的視網膜血管分割數據集進行實驗:DRIVE數據集[14]和CHASE_DB1數據集[15].DRIVE數據集包含40張視網膜彩色圖像,尺寸為565×584像素,其中20張用于訓練,20張用于測試.而CHASE_DB1數據集則包含了來自28名受試者(14名健康人和14名患有糖尿病性視網膜病變的病人)的眼底圖像,總共56張,尺寸為996×960像素,從中選取28張患病眼底圖像,其中20張用于訓練,8張用于測試.
為了增加訓練樣本的多樣性,有助于模型學習更多的特征,采取以下策略對訓練圖像進行了處理:將圖像切分為64×64像素的小塊,如圖6所示,然后應用隨機裁剪、隨機左右翻轉、上下翻轉以及隨機旋轉等操作來擴充訓練數據集.同時,利用其中的10%作為驗證數據.為了簡化處理,更好地捕捉血管形態信息,將所有切片圖像轉換為灰度圖像進行訓練.
2.2 實驗參數
訓練設置總學習次數為50eopchs,初始學習率為0.0005,batch_size為64,設置了如果在驗證集上連續6epochs無增長的情況下進行提前停止訓練.
2.3 實驗評估
為了全面評估視網膜血管分割的效果并與其他網絡進行比較,采用準確率(AC)、靈敏度(SE)、特異性(SP)和F1Score這四個指標,其計算方法如下:
其中:TP(真陽性)指實際為血管像素且被正確預測為血管像素的總數,TN(真陰性)指實際為背景像素且被正確預測為背景像素的總數,FP(假陽性)指實際為背景像素但被錯誤預測為血管像素的總數,FN(假陰性)指實際為血管像素但被錯誤預測為背景像素的總數.
此外,還利用受試者工作特性曲線(ROC曲線)和P-R曲線來更直觀地評估模型的性能表現.ROC曲線以TPR(TruePositiveRate,真陽性率)為縱軸、FPR(FalsePositiveRate,假陽性率)為橫軸,展現在不同閾值下靈敏度和特異性變化的情況,從而全面評估分類器的性能表現,ROC曲線越靠近左上角,表示分類器性能越好;曲線下方的面積(AUC,AreaUnderCurve)越大,則模型性能越優.P-R曲線以召回率(Recall)為橫軸,精確率(Precision)為縱軸,同樣表示模型性能,靠近右上角的曲線表示性能較好.
2.4 實驗結果
實驗結果如圖7—10所示,從DRIVE以及CHASE_DB1數據預測結果中各隨機選取三個預測結果,直觀可見本文生成的預測結果比較符合真實的視網膜血管分割結果,雖然在細節上的分割還有待提高,但是綜合整體分割結果很好,并且兩個數據集的ROC曲線下面積以及P-R曲線下面積都各自達到了98%和91%以上.
在DRIVE和CHASE_DB1數據集上的各個算法性能對比如表1所示,除了DRIVE數據集在特異性(SP)的值較低之外,其余性能指標都相較于其他算法更好.本文提出的NestedNet模型在F1Score、平均準確率(AC)、靈敏度(SE)、受試者工作特性曲線(ROC)以及精確率-召回率曲線(P-R)方面都表現更好.F1Score在平衡精確率和召回率方面具有優勢,有效減少了誤報和漏報;平均準確率(AC)顯示了模型在整體上的準確性,能夠準確識別正類和負類樣本;靈敏度(SE)的提升意味著模型在檢測到所有正類樣本方面表現出色,減少了漏檢的風險;AUC值表明模型在不同閾值下依然能保持穩定的高性能,展示了其魯棒性.綜上所述,NestedNet模型在多個關鍵評價指標上均優于之前的模型,顯示出其在實際應用中的潛在優勢和可靠性.
3 結論
(1)通過嵌套多個U型結構構建多層級特征提取和重建網絡.編碼器提取特征,解碼器將特征映射回原始分辨率進行像素級預測,不同層次上的特征捕獲和利用提高了網絡對輸入圖像的理解能力和分割性能,并通過解碼器與下一個編碼器的Addition操作獲取各尺度的額外信息,增強了特征的豐富性和多樣性.
(2)增加一個并行殘差注意力機制,使得網絡能夠更好地理解圖像的局部和全局結構,集中學習當前任務最重要的特征,產生更準確、更清晰的預測結果.