基于類特征注意力機制融合的語義分割算法

2023-02-17 07:28:56張榮芬劉宇紅張雯雯

液晶與顯示 2023年2期

陳娜，張榮芬，劉宇紅，李麗，張雯雯

（貴州大學大數據與信息工程學院，貴州貴陽 550025）

1 引言

隨著科學基礎和技術實現的進步，通過數據學習來解決問題的深度學習已經成為無人駕駛、醫療影像處理［1］、遙感分割和光學領域［2-3］中解決問題的通用支柱。圖像語義分割是眾領域中一個經典而基礎的課題。2015年，Long等人提出全卷積網絡（FCN）［4］來獲取任意大小的輸入并產生相應的分割圖，在自然圖像處理中取得了良好的效果。然而，基于FCN的算法對于分割小而復雜的對象能力有限。

為了解決這些問題，出現了兩種基于全卷積神經網絡的圖像語義分割算法。一種是采用對稱編解碼結構的語義分割模型，主要通過下采樣操作將目標信息分布到不同特征圖中，然后通過跳躍連接與解碼器中逐層上采樣恢復的同層次圖像進行拼接，如 U-Net［5］、SegNet［6］。另一種通過加強抽象語義結合骨干網絡的思路保留淺層高分辨率的空間細節和高層低分辨率的全局語義，如PSPNet［7］中用于提取目標圖像全局信息的金字塔池化模塊（Pyramid Pooling Module，PPM）。谷歌 Chen等人引入空洞卷積［8］，提出 DeepLab［9-12］架構的幾種變體，采用ASPP （Atrous spatial pyramid pooling）結構，對輸入特征圖進行并行采樣，多尺度捕捉特征圖上的圖像上下文信息。Pan等人［13］提出一種用于語義分割的稠密金字塔網絡（DPN），通過提取每個通道的特征圖并進行通道切換操作以增強網絡的表示能力。2018年，Shen等人［14］提出一種簡單有效的前向卷積神經網絡注意模塊，隨后胡潔等人提出了SeNet，Woo等人提出了CBAM［15］，主要思想都是利用注意力機制來推斷特征像素的重要特征。2020年，Li等人［16］提出的SFNet利用注意力機制學習不同感受野之間的語義流來獲取信息。2020年，Zeng等人［17］在Deeplabv3+中增加了特征交叉注意模塊，該模塊通過兩個分支提取低層空間信息和高層上下文特征來細化分割結果。2021年，Liu等人［18］提出了自適應多尺度模塊和自適應融合模塊，能夠根據圖像尺度自適應地為每幅圖像生成不同的融合權重比，融合不同尺度圖像的多尺度特征，有效地提高了分割效果。孟俊熙［19］等人設計了異感受野拼接的空洞空間金字塔池化結構，增強了各層級信息間相關性。然而，上述方法忽略了類別之間的上下文信息，不能很好地整合全局像素，并且圖像特征提取過程細節信息有所丟失［20］，造成目標邊緣分割精度低等問題。

針對這些問題，相較于第一類缺乏語義信息的模型，目前第二類中專門用于處理語義分割的Deeplabv3+網絡模型更為優越。本文以Deeplabv3+網絡為基礎，提出基于類特征注意力機制融合的語義分割算法CFANet（Class Feature Attention Mechanism Network）。本文主要的貢獻如下：（1）針對DeepLabv3+模型對圖像目標特征提取困難，注意力信息不能有效利用等問題，提出了CFANet。它采用端到端的深度CNN結構，結合了空間細節信息、全局上下文信息和類上下文信息來增強特征表征能力，最后通過一個通道注意力模塊對前期多層融合的特征進行重新校準，抑制冗余信息加強顯著特征來提高模型語義分割精度。（2）為了更好地提取高級語義信息。首先構建了類特征注意力機制模塊(Class Feature Attention Mechanism，CFAM)[21]來捕捉對象的類別上下文信息,然后改進了ASPP模塊(Multi-parallel Atrous Spatial Pyramid Pooling，M-ASPP)來合并全局上下文信息，優化卷積運算帶來局部信息丟失問題。(3)最后利用通道注意力模塊 FCA（Feature Channel Attention）的特性對大量的融合特征重新校準，抑制冗余信息加強顯著特征來提高網絡的表征能力。

2 本文算法

2.1 網絡結構

本文提出了一種改進的Deeplabv3+網絡，命名為CFANet，如圖1所示。它以更有效的方式從空間、通道和類別的角度自適應地捕捉全局相關性。它的編碼器采用ResNet50［22］作為骨干網絡，其結構如圖2所示。ResNet50首先通過7×7卷積將特征圖大小縮小2倍，然后通過最大池化層將其縮小2倍，之后經過4個殘差塊，其中前兩個殘差塊都將特征圖大小縮小2倍，后兩個殘差塊通過空洞卷積保持特征圖大小不變。每個殘差塊由多個殘差結構組成，結構如圖3所示，包含兩個不同通道的1×1卷積和一個3×3卷積，每個殘差結構都有一條跳躍連接線，引入跳躍連接線是為了解決大量網絡層造成的梯度爆炸。

圖1 整體網絡結構圖Fig.1 Overall network structure

圖2 ResNet50的結構Fig.2 Structure of ResNet50

圖3 殘差塊的結構Fig.3 Structure of the residual block

編碼器使用ResNet50進行特征提取，將4個階段的輸出作為多尺度特征融合過程的輸入，在塊3和塊4之后分別連接CFAM和M-ASPP模塊，豐富關于類別和全局上下文的信息。編碼端通過將前期大量融合的拼接特征輸入到通道注意力［15，17］（Feature channel attention，FCA）模塊，鑒于通道注意力機制對重要信息的選擇性注意，能更有效提取到關注的正確特征，弱化不重要的冗余信息，保留關鍵特征，提高自我注意力機制的效率。注意力機制是一個簡單有效的輕量級模塊，添加這個模塊幾乎不會增加額外的計算。最后將輸出的重要特征經過卷積和上采樣操作恢復到原始圖像大小，以更有效和更高效的方式從空間、通道和類別的角度自適應地捕捉全局相關性。

2.2 類特征注意力模塊

注意力機制本質上是一種矩陣乘法的運算，可以確定圖像中每個像素的依賴關系，增加依賴關系強的像素的權重，從而減少不必要噪聲的干擾。為了更準確地捕捉類之間的依賴關系，增強網絡理解各類信息的能力，本文提出了類特征注意力機制模塊（CFAM）［21]，如圖4所示。

圖4 類特征注意力結構Fig.4 Structure of the class feature attention module

類特征注意力模塊可以從類別信息的角度捕捉遠程上下文信息，即圖像中每個類別與輸入特征每個通道之間的關系被顯式建模，來增強每個類別之間的上下文信息依賴性。首先，將主干網絡 Block3的輸出特征定義為A∈RC×H×W，將其分別通過兩個1×1卷積生成特征圖B∈RC'×H×W和類別關注度特征圖D∈RN×H×W，其中C'是B縮減后的通道數，N代表圖像分類中的類別數。接下來將B轉換變為B∈RC'×HW，同時將D經過softmax函數后變換得到D∈RN×HW，將B∈RC'×HW和D∈RN×HW的轉置相乘通過softmax函數生成聚集所有類的相似性映射圖X∈RC'×N，具體運算如式（1）所示：

其中：Bu，i表示特征圖B第u個通道的第i個像素值，Dk，i表示特征圖D第k個通道的第i個像素值，au，k表示Bu和Dk之間的類特征關聯矩陣，xu，k∈X表示類之間的影響因子，u∈[1，2，...C']，k∈[1，2，...N]。

將X∈RC'×N和D∈RN×H×W相乘得到Y∈RC'×H×W，將其通過1×1卷積和A相加，最終輸出的類增強特征圖如式（2）所示：

其中，Fu表示表示輸出特征F∈RC×H×W第u個通道，f(·)表示1×1卷積-BN-ReLU系列運算。式（2）顯示每個通道的最終輸出是類別特征注意圖中所有通道基于類別的加權和，表示特征圖之間基于類別的語義依賴，也就是提出的CFAM直接提高了類別級信息的感知和辨別能力。

2.3 改進的ASPP模塊

在DeepLabv3+結構編碼最后階段，通過并行不同膨脹率的空洞卷積來增大卷積核的感受野，抵消一部分池化層帶來的信息丟失，進而有效實現多尺度特征提取。雖然使用ASPP結構在一定程度上通過增大感受野提高了分割性能，但是空洞卷積存在卷積核不連續的缺陷。為了解決上述問題，本文結合混合擴張卷積［23-24］（HDC）的思想將ASPP重構為MASPP。HDC的思想就是當使用多個空洞卷積時，需要設計各卷積核的膨脹率使其剛好能覆蓋底層特征層。改進的ASPP模塊如圖5所示。基于ASPP模塊，M-ASPP模塊將不同采樣率的空洞卷積串聯起來，這樣空洞卷積的空洞可以被覆蓋，防止信息丟失。然后，對每個分支中不同采樣率提取的特征進行融合，得到最終的特征圖。

圖5 M-ASPP結構Fig.5 Structure of the multi-parallel ASPP

2.4 通道注意力模塊

CFANet在編碼端集成了MASPP和CFAM模塊。分別利用MASPP模塊提取多尺度信息，CFAM模塊提取類特征信息，能更好地提取底層細節。編碼端不同尺度特征圖之間重復的通道融合操作，會使最終的輸出存在特征冗余現象，故利用FCA模塊（圖6）將拼接的特征圖通過全局池化和最大池化沿空間維度壓縮上下文特征，得到兩個向量，然后將兩個向量共享給全連通層和Sigmoid算子生成一個權重系數，將根據信息的重要性分配好的加權系數乘以原始特征，得到縮放后更有效的新特征，提高分割圖重要特征的精度。運算過程可用式（3）表示：

圖6 FCA結構Fig.6 Structure of FCA

其中：MLP是多感知層，σ是sigmoid激活函數，F是通道拼接后新的特征圖。先分別進行一個全局平均池化和最大池化，得到兩個1×1×C通道描述。

3 實驗研究與結果分析

3.1 數據集和訓練策略

本文網絡的有效性和泛化性用Pascal Voc2012和Cityscapes數據集進行驗證。Voc2012分割數據集包含21個類別，1 464張訓練圖片、1 449張驗證圖片和1 456張測試圖片。我們通過對圖像進行亮度增強、對比度增強、水平翻轉和隨機方向翻轉擴展數據集得到增強版Pascal Voc2012數據集，共10 582張訓練圖像。Cityscapes是城市街景相關的語義數據集，包含50個城市和21個類別的5 000張圖像，其中有2 975張訓練集、500張驗證集和1 525張測試集。這兩個數據集都是圖像語義分割任務中的重要數據庫。

在對本文提出的算法進行網絡訓練和預測時，采用Pytorch框架，在Ubuntu16.04系統和Nvidia GeForce GTX1080Ti設備的實驗條件下。網絡輸入圖像的尺寸分別是512 pixel×512 pixel和768 pixel×768 pixel，批量大小設置分別為8和4，初始學習率設置為0.000 1，動量是0.9。

3.2 評價指標

針對本文提出的算法模型，使用語義分割中的標準度量MIoU（平均交并比）作為評價標準來驗證網絡的有效性，它反映了模型對每一類預測的結果和真實值的交集與并集的比值求和再平均的結果，IoU值越高，測量值與真實值的重疊越大，網絡預測越準確，如式（4）所示：

其中，物體標簽類別數量用k表示，k+1為加上背景以后的總標簽類別，pij是指預測結果中將i預測為j的概率。在本文網絡與其他不同網絡性能對比的實驗中，還使用了類別平均像素準確率（MPA）。

3.3 特征提取網絡選取實驗

為了探索不同特征提取網絡對CFANet的影響并找到最佳特征提取網絡，連續使用Mobilenetv2、Xception、ResNet34、ResNet50和 ResNet101等不同的骨干網絡做了對比實驗。獲得的結果如表1所示。

從表1可以看出，Mobilenetv2達到了參數數量的最優值，但精確度最低，MIoU比最優值低7.21%。Xception的預測時間較長，參數量大，MIoU值也不優。ResNet34達到了預測時間的最優值，但其MIoU低于ResNet50，兩者之間的差距較大。ResNet50的MIoU達到最優值80.34%，參數量雖大于Mobilenetv2，但各項對比綜合來說最佳。ResNet101的參數數量和預測時間都比較大，其MIoU也低于ResNet50。因此，從綜合的角度來看，使用ResNet50進行特征提取可以提供最佳的總體結果。

表1 不同基礎網絡的性能Tab.1 Performance of different base networks

3.4 消融實驗

為了驗證各模塊對網絡CFANet的影響及性能效果，在Voc2012增強版數據集上設計該實驗。采用ResNet50作為主干模型，分別將本文提出的CFAM、M-ASPP和FCA模塊添加到網絡中進行實驗并記錄MIoU值，結果如表2所示。

表2 模塊消融實驗Tab.2 Module ablation experiment

從表2可以看出，MASPP模塊比ASPP模塊表現更好，MIoU結果比ASPP模塊高了0.54%。類特征注意力模塊的MIoU值高達78.83%，比不加該模塊增加了1.24%，表明原網絡中被忽略的類別特征信息得到了利用，有助于獲得對對象類別信息更敏感的細粒度特征表示，增強網絡的判別能力。總的實驗結果表明，本文綜合注意力機制提出的融合多尺度特征的模塊能提升網絡表征能力，對不同特征的語義信息進行更好的提取融合。

3.5 對比實驗

為了驗證本文設計算法的有效性，設計了兩個對比實驗，其一將本文算法與復現的經典網絡對比；其二將本文算法與近年相關研究對比。表3記錄了復現網絡和本文網絡改進前后的MPA值、MIoU值、預測時間值等網絡性能的比較。由于SegNet忽略了圖像的上下文信息，分類精度不理想。DenseASPP比其他方法具有更輕的網絡結構，MIoU值比最優值低4.7%。雖然Deeplabv3+結合了多尺度信息，但預測時間最高且MIoU 值不是最優。ACFNet［25］結合了類注意模塊，MIoU值達到了78.98%。本文所提出的CFANet取得了81.34%的最優MIoU值，比原來的Deeplabv3+提高了4.75%，MPA值也提高了2.95%，其參數數量和預測效率與其他方法相比處于中等水平。盡管它比其他模型稍大且效率較低，但分割結果更優。

表3 經典網絡性能對比Tab.3 Classic network performance comparison

表4顯示了近兩年相關研究和本文算法的比較，可以看出，不管是在復現的經典網絡還是近年研究中，本文算法在準確性方面達到了更優值。在實際應用中，不僅要考慮模型大小，還要考慮模型效率。因此CFANet在整體性能方面可以被認為是最好的。

表4 不同網絡性能對比Tab.4 Performance of different networks

圖7顯示了本文提出算法模型的可視化劃分結果。可以看出，CFANet在整體圖像、邊緣和細節上均優于原模型算法。本文網絡利用不同注意力之間的特性探索不同像素之間的位置對應關系，空間細節特征增強和類別上下文信息的聯合研究提高了平均交并比和平均像素精度，有效增強了圖像邊緣相同的目標特征，從而準確分割邊緣目標。

圖7 Voc2012數據集上每個模型的可視化結果Fig.7 Visualization results of each model on the Voc2012 dataset

3.6 泛化實驗

為了進一步證明該算法的泛化性，在Cityscapes數據集上測試了改進前后網絡對圖像的分割效果，記錄的MIoU值如表5所示。

從表5可以看出，絕大部分物體都得到了更好的分割精度，總的平均交并比相比于原模型提高了2.14%，進一步表明了該算法的普適和有用。從圖7的可視化圖片中可以更直觀地發現，圖中所有目標物均有了更精細的分割結果，并減少了意外的錯誤分類。如圖8的第三行中黃色虛線圓圈內的物體被原模型錯誤分類為汽車，在本文模型中被正確分類。相較于原始網絡，本文算法對圖片的邊緣和類別有了更準確的分割效果。

圖8 在Cityscapes數據集上可視化結果Fig.8 Visualize the results on the Cityscapes dataset

表5 在Cityscapes數據集上的性能檢測Tab.5 Performance testing on the Cityscapes dataset

以上實驗表明，本文提出的實現類別語義信息補充的CFAM和多并行的ASPP模塊以及保留重要特征FCA模塊的效用均得到了驗證，各個模塊之間的聯合學習可以更高效地使用目標區域中的信息并從中聚合特征，在一定程度上解決因局部特征提取不連貫所造成的大規模目標類內不一致和目標分割不完整、不清晰等問題。整個網絡的特征細化過程最終將引導網絡合理使用給定的特征，可以看出，我們的模型在整體、邊緣和細節方面都優于原始模型。

4 結論

為了使DeepLabv3+模型中圖像邊緣像素得到更清晰的呈現以及注意力信息得到高效利用，本文提出的基于類特征注意力機制融合的語義分割算法CFANet，通過增強特征的多樣性和關鍵信息的捕捉來細化目標邊緣像素和類別的高精度分割。在兩個常用的數據集Pascal Voc2012和Cityscapes上對改進模型的有效性和泛化性進行了測試，平均交并比分別達到了81.34%和76.27%。實驗數據和可視化結果均表明，本文設計的CFANet可以提供更多的語義信息來細化分割結果。雖然本文所提出的方法可以使圖像達到很好的分割效果，但仍有改進的空間，本文沒有考慮小對象分割的相關網絡設計，因此，今后的工作將致力于對小目標分割進行相關研究。