基于雙分支特征提取的輕量級圖像分割算法

2023-06-15 07:01:18孫紅楊晨莫光萍朱江明

包裝工程 2023年11期

孫紅，楊晨，莫光萍，朱江明

（上海理工大學光電信息與計算機工程學院，上海 200093）

語義分割是計算機視覺中的一個重要研究領域，它通過對圖像執行像素級標簽預測實現分割目標。近年來，語義分割在彩色圖像分割等領域都受到廣泛關注[1-3]，這些應用領域對能夠實時運行的場景理解系統要求很高，不僅需要具有低能耗和低內存的競爭性能，而且對模型的實時性有嚴格的要求。因此設計一個用于實時語義分割的高效神經網絡成為一個具有挑戰性的問題。

近年來許多實時語義分割領域的優秀研究工作試圖在準確性、輕量級和高速率之間達到平衡。Paszke 等[4]提出了一種高效的實時語義分割網絡ENet，通過通道裁剪實現了一個緊湊的編碼器解碼器框架，但是該模型的感受野太小，無法捕捉到大物體的特征信息，導致分割精度的損失。為了提取多尺度的上下文信息，Mehta 等[5]提出了高效空間金字塔網絡ESPNet，采用高效空間金字塔模塊和卷積分解策略。圖像級聯網絡ICNet[6]使用3 個級聯分支來高效處理圖像，以推理速度的降低為代價提升分割精度。ERFNet[7]通過編碼器階段的輕量化來提取特征信息，雖然提升了分割精度，但推理速度大幅下降。此外，許多研究工作在網絡結構方面作出了很多努力。Ronneberger 等[8]使用了對稱的編碼器–解碼器結構，其策略是合并相應階段的特征圖，然而這種網絡會帶來巨大的額外計算成本。文獻[9-11]采用雙分支結構，在編碼器階段分別進行語義信息和空間信息的提取，最后在預測前使用特征融合的方法整合特征，但是這種方式仍然缺乏2 個分支之間的交互，所以還有很大的改進空間。

針對上述出現的問題，本文提出一個基于雙分支特征提取的實時語義分割網絡（TBFENet）。本文主要的工作和創新點如下：

1）雙分支由語義信息分支（SIB）和空間細節信息分支（SDI）組成，語義信息分支具有對稱的編碼器–解碼器結構，可以有效地提取深層語義信息；空間細節信息分支能很好地保留沒有下采樣操作的淺層邊界細節。

2）在語義信息分支設計一個非對稱殘差模塊（ARM），自適應地融合注意力特征，提升模型分割的準確性；在空間細節分支提出一種空間特征提取模塊（SFM），以更好地獲得淺層空間特征，補償語義信息分支中丟失的空間信息細節，同時在雙分支使用深度可分離卷積實現輕量化。

3）為了提高融合特征的表示能力，使用特征融合模塊（FFM）來有效地融合來自語義和空間級別上的圖像特征，增強網絡對全局和局部特征信息的提取能力，提高網絡整體分割效果。

1 網絡模塊設計

1.1 總體設計

整個網絡結構可以分為3 個部分：初始塊、雙分支主干和特征融合模塊。完整的網絡結構如圖1 所示。

圖1 整體網絡框架Fig.1 Overall network framework

初始塊包括3 個3×3 卷積層，將第1 個卷積層的步幅設置為2 來收集初始特征。為了更好地保留空間特征信息，只在初始塊中執行一次下采樣操作。本文通過將初始塊作為2 個分支的分界點，使語義和空間信息部分相關，便于后續的特征融合。雙分支主干由語義信息分支（SIB）和空間細節信息分支（SDI）組成。為了減少模型的參數，在語義信息分支的深度可分離卷積層中采用空洞卷積來擴大感受野提取特征信息，同時在空間細節信息分支使用特征提取模塊（SFM），以較小的計算成本最大程度地保留空間細節。此外，在語義信息分支的不同階段使用通道注意力來增強通道之間的長距離依賴關系。為了彌補SIB中丟失的空間細節信息，使用空間注意力模塊生成注意力圖來關注有用的空間信息，而忽略空間細節分支中的噪聲等無用信息。最后在2 個分支的末尾使用特征融合模塊（FFM）來增強語義和空間雙分支的特征融合。

1.2 非對稱殘差模塊

輕量級網絡見證了許多殘差模塊設計，其中圖2a 為基礎的殘差設計。此外，如圖2b 所示，LEDNet[12]的SS–nbt（Split-shuffle-non-bottleneck）中所展現的通道分割和通道混洗操作。盡管LEDNet 在性能和速度之間取得了相對令人滿意的平衡，但仍有一定的提升空間。受這些殘差設計的啟發，本文設計了高效的非對稱殘差（ARM）模塊，利用非對稱殘差模塊的共同優點，在計算能力有限的情況下獲得更好的結果。非對稱殘差模塊如圖2c 所示。首先在瓶頸處通過1×1 卷積減少輸入通道數。1×1 卷積后是雙分支結構。一個分支使用分解卷積收集局部特征信息，另一個分支采用空洞卷積進一步擴大深度分離卷積的感受野，以捕獲復雜和遠程的特征信息。此外通過在不同的不對稱殘差模塊中使用不同的膨脹率來降低網格化偽影的影響。

圖2 殘差模塊對比Fig.2 Comparison of various residual modules

為了實現不同分支之間的信息共享，將特征交互操作放在只含分解卷積（3×1 和1×3 卷積）分支和添加膨脹卷積分支之間，這樣2 個分支提取的上下文信息可以相互補充。然后將來自2 個分支的特征圖分別發送到通道注意力模塊，以更好地提取判別特征。再將通道注意力模塊的輸出注入2 個分支中進一步提升模塊的特征提取能力。之后將2 個分支提取的特征信息經過一個1×1 的逐點卷積，恢復相關通道的特征圖后融合并饋送到通道注意力模塊中。最后使用通道混洗對雙通道特征信息進行進一步交換和共享，減少深度卷積導致的通道間信息獨立的影響。上述操作可以表示如下：

式中：xARMin和yARMout為ARM 模塊的輸入和輸出；xo為3×3 卷積的輸出；yo1和yo2為ARM 模塊中第1 輪特征交互2 個分支的輸出；y'o1和y'o2為ARM模塊中第2 輪特征交互2 個分支的輸出；Cm×n為核大小為m×n的卷積運算；D為可分離卷積；R為膨脹卷積；CS( )為通道混洗操作。

1.3 語義信息分支

本文使用非對稱殘差模塊構建了一個深度語義信息分支，這樣既保證了能捕獲到更多的語義信息，得到更大的感受野，同時又保證了參數的數量和計算成本非常低。非對稱殘差模塊在不同階段具有不同的表示能力：在網絡淺層保留了豐富的空間信息，例如邊緣和角落；而在網絡深層階段具有足夠的語義一致性，但預測比較粗略。因此，在分支的不同階段，在不對稱殘差模塊中設置不同的空洞卷積率。將第1 個到第5 個ARM 塊中非對稱殘差模塊數量分別設置為{1,2,3,4,5}。每個模塊的擴張率分別依次設置為r={1}、r={1,2}、r={1,2,5}、r={2,5,7,9}、r={2,5,7,9,17}。

本文在非對稱殘差模塊和語義信息分支中都使用通道注意力模塊（CAM）來強調需要突出顯示的特征。同時該方法可以抑制干擾噪聲，有利于特征提取。本文采用的通道注意力來源于ECANet[13]，它只占用很少的計算資源，但相比之下明顯提升了分割效果。CAM 使用全局平均池化來獲取全局上下文，并生成注意力圖來指導特征提取，計算成本可以忽略不計，這是提高模型性能的好方法。該過程可以表示為式（7）。

式中：T表示張量維度的壓縮、轉置和擴展操作；fK×K表示卷積核大小為K的標準卷積；CA(F)是通道注意力輸出；F表示輸入特征；AvgP( )表示平均池化操作；δ表示Sigmoid 激活函數。

受ERFNet 中下采樣模塊的啟發，本文使用的下采樣模塊有2 個替代輸出，一個是步長為2 的3×3卷積，另一個是步長為2 的2×2 最大池化。如果輸入通道的數量大于或等于輸出通道的數量，下采樣模塊使用單個3×3 卷積。否則利用最大池化操作將這2 個分支的連接形成最終的下采樣輸出。具體過程如圖3 所示。

圖3 下采樣模塊Fig.3 Downsampling module

1.4 空間細節分支

在語義信息分支的處理過程中，空間信息不可避免地會丟失。原因是深層語義信息的提取與淺層邊界信息的保留是一對矛盾的關系。為了解決這個問題，本文設計了空間細節分支，它實際上是對語義丟失的細節信息的補充信息分支，以幫助模型在預測過程中實現更好的準確性。與深度語義信息分支不同，在這個分支中只使用了一個簡單有效的空間特征提取模塊（SFM）和一個空間注意力模塊。SFM是專門為補充語義分支中丟失的細節而設計的，如圖4 所示。它由3 個3×3 的卷積層和一個1×1 的逐點卷積層組成。為了獲取更多的特征信息，將第 2和第 3 卷積層的通道數增加到原始輸入的 4 倍（4C）。最后使用一個1×1 的卷積層再將通道數減少到C，該操作可以去除冗余特征并提取有效特征。為了減少參數數量和計算成本，將后面的2 個3×3卷積層替換為深度可分離卷積，因此空間特征提取模塊可以以較少的參數和計算成本提取豐富的淺層空間特征。

圖4 空間特征提取模塊Fig.4 Spatial feature extraction module

空間注意力模塊用于提取和保存整個模型的淺層空間特征信息。空間特征提取模塊輸出的特征圖作為輸入，通過最大池化和平均池化進行池化處理，然后將池化后的結果進行融合后經過一個卷積層將雙通道的特征信息降維為一維特征信息，經過激活函數生成空間注意力特征圖。空間注意力的過程如式（8）所示。

式中：f7×7為卷積核大小為7 的標準卷積；SA(F)為空間注意力特征圖；F為輸入特征；Concat[]為連接操作；AvgP( )為平均池化操作；MaxP( )為平均池化操作；δ為Sigmoid 激活函數。

1.5 特征融合模塊

如何有效地整合語義分支和空間分支的信息是雙分支結構的關鍵問題。最廣泛使用的方法是直接按元素添加或者直接連接它們。但是這些方法忽略了2個分支提供的功能之間的差異。為了解決這個問題，本文使用了由注意力機制驅動的方法[14]構建特征融合模塊。該方法不僅可以捕獲跨通道信息，還可以獲取方向和位置感知信息，最重要的是它的計算成本較小，這意味著更少的參數可以換取更多的收益。

特征融合模塊通過2 個過程實現對通道關系和遠程依賴進行編碼：坐標信息嵌入和坐標注意生成。特征融合模塊（FFM）的結構如圖5 所示。給定一個輸入X∈RC×H×W，使用池化內核的2 個空間維度(1,W)和(H,1)分別沿水平坐標和垂直坐標對每個通道進行編碼。高度h處的第c個通道的輸出可以表示為式（9）；長度為w的第c個通道的輸出見式（10）。

圖5 特征融合模塊Fig.5 Feature fusion module

上述2 個變換分別沿2 個空間方向聚合特征，產生一對方向感知特征圖。這2 個轉換使用注意力模塊一個沿空間方向捕獲遠程依賴關系，另一個沿空間方向保留精確的位置信息。由給定式（9）和式（10）的步驟生成聚合特征圖，首先將它們連接起來，然后將它們發送到一個共享的1×1 卷積變換函數f1×1，具體過程如式（11）所示。

F=δ(f1×1(Concat[zh,zw])) (11)

式中：Concat[,]為沿空間維度的連接操作；δ為非線性激活函數；F∈RC/r×(H+W)為在水平方向和垂直方向2 個方向上編碼空間信息獲得的中間特征圖；r為用于控制塊大小的縮小率。將F沿空間維度拆分為2 個單獨的張量fh∈RC/r×H和fw∈RC/r×W。使用2 個1×1 卷積變換分別將fh和fw分別變換為與輸入X具有相同通道數的張量，具體過程見式（12）—（13）。

為了降低模型的復雜性，將縮小率r設置為32來減少F的通道數。然后將gh和gw分別用作注意力權重，通過該方法可以將2 個分支的特征充分融合，同時在通道和空間方向下自適應突出特征信息。最終得到坐標注意塊的輸出，見式（14）。

1.6 網絡詳細結構參數

整個網絡結構主要可分為3 個部分：初始塊、雙分支主干和特征融合模塊。完整的網絡結構見圖1，詳細的網絡結構組成見圖6。語義信息分支SIB 為編碼器–解碼器結構，而在空間細節分支SDI 中空間特征提取模塊SFM 完成了“編碼–解碼”的過程。在圖6 中體現為空間細節分支的整個過程對應語義信息分支的編碼器過程，最終2 個分支輸出相同尺寸的特征圖。

圖6 雙分支特征提取網絡細節Fig.6 Details of two-branch feature extraction network

2 實驗

本文提出的模型將會在公開數據集Camvid 和Cityscapes 上進行分割效果和推理速度的實驗，采用的評價指標分別為類交并比（class IoU）、均交互比（mIoU）、幀率（FPS）、參數量（parameters）。mIoU的計算公式如式（15）所示。

式中：pij表示將i預測為j，為假負（FN）；pji表示將j預測為i，為假正（FP）；pii表示將i預測為i，為真正（TP）。

2.1 實驗環境

本文使用PyTorch 深度學習框架實現訓練，所有的實驗都是在單塊RTX2080Ti GPU 上執行的。對CamVid 數據集進行訓練時，由于輸入分辨率不同，采用Adam優化器訓練神經網絡，batch_size 設置為8，權重衰減設置為2×10?4，此外將初始學習率設置為1×10?3。對于Cityscapes 數據集，通過隨機梯度下降的方法來訓練本文提出的算法。batch_size 設置為4，權重衰減設置為1×10?4，初始學習率配置為4.5×10?2，超參數momentum 設置為0.9。為了保證實驗結果具有可對比性，本文所有實驗均使用CrossEntropy 損失函數，采用poly 學習策略來動態調整學習率。

2.2 數據集

Camvid 是一個從駕駛汽車角度拍攝的街景數據集，它總共包括701 張圖片，其中367 張圖片用于訓練，101 張用于驗證，233 張用于測試。這些圖像的分辨率為960×720，共有11 個語義類別，在訓練前將這些圖片尺寸調整為360×480 的大小。

Cityscapes 是一個城市景觀數據集。它包含5 000張精細標注和20 000 張粗標注圖像。該數據集是從50個不同城市在不同季節和天氣中捕獲的。對于精細標注集，它包含2 975 張訓練圖像、500 張驗證圖像和1 525 張測試圖像。原始圖像的分辨率為1 024×2 048。整個數據集包含19 個類別，在訓練前將這些圖片尺寸調整為512×1 024 的大小。

2.3 消融實驗

為了驗證本文提出的網絡的可行性和有效性，對各個模塊的結構細節和分割效果在Camvid 數據集上進行對比實驗。在未加入其他模塊的情況下，保證網絡其余結構參數不變進行消融實驗，最終結果如表1 所示。

表1 消融對比實驗Tab.1 Ablation contrast experiment

2.3.1 通道注意力

從表1 實驗的前2 行可以看出，如果不使用通道注意力模塊，網絡的預測結果會更差。CAM 可以提升網絡0.68%的分割精度，而計算成本幾乎沒有增加。實驗證明了通道注意力模塊的添加增強了網絡的特征提取能力。

2.3.2 特征融合

特征融合方法一直是多語義特征聚合的重點研究課題，其中“添加”和“連接”操作是使用最廣泛的方法。在表1 中提供“Add”“Concat”和FFM 的比較。根據表格第6 行可知，FFM 達到了70.13%的局部最佳性能，分別比“添加”和“連接”操作高出 1.01%和0.57%。與“Add”操作相比，特征整合模塊只增加了極少的參數（0.001 8 M）。此外，與“Concat”直接連接操作相比，FFM 以更少的參數實現了更好的分割結果，在不增加模型復雜度的情況下有效提升模型的性能。

2.3.3 空間注意力

空間注意力機制（SA）的添加使得網絡的分割準確率提升了0.45%，達到了70.58%的最佳性能，而增加的參數量幾乎可以忽略不計。說明淺層空間的特征信息提取對網絡性能的提升有很大的作用。

2.3.4 擴張率

如表1 實驗第4 部分所示，本文設計了3 個實驗來驗證非對稱殘差模塊中空洞卷積率的設置對模型分割精度的影響。首先將第1 個到第5 個ARM 塊中將非對稱殘差模塊數量分別設置為{1,1,2,2,4}，每個模塊的擴張率分別依次設置為r={1,1,2,1,2,2,5,7,9,17}；第2 和第3 個實驗將非對稱殘差模塊的重復次數都分別設置為{1,2,3,4,5}，其中將第2 個實驗的擴張率依次設置為r={1,1,2,2,5,1,1,2,2,4,4,8,8,16,16},第 3 個實驗的擴張率設置為r={1,1,2,2,5,1,2,5,7,9,2,5,7,9,17}。得益于模型框架的優異性，TBFENet 在第1 個實驗中僅用0.52 M 參數就取得了65.75%的分割準確性。增加非對稱殘差模塊后實驗結果顯著提升，證明更多的ARM 模塊可以提升性能，而空洞卷積的使用進一步增強了網絡的特征提取能力。在第3 個實驗中實現了70.58%的最優分割結果。

2.4 Camvid 數據集測試實驗

為了進一步驗證本文網絡的分割性能，在CamVid 測試數據集上提供了與其他優秀分割方法的定量比較，實驗結果如表2 所示。根據表2 可以明顯看出，與類似模型大小的方法相比，本文分割網絡達到了最佳的分割效果，均交互比達到了70.5%。雖然在參數量表現上不如DABNet[15]，但在分割精度上高出DABNet 4.0%。相比于LEDNet，本文模型得益于空間細節信息的保留分割更加精確。與其他大型模型相比，本文網絡以更少的參數取得了最優的分割結果。在推理速度方面，本文模型推理速度達到了107 幀/s。本文模型在實現輕量化的同時分割準確性表現依舊出色。充分證明本文網絡在準確性和效率之間取得了很好的平衡。為了更清晰地體現本文模型在Camvid數據集上分割的效果，將本文模型得到的語義分割掩碼，并與其他優秀網絡模型進行對比，對比效果如圖7所示。通過圖7 中本文網絡分割圖圈出的部分可以明顯看出，本文模型在邊界細節特征信息的提取明顯優于DABNet 和BiseNet v2 模型在邊界細節特征信息的提取，充分證明空間特征提取模塊的有效性。

表2 Camvid 數據集測試結果對比Tab.2 Comparison of Camvid dataset test results

2.5 Cityscapes 數據集測試實驗

表3 中提供了在Cityscapes測試數據集上與其他最先進的圖像語義分割方法的定量比較。根據這些實驗結果可以發現，當使用更少的參數時，本文網絡可以實現更好的準確性和更快的運行速度。與本文方法具有相似數量參數的模型達不到相同的實時效果，即使實時效果更優，在分割精度上也大幅落后于本文算法。具有相同分割和實時效果的模型往往需要更多的參數運算。從參數量的角度看，ENet、ESPNet、CGNet[21]、NDNet[22]的參數量較少，但它們的分割精度分別比本文網絡的低16.8%、14.9%、10.8%和10%，這在分割領域是一個很大的差距。本文算法的參數數量最多只比上述網絡的多0.55 M，相對于分割精度的提升，參數量的增加是在可接受范圍之內的。從實時性的角度來看，本文算法推理速度達到了97 幀/s，滿足實時處理街景畫面的條件。就均交互比來說，本文模型取得了75.1%的最好分割效果，本文模型不僅在分割準確性上大幅領先其他優秀網絡，在網絡輕量化層面，參數數量也僅有0.91 M，與分割效果較好的BiseNet v2相比，參數量僅約為BiseNet v2 的1/50。本文模型參數較少但推理速度較慢的原因是在網絡中使用了注意力機制，而這些注意力機制會帶來一些計算開銷，導致推理速度變慢，但這些性能損失是在可以接受的范圍之內的。

表3 Cityscapess 數據集測試結果對比Tab.3 Comparison of Cityscapess dataset test results

此外在表4 中提供了城市景觀的所有類IoU(%)的結果。本文算法在13 個類別中的分割精度領先于其他優秀網絡在13 個類別中的分割精度，而在交通標志類（Tsi）和自行車（Bic）類分割準確性只比最佳模型略低了0.2%。通過實驗證明了本文算法在模型的準確性、模型大小和推理速度之間實現了最佳平衡。

表4 Cityscapes 類別分割精度對比實驗Tab.4 Comparative experiment on segmentation accuracy of Cityscapes

3 結語

本文提出了一個用于彩色圖像分割的雙分支特征提取網絡。本文算法主要側重于在分割精度、模型參數和推理速度之間取得較好的平衡。實驗證明，本文提出的非對稱殘差模塊通過深度可分離卷積和空洞卷積在減少參數計算的情況下擴大感受野，全面地提取語義信息。語義信息分支和空間細節分支可以分別提取深層語義信息并保留各邊界細節。本文模型在只有0.91 M 參數的情況下，在Cityscapes 數據集上以97 幀/s 速度實現75.1%的最佳分割準確性，在Camvid 數據集上以107 幀/s 的速度取得了70.5%的最優分割效果。通過大量實驗證明本文模型在準確性和效率之間取得了較好的平衡。