姚慶安, 張 鑫, 劉力鳴, 馮云叢, 金鎮君
(長春工業大學 計算機科學與工程學院, 長春 130012)
圖像語義分割的目標是將場景圖像分割為若干有意義的圖像區域, 并對不同圖像區域分配指定標簽. 因此, 如何提高語義分割精度是圖像語義分割的關鍵. 全卷積神經網絡(fully convolutional networks for semantic segmentation, FCN)[1]由于其強大的特征學習及表達能力目前已成為圖像語義分割問題的首選方法. 圖像語義分割方法大部分基于FCN, 其中很多網絡結構都有效提升了語義分割的性能, 但圖像語義分割的發展仍存在如下問題: 1) 網絡不斷加深, 連續下采樣導致像素值大幅度丟失, 嚴重削減了上下文語義信息, 并在上采樣過程中難以恢復; 2) 圖像多目標分割任務中感受野不同以及高、 低階網絡間的信息差異性, 導致圖像有效信息嚴重丟失.
針對上述問題, 本文提出一種融合注意力機制和多尺度特征的圖像語義分割方法, 以ResNet-101[2]為主干網絡, 采用編碼器-解碼器結構提高精度. 該模型主要包括3個模塊: 改進的帶孔空間金字塔池化模塊(reshape atrous spatial pyramid pooling, RASPP), 采用更密集的空洞率融合多尺度特征, 提取圖像語境信息; 注意力細化模塊(attention refinement model, ARM), 監督特征信息的學習, 增加上下文語義的關聯性; 基于注意力的特征融合模塊(attention-based feature fusion model, A-FFM), 采用通道監督有針對性地指導高、 低階有用信息的融合, 提升網絡泛化能力. 本文采用改進的帶孔空間金字塔池化模塊, 可捕獲多尺度特征的語義信息, 提升多尺度目標下有意義特征信息的分割精度; 通過引入注意力機制模塊, 用注意力細化融合模塊, 監督上下文信息引導語義特征的學習, 并設計基于注意力的融合模塊, 通過對重要通道的監督學習引導高、 低階特征融合, 提高了模型的泛化能力; 實驗過程中使用1×1卷積減少了參數計算量, 并在數據集Cityscapes上取得了72.62%的實驗結果, 證實了模型的魯棒性.
全卷積網絡FCN[1]推動了語義分割研究的發展. 編碼器-解碼器結構也被整合完善用于計算機視覺領域, 如Ronneberger等[3]提出了U-Net, 通過跳躍連接將編碼器-解碼器中的特征圖進行拼接, 有效融合了對應層級間的特征信息; Badrinarayanan等[4]提出了SegNet, 在編碼階段保留最大池化值和最大索引, 在解碼階段利用最大索引位置信息上采樣得到稠密特征圖. 目前, 編碼器-解碼器作為一種通用的框架模型已廣泛應用于各領域. 本文采用編碼器-解碼器結構實現網絡設計.
受人類注意力機制的啟發, 希望網絡能自動學習到圖片中需要關注的目標信息, 抑制其他無用信息. Hu等[5]提出了SENet, 采用通道注意力對各通道進行學習, 并將所學結果用于指導特征圖, 進行調整; Woo等[6]提出了CBAM, 通過構建空間、 通道兩個注意力子模塊, 綜合信息獲得更全面可靠的的注意力信息. 目前, 自然語言處理領域中的Transformer[7-9]在計算機視覺領域也得到廣泛關注. 注意力機制在圖像語義分割中應用廣泛, 本文采用注意力機制模塊監督上下文語義信息, 引導特征學習.
特征融合可補充像素值的缺失, 常被用于圖像語義分割中. Zhao等[10]提出了PSPNet, 通過級聯不同步長的全局池化操作(即金字塔池化模塊)融合多尺度特征, 實現了高質量的像素級場景解析; Chen等[11-14]提出了通過DeepLab系列優化帶孔金字塔池化(atrous spatial pyramid pooling, ASPP)模塊用于融合尺度目標的處理, 有效改善了多尺度分割目標的任務; Lin等[15]提出了表示圖像特征的金字塔網絡, 以融合上下文語義信息, 組合成新的特征, 解決了目標物體性能不佳的問題. 為提高多尺度物體分割的性能, 本文通過改進RASPP融合多尺度信息提取語義信息, 并設計A-FMM模塊監督高、 低階特征融合, 以提高模型的泛化能力.
本文提出的模型旨在解決圖像語義分割中多尺度類別下目標分割率低、 圖像上下文特征信息關聯性差的問題. 網絡的整體結構如圖1所示. 網絡的主體為編碼器-解碼器結構, 以ResNet-101拓撲結構為基準. 編碼階段下采樣到原圖的1/16, 先將下采樣結果輸入到RASPP模塊, 提高多尺度目標類別信息的利用率, 然后通過1×1卷積優化特征圖信息. 解碼階段包含兩部分: 1) 用ARM模塊捕獲解碼器淺層網絡的上下文信息; 2) 先將編碼結果特征圖上采樣到同層特征圖的大小, 再將同層特征圖通過A-FFM進行特征融合, 削減高、 低階特征語義間直接跨層融合導致信息丟失的問題. 最后輸出得到分割結果圖.

圖1 網絡整體架構
RASPP模塊在保留全局平均池化和1×1卷積不變的情況下, 可降低維度、 減少參數量, 并采用稠密空洞率實現多目標分割, 如圖1中RASPP模塊所示. 將RASPP模塊的輸入用


(1)
其中: 空洞卷積在不增加參數量的情況下增大了感受野, 在保證圖像分辨率的同時可有效捕獲更大范圍的類別信息[16]; 采用更稠密的空洞率可捕獲更多多尺度目標物體的細節信息.
由于網絡深度不同, 其特征圖各通道承載的特征信息也不相同, 將網絡深、 淺層特征圖直接求和或拼接會導致大量特征信息的丟失, 影響分割精度.因為前者包含大量的抽象語義信息, 后者更多的是位置細節信息.因此, 本文提出添加ARM模塊和A-FFM模塊, 分別如圖2和圖3所示. 前者用于細化特征圖的上下文關聯信息, 后者根據各通道承載信息對預測目標貢獻的大小, 有針對性的強化重要特征并進行突出學習, 以進一步提高模型的學習、 泛化能力.

圖2 注意力細化模塊

圖3 注意力機制下的特征融合
ARM模塊用公式可表示為

(2)
設編碼器中淺層位置信息為Xi∈c×h×w(c表示通道數,h和w分別表示特征映射的高度和寬度), 將其輸入到ARM模塊中,Xi依次經過全局池化、 1×1卷積、 批標準化和Sigmoid激活函數, 得到輸出結果再將與輸入特征Xi相乘, 輸出結果


(3)
其中G表示全局池化,C表示1×1卷積,B表示批標準化(batch normal),S表示Sigmoid激活函數.
A-FFM模塊用公式可表示為

(4)

(5)

(6)
其中R表示Relu激活函數.
3.1.1 數據集
數據集Cityscapes[17]提供了50個不同城市街景記錄的立體視頻序列, 包含20 000張弱注釋圖片和5 000張高質量的弱注釋圖片. 圖片像素為1 024×2 048, 涵蓋各時間及天氣變化情形下的街景, 共19個語義類別用于訓練和評估.
數據集CamVid[18]由車載攝像頭拍攝得到的5個視頻序列組成, 提供了不同時段701張分辨率為960×720的圖片和32個類別的像素級標簽, 包括汽車、 行人、 道路等. 數據集中道路、 天空、 建筑物等尺度大, 汽車、 自行車、 行人等尺度小, 待分割物體豐富.
3.1.2 評價指標
采用平均交并比(mean pixel accuracy, MIoU)[19]作為語義分割質量的評價標準. MIoU是分割結果真值的交集與其并集的比值, 按類計算后取平均值, 用公式可表示為

(7)
其中pii表示正確分類的像素個數,pij表示本應屬于第i類卻被分為第j類的像素個數,n為類別數.
3.1.3 實驗參數設置
實驗基于Pytorch網絡框架使用Python3.7編寫實現. 計算機系統為CentOs7.9, 圖形處理器為NVIDIA TITAN XP(4塊), 加速庫為Cuda10.2. 在數據集Cityscapes和CamVid上對模型進行微調, 以加快模型收斂速度, 同時采用隨機梯度下降法對模型進行訓練, 設基礎學習率為1×10-4, 動量為0.9, 將輸入圖片進行裁剪.
3.2.1 模型性能對比
為衡量模型的有效性, 本文在Cityscapes驗證集上進行實驗, 并與DeepLab v3+,SegNet,FCN-8s模型進行對比. 實驗結果列于表1. 由表1可見, 本文模型比其他模型的結果更優, 在相同主干網絡下, 比DeepLab v3+的預測結果高1.14%, 比FCN-8s的預測結果高7.42%.

表1 在Cityscapes驗證集上不同模型的性能實驗結果
為更直觀展示本文模型的優越性, 將DeepLab v3+和本文模型進行可視化展示, 結果如圖4所示. 由圖4中第一、 第二列的圖片可見: DeepLab v3+模型處理近處目標分割邊界粗糙, 對遠處目標細節丟失嚴重, 而本文模型很好地彌補了上述不足, 準確地捕獲了細節信息, 解決了分割模糊和漏分割問題; 對比圖4中第三列可見, 本文模型能正確分割遠處建筑物的細節信息; 對比圖4中第四列可見, 本文模型成功避免了誤分割和模糊分割的問題. 實驗結果表明, 本文模型能更好地保留圖像細節信息, 使預測結果更準確和全面. 用本文模型對測試集的分割結果進行可視化展示如圖5所示.

圖4 Cityscapes驗證集上圖片分割示例

圖5 Cityscapes測試集上圖片分割示例
3.2.2 消融實驗
RASPP是在ASPP基礎上使空洞率稠密化, 本文采用控制變量法進行實驗, 實驗結果列于表2, 測試集Cityscapes上ASPP模塊性能對比如圖6所示. 由表2可見, 通過將DeepLab v3+原有空洞率(1,6,12,18)稠密化為(1,3,6,9,12,24), 本文提出密集型感受野相對于DeepLab v3+原有的感受野提高了0.59%. 由圖6可見, RASPP在兼顧多類別信息的同時有效捕獲了多尺度細節信息, 也為后續高、 低階特征圖的融合提供了較高分辨率的語義特征圖.

表2 ASPP模塊改進前后性能對比

圖6 Cityscapes測試集上ASPP模塊性能對比
為驗證本文提出的RASPP,ARM和A-FFM的有效性, 使用數據集Cityscapes進行逐層消融實驗, 對比指標為MIoU, 消融實驗結果列于表3, 消融過程中各模塊可視化結果如圖7所示.

表3 在數據集Cityscapes上不同改進方案的性能分析

圖7 Cityscapes測試集上消融實驗結果
由表3可見, RASPP模塊將網絡的MIoU從63.49%提升到69.25%, 有效提高了多目標物體的分割精度, 而注意力機制模塊ARM和A-FFM的引入, 對不同層信息充分保留的同時極大削減了各特征層之間的語義差異, 最后達到MIoU為72.62%的結果輸出, 體現了本文算法的優越性.
3.2.3 泛化實驗
為進一步檢驗本文模型的泛化能力, 將RASPP,ARM和A-FFM模塊分別添加到FCN和DeepLab v3+等模型中, 在數據集Cityscapes上可達到MIoU為65.71%和72.62%的精確度, 驗證了本文模型有一定的可適性.
下面在小數據集CamVid上進行實驗, 同樣采用MIoU作為評價指標, 實驗結果列于表4. 由表4可見, 本文模型相比DeepLab v3+其MIoU提高0.57%, 相對于SegNet提高9.28%, 證實了本文模型具有泛化能力.

表4 在數據集CamVid上不同模型的性能對比
綜上所述, 針對圖像語義分割中空間信息易丟失、 多尺度類別下目標分割率較低的問題, 本文提出了一種融合注意力機制和多尺度特征的圖像語義分割方法. 通過改進ASPP模塊, 提供了更豐富的尺度多樣性, 從而提高了類別信息利用率; 使用ARM模塊監督上下文語義信息的提取, 細化了信息邊界; A-FFM模塊通過降低高、 低階特征圖之間的融合差異, 有針對性地減少特征丟失以增強模型的泛化能力, 并在不同數據集上對本文模型結構的魯棒性進行了驗證.