A-LinkNet：注意力與空間信息融合的語義分割網絡

2022-09-07 15:19:38杜敏敏司馬海峰

液晶與顯示 2022年9期

杜敏敏，司馬海峰

（河南理工大學計算機學院，河南焦作 454000）

1 引言

作為圖像理解的基礎，圖像語義分割是指根據語義信息將圖像劃分為不同的區域，而相同的語義區域具有相同的顏色［1］。其中，道路場景的圖像語義分割作為自動駕駛的核心技術，近幾年成為研究的熱點之一。然而，由于受到光照、天氣等各種外界因素的影響，道路圖像中物體具有位置關系復雜和種類變化大的特點，使得城市道路圖像實時分割變成一項具有挑戰性的任務［2］。一方面，由于道路圖像涵蓋目標種類多且存在很多細小目標，例如欄桿、交通指示燈等，增加了圖像語義分割的難度。另一方面，同一物體在不同圖像中呈現出不同的大小，如何保存多尺度信息成為分割的關鍵。

隨著深度神經網絡的發展，圖像語義分割進入新的時代，分割速度與精度得到了大幅提高。2014年，FCN［3］的出現將圖像語義分割帶入一個新的時代。該模型使用卷積層替換傳統網絡中的全連接層，然后通過上采樣將提取的特征還原成原圖大小，極大地促進了語義分割的發展。但是該方法對于復雜場景圖像的分割并不理想，因此后續很多模型都是在FCN的基礎上進行改進。

2015年，Ronneberger等人［4］提出的U-Net網絡將編碼器-解碼器結構應用到圖像語義分割中，給圖像語義分割帶來創新。通過跳躍連接將編碼器與解碼器直接相連，實現了編碼層的特征復用，一定程度上彌補了FCN細節特征丟失的問題，但是忽視了不同特征的重要程度。2017年，Badrinarayanan等人［5］提出了用于自動駕駛的深層語義分割模型，該模型與FCN結構相似，使用VGG-16的卷積層作為編碼網絡并保留特征圖的最大池化索引，在解碼器中利用最大池化索引進行上采樣，提高了網絡性能。雖然上述結構能取得較好的分割精度，但也存在參數多、計算量大的問題，因此研究者在如何提高編碼器-解碼器結構的分割速度上也進行了大量的探索。ENet［6］、LEDNet［7］模型使用非對稱的編碼器-解碼器結構，減少了參數量，有效地提高了語義分割的速度。目前，編碼器-解碼器模型在圖像處理領域得到廣泛應用。

此外，在深度神經網絡中，普遍使用池化操作進行下采樣，雖然可以擴大感受野，但是在上采樣過程中容易導致精度的損失。針對這一問題，Yu等人［8］提出了空洞卷積（Atrous Convolution）思想，在保證不改變圖像分辨率的前提下增大感受野。但是如果在較深層網絡使用采樣率較大的空洞卷積，會導致“網格效應”，造成局部特征的丟失。為了解決這一問題，Wang等人［9］提出了HDC結構，與普通空洞卷積不同，該結構采用了具有不同膨脹率的空洞卷積來保證感受野的連續性。而文獻［10］則提出了空洞空間金字塔池化模型（Atrous Spatial Pyramid Pooling，ASPP），使用一組具有不同膨脹率的空洞卷積并行連接來捕獲圖像的上下文信息，提高模型的性能。2017年，Chen等人［11］又在文獻［10］的基礎上，在ASPP模塊中加入了圖片級特征，對輸入特征做全局平均池化，然后與并行的空洞卷積相融合，可以更好地捕獲全局上下文信息。

上述網絡結構在一定程度上提高了語義分割網絡的精度，但是沒有考慮到不同特征信息之間的依賴程度，不能很好地區分特征的重要性，注意力機制的出現則很好地解決了這一問題。注意力機制的主要思想是為圖片中的關鍵特征賦予一層新的權重，從而使神經網絡能夠學習到圖片中需要關注的地方，增加上下文的相關性。2018年，Hu等人［12］提出了一種全新的可以嵌套到任意網絡的子結構SENet，該結構通過網絡自主學習來獲取不同通道的權值，從而根據不同的權值表示不同特征通道的重要性，建模各個通道之間的依賴性。文獻［13］在SENet的基礎上提出一個簡單有效的注意力模塊CBAM，與SENet不同的是，該模塊結合了空間和通道兩個維度上的注意力機制，取得了更好的分割結果。Fu等人［14］又在CBAM的基礎上提出一種適用于自然場景圖像的DANet，通過結合自注意力機制，并行連接空間注意力機制以及通道注意力機制，最后將兩個模塊的輸出相加，進一步提高了分割結果的準確度。

Chaurasia等［15］提出的LinkNet是一種有效的實時圖像語義分割網絡，結合殘差結構［16］以及Unet模型形成對稱式的編碼器-解碼器結構，將解碼器與對應的編碼器直接相連，在保證分割速度的同時獲得了較高的分割準確率。自此，多個基于LinkNet的網絡被相繼提出。Zhou等人［17］提出了D-LinkNet，它是一種被用于高分辨率衛星道路圖像提取的模型，通過結合LinkNet、預訓練編碼器以及擴張卷積進行道路提取，在一定程度上解決了道路連通性問題。文獻［18］又在D-LinkNet的基礎上進行改進，使用DenseNet［19］代替ResNet，減少了網絡的參數并且提高了道路提取的準確度。

受以上分割模型的啟發，本文結合編碼器-解碼器結構以及注意力機制的優勢，提出了一種基于編碼器-解碼器結構的道路圖像語義分割網絡（A-LinkNet）。由于LinkNet編碼器與解碼器直接相連，導致大量背景特征被引入，對有效特征的提取造成了干擾，因此A-LinkNet在LinkNet的每個編碼塊后接入注意力模塊，增加對有效特征的提取，抑制對無效特征的響應，使得分割過程中更加注意目標特征的提取，避免在解碼階段引入過多的背景特征。同時，由于LinkNet不具有提取多尺度上下文特征的能力，所以對于細小目標以及邊界的分割準確度不高，我們引入了空洞空間金字塔池化模塊（ASPP），利用多個并聯的具有不同膨脹率的卷積操作來捕獲多尺度的上下文信息，融合圖像的多尺度特征，進一步提高模型分割的準確率。

2 A-LinkNet模型

2.1 A-LinkNet網絡結構

本文所提模型主要分為3部分：編碼區、中心區以及解碼區，其結構圖如圖1所示。其中，編碼區由殘差塊以及注意力模塊串聯組合而成。對于輸入圖像，首先通過一個初始卷積模塊對輸入圖片進行降維，該模塊由一個卷積核大小為7、步長為2的卷積層以及一個卷積核大小為3，步長為2的最大池化層組成。然后連接4個殘差塊，殘差塊結構如圖2所示。與LinkNet編碼器不同的是，我們在前3個殘差塊后分別連接一個注意力模塊，使用位置注意力機制對特征圖中的每個像素點進行建模，增加目標特征的響應能力，同時使用通道注意力機制對特征圖中的不同通道特征進行建模，對不同的通道賦予不同的權重，增加對有利通道的響應，然后將得到的通道特征與位置特征進行特征融合，得到注意力模塊的輸出。

圖1 A-LinkNet結構Fig.1 Structure of A-LinkNet

圖2 殘差塊結構Fig.2 Structure of residual blocks

中心區在LinkNet的基礎上引入了ASPP模塊，該模型最早是在DeepLabv2網絡［10］中被提出，因為其在處理多尺度特征提取中表現優異，而后在圖像語義分割中得到廣泛應用，其結構如圖3所示。ASPP模塊由一個卷積核大小為1的卷積層、3個卷積核大小為3、膨脹率為6、12、18的空洞卷積層以及一個全局平均池化層并聯而成，之后將得到的特征圖在通道維度上進行特征融合，最后通過一個1×1卷積操作來降低特征通道數。通過使用空洞卷積，可以在不影響圖像分辨率的前提下增大圖像的感受野，更好地捕獲上下文信息。設置不同的空洞率可以得到不同尺度的特征圖，更好地提取多尺度信息。最后增加全局平均池化，將圖像級特征融進ASPP中，提供位置信息。

圖3 空洞空間金字塔池化模塊Fig.3 Atrous spatial pyramid pooling module

解碼區的結構和LinkNet相同，由4個解碼塊串聯組成，每個解碼塊的結構如圖4所示。該結構使用兩個卷結核為1的卷積提高網絡的計算效率，使用一個3×3的反卷積進行上采樣，逐步恢復特征圖大小。此外，直接將解碼器與編碼器相連接，與編碼階段的特征信息進行融合，可以更好地保留空間信息，最終得到與輸入圖像大小相同的分割圖像。

圖4 解碼塊結構Fig.4 Structure of decoder blocks

2.2 注意力模塊

在道路圖像中，由于物體種類比較多，類間差異比較大，圖像的背景比較復雜，給分割帶來了一定的難度。在深度卷積網絡中，較淺層中的特征圖分辨率高，可以學到輪廓、邊界等低級的空間特征。隨著網絡的加深，可以得到語義更加豐富的高層特征，但是由于低層特征中含有大量背景特征信息，會給深層特征的學習帶來干擾。因此，受到SENet［12］以及DANet［14］的啟發，我們提出了基于位置和通道的注意力模塊，可以從空間相對位置以及不同通道間的依賴中捕獲全局上下文信息，對特征進行加權，減少背景特征的權重，增加目標特征的權重，抑制無用信息的干擾。

注意力模塊由位置注意力機制和通道注意力機制組成，結構如圖5所示。其中，上半部分表示位置注意力模塊，下半部分表示通道注意力模塊，最后將兩個模塊的結果進行特征融合。具體來說，位置注意力機制通過對任意兩個像素點進行建模來表示兩個位置的相關性，這樣具有相似特征的兩個像素可以相互提升，得到較高的權重。通道注意力機制通過網絡學習得到不同的通道權重，進而增加有效通道的響應。

圖5 本文提出的注意力模塊Fig.5 Attention module proposed in this paper

對于輸入特征A，經過卷積核大小為1的卷積層進行降維操作，得到與輸入特征A尺寸相同的特征B、C；將特征B進行轉置后與特征C進行矩陣相乘，進而建模特征圖中任意兩個像素點之間的相似性，然后通過Softmax函數計算得到相應的位置注意力圖P，如式（1）所示：

其中，Pji∈RN×N表示特征圖中第j個像素與第i個點之間的特征相似性，B、C∈RN×T，N=H×W，H、W分別表示特征圖的高和寬，T表示通道數。最后將注意力圖P與輸入特征A進行相乘得到處理后的位置注意力特征Pf，如式（2）所示：

其中，α表示尺度系數，初始化為0，逐漸學習得到更大的權重。

同樣，輸入特征A經過卷積核大小為1的卷積層進行了降維操作，得到新的特征D，然后對特征D進行全局平均池化，得到可以表征各通道的全局信息；然后連接兩個全連接層來建模通道間的非線性相關性，第一個全連接層后我們使用ReLU函數來提取更多的非線性特征，第二個全連接層后我們使用Sigmoid函數獲得通道注意力圖H，具體計算方法如式（3）所示：

最終，使用1×1卷積將得到的位置注意力特征與通道注意力特征還原至輸入維度，最后進行特征融合，得到注意力輸出特征。

3 實驗結果與分析

3.1 數據集及實驗設置

本文實驗采用的是Cityscapes數據集［20］，該數據集主要包含來自50個不同大型城市的街道場景，其中包含5 000張帶有精細標注的圖像以及20 000張帶有粗糙標注的圖像。我們使用精細標注的圖像進行實驗，其中2 975張用作訓練集，500張用作驗證集，剩余1 525張為測試集。數據集共包含30個類別，其中的19個類別被選定用于訓練和評估。

本文實驗均在內存為48 G的NVIDIA Quadro RTX 8 000 GPU上進行訓練，采用pytorch1.2.0框架。模型優化器選用Adam算法［21］，初始學習率設置為5e-4，并使用交叉熵損失函數優化所有模型。輸入圖片大小為1 024×512，批處理大小為16，epoch設置為200。

本文采用平均交并比（Mean Intersection over Union，MIoU）作為評估指標，表示分割結果與真實值的重合度，是目前語義分割領域最常用的評價指標之一。其計算公式如下：

其中，N表示類別總數，TP、FN、FP、TN分別表示真正例、假反例、假正例、真反例。

3.2 對比實驗

3.2.1 ASPP模塊實驗

為了驗證ASPP模塊不同膨脹率組合的效果，本文設計了多組ASPP結構進行實驗，結果如表1所示。

在相同的計算條件下，ASPP模塊可以提供更大的感受野，采用不同膨脹率的空洞卷積可以捕獲不同尺度的信息。隨著感受野的增大，模型的性能逐漸提高。在表1中，可以看到ASPP模塊的增加對模型的性能有一定的提高，與LinkNet原始模型比較，MIoU分別提高了0.86%、1.69%、2.06%以及1.18%。但是如果膨脹率過大，會導致卷積核跑到padding區域，產生無意義的權重，導致性能下降。本文采用［12，18，24］組合的ASPP模塊與［6，12，18］組合相比，MIoU并未有效提高。因此，在本文后續實驗中，選擇膨脹率為［6，12，18］的空洞卷積來提高模型的準確度。

表1 不同膨脹率組合對比實驗Tab.1 Comparative experiment of different dilation rate combinations

3.2.2消融實驗

為了驗證注意力機制以及ASPP模塊的有效性，本文在Cityscapes數據集上進行了消融對比實驗，具體實驗設置以及結果如表2所示。

表2 在Cityscapes數據集上的消融實驗Tab.2 Ablation experiment on the Cityscapes dataset

從表2可以看出，使用LinkNet原始模型得到的MIoU為59.77%，與原始模型相比較，僅加入注意力機制的模型分割結果為62.04%，增加了2.27%；僅加入ASPP模塊，雖然參數量和計算量有所增加，但是MIoU提高了2.06%；同時加入注意力機制和ASPP模塊，最終的分割結果為64.78%。可以看出，本文方法有效提高了道路語義分割準確率。

實驗過程中的Loss曲線如圖6（a）所示，可以看出，在經過約100個epoch之后，該模型可以很好地實現收斂。同時，我們統計了訓練過程中的平均像素準確度（Mean Pixel Accuracy，MPA），如圖6（b）所示。隨著epoch的增加，MPA逐漸增大，在167個epoch時，模型的平均像素準確度達到最大，為93.42%。

圖6 訓練曲線圖Fig.6 Curvs of training

3.3 結果與分析

為了驗證所提方法的實驗效果，與其他方法在相同的軟硬件環境下進行實驗，采用相同的實驗參數在Cityscapes驗證集上進行對比。對比方法選擇了FCN［3］、SegNet［5］與ENet［6］。FCN是圖像語義分割領域的經典模型，SegNet是編碼器-解碼器結構的代表，ENet則是輕量級模型的代表。實時性對比結果如表3所示，MIoU對比結果如表4所示。

表3 實時性能對比實驗Tab.3 Real-time performance comparison

表4 本文方法與其他網絡在Cityscapes驗證集上MIoU值對比結果Tab.4 Comparative of MIoU values between the method in this paper and others on the Cityscapes validation set

從表3可以看出，FCN網絡的分割速度最差；SegNet的分割速度有所提高，但其參數量龐大；ENet作為輕量級網絡的代表，具有良好的實時性。本文所提算法雖然實時性不及ENet，但是對比FCN、SegNet，分割速度大幅提高，并且MIoU高于ENet。

從表4可以看出，本文所提方法MIoU結果為64.78%，與其他方法相比，模型性能有了一定提高，比經典的FCN提高了6.17%。另外，我們統計了每一類的IoU，所提方法雖然沒有達到每一類都是最優，但是對于多數類別表現最佳。由于注意力機制以及ASPP模塊的增加捕獲了更加豐富的上下文信息，對于信號燈、信號標志等細小物體的分割，MIoU獲得大幅提高。

為了更加直觀地對比實驗結果，我們在圖7中對部分分割結果圖像進行了展示。在第1行中，FCN網絡對于公共汽車的分割較為粗糙，邊緣預測不夠突出；SegNet網絡對于公共汽車邊界的分割有所提高，但是在車頂上方出現了干擾信息，有幾處出現識別錯誤；而本文提出的方法對于公共汽車的輪廓預測更加清晰，對于車身的識別也比較完整。在第2行中，對比FCN網絡以及SegNet網絡對于圖片左側人行橫道的識別，本文所提方法的效果更加完整。在第3行中，對于交通信號燈以及欄桿等細小物體的分割，FCN表現較差，分割邊界不清晰，不能完整識別桿狀物；SegNet網絡分割效果較好，但仍有些細節處理不清晰。在第4行中，對于行人的分割，FCN網絡以及SegNet網絡分割效果粗糙，邊界不明顯，識別不完整；本文所提方法對于行人的識別比較完整，邊界處較為清晰。在第5行中，對于草等水平植被的識別，FCN網絡的分割結果最差，出現多處識別錯誤，將水平植被誤識為樹木等垂直植被；SegNet網絡將水平植被誤識為人行道；而本文所提方法分割相對完整。在第6行中，FCN網絡以及SegNet網絡對于建筑物的分割效果較差，出現大面積識別錯誤；而本文所提方法分割結果較為準確。另外，對于交通標志的識別，本文所提方法識別形狀更為準確。在第7行中，對于自行車以及騎行者的識別，本文所提方法較為形象，分割結果更為完整。相比較而言，本文所提方法能更加準確地分割細小物體，邊界更加清晰，形狀更加完整。總的來說，本文所提方法在Cityscapes驗證集上可以預測出更優良的分割結果。

圖7 不同模型在Cityscapes驗證集上的分割結果Fig.7 Segmentation results of different models on the Cityscapes validation set

4 結論

本文在LinkNet分割網絡的基礎上進行改進，可以較好地彌補LinkNet在道路圖像分割中的不足。具體來說，在編碼器-解碼器的結構上加入注意力機制，分別對位置以及通道維度的特征進行建模，挖掘道路圖像在空間維度以及通道維度的上下文依賴信息，提高模型對有效特征的提取能力，避免無效信息的干擾。另外，在中心區域引入空洞空間金字塔池化模塊，通過使用不同膨脹率的空洞卷積融合道路圖像的多尺度特征，提取更加豐富的上下文信息，進一步提高模型分割的準確度。本文模型在Cityscapes數據集上分割結果表現優異，與其他網絡相比較，MIoU達到了64.78%，且分割結果中目標特征更加完整，邊界更加清晰。在后續的研究中，會考慮優化損失函數，探索更高效的語義分割網絡，保證模型在分割速度與分割精度上有更好的平衡。