劉春娟,喬澤,閆浩文,吳小所,3,王嘉偉,辛鈺強
(1.蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730070;2.蘭州交通大學 測繪與地理信息學院,甘肅 蘭州 730070;3.甘肅大禹九洲空間信息科技有限公司院士專家工作站,甘肅 蘭州 730070)
遙感圖像具有成像復雜、地物類別豐富、目標物體之間尺度差異大等特點,使得遙感圖像語義分割任務具有很大的挑戰性[1].
全卷積網絡[2](full convolutional network,FCN)是第一個在語義分割問題中使用端到端的卷積神經網絡.在FCN的基礎上,由Ronneberger等[3]提出的U-net網絡第一次引入了編解碼結構.在遙感圖像中,不同目標物體之間較大的尺度差異給語義分割任務帶來了挑戰.一種方法是通過多尺度特征融合[4-10]來提高不同尺度物體的分割精度,如Deeplabv3[4]提出空洞空間金字塔池化模塊來提取上下文信息.PSPNet[5]提出多尺度金字塔池化模塊來擴大感受野.另一種方法是通過注意力機制[11-16]來提高不同尺度物體的分割精度,如DANet[11]提出位置注意力模塊和通道注意力模塊,捕捉空間維度和通道維度中的依賴關系.CCNet[12]提出十字交叉注意力模塊,減少自注意力機制引入的計算量.隨著對遙感圖像語義分割任務的研究,結合多尺度特征融合和注意力機制的網絡取得了更優的效果[17-19],如DA-IMRN[17]通過2個分支分別關注空間和光譜信息,采用雙向注意力機制來指導2個分支之間的交互特征學習.
受上述網絡的啟發,為了解決遙感圖像目標物體之間尺度差異大,導致小尺度物體分割精度低的問題,提出新的網絡.在網絡的編碼部分,通過輸入不同尺度的遙感圖像,增大卷積神經網絡對小尺度物體的關注度.引入互注意力模塊,平衡不同尺度目標物體所占的權重.在網絡的解碼部分,引入編碼指導上采樣機制,在融合編碼結構所包含的空間位置信息的同時增加上采樣的可學習性,整體提高了語義分割的性能.
多尺度互注意力與指導上采樣網絡結構如圖1所示.將輸入分辨率為512像素×512像素的遙感圖像通過臨近插值法上采樣到1 024像素×1 024像素的遙感圖像.將2個輸入圖像分別輸入到骨干網絡(VGG16[20])中,得到不同尺度遙感圖像的特征圖.將獲得的不同尺度遙感圖像的特征圖輸入到多尺度互注意力模塊中,得到不同尺度圖像像素間的全局關系,在像素級的層面上平衡不同尺度目標物體所占的權重.將不同尺度的特征圖和多尺度互注意力模塊的輸出進行通道拼接,再經過1×1卷積進行通道壓縮.在該網絡的解碼結構中,將編碼結構中每個stage所得到的特征圖與待上采樣的特征圖一起輸入到編碼指導上采樣模塊中,通過編碼部分的特征圖來指導上采樣過程,將編碼部分犧牲的空間細節信息加入解碼部分,使得語義分割結果更加精確.

圖1 多尺度互注意力與指導上采樣網絡結構Fig.1 Multi-scale mutual attention and guided upsampling network structure
遙感圖像在語義分割任務中存在大尺度目標物體與小尺度目標物體無法兼顧的問題,導致不同尺度目標物體的分割精確度差異較大.提出多尺度互注意力模塊(multi-scale mutual attention module,MMA).該模塊通過輸入不同尺度圖像的特征圖,計算不同特征圖之間像素的全局關系,在像素級的層面上平衡不同尺度目標物體所占的權重,解決目標物體間的類別不平衡問題.
如圖2所示,多尺度互注意力模塊需要2個輸入特征圖:一個是分辨率為512像素×512像素的圖像經過骨干網絡(VGG16)得到的特征圖X∈RC×H×W,另一個是將圖像尺寸放大為1 024像素×1 024像素后經過骨干網絡(VGG16)得到的特征圖Y∈RC×H×W.特征圖X的分辨率為16像素×16像素,特征圖Y的分辨率為32像素×32像素.將特征圖X輸入到1×1的卷積中進行通道壓縮,分別生成2個新的特征圖K、V,其中{K,V}∈RC×H×W.對特征圖K進行變形和轉置得到矩陣K′∈RN×C,對特征圖V變形得到矩陣V′∈RC×N,其中N=H×W.將特征圖Y經過2倍下采樣后輸入到1×1的卷積中,生成新的特征圖Q∈RC×H×W,對特征圖Q變形得到矩陣Q′∈RC×N.將矩陣K′和Q′進行矩陣相乘,經過softmax激活函數得到權重圖A∈RN×N,如下所示:

圖2 多尺度互注意力模塊的結構Fig.2 Structure of multi-scale mutual attention module
將矩陣V′和權重圖A進行矩陣相乘得到矩陣B′∈RC×N,對矩陣B′變形得到特征圖B∈RC×H×W.將特征圖B和特征圖X進行逐像素相加,得到特征圖Z∈RC×H×W,如下所示:
從式(2)可以看出,特征圖Z中不僅包含了特征圖X中的所有信息,還包含了不同尺度特征圖之間各個像素的全局關系.在遙感圖像中,大尺度的目標物體的分割精度高于小尺度目標物體的分割精度.通過將輸入遙感圖像放大1倍來放大小尺度目標物體的尺寸,經過注意力機制得到不同尺度目標物體的權重圖.該權重圖平衡了大尺度目標物體與小尺度目標物體之間的權重,在不影響對大尺度目標物體分割精度的前提下,提高了小尺度目標物體的分割精度.
在卷積神經網絡中,淺層的空間細節信息是必不可少的.直接利用通道拼接引入淺層空間信息的方法不僅融合了很多冗余信息,而且增大了網絡的參數量和計算量.
在卷積神經網絡的解碼部分,大多數網絡都是通過臨近插值法或雙線性插值法對特征圖進行上采樣操作.利用這種無參數、不可學習的上采樣方法,會導致靠近邊界的像素被分配為錯誤類別.
為了在增大上采樣可學習性的同時引入網絡中的空間細節信息,提出編碼指導上采樣模塊(code-guided upsampling module,CGU),如圖3所示.該編碼指導上采樣模塊需要2個輸入特征圖:一個是編碼結構中每個stage輸出的包含空間細節信息的特征圖X,另一個是待上采樣的網絡深層特征圖H.將特征圖X輸入到細節塊中,提取特征圖X中包含的空間細節信息,對提取出的空間細節信息經過softmax函數得到空間細節信息的權重圖G.其中,細節塊主要由2個block塊和1個1×1卷積組成,每個block塊由1個3×3卷積層、1個BN層和1個ReLU層組成.對特征圖H利用雙線性插值方法進行2倍的上采樣,得到與權重圖G尺寸一樣的特征圖.將權重圖G和特征圖進行逐像素相乘,得到包含空間細節信息的特征圖U,如下所示:

圖3 編碼指導上采樣模塊的結構Fig.3 Structure of code-guided upsampling module
編碼結構輸出的特征圖在對上采樣進行指導前引入細節塊,不僅提取出了特征圖中的空間細節信息,還增加了權重圖的可學習性,彌補了上采樣不可學習的缺點.
Potsdam數據集:Potsdam數據集是在德國勃蘭登堡首都上空拍攝的數字正射影像圖.在實驗中,將數據集中的遙感圖像裁剪成2 304張分辨率為512像素×512像素的圖像.其中的1 612張圖像作為訓練集,346張圖像作為驗證集,346張圖像作為測試集.
Jiage數據集:Jiage數據集包括4個中等分辨率的遙感影像及相應的真實標簽.將數據集中的圖像裁剪成分辨率為512像素×512像素的圖像.由于數據集較小,使用常用的數據增強方法,共得到3 173張分辨率為512像素×512像素的圖像,將其中的2 390張圖像作為訓練集,400張圖像作為驗證集,383張圖像作為測試集.
在實驗中,使用平均交并比(mIoU)、F1得分和像素精度(PA)作為指標,評估多尺度互注意力與指導上采樣網絡的優越性.
像素精度、F1得分、平均交并比的定義分別如下所示:
式中:TP、TN、FP和FN分別為真陽性、真陰性、假陽性和假陰性的數量;R為召回率,P為精確度,
提出的多尺度互注意力與指導上采樣網絡在Pytorch深度學習框架下實現,在64位windows10系統的服務器上開展實驗.該服務器的CPU為英特爾至強R處理器E5-2650 v4(2.20 GHz),配備80 GB的內存(RAM).顯卡為Nvidia GeForce GTX 1080 Ti,顯存為11 GB.
在訓練過程中,使用小批次的隨機梯度下降法(SGD),批次大小為4,動量為0.9,權重衰減為0.000 1,設置初始學習率為0.001 8.采用“poly”的學習率衰減策略來動態調整學習率,表達式為
式中:l為當前學習率,lini為初始學習率,e為當前的訓練輪數,emax為最大的訓練輪數.
整個實驗過程包括消融實驗和對比實驗.如表1所示為提出實驗策略的4種縮寫.其中DCED表示單尺度輸入且骨干網絡為VGG16的深度卷積編碼-解碼網絡,該網絡的輸入為單一尺度的圖像,輸入圖像分辨率為512像素×512像素.

表1 所有實驗策略的縮寫Tab.1 Abbreviation for all experimental strategies
在Potsdam數據集上通過實驗驗證了網絡中各個模塊的有效性.如表2、3所示為在Potsdam數據集上開展的消融實驗結果.表中,IoU為交并比.

表2 Potsdam數據集上的消融實驗結果Tab.2 Results of ablation experiments on Potsdam dataset
3.1.1 增加多尺度互注意力模塊(MMA)的消融實驗結果 如表2、3所示,在DCED的基礎上加入MMA后,較DCED在mIoU、PA、F1上分別增加了9.88%、5.1%、6.51%,特別是背景、不透水表面和樹的mIoU提升尤為明顯,分別提升了27.39%、8.50%、7.35%.從圖4的第4列可以看出,相比于DCED,DCED-MMA對小尺度物體的分割精度有很大提升,特別是對于在圖像中占比較少的背景物體.通過多尺度輸入策略和互注意力機制,能夠更好地平衡不同尺度目標物體,解決物體類間不平衡的問題,提高小尺度物體的分割精確度.

圖4 Potsdam數據集上消融實驗的局部視覺對比結果Fig.4 Local visual comparison results of ablation experiments on Potsdam dataset
3.1.2 增加編碼指導上采樣模塊(CGU)的消融實驗結果 如表2所示,在DCED的基礎上加入CGU后,較DCED在mIoU、PA、F1上分別增加了8.54%、4.63%、5.71%,較DCED-MMA在mIoU、PA、F1上分別減少了1.34%、0.47%、0.80%,這說明DCED-CGU的整體性能不如DCED-MMA.從表3可以看出,DCED-CGU對小尺度物體的分割效果不如DCED-MMA,如汽車類別,DCEDMMA的mIoU比DCED-CGU高3.83%.從圖4可以看出,與DCED相比,DCED-CGU能夠更好地展現物體的細節信息,使得對物體邊緣分割更精確.通過編碼特征圖來指導上采樣的策略,可以巧妙地融合空間細節信息,使得上采樣具有可學習性,提高物體的分割精度.

表3 Potsdam數據集上各類別的消融實驗結果Tab.3 Results of ablation experiments of various categories on Potsdam dataset
3.1.3 增加多尺度互注意力模塊(MMA)和編碼指導上采樣模塊(CGU)的消融實驗結果 如表2、3所示,在DCED的基礎上加入MMA和CGU后,較DCED-MMA在mIoU、PA、F1上分別增加了1.31%、0.94%、0.79%,較DCED-CGU在mIoU、PA、F1上分別增加了2.65%、1.41%、1.59%.從圖4可以看出,DCED-MMA-CGU集合了MMA和CGU兩者的優點,在保證對小尺度物體分割精度的情況下,增加了空間細節信息,細化了物體的邊界信息,提高了各類目標物體的分割精度.DCEDMMA-CGU可以更好地處理遙感圖像語義分割任務.
在Jiage數據集上,通過實驗逐步驗證了網絡中各個模塊的有效性.如表4、5所示為在Jiage數據集上開展消融實驗的結果.

表4 Jiage數據集上的消融實驗結果Tab.4 Results of ablation experiments on Jiage dataset

表5 Jiage數據集上各類別的消融實驗結果Tab.5 Results of ablation experiments of various categories on Jiage dataset
3.2.1 增加多尺度互注意力模塊(MMA)的消融實驗結果 如表4、5所示,在DCED的基礎上加入MMA后,在mIoU、PA、F1上分別增加了9.25%、2.84%、6.63%,特別是道路、水和背景的mIoU提升尤為明顯,分別提升了25.47%、6.43%、6.07%.從圖5的第4列可以看出,與DCED相比,DCEDMMA能夠更好地平衡大尺度物體與小尺度物體所占的權重,提高小尺度物體的分割精確度.

圖5 Jiage數據集上消融實驗的局部視覺對比結果Fig.5 Local visual comparison results of ablation experiments on Jiage dataset
3.2.2 增加編碼指導上采樣模塊(CGU)的消融實驗結果 如表4、5所示,在DCED的基礎上加入CGU后,較DCED在mIoU、PA、F1上分別增加了8.61%、2.55%、6.22%,較DCED-MMA在mIoU、PA、F1上分別減少了0.64%、0.29%、0.41%.這說明DCED-CGU的整體性能不如DCED-MMA,特別是對小尺度物體的分割效果更差,如道路類別,DCED-MMA的mIoU比DCED-CGU高1.7%.對比圖5中的第4、5列可以看出,DCED-CGU能夠更好地區分目標物體邊界,DCED-MMA對小尺度物體的分割更有優勢.
3.2.3 增加多尺度互注意力模塊(MMA)和編碼指導上采樣模塊(CGU)的消融實驗結果 如表4、5所示,在DCED的基礎上加入MMA和CGU后,較DCED-MMA在mIoU、PA、F1上分別增加了2.09%、0.40%、1.32%,較DCED-CGU在mIoU、PA、F1上分別增加了2.73%、0.69%、1.73%.從圖5可以看出,與DCED-MMA和DCED-CGU相比,DCED-MMA-CGU的語義分割性能有所上升,特別是對于小尺度物體的分割精度提升尤為明顯.DCEDMMA-CGU可以更好地處理遙感圖像語義分割任務.
在Potsdam數據集上,將DCED-MMA-CGU與最新的網絡進行對比.如表6所示為DCED-MMACGU和8個最新的分割網絡模型在Potsdam數據集上各個類別的IoU和mIoU的結果.與SegNet[21]、PSPNet、DeeplabV3、MSRF[22]、EMANet[23]、CCNet、DANNet[24]和MagNet[25]獲得的mIoU相比,DCEDMMA-CGU的mIoU分別增加了14.62%、9.35%、8.77%、5.47%、3.72%、3.13%、1.43%和1.32%,總體上表現均優于其他模型,得到了最好的效果.

表6 在Potsdam數據集上與8種最先進的方法進行定量比較Tab.6 Quantitative comparison with 8 state-of-the-art methods on Potsdam dataset
從表6可以看出,所有網絡對遙感圖像中大尺度的建筑物類別和不透水表面類別的分割效果較好,對小尺度的汽車類別和邊界復雜的樹和背景類別的分割效果較差.傳統的語義分割網絡如SegNet、PSPNet、DeeplabV3在遙感圖像語義分割任務中效果相對較差,近年來提出的網絡如DANNet和MagNet在遙感圖像語義分割領域中具有一定的優勢.與DANNet相比,DCED-MMA-CGU在汽車類別的IoU上提升了5.07%,提升效果明顯;在背景和低植被類別的IoU上分別提升了1.02%和1.17%.由此可見,DCED-MMA-CGU對小尺度物體的分割效果有較大提升.與MagNet相比,DCEDMMA-CGU在背景和樹類別的IoU上分別提升了3.67%和3.24%.DCED-MMA-CGU不僅提升了小尺度物體的分割精度,而且提升了對邊界輪廓復雜物體的分割效果,適合處理遙感圖像的語義分割任務.
如圖6所示為3個經典的網絡(PSPNet、CCNet、MagNet)和DCED-MMA-CGU在Potsdam數據集上語義分割的結果.可以看出,PSPNet的分割效果較差,出現較多分類錯誤的現象,如第3行將背景錯誤分類為不透水表面.CCNet的總體分割效果較好,但是一些小尺度物體的分割效果不太理想,如第6行將部分汽車錯誤分類為背景.MagNet對小尺度物體的分割效果有所提升,如第6行的汽車類別和第1、2、5行中的背景類別,但是對一些類別的邊界輪廓出現分類錯誤的現象,如第4行中對低植被和建筑物的邊界分類錯誤.DCEDMMA-CGU對小尺度的汽車類別和復雜邊界的背景類別分類都較準確.雖然MagNet和DCED-MMACGU對遙感圖像中小尺度物體的分割精確度都有所提升,但是DCED-MMA-CGU能夠對目標物體的邊緣進行分割,提高了語義分割的整體性能.

圖6 Potsdam數據集上PSPNet、CCNet、MagNet和DCED-MMA-CGU的局部視覺對比結果Fig.6 Local visual comparison results of PSPNet, CCNet, MagNet and DCED-MMA-CGU on Potsdam dataset
在Jiage數據集上,將DCED-MMA-CGU與最新的網絡進行對比.如表7所示為DCED-MMACGU和8個最新的分割網絡模型在Jiage數據集上各個類別的IoU和mIoU.與SegNet、PSPNet、DeeplabV3、EMANet、MSRF、CCNet、MagNet和DANNet獲得的mIoU相比,DCED-MMA-CGU的mIoU分別增加了16.17%、7.53%、6.60%、4.22%、3.95%、3.36%、2.07%和1.46%,得到了最好的效果.

表7 在Jiage數據集上與 8 種最先進的方法進行定量比較Tab.7 Quantitative comparison with 8 state-of-the-art methods on Jiage dataset
從表7可以看出,所有網絡對遙感圖像中大尺度的植被類別和水類別的分割效果較好,對小尺度的路類別和邊界復雜的背景和建筑物類別的分割效果較差.與MagNet相比,DCED-MMACGU在路類別和建筑物類別的IoU上分別提升了4.84%和3.66%.由此可見,DCED- MMA-CGU對小尺度物體的分割效果有很大提升.與DANNet相比,DCED-MMA-CGU在背景和建筑物類別的IoU上分別提升了2.82%和2.48%.DCEDMMA-CGU在提升小尺度物體的分割精度的同時引入了空間細節信息,使得對物體邊界的分類更加準確.
如圖7所示為3個經典的網絡(PSPNet、CCNet、MagNet)和DCED-MMA-CGU在Jiage數據集上語義分割的結果.可以看出,PSPNet對圖像中占比較小物體的分割效果較差,如第2、3行中無法正確區分背景類別.CCNet和MagNet的分割效果相差不大,但均出現了錯誤分類現象,如第4行中2個網絡將背景錯誤分類為建筑物,第6行中2個網絡將背景錯誤分類為植被.DCED-MMA-CGU相較于其他3個經典網絡取得了最好的分割效果,特別是在背景類別和建筑物類別上具有明顯的優勢.DCED-MMA-CGU包含遙感圖像中的細節信息,可以更好地描繪目標物體的輪廓.

圖7 Jiage數據集上PSPNet、CCNet、MagNet和DCED-MMA-CGU的局部視覺對比結果Fig.7 Local visual comparison results of PSPNet, CCNet, MagNet and DCED-MMA-CGU on Jiage dataset
針對遙感圖像語義分割任務中目標物體之間的巨大尺度差異導致小尺度物體分割精度低的問題,提出多尺度互注意力與指導上采樣網絡.該網絡包括1個多尺度互注意力模塊和1個編碼指導上采樣模塊.MMA通過不同尺度的圖像輸入和互注意力機制,在像素級層面上捕獲大尺度物體與小尺度物體之間的全局關系,提升對小尺度物體的關注度.CGU在上采樣過程中引入細節信息,使得上采樣的過程具有可學習性.在2個數據集(Potsdam和Jiage)上,開展消融實驗和對比實驗.實驗結果表明,在相同的實驗條件下,利用提出的方法提高了對小尺度大物體的分割精度,整體效果優于8種最新的網絡.隨著具體應用越來越依賴于遙感圖像處理的實時性,未來可以在不影響分割精度的同時,減少網絡的參數量,構建輕量級網絡,提高遙感圖像的處理速度.