熊 偉,蔡 咪,呂亞飛,裴家正
海軍航空大學 信息融合研究所,山東 煙臺 264001
遙感圖像海陸分割通過將碼頭圖像中海洋區域和陸地區域區分開來,有助于實現艦船目標的快速檢測和分類,在海上安全、海上交通監視、船舶救援、漁業管理和海上態勢感知(MSA)等方面具有重要的意義。遙感圖像為俯視圖,圖像中海上信息較少,艦船目標特征相似,特征區分性不強,同時港口陸地的空間位置及表面特征復雜,都將不利于對艦船目標的快速檢測與識別。對海陸區域進行分割,可以預先排除陸地對艦船檢測與識別的負面影響,幫助實現艦船目標更加快速且精確的檢測與識別。
傳統的分割方法[1]大部分是利用圖像像素的形狀、紋理和顏色等低級語義信息進行分割,但對于低級語義信息較少的遙感圖像來說效果不甚理想。隨著深度學習[2]在計算機視覺中的快速發展,深度卷積神經網絡(Deep Convolution Neural Network,DCNN)[3]已經成為自然圖像檢測[4]與語義分割[5]的主要建模工具。為了能夠得到更加精確的遙感圖像海陸分割,本文利用深度卷積神經網絡對海陸區域進行逐像素的分類,實現更加精確的海陸語義分割效果。
現有基于深度學習的語義分割方法大多數是面向自然場景圖像,2014年Long等人首次提出利用全卷積網絡代替全連接層,設計了一個可以實現端對端語義分割的全卷積網絡(Full Convolution Neural Network,FCNN)。文獻[6]利用空洞卷積設計了一個新的卷積網絡模型,實現了更加精確的預測結果。文獻[7]提出了一個全局卷積網絡,提高分割精確度。為了解決多尺度目標問題,文獻[8]提出了一個空洞卷積池化金字塔用以提取更多的多尺度信息。文獻[9]提出網絡結構DeepLabv3+,能夠更加精細地恢復目標的位置信息,尤其是目標的邊界信息。文獻[10]針對圖像語義較為簡單,結構較為固定且樣本少的醫療影像進行分割。此外,由于目前的神經網絡等方法不具備尺度不變性的特征,利用多尺度圖像信息進行訓練能有效提升目標的檢測和分割效果,例如:SIFT、HOG等經典算法[11-12]利用輸入圖像的多尺度以獲得更多不同尺度的特征信息。Lin等人[13]提出了一個特征金字塔模型,用于提取多尺度目標信息提高目標檢測精度。Liu等人[14]提出了一個SSD網絡結構,相比于其他方法以特征提取網絡的最后一個特征圖作為檢測網絡的輸入,SDD綜合利用了不同尺度、分辨率的特征圖,有效提升了對小目標的檢測精度。熊志勇等[15]提出將三種不同尺度的圖像分別作為全卷積網絡的輸入得到三個不同尺度分割結果,最后將三種尺度的分割圖進行融合以提升分割精度。
有少數部分的語義分割方法針對于遙感圖像中建筑、陸地、河流、森林等地物目標進行分割,文獻[16]針對高分辨率遙感地物目標信息,對U-Net算法進行改進。文獻[17]針對城市區域小目標遙感圖像設計了一個深度卷積神經網絡,實現了端對端的圖像像素級分割。文獻[18]提出了一個針對高分辨率遙感圖像的多路徑細化網絡。文獻[19]針對遙感圖像中目標小而密集產生語義分割問題設計了一個新的網絡結構,提高小目標的分割精度。
但是,與自然場景圖像以及遙感圖像城市目標不同,遙感圖像中陸地形狀多樣,碼頭細長,靠碼頭的艦船目標容易分割成碼頭,出現像素級分類不準確的現象。同時部分碼頭與艦船邊界不清,導致碼頭邊界分割不明確,出現邊界模糊定位的現象。為了解決以上出現的像素分類和定位的問題,本文基于U-Net[10]網絡進行改進,設計了以不同尺度的圖像作為輸入的多個編碼結構并行的網絡架構,在多個編碼結構的不同層之間將多個特征圖進行融合,得到更加豐富的特征算子。同時,設計了一個編碼結構,融合編碼部分不同層次的特征圖對提取的豐富特征進行像素恢復,得到更加密集的像素位置信息。
基于現有的海陸語義分割方法的不足之處,本文提出了一個新的基于深度卷積神經網絡的海陸分割網絡,本文的主要創新點如下:
(1)設計了一個新的編碼模型,該模型以三個不同尺度的圖像作為輸入,三個并行的編碼結構分別對輸入圖像進行不同尺度的特征提取并在編碼部分將多尺度的特征圖進行融合來幫助提高像素級分類效果。
(2)設計了一個解碼模塊,通過將編碼模塊中已經融合的不同層的多尺度特征圖與解碼模塊中的特征進行再次融合來恢復更加密集的像素位置信息。
對于大多數基于卷積神經網絡的目標檢測或分類的算法,在特征提取部分增加特征提取的網絡深度可以獲得更多的語義信息,提高分類準確度,也可以利用空間金子塔模型,通過融合多個不同尺度的特征圖得到更加豐富的特征算子以提高分類準確度。而與目標檢測或分類算法不同的是,圖像語義分割算法不僅需要獲取目標的特征信息,還需對圖像進行原尺寸的恢復,圖像像素位置信息恢復得更加準確,分割結果更好。在提高目標位置信息方面,相比于標準卷積,空洞卷積在擴大感受野的同時可以減少圖像分辨率的損失,從而能夠恢復更加密集的目標位置信息。對恢復像素位置信息的編碼模塊進行改進,如U-Net,通過非線性插值法進行上采樣,利用跳躍連接,將編碼部分具有精細位置信息的不同尺度特征圖與解碼部分的上采樣恢復圖片進行融合,可以得到更加精細的像素位置信息。如SegNet[20]通過對池化標記進行非池化上采樣的同時,利用跳躍連接幫助恢復像素更加精確的位置信息。

圖1 網絡整體框架圖
本文基于U-Net進行改進,針對遙感圖像海陸分割特點及問題,設計了一個新的網絡結構MEFF-Net,如圖1。該網絡結構是一個端到端的全卷積神經網絡,由編碼和解碼兩部分組成,其輸入圖片為三個不同尺度的高分辨率遙感圖像,大小分別為256×256、512×512以及1 024×1 024,圖片在進入網絡時會首先進入編碼部分,得到特征圖。該網絡的編碼部分由三個并行的編碼結構組成,在編碼結構的末端進行特征融合,融合后的特征圖作為解碼部分的特征輸入。隨后由解碼結構對特征圖進行目標位置的恢復,最終得到預測分割結果圖。
與U-Net網絡結構相似,MEFF-Net網絡也是一個以編碼-解碼為框架的網路結構。編碼結構目的是提取目標特征得到目標的深層的語義信息,有助于實現對目標進行逐像素的精確識別,識別越準確分割性能更好;解碼結構目的是對編碼結構的特征圖進行逐像素的位置恢復,恢復至與原圖像相同尺度大小,像素位置恢復越準確,分割精度越高。本文設計的解碼結構為含有4個串聯解碼模塊加一個softmax分類層的解碼器,每一個解碼模塊的輸出均為下一個解碼模塊的輸入,每個解碼模塊的組成部分相同,均含有一個上采樣層對特征圖進行上采樣,恢復圖像尺度,最后經過softmax層對像素進行分類并得到與輸入圖像相同尺度的分割結果圖。
不同之處在于編碼器部分,主要設計了3個不同的并行編碼結構分別對不同尺度的圖像進行特征提取,在輸入為256×256尺度的圖像編碼結構中,使用了4個編碼模塊得到4種不同尺度的特征圖,其中第一層輸出為包含64張128×128尺寸的特征圖,第二層輸出為包含128張64×64尺寸的特征圖,第三層輸出為包含256張32×32尺寸的特征圖,最后一層輸出為包含512張尺寸為16×16的特征圖。在輸入為512×512尺度的圖像編碼結構中,使用了5個編碼模塊,得到5種不同尺度的特征圖,其中,第一層輸出為包含32張256×256尺寸的特征圖,第二層輸出為包含64張128×128尺寸的特征圖,第三層輸出為包含128張64×64尺寸的特征圖,第四層輸出為包含256張32×32尺寸的特征圖,最后一層輸出為包含512張尺寸為16×16的特征圖。在輸入1 024×1 024尺度的圖像編碼結構中,使用了6個編碼模塊,得到6種不同尺度的特征圖,其中第一層輸出為包含16張512×512尺寸的特征圖,第二層輸出為包含32張256×256尺寸的特征圖,第三層輸出為包含64張128×128尺寸的特征圖,第四層輸出為包含128張64×64尺寸的特征圖,第五層輸出為包含256張32×32尺寸的特征圖,最后一層輸出同樣為包含512尺寸為16×16的特征圖??梢园l現每一個編碼結構隨著網絡深度的增加逐步擴大特征圖厚度以獲得更多的圖像特征信息,同時隨著網絡的加深,圖像分辨率不斷減小,有利于減少冗余信息的同時擴大感受野使網絡得到更多的上下文語義信息。與此同時,編碼部分中的融合過程均作用于3個編碼結構中具有相同特征圖尺寸和厚度的編碼層。其融合方法如圖2所示。在編碼部分的3個編碼結構中,每一個編碼模塊的結構均相同,均含有一個池化層,用于降低圖像尺寸。每個編碼模塊的的輸出作為下一個編碼模塊的輸入。將3個并行編碼結構輸出同為16×16的特征圖進行特征相加融合,作為解碼結構第一個解碼模塊的輸入,同時,也將3個并行編碼結構編碼過程中生成的具有相同尺寸的特征圖進行相加融合,如第一個結構的第一層輸出特征圖與第二個結構的第二層輸出特征圖以及第三個結構的第三層輸出特征圖進行相加融合,作為解碼結構中第四個解碼模塊的第二個輸入。意味著低層中含有豐富位置信息的特征圖將有助于更加精細的像素位置恢復。

圖2 網絡編碼結構中特征的相加融合方式
本文所提網絡結構中的編碼模塊(Encoder Block)是一種卷積神經網絡的特征提取模塊,其中包含了互相交疊的兩個卷積層兩個激活層以及一個池化層。
如圖3所示為第一個編碼結構的第一個編碼模塊(Encoder Block1_1)示意圖,conv1_1_1是卷積核大小為3×3的標準卷積,步長為1,卷積核數量是32個,卷積后圖片尺寸不變。conv1_1_1后面接的relu激活層進行特征激活。conv1_1_2同樣是卷積核大小為3×3的標準卷積,步長為1,卷積核數量與模塊中第一層卷積核數量相同,卷積后圖片尺寸不變,同樣后面接一個relu激活層對特征進行激活。編碼模塊最后一層為2×2的最大池化層,對特征圖進行尺寸縮小,同時提高圖像特征的平移不變性。

圖3 Encoder Block1_1示意圖
解碼模塊(Decoder Block)的結構與編碼模塊(Encoder Block)有相似之處,除了第一個解碼模塊為編碼器輸出特征圖這一個輸入,其余三個模塊均為兩個輸入Input1和Input2。以解碼結構中第二個解碼模塊(Decoder Block_2)為例,如圖4所示,解碼模塊第一層是一個串聯層,將兩個輸入進行串聯融合作為第二層上采樣的輸入。Input1為前一個解碼模塊的輸出,這與U-Net算法中解碼模塊相似;不同之處為MEFF-Net算法解碼模塊中Input2為編碼部分融合了3個編碼結構中不同解碼模塊的多尺度特征圖,該特征圖包含了目標多個不同尺度的上下文信息同時含有詳細的位置信息,有助于解碼部分實現圖像密集恢復。第三層和第四層為與編碼模塊中卷積與激活層相同。上采樣層為非線性插值上采樣。串聯融合方式如圖5所示。

圖4 Decoder Block_2示意圖

圖5 網絡編碼結構中特征的串聯融合方式
本文基于數據集HRSC-2016[21],構建了用于檢驗海陸分割算法的新的數據集HRSC2016-SL。該數據集含有1 000張海陸分割標記的高分辨率遙感圖像,并利用LabelMe[22]標注工具對原圖中海陸區域進行分割標記。圖像分辨率范圍為2 m至0.4 m,圖像尺寸范圍為300×300至1 500×900。本文將HRSC2016-SL數據集分為7∶3的訓練集和測試集。該數據集中部分樣本數據如圖6所示。
當只有少數訓練樣本可用時,數據增強[23]對于訓練網絡所需的不變性和魯棒性屬性至關重要。本文應用旋轉、隨機裁剪、隨機比例、移位等圖像增強方法來處理訓練集中的圖像和標簽,然后獲得17 000張圖片的訓練集。所有實驗都使用帶有Tensorflow后端的Keras框架進行編程。

圖6 遙感圖像海陸分割數據集HRSC2016-SL訓練樣本
為了做出有效的評估,本文使用了類別并比(IOU)的平均值(mIoU)作為評估指標。類別交并比IOU為目標實際位置與預測位置的交集與并集的比值。而平均類別交并比mIoU為各個類別交并比的平均值。

為了更好地評估本文算法中編碼器的性能,本文在HRSC2016-SL測試集進行測試,首先對MEFF-Net算法與U-Net算法進行實驗對比,實驗結果如表1所示。從表中可以看出,本文基于U-Net設計的新的網絡結構MEFF-Net在平均IOU上提升了1.31%的性能。在具有相同編碼器-解碼器算法結構的情況下,實驗證明本文改進后的多尺度輸入并行編碼器有助于編碼器提取更多具有不同尺度上下文信息的豐富特征算子,有助于提升艦船目標識別精確度,幫助語義分割網絡實現更加精確的目標分割。

表1 MEFF-Net算法與U-Net對比結果 %
在實驗參數設置相同的情況下,將本文算法與現有的SegNet、FCN算法及文獻[15]所提算法進行對比。實驗結果如表2所示。從表中可以看出,MEFF-Net算法獲得了最好的分割結果,與SegNet算法相比,平均IOU上升了8.74%的分割精確度;與文獻[15]所提算法相比,平均IOU上升了3.34%;與FCN算法相比,平均IOU上升了2.02%的分割精確度。

表2 MEFF-Net算法與其他語義分割算法對比結果 %
從實驗結果中可以看出,本文所提MEFF-Net算法的性能優于SegNet,文獻[15]所提算法以及FCN算法。其主要原因在于SegNet算法雖然同為編碼-解碼結構,但其僅僅只利用了一種尺度的輸入圖像,同時編碼結構中沒有對不同尺度的特征圖進行融合。文獻[15]將三個不同尺度的圖像作為全卷積網絡的輸入得到三個不同尺度的分割圖,最后將其融合取平均來提升分割性能。而FCN算法中的特征提取部分不僅沒有融合多尺度特征圖,其像素恢復部分也較為粗糙,不如解碼器的恢復更加細致。而本文所提MEFF-Net算法不僅利用了多個不同尺度的輸入圖片作為三個并行編碼結構的輸入,而且在編碼器對其進行不同尺度的特征提取過程中,對不同編碼結構中的不同編碼模塊進行特征融合,豐富了編碼器所提取的特征算子的上下文語義信息,提升了目標識別精度。同時,將低層編碼器中具有精密位置信息和多尺度上下文信息的特征圖與解碼模塊相融合,利用解碼器對目標位置進行像素級恢復,提高了對圖像細節的分析能力以及像素位置信息的密集恢復能力,得到了遙感圖像艦船目標最優語義分割結果。
為了測試本文算法中網絡深度對海陸分割的影響,在原網絡的基礎上,增加網絡的深度,在每個編碼模塊中均分別添加一個卷積層和一個relu激活層,構成MEFF-Net(2)網絡。在每個編碼模塊中均分別添加兩個卷積層和兩個激活層,構成MEFF-Net(3)網絡。將具有不同深度的MEFF-Net算法進行對比,實驗結果如表3所示,實驗結果證明,隨著網絡深度的增加,海陸分割效果變得更好。原因在于,隨著網絡深度的增加,有效感受野不斷增加,具有復雜特征信息的陸地獲得了更豐富的上下文語義信息,有效地提升了陸地的分割精度。

表3 MEFF-Net算法網絡深度對分割效果的影響%

表4 卷積核大小對分割效果的影響%
與此同時,本文驗證了卷積核大小對海陸分割效果的影響,實驗結果如表4。實驗表明,隨著卷積核的增大,感受野增大,有效感受野也隨之增大,對于大面積的陸地分割而言,有利于獲得更多的上下文信息而實現更加精確語義分割。如圖7所示為本文改進算法與其他算法的分割預測結果圖。相比于現有的其他算法,MEFF-Net算法有效地改善了像素分類以及邊界分割模糊問題,分割預測結果更加準確。

圖7 算法結果對比圖
本文根據遙感圖像海陸分割特點,在經典的U-Net網絡基礎上進行算法改進,提出了一個新的編碼-解碼網絡結構MEFF-Net。該網絡結構中的編碼部分包含3個并行的編碼結構,分別以分辨率為256×256、512×512以及1 024×1 024的圖像作為輸入,則這三個并行的編碼結構分別可以獲得不同尺度的特征圖,通過對多尺度特征圖進行融合,有助于特征網絡提取更加豐富的語義信息。網絡中的解碼部分利用跳躍結構融合了編碼結構中豐富的位置信息,提高了圖像位置信息的恢復精度。除此以外,本文構建了一個新的海陸語義分割數據集HRSC2016-SL,在該數據集上,改進后的MEFF-Net算法精確度具有明顯提升,有效地改善了像素分類以及邊界分割模糊問題。