張金松 邢孟道 孫光才
(西安電子科技大學雷達信號處理國家重點實驗室 西安 710071)(西安電子科技大學信息感知技術協同創新中心 西安 710071)
合成孔徑雷達(Synthetic Aperture Radar,SAR)具有全天時、全天候、高分辨和不受云霧影響等優點,被廣泛地應用于農業、水洋、軍事等領域[1]。實現SAR圖像的準確水域分割具有重要意義,以艦船檢測為例,經驗信息假設艦船目標位于海面、河流、湖泊等典型水域上,由于目標本身散射后向系數較大,回波信號信噪比高,在純水域上檢測艦船目標相對容易[2]。而對于水陸交接區域而言,如圖1(a)所示,由于陸地散射系數大于水域散射系數,導致原始圖像中存在復雜的陸地背景干擾,直接利用艦船檢測方法對此類圖像進行檢測,在實現水域艦船檢測的同時(圖1(a)綠色圈所示),也會導致地面區域出現多個艦船目標(圖1(a)紅色圈所示),即造成檢測漏警率高、檢測準確率低現象,從而嚴重影響艦船檢測的準確度。因此,有必要針對SAR圖像水陸交接區域研究相應分割算法,并將分割算法作為艦船目標的檢測預處理步驟,如圖1(b)所示,在分割后的水域場景(綠色區域)內檢測艦船目標,以期提高艦船目標檢測正確率[3—5]。
現有水域分割算法可以概述為以下幾類:閾值分割方法、聚類方法和邊緣檢測方法以及基于馬爾科夫隨機場的分割方法。(1)閾值分割方法利用1個或多個閾值對SAR圖像按圖像灰度進行劃分,灰度值在同一閾值范圍內的為同一類型地物[6—8];(2)聚類分割方法采用相似度統計方法對SAR圖像中的具有相似特性的像素點進行分類[9];(3)邊緣檢測方法利用水域和陸地區域后向散射系數的差異,提取水域和陸地交界區域的灰度值變化實現分割[10];(4)馬爾科夫隨機場方法基于貝葉斯理論,通過對每個像素點鄰域建立馬爾科夫隨機模型,并計算鄰域內的統計信息估計當前像素點的概率分布[11]。上述傳統方法具有各自的優勢,例如閾值分割和邊緣檢測具有計算量小、速度快特點,聚類方法和馬爾科夫隨機場方法在簡單場景SAR圖像上可獲得非常高的分割準確度。但上述方法容易受噪聲影響,且算法參數調整過程需要過多人工參與,適用于簡單場景,在復雜真實的SAR圖像上,無法兼容水域分割的準確性、魯棒性和實時性等要求[3]。
在深度學習用于圖像分割方面,文獻[12]率先開發了經過端到端訓練的全卷積網絡 (Fully Convolutional Network, FCN) ,用于圖像分割,FCN采用任意大小的圖像作為輸入,可生成與原圖像相同大小的分割圖像。文獻[13]將文獻[12]的FCN擴展到生物顯微鏡圖像分割,創建了U-net網絡,該網絡由兩部分組成:卷積部分用于計算特征,擴張部分用于對圖像進行空間定位,下采樣部分具有類似FCN的結構,提取具有 3 ×3卷積的特征,上采樣或擴展部分使用上卷積減少特征圖的數量,同時增加尺寸和寬度,最后采用 1 ×1卷積處理特征圖以生成分割結果,從而完成對輸入圖像的逐像素分類。此后,U-net架構在FPN, PSPNet,Deeplabv3+等分割模型[14—17]中得到了廣泛的擴展。
本文基于深度學習技術,首先收集了原始高分三號星載SAR滑動聚束模式數據,對數據做預處理操作,建立水域分割數據集。然后研究了深度分離卷積和擴張卷積的算法原理,基于殘差連接網絡架構和密集連接網絡架構構建了基于深度分離卷積的SAR圖像特征提取網絡,在此基礎上,結合特征提取網絡和擴張卷積以及雙線性插值上采樣方法,構建了基于編碼-解碼架構的SAR圖像水域分割網絡架構。測試集數據以及其他模式下的SAR圖像的分割結果,證明了所提方法的有效性以及工程的可實現性。

圖1 水域分割對艦船檢測意義Fig.1 Significance of water segmentation for ship detection
深度學習服從統計學規律,其假設測試數據和訓練數據服從同一概率分布,即當數據量足夠大時,便可以用神經網絡擬合的權重參數來準確對測試數據預測,數據量越大,網絡泛化性能也越為優異。為了實現準確的水域分割,本文選取高分三號衛星數據作為數據源。高分三號是我國首顆自主研制的C頻段多極化SAR衛星,具有高分辨率、大成像幅寬、高輻射精度、多成像模式和長時工作等特點[18,19]。該衛星共有12種成像模式,其中5種分辨率較高的成像模式對應的成像參數如表1所示。

表1 高分三號成像模式Tab.1 The imaging modes of GF3 satellite
本文收集了10幅高分三號聚束模式的SAR圖像,用來訓練和測試水域分割算法的性能。由于2維采樣率不一致導致SAR圖像出現形變,采用多視處理對原始SAR圖像進行幾何校正。同時原始SAR圖像能量值起伏明顯,采用對數函數對原始圖像進行量化,并根據量化結果手動調整圖像灰度值至0~255像素。標注工具采用LabelMe開源工具包進行標注,標注過程中由手工記錄陸地和水域的交接邊緣,陸地區域標記為類別“0”,水域標記為類別“1”。另外由于各區域面積差異較大,寬幅陸地區域內出現的面積較小、對艦船檢測影響可以忽略的水域統一標記為陸地,對應的標記結果為與原始大圖尺寸完全一致的標簽圖像。由于原始圖像尺寸較大,直接采用圖像進行分割會造成計算量較大、運算速度慢,因此對原始圖像和對應標簽進行4倍線性降采樣處理,在損失較少圖像信息的前提下,保證圖像檢測準確度。此外,由于卷積神經網絡對輸入圖像的尺寸限制,以513像素為步長將原始圖像裁剪成尺寸為513 × 513像素的小圖像,尺寸不足的地方以0像素填充,填充后的區域默認為水域。另外深度卷積神經網絡具有旋轉敏感性,無法捕獲輸入圖像在多個角度的特征,以30°為間隔對裁剪后的圖像進行多次旋轉。在旋轉的同時,做了左右翻轉以及上下翻轉操作對數據進行擴充。除上述步驟外,不再采用其它方法對SAR圖像進行調整和擴充。在裁剪和擴充過程中,圖像的數量和尺寸變化情況圖像如表2所示。為了對分割算法進行訓練、驗證和測試,數據集中17102張圖片作為訓練數據集,3019張圖片作為驗證數據集,1059張圖片作為測試集。

表2 數據集圖像組成Tab.2 The composition of dataset
傳統深度神經網絡中的卷積層采用的卷積方式如圖2(a)所示,其利用每個卷積核同時對特征圖的2維平面特征和通道特征進行卷積,在尺寸維度和通道維度存在參數耦合,會造成卷積核參數較多,計算復雜。
本文所采用的卷積網絡以深度分離卷積網絡為基本架構[20],結構如圖2(b)所示,其將常規卷積分解為兩個獨立的卷積過程:深度卷積和逐點卷積。其中,深度卷積采用維度為m×n×1×C1的卷積核對輸入特征圖進行濾波,經卷積獲取的中間特征圖的通道個數與輸入特征圖的維度一致;而分離卷積則只考慮通道特征,不考慮圖像的兩維尺寸特征,直接采用 1 ×1×C1×C2的卷積層對中間特征圖進行濾波,表示每個卷積核的通道個數,與中間特征圖的個數一致,表示卷積核的個數。深度分離卷積最終可以得到與常規卷積方式類似的輸出特征圖,同時解耦了特征圖在2維平面特征和通道特征的相關性。
在卷積神經網絡中,接收域代表著卷積輸出特征圖中的每個像素點對卷積輸入特征圖中像素點的抽象能力。如圖3(a)所示,利用尺寸為 3 ×3的卷積核對輸入特征圖進行特征提取,輸出特征圖的接收域同樣為 3 ×3。高的接收域代表著更優異的上下文信息提取能力,常規卷積網絡一般采用卷積層串聯池化層的做法,以期提高卷積結果的接收域,但對于水域分割來說,池化層的降分辨率操作會造成對原始輸入圖像的信息丟失,因此本文在卷積過程中采用擴張卷積網絡提取特征[21],從而兼顧卷積網絡的高分辨率和高特征提取能力。擴張卷積過程如圖3(b)所示。
可見,圖3(b)所示的擴張卷積在不增加卷積核參數量的情況下,充分融合了特征圖的周圍像素信息,將輸出特征圖的接收域由3×3像素擴展到5×5像素,更有利于水陸分離任務中像素點分類的準確性。
本節采用3.2節所述的深度可分離卷積和擴張卷積構建SAR圖像特征提取網絡,網絡結構如圖4所示。

圖2 常規卷積和深度分離卷積結構對比圖Fig.2 Comparison of conventional convolution and depthwise separable convolution

圖3 常規卷積和擴張卷積結構對比圖Fig.3 Comparison of conventional convolution and dilated convolution

圖4 特征提取網絡結構示意圖Fig.4 The structure of feature extraction network
該特征提取網絡由3部分組成:輸入數據流、中間數據流和輸出數據流[22]。
3.3.1 輸入數據流
輸入流網絡結構如圖4(a)所示,其采用3個卷積模塊,每個卷積模塊中包含不同的卷積層,以第1個卷積模塊為例,其以原始SAR圖像xinput作為輸入,采用殘差網絡連接[23]:主干支路采用3個深度分離卷積層,卷積層的結構為4維向量 [h,w,n,s],其中[h,w]表示卷積核的尺寸,n表示采用卷積核的個數,s表示卷積核的步長,卷積層的計算方式與圖3(b)保持一致,卷積結果表示為f(x),該支路用來提取xinput的高維非線性特征;跨層連接支路則采用常規卷積對xinput做尺寸降維、通道升維,保證卷積后的特征圖g(x)維度與主干支路輸出特征圖f(x)維度一致。原始SAR圖像經過輸入數據流后,輸出特征圖尺寸降低為輸入圖像的1/8,特征圖的個數則增加到728。
3.3.2 中間數據流
中間數據流網絡結構如圖4(b)所示,其由4個相同的分離卷積模塊組成,每個分離卷積模塊由基于殘差連接的3個分離卷積層組成,卷積層的步長s=1。為了提高各分離卷積模塊之間的特征映射關系,本文提出了基于密集連接的分離卷積網絡,其網絡結構如圖4(b)所示。設xl-1為上層分離卷積模塊的輸出,hl為表示對分離卷積模塊做非線性變換函數,則對于傳統逐層連接方式而言,第l層的輸出特征圖l則表示為

3.3.1 節所述的殘差連接方式則表示為

密集連接網絡與殘差網絡區別在于,殘差網絡將上層網絡輸入特征圖xl-1和對其進行非線性變換hl(l-1)的求和作為下層網絡輸入,而密集連接網絡則將所有前層網絡模塊的輸出特征圖做通道并聯,并將并聯后的特征圖作為下層網絡輸入[24],其計算方式可以表述為

3.3.3 輸出數據流
輸出數據流結構如圖4(c)所示,其包含2個深度分離卷積模塊,第1個卷積模塊與上節所述殘差模塊結構類似,第2個卷積模塊聯合深度可分離卷積和擴張卷積,擴張卷積的擴張率依次為(1, 2, 4)。另外,第2個分離卷積模塊的各層間不采用殘差連接,而是直接采用級聯方式。
本節所述的特征提取網絡中除殘差連接的跨層連接支路外,其他所有的深度分離卷積層均采用非線性修正單元函數作為激活函數[25]。另外,由于網絡經過每層深度分離卷積后,網絡的權值參數和輸出特征圖的概率分布會發生變化,導致網絡訓練時在反向傳播過程中出現梯度消失現象,無法訓練得到局部最優值。針對此問題,該網絡結構采用了塊歸一化層對每層輸出特征圖的分布進行了重新調整[26]。
原始SAR圖像經過特征提取網絡的多次卷積之后,雖然特征圖通道個數增多,但特征圖的分辨率信息會下降。為了實現準確的水域分割,必須通過卷積網絡逐層恢復圖像分辨率信息,以得到與原始輸入SAR圖像尺寸完全一致的分割結果。本文基于該思想,提出了基于編碼-解碼結構的水域分割網絡,通過雙線性插值進行上采樣并添加多個卷積層獲得與原始SAR圖像逐像素對應的分割結果,網絡結構如圖5所示。
該網絡由編碼架構和解碼架構2部分組成,其中編碼架構的意義在于,通過深度分離卷積和擴張卷積等形式,提取輸入圖像在多個分辨率條件下的特征表示,而解碼架構則利用提取的多維特征信息,構建深度神經網絡,完成對輸入圖像中逐像素的類別判斷[16]。
編碼架構由特征提取網絡和空洞金字塔池化模塊構成。其中,特征提取部分采用上節所述的特征提取網絡,輸入的SAR圖像在經過特征提取模塊后,特征圖尺寸減小為原始輸入圖像的 1 /16,而特征圖的個數則增加到2048。
擴張空間金字塔模塊的主要意義在于增加所提取的高維特征圖的上下文信息概括能力。如圖5所示,該模塊采用多個不同的擴張率(6, 12, 18)對特征圖進行擴張卷積,使特征圖中的每個像素點充分融合周圍像素點的特征,即獲取更多的上下文信息,多個擴張率的選擇能提取多尺度的特征信息。該模塊在采用擴張卷積對特征圖進行多尺度特征變化的同時,也采用了 1 ×1的卷積層和全局平均池化以保留特征圖的自身原始信息。為了綜合各個卷積層提取的特征圖,該模塊按通道維度對各特征圖進行合并,由于合并后的特征圖維度較大,采用1×1卷積對該特征圖進行降維,并獲得編碼架構最終的輸出特征圖。
解碼架構如圖5所示,解碼架構將特征提取網絡中輸入數據流的第2個分離卷積模塊提取的特征圖作為低維特征輸入,將輸出數據流提取的特征圖和編碼結構的末端輸出特征圖作為高維特征輸入。

圖5 基于編碼-解碼結構的SAR圖像水域分割網絡示意圖Fig.5 The structure of encoder-decoder network for water segmentation

為了將網絡的輸出映射到每個類別的概率值,輸出層采用softmax作為激活函數[27]


下面給出實驗結果對比及相關分析。
5.1.1 訓練參數設置
學習速率決定了反向傳播過程中梯度下降的速度,本文采用多項式算法調整學習速率,設第代學習速率為


另外,由于顯存空間限制,每次訓練輸入的圖像數量設為4。網絡采用基于Imagenet數據集[29]訓練好的模型作為分割網絡中特征提取網絡的訓練初始值,其他參數則采用隨機初始化。
5.1.2 訓練結果
網絡訓練結果如圖6所示,其中圖6(a)表示訓練過程中學習速率隨訓練步長變化結果,與式(7)所示變化規律保持一致。圖6(b)則表示訓練過程中損失函數變化情況,紅線表示具體變化,綠線表示損失值包絡。由圖中可見,隨著訓練步數增加,損失函數逐漸收斂到最優值。
在網絡訓練完成后,本文在測試集中任意選取了1幅包含陸地和水域場景在內的SAR圖像,如圖7(a)所示,圖7(b)為分割網絡對輸入圖7(a)的預測分割結果,圖中藍色區域表示水域,黑色表示陸地區域,可見圖像中水域和陸地邊緣均被有效分割,且保持了完整的邊緣輪廓。為了更直觀理解網絡的工作原理,輸入圖7(a)在網絡傳播過程中的高維特征圖,如圖7(c)到圖7(g)所示。
在第2節數據集部分,考慮到較小的原始圖像數據量,為提高水域分割網絡的準確度,本文采用旋轉和翻轉等操作對原始SAR圖像進行擴充,并利用擴充后數據集訓練、驗證和測試網絡結構。為了驗證數據擴充對網絡的水域分割性能的影響,本文詳細比較了利用所提分割網絡對不同的數據所產生的分割結果,結果如表3所示。
由表3可見,采用未擴充的數據訓練分割網絡,像素準確度僅為0.9569,分割交并比為0.9497;而分別采用旋轉和翻轉操作均能提高分割準確度。分割性能最為優異的是本文采用的旋轉加翻轉的數據擴充方式,使像素準確度和分割交并比分別提高了0.03和0.035,達到了較高的分割準確度。因此數據擴充對分割性能具有著重要影響。
在3.3節特征提取網絡部分,為了增強特征提取網絡對SAR圖像的特征提取能力和誤差的反向傳播能力,本文分別將殘差連接和密集連接應用到特征提取網絡的不同數據流部分。殘差連接和密集連接對分割網絡的性能影響如表4所示。
表4中的結果均為采用擴充后的數據集訓練的網絡模型的分割結果。其中直連方式代表特征提取網絡內部不采用任何跨層連接方式。殘差連接代表如圖4所示的網絡連接,但中間數據流不再采用密集連接;密集連接方式則與其相反。而殘差加密集連接即本文所提的連接方式與圖4保持完全一致。由表4可見,分別采用殘差連接和密集連接都能有效提高分割的像素準確度和交并比。而采用所提的殘差加密集的連接方式,使像素準確度和分割交并比分別提高了0.057和0.055,性能明顯提升。
為了證明本文算法的分割有效性,本文采用了多種分割方法和所提算法進行對比。首先在測試數據集中選取了2幅包含水域和陸地在內的SAR圖像,如圖8(a)所示。輸入圖像對應的真實標簽如圖8(b)所示,標簽中的黑色區域表示分割后的水域場景,白色表示分割后的陸地區域。針對傳統分割方法,選取了FCM方法[9]、MRF方法[11]、基于形態學操作改進的OTSU方法[4]和Levelset[30]方法,針對深度學習方法,選取了Unet方法[13]和Deeplabv3+[16]方法,各方法的分割結果如圖8(c)到圖8(i)所示。

圖6 分割網絡訓練結果示意圖Fig.6 Training results of segmentation network

圖7 網絡分割結果示意圖Fig.7 Segmentation results of segmentation network

表3 數據擴充對分割性能的影響Tab.3 Segmentation effects of data augmentation

表4 網絡結構對分割性能的影響Tab.4 Segmentation effects of network structure
由分割結果中可見,傳統方法能有效提取圖像中的輪廓變化特征,但對陸地區域存在過分割現象,且水域和陸地區域分割結果不明確,分割結果中錯分類的像素點個數較多。而深度學習方法則普遍能準確地提取水域和陸地區域,相比于傳統分割方法,性能大幅提升,但也存在一些問題,例如Unet方法[13]對水域和陸地交界輪廓不明確,丟失了完整的邊界信息,而Deeplabv3+方法[16]雖然分割效果較好,但仍然存在邊界信息缺失現象。相比于Unet和Deeplabv3+,本文所提方法將密集分離卷積網絡應用于SAR圖像的特征提取,并且采用擴張金字塔池化模塊和多個特征上采樣模塊逐層恢復輸入圖像的分辨率信息和語義信息,圖8(i)所示的分割結果證明了所提方法在實現準確水域分割的基礎上,也極大程度地保留了水域和陸地邊界信息,且分割結果基本與圖8(b)所示的分割標簽保持一致,說明了所提方法具有較高的水域分割準確度。
為了定量分析各算法的分割效果,對比了像素準確度(Pixel Accuracy, PA)、分割交并比(Intersection over Union, IoU)以及分割速度等多個指標,結果如表5所示。
由表5可見,在像素精度和交并比上,深度學習方法均取得了比傳統方法較好的結果,且本文所提方法在2個評估指標上均領先于其他分割算法,與圖8所示分割結果保持一致。此外,本文所提方法在運行速度上也具有一定優勢,對于像素為513×513的裁剪后的輸入小圖像,處理速度為0.14 s/張,對于像素約為 1 0,000×10,000的原始寬幅SAR圖像,處理速度為3.5 s/張,可見所提方法相比于其他深度學習方法在以增加部分計算量為代價的前提下,兼顧了分割準確度和分割速度,具備一定的工程實用價值。
由于不同模式下雷達工作參數有所差異,水域和陸地場景的后向散射系數會出現變化,進而導致SAR圖像特征出現差異。為了證明所提算法的魯棒性,采用上述利用滑動聚束(SL)模式的SAR圖像訓練好的網絡模型,對多模式以及多極化方式下的星載SAR圖像分割效果進行測試,結果如圖9和圖10所示。

圖8 各方法分割結果對比圖Fig.8 Segmentation results of different methods

表5 各水域分割算法性能對比Tab.5 Segmentation performance of different methods

圖9 不同工作模式分割結果對比圖Fig.9 Segmentation results of different imaging modes

圖10 不同極化方式分割結果對比圖Fig.10 Segmentation results of different imaging polarizations
由于原始圖像尺寸較大,首先將原始圖像無重疊裁剪到 5 13×513像素,然后利用所提的分割算法對裁剪后的圖像進行分割,并將分割結果按原始裁剪位置重新合并成大圖。由圖9可見,所提分割模型在不同地區的多種工作模式下,取得了較好的分割效果,除了圖9(c)中將機場區域錯劃分為水域外,圖中的水域和陸地區域均被有效分割。另外,同一地區不同極化模式對應的原始SAR圖像及對應的分割結果如圖10所示,由于不同極化方式下部分陸地區域圖像灰度值變化明顯等,所提方法將此類陸地區域錯誤劃分成了水域,導致分割性能下降。除了這部分區域外,所提方法在不同極化方式下對其他區域均實現了有效的水域分割。
本文所提分割方法在各工作模式和極化方式下的交并比分割結果如表6所示,可見分割結果與圖9和圖10分割結果保持一致,充分說明所提方法具有較好的魯棒性,即利用滑動聚束模式、HH極化方式的SAR圖像進行訓練所獲取的分割模型,能有效實現多種成像模式和多種極化方式下的水域分割。

表6 本文方法對多模式多極化下SAR圖像的IoU分割結果Tab.6 IoU under multi-mode and multi-polarization by the proposed method
本文針對實測SAR圖像中的水域分割難題,提出一種基于深度分離卷積和編碼-解碼架構的分割網絡模型。首先收集了高分三號SAR圖像,并根據人工標注建立水域分割數據集,研究了深度可分離卷積和擴張卷積兩種新的卷積結構,在此基礎上,提出基于密集分離卷積的特征提取網絡,并利用雙線性插值進行上采樣和利用卷積層重構上采樣特征圖,最終得到與輸入SAR圖像逐像素對應的分割結果。實驗結果證明本文所提方法在SAR圖像水域的準確度、魯棒性和實時性上,均取得了較為理想的分割效果,具備較好的工程實用價值。