張秦瑞,林國軍,朱晏梅
(四川輕化工大學自動化與信息工程學院,四川宜賓 644000)
遙感是一項利用傳感器進行非接觸、遠距離的探測技術,通過傳感器探測物體的輻射、反射特性,從而進行感知和識別[1]. 高分辨率遙感圖像能夠反應豐富的地表信息,被廣泛應用于國土資源規劃、城市規劃、氣象觀測等領域[2-4].20世紀90年代,深度學習首次在實際場景中得到應用,LeCun 用其提出的LeNet 網絡對手寫數字進行自動識別[5],但由于當時電腦技術還不夠成熟,深度學習發展緩慢. 2012 年,Krizhevsky 等人使用AlexNet 網絡[6]取得了ImageNet圖像識別大賽的冠軍. 至此,深度學習重新進入人們視野,各種卷積神經網絡也相繼被提出[7-9]. 2015年,Long 提出的FCN 網絡[10]將傳統卷積神經網絡的輸出層,從原來的全連接層替換為卷積層,實現了卷積神經網絡對圖像的語義分割,隨后Ronneberger等人提出U-Net 網絡[11],保證了數據集較小情況下的圖像分割精度. 2016 年,Badrinarayanan 等人正式提出了組成結構為編碼器、解碼器的SegNet網絡[12],較好地對圖像進行語義分割. 本文通過向SegNet 網絡引入金字塔池化模塊,構建P-SegNet 網絡模型,對遙感圖像進行語義分割,以此監測城市植被、道路、建筑及水域分布,為城市發展提供決策幫助.
SegNet[12]是一個經典的深度學習分割網絡,借用了一部分經典的卷積神經網絡,可以對圖像中的物體所在區域進行像素級別的分割,其實現由一個卷積神經網絡構成,主要由編碼器(Encoder)和解碼器(Decoder)兩部分構成,如圖1所示.

圖1 SegNet網絡結構[12]Fig.1 SegNet network structure
本文基于SegNet 網絡構建一種新型P-SegNet網絡模型,該網絡在SegNet 基礎上加入金字塔池化模塊(Pyramid Pooling Module, PPM)[13],使得改進后的P-SegNet 網絡在SegNet 原有編碼基礎上進一步提取圖像特征,聚合不同區域的上下文信息,提高獲取全局信息的能力,P-SegNet 網絡在編碼部分將PPM 網絡結構獲得的特征圖像,與解碼部分得到的特征圖像進行連接(Concat),進而提升對遙感圖像的識別精度,其網絡結構如圖2所示.

圖2 P-SegNet網絡結構Fig.2 P-SegNet network structure
金字塔池化模塊(PPM)結構如圖3所示,它能夠聚合不同區域的上下文信息,從而提高獲取全局信息的能力,其結構主要功能是從輸入的特征層里獲取劃分成不同大小的網格,每個網格內部各自進行平均池化.

圖3 PPM網絡結構Fig.3 PPM network structure
本文對特征圖像進行1×1、2×2、4×4 以及8×8的平均池化,對其結果進行卷積核數量為64 的卷積,激活函數為Relu,最后使用Upsample 的雙線性插值方法對特征圖像進行上采樣,對數據進行恢復,PPM的網絡具體參數見表1.

表1 金字塔池化(PPM)具體參數Table 1 Specific parameters of Pyramid Pooling Module
本文在對P-SegNet 網絡進行訓練時,優化器選用為Adam,學習率設為0.000 1,Batch Size 設為8,epoch 設為20 次,設定shuffle 值為20 000,以達到防止網絡訓練過程中發生過擬合的目標.
實驗基于Tensorflow+Keras 深度學習框架,實驗環境硬件與軟件配置見表2.

表2 實驗環境硬件與軟件配置Table 2 Hardware and software configuration of experimental environment
實驗使用“CCF 大數據與計算智能大賽”公開的數據集,數據集中有5 類分類樣本,分別是:植被、道路、建筑、水體以及其他. 因為卷積神經網絡模型表達能力比較強,為了防止出現網絡過擬合,因此需要對數據集進行增強操作,實驗對數據集中圖片按照256×256 像素大小進行隨機切割,并在切割得到的圖像上進行:旋轉90°、水平翻轉、垂直翻轉等操作,將數據集擴增到120 000 張256×256 像素的圖片,訓練集與驗證集的比例為8∶2,其中訓練集96 000張,驗證集24 000張.
本文使用常用的模型評價指標準確率(Accuracy)以及誤差(Loss)對模型進行評價.
(1)各網絡模型Accuracy/Loss數據分析
在經過不低于30 小時的訓練之后,SegNet 和P-SegNet 網絡訓練得到的Accuracy/Loss 曲線圖如圖4所示,圖中acc和loss代表訓練集準確率和誤差,val_acc 和val_loss 代表驗證集的準確率和誤差. 統計各個網絡模型的訓練日志,結果如表3所示.

圖4 各網絡模型的Accuracy/Loss曲線圖Fig.4 Accuracy/Loss curve of each network model
通過圖4及表3數據可以明顯看出:SegNet網絡的acc在epoch 次數達到15次時趨于穩定,最終在迭代次數為20 次時,達到頂峰的95.82%,loss 下降到0.10. P-SegNet 網絡因為加入金字塔池化(PPM)網絡結構,在網絡編碼階段對圖像進行了多尺度的特征提取,在解碼階段將金字塔池化(PPM)提取到的特征信息,與SegNet 上采樣特征進行融合,從而加強了對圖像全局特征的提取能力,提升了網絡對圖像的分割精度,因此收斂速度快于SegNet 網絡,并且在訓練集中迭代次數達到20 次時,準確率acc 能夠達到96.36%,相比SegNet 網絡提升了0.54%,同時驗證集acc高于SegNet網絡0.98%.

表3 各模型訓練日志Table 3 Training log of each model
(2)驗證集分割展示
使用SegNet 和P-SegNet 網絡對驗證集大尺寸遙感圖像進行分割,分割效果如圖5 所示,圖5(a)為待分割的遙感圖像,圖5(b)是人工標簽圖,圖5(c)、圖5(d)分別是SegNet 和P-SegNet 網絡的分割效果圖.從圖5(c)可以看出,SegNet 網絡雖然完成了對圖像的分割,但是對于細節的處理還是不夠到位,存在局部無法識別的情況;圖5(d)所對應的P-SegNet 網絡分割效果優于改進前的SegNet 網絡,具體體現在細節特征的提取上,其原因就在于P-SegNet網絡加入了金字塔池化模塊(PPM),使得整個網絡對全局特征的提取能力上增強.

圖5 各網絡模型的分割效果圖Fig.5 Segmentation effect of each network model
SegNet 網絡能夠對遙感圖像進行語義分割,但存在局部特征無法提取的問題,這是由其網絡本身結構導致的. 改進后的P-SegNet 網絡,加入了金字塔池化模塊(PPM),因此能夠加強全局特征的提取,進而增強細節特征的提取,相比SegNet 網絡,PSegNet 網絡在識別準確度(Accuracy)和損失(Loss)上表現更佳,訓練集Accuracy 同比SegNet 網絡增加0.54%,驗證集增加0.98%;訓練集Loss 同比SegNet網絡減少0.02,驗證集減少0.03.