黃宇鴻 周維勛
(南京信息工程大學 遙感與測繪工程學院, 江蘇 南京 210044)
遙感影像場景級變化檢測是近年遙感影像變化檢測的一個重要發展方向,從語義層次分析場景的類別變化,其中高分辨率遙感影像具有空間分辨率高、地物細節信息豐富的特點,是一種重要的變化檢測數據源,在土地利用監測、違法用地監測、生態環境監測等領域應用廣泛。
目前場景變化檢測方法按是否分類可分為分類后比較法以及直接比較法。直接比較法是直接對同一區域不同時相影像的光譜信息差異進行比較,確定發生變化的位置與范圍,一大缺陷在于其無法給出明確的變化類型;而分類后比較法先對每一時相影像以相同的分類標準單獨分類,然后比較分類結果以確定變化信息,操作簡單且可明確變化類型,但其檢測精度也因此大大受限于兩時相影像分類的精度,故提高各時相影像分類的精度是提高分類后比較變化檢測精度的關鍵。
在影像分類中,如何對影像進行特征提取及提取影像的哪些特征影響著分類的準確性。傳統常用的特征包括紋理特征和顏色特征,如胡玉福等利用影像的紋理特征實現了高效的高分辨率遙感影像土地利用分類;陳善靜等提出一種基于滑坡區域顏色特征模型的支持向量機(support vector machine,SVM)遙感檢測方法,對滑坡區域進行了目標精確分類與識別。但是,這類特征的表達能力有限,往往無法全面反映高分辨率遙感影像復雜的深層語義信息。
隨著深度學習技術的日漸成熟,一些深度學習模型開始被應用于遙感影像變化檢測的分類后比較法中。其應用的特征主要有以下三大類:深度置信網絡特征、棧式編碼器網絡特征以及卷積神經網絡(convolutional neural networks,CNN)特征。其中,CNN特征具有很強的表達能力和泛化能力,近年來在遙感圖像分類問題上受到了廣泛的使用并取得了較好的分類精度。徐真等提出了一種基于CNN特征的合成孔徑雷達(synthetic aperture radar,SAR)圖像變化檢測方法并驗證了該方法的準確性和有效性,王艷恒等結合深度學習和超像元分割實現對同物異譜的區域做出有效判決,提升了變化檢測精度。
對于場景變化檢測,現有方法大多采用傳統圖像特征如顏色和紋理特征,或采用單一CNN特征進行分類器訓練,沒有對不同特征的變化檢測性能進行綜合性評估。因此,與現有研究不同,本文利用公開的標準數據集,對比分析了顏色特征、紋理特征以及8種CNN特征對高分辨率遙感影像變化檢測的效果,以評估不同特征提取策略對變化檢測結果的影響。
本文實驗方法的流程如圖1所示。

圖1 實驗方法流程
本文采用兩種策略提取遙感影像的場景特征,包括傳統的紋理特征和顏色特征,以及基于艾歷克斯網絡(AlexNet)、視覺幾何圖形小組十六層網絡(visual geometry group16,VGG16)、視覺幾何圖形小組十九層網絡(visual geometry group19,VGG19)、谷歌模塊組裝型網絡(Google inception net,GoogLeNet)、十八層殘差網絡(residual network18,ResNet18)、五十層殘差網絡(residual network50,ResNet50)、壓縮型網絡(SqueezeNet)和十九層黑暗網絡(DarkNet19)等網絡提取的CNN特征。
1.1.1
紋理特征紋理是圖像中某種局部序列性不斷重復的非隨機排列的視覺特征,可由像素及其鄰域的灰度分布來表現。本文對輸入圖像做小波分解后,用每個分解層上能量分布的均值和標準方差構成一個6×2的向量來表示其紋理特征。
1.1.2
顏色特征顏色特征是一種全局特征,描述了圖像所對應的地物表面性質。其中顏色直方圖是最常用的表達方法,它不易受圖像旋轉和平移的影響,且對尺度變換不敏感。本文首先將輸入圖像從RGB顏色空間轉換至HSV空間,后對H、S分量按16個等間隔區間進行量化,經歸一化后得到一個16×2的向量來表示其顏色特征。
1.1.3
CNN
特征CNN基本結構通常包括卷積層、池化層和全連接層。本文分別采用AlexNet、VGG16、VGG19、GoogLeNet、ResNet18、ResNet50、SqueezeNet和DarkNet19共8種預訓練深度學習模型對數據集圖像做特征提取。
Alexnet采用8層神經網絡結構,包括5個卷積層、3個池化層和3個全連接層,采用Relu作為激活函數并使用Dropout代替正則以降低過擬合。本文選取Alexnet的“fc8”(最后一個全連接層特征)用于后續分類。VGGNet最早由牛津大學計算機視覺實驗室提出,VGG16是其中較為典型的一個,共有16個帶參數的網絡層(不包括激活層),即13個卷積層、3個全連接層。而VGG19共19個參數層,包括16個卷積層和最后的3個全連接層。本文選取VGG16和VGG19的“fc8”(最后一個全連接層特征)用于后續分類。
GoogLeNet引進了Inception結構,深度達到22層。本文選取GoogLeNet的“loss3-classifier”(最后一個全連接層特征)用于后續分類。
ResNet網絡在結構中增加了直連通道,神經網絡學習的是上一個網絡輸出的殘差,其中ResNet18和ResNet50的深度分別為18和50,本文選取ResNet18和ResNet50的“fc1000”(最后一個全連接層特征)用于后續分類。
SqueezeNet是一種超輕量CNN模型,由AlexNet網絡發展而來,包含若干個Fire模塊結合卷積層、降采樣層、全連接層,網絡深度達到18層。本文選取SqueezeNet的“pool10”(平均池化層特征)用于后續分類。
DarkNet19是一個深度為19的卷積神經網絡,包含有19個卷積層、5個最大值池化層和1個全局平均池化層。本文選取DarkNet19的“avg1”(全局平均池化層特征)用于后續分類。
SVM是一種基于統計學習理論的機器學習算法,它通過最優化問題解算確定出特征空間的最優分類超平面,能處理復雜的數據分類問題。本文依次提取訓練集和測試集圖像的上述6種特征后,分別將訓練集的各類特征向量輸入SVM分類器內,選擇線性核函數進行訓練,將得到的訓練模型應用到測試集上進行分類測試,生成類別預測結果。若預測結果中兩時相的類別相同,則判斷該區域未發生變化;若預測結果中兩時相的類別不同,則判斷該區域發生變化。
實驗采用的數據集為MtS-WH,該數據集主要用于場景變化檢測方法的理論研究與驗證,包括武漢市漢陽區的兩幅伊科諾斯(IKONOS,世界上第一顆提供高分辨率衛星影像的商業遙感衛星)影像,大小為7 200×6 000像素,共紅、綠、藍和近紅外4個波段,空間分辨率為1m。兩幅影像分別獲取于2002年2月和2009年6月,分別如圖2(a)和圖2(b)所示。
本文選取紅、綠、藍三波段真彩色合成的影像進行實驗,標簽與地物類型的對應關系如表1所示。其中0類為未定義類,故0類不參與精度評價。
為評估各特征在場景變化檢測中的性能,本文分別將兩個時相的影像裁切為1 920幅150×150像素的場景對,去除標簽為0的場景后得到1 050對非0類場景對;然后將非0類場景對按4∶1的比例隨機劃分為訓練集和測試集。其中,訓練集用于訓練SVM分類器,而測試集用于評價基于各類特征的檢測精度。

表1 MtS-WH數據標簽與相應的地物類型

圖2 MtS-WH數據集
本文使用基于二分類混淆矩陣計算的總體精度(overall accuracy,OA)和Kappa系數作為評價指標,如表2所示。

表2 二分類混淆矩陣
總體精度是指對每一個隨機測試樣本,所分類的結果與檢驗數據類型相一致的概率。Kappa系數用于評估模型預測結果和實際分類結果的一致性。計算公式分別為

(1)

(2)
其中,p
即總體分類精度P
,p
計算公式為
(3)
其中,A
1=a
+b
,A
2=c
+d
,B
1=a
+c
,B
2=b
+d
,n
=A
1+A
2+B
1+B
2。基于不同特征的SVM分類精度和變化檢測結果對比如表3、表4所示。

表3 基于不同特征的SVM分類精度

表4 基于不同特征的變化檢測精度
結合表3、表4可知,變化檢測性能明顯與分類精度密切相關,尤其受時相2分類精度的影響。時相2分類精度大于0.86的幾種CNN特征在后續變化檢測中均表現良好。綜合分類精度和檢測精度來看,最優的是SqueezeNet、DarkNet19和ResNet50,三者在場景分類精度上分列前三且變化檢測性能是所有實驗特征中的最佳,總體精度均達0.95且Kappa達0.90,而檢測精度最差的是VGG19,其在時相2分類中的表現尤其偏差。對于時相2的分類精度,前三者分別比VGG19高出8%、7%和7%,前三者總體精度和Kappa系數分別比VGG19高出11%和25%。根據CNN特征之間的精度對比可以發現,可見分類精度越高,變化檢測的精度就越高,在Kappa系數上這種依賴關系表現得尤其明顯。
而傳統的紋理和顏色特征在分類精度和變化檢測精度上都遠遜于CNN特征,相比CNN特征中表現最差的VGG19特征,基于紋理特征進行的兩時相分類精度分別低39%和26%,變化檢測總體精度低了12%、Kappa系數低了28%,;而基于顏色特征進行的兩時相分類精度分別低27%和6%,變化檢測總體精度和Kappa系數則分別低了4%和8%。可以說,分類精度的差距帶來了最終的變化檢測精度差距。傳統特征只能提取圖像的淺層特征,未能充分利用高分辨率遙感影像提供的復雜的深層信息,在SVM分類中更容易出現誤判而導致最終的變化檢測精度偏低。
本文選取AlexNet、VGG16、VGG19、GoogLeNet、ResNet18、ResNet50、SqueezeNet和DarkNet19共8種CNN特征與傳統影像特征(紋理特征和顏色特征)分別對Mts-WH數據集進行了分類后比較的變化檢測實驗。對比實驗結果可以發現,由于缺少對深層語義信息的利用,傳統特征在高分辨率遙感影像的場景分類中表現不佳,導致其變化檢測總體精度不足0.85且Kappa系數不足0.7,較CNN特征中表現最差的VGG19特征還要遜色;能反映圖像深層語義信息的CNN特征則更加適合高分遙感場景變化檢測。其中,SqueezeNet、DarkNet19和ResNet50在場景分類中擁有最出色的表現,使得三者在變化檢測中的應用效果最好,總體精度均高達0.95,且Kappa系數達0.90。
由于本文實驗所選的數據集相對較小,各CNN特征與傳統影像特征的提取耗時差異不明顯,因此不同特征提取策略在時間效率上的性能尚未評估。下一步研究中,將選用規模更大、場景類別更豐富的數據集,結合運行耗時來對不同特征提取策略做出更為全面的性能評估。