史路路,鄭柯,唐娉,趙理君
(1.中國科學院遙感與數字地球研究所,北京 100101;2.中國科學院大學,北京 100049)
遙感影像數據在全球資源變化監測和土地覆蓋分類問題過程中發揮著積極作用,如何進一步提高遙感影像土地覆蓋分類精度具有十分重要的意義。傳統的基于像元的遙感影像監督分類算法主要根據地物光譜[1-5]對圖像進行分類。但由于同譜異物現象和大量混合像元的存在,基于像元光譜特征的分類方法往往不能達到滿意的分類效果。另外研究人員還提出了基于紋理鄰域信息的方法來彌補僅依靠光譜特征進行分類的不足,黃昕等提出了像元形狀指數[6](PSI),鄭淑丹等提出使用基于分形和灰度共生矩陣紋理特征[7]的分類方法。這些傳統分類方法雖然能夠很好地避免分類量大、時間長、精度受人為因素影響等缺點,但受到所設計特征語義表達能力的限制,分類精度仍無法令人十分滿意。
近年來,基于特征自學習的卷積神經網絡(convolutional neural networks)在圖像分類識別問題上取得了大量成功應用[8-13]。在2012年的ILSVRC(imagenet large scale visual recognition challenge)比賽上,Alex等[14]用AlexNet模型實現了top-5錯誤率為15.3% 的好成績。許多經典的網絡模型結構隨之涌現出來,如GoogLeNet[15]、ResNet[16]等。深度學習在遙感影像分類方面的應用主要集中在基于圖片粒度的場景分類識別方面;Hu F[17]等通過從多個提前訓練好的深度卷積神經網絡模型中提取特征并送入到簡單的分類器中進行分類,在UC-Merced和WHU-RS數據集上的分類精度都達到了96.8% 以上。然而卷積神經網絡在土地覆蓋分類中鮮有報道,主要原因在于UC-Merced等遙感場景圖像與ILSVRC分類圖像在圖像尺寸上具有相似性,模型的遷移較為簡單,但在土地覆蓋分類中訓練樣本通常采集以樣本點為中心的鄰域參與訓練,具有樣本數量少、樣本尺寸小、樣本類別少的特點,這些經典的網絡模型在解決遙感圖像土地覆蓋分類問題中存在樣本形式與網絡輸入輸出要求不匹配等問題,導致模型無法直接應用,因此必須重新設計適用于土地覆蓋分類小樣本尺寸特點的模型。L?ngkvist等[18]對比了多個自設計卷積神經網絡應用于高分辨率多光譜正射影像并結合DSM模型數據在城市地物類別像素分類實現了94.49% 的最好分類精度,但其在中低分辨率影像中的分類效果還有待驗證。張偉等[19]在GF-1號16 m分辨率影像上使用AlexNet模型作為特征提取器,使用提取的特征輸入SVM分類器使土地覆蓋分類實現了97.8%的分類精度,但是并沒有解決AlexNet模型輸入層尺寸過大和土地覆蓋分類基于鄰域窗口樣本尺寸過小的問題。另外,卷積神經網絡本身是一個具有強大的特征學習能力的分類器,是可以直接將學到的特征通過SoftMax層實現分類結果輸出。
針對上述問題,本研究基于卷積神經網絡強大的特征學習能力和特征表示能力以及土地覆蓋分類區別于ILSVRC圖像分類的特點,使用Caffe深度學習框架,在參考了AlexNet等ILSVRC成功模型網絡結構特點的基礎上,設計了一個具有3個卷積層、2個全連接層和1個SoftMax層的卷積神經網絡(land-cover convolutional neural network,LCNet),實驗使用陸地衛星中分辨率影像和快鳥高分辨率影像作為實驗數據,對比了不同樣本尺寸大小與不同分辨率影像對模型分類結果的影響,并與傳統的基于光譜特征和光譜加紋理特征的方法進行了對比分析,表現出了更強的土地覆蓋分類能力。
AlexNet網絡模型是ILSVRC比賽中第一個真正的深度卷積神經網絡,在圖像識別分類領域引起了巨大轟動。該模型以227像素×227像素圖像作為輸入,經過卷積層(conv),Relu激勵操作,池化層(pool),規范化(norm)運算,dropout防止過擬合策略操作,經過2個全連接層,最后送入1個SoftMax層進行結果分類。圖1是AlexNet模型結構示意圖,它是由5個卷積層和2個全連接層構成的7層深度卷積神經網絡。

圖1 AlexNet模型結構圖
1)卷積層(conv)。在卷積層,上一層的特征圖(feature map)被一個可學習的卷積核進行卷積,然后通過一個激活函數(activation function),就可以得到輸出特征圖,每個輸出特征圖可以組合卷積多個特征圖的值:
(1)
(2)

2)修正線性單元ReLU (rectified linear unit)。在神經網絡中需要引入一些非線性的因素,來更好地解決復雜的問題。激活函數恰好能夠幫助引入非線性因素,使得神經網絡能夠更好地解決較為復雜的問題。修正線性單元恰是后期改進的激活函數。
f(x)=max(0,z)
(3)
式中:z為上一層的卷積操作計算結果,通過修正線性單元激活函數進行非線性映射,相比傳統sigmoid激活函數,ReLu激勵函數克服了sigmoid激勵函數的梯度飽和問題,在反向傳播計算過程中,緩解了梯度彌散的問題,并且ReLu計算速度快,加快了模型收斂的速度。
3)下采樣層(pool)。下采樣層將每個輸入特征圖通過下面公式操作進一步減少模型參數進而輸出下采樣過后的特征圖:
(4)
(5)

4)規范化(norm)。AlexNet模型采用的規范化操作被稱作局部響應歸一化操作,本質上是一個平滑操作,即
(6)

5)Dropout策略。Dropout策略是指在模型訓練時以一定概率讓網絡某些隱含層節點的權重不工作,由于每次用輸入網絡的樣本進行權值更新時,隱含節點都是以一定概率隨機出現,這樣權值的更新不再依賴于有固定關系隱含節點的共同作用,這樣求得的參數能夠適應不同情況下的網絡結構,進而有效阻止了過擬合,提高了模型泛化能力。
6)SoftMax分類器。SoftMax函數經常用在神經網絡的輸出層,SoftMax解決的是多類分類問題,將神經元的輸出變成概率的形式,由輸出概率大小決定其分類類別,SoftMax的公式如下:
(7)
(8)
式中:K為最后一層神經元數,也就是最后的分類類別數;zj是第i個類別的預測結果。帶入SoftMax的結果其實就是先對每一個zj取指數變成非負,然后除以所有項之和進行歸一化,現在每個σi就可以解釋成輸入數據屬于類別i的概率。
由圖1可知AlexNet模型有5個卷積層,2個全連接層。AlexNet模型標準輸入圖像大小為227像素×227像素大小,AlexNet模型將輸入圖像經過第一和第二卷積層的卷積池化操作使得圖像大小由227像素×227減小到了13像素×13像素大小,第三和第四卷積層主要做了卷積操作和特征圖層層數的增加,并經過第五個卷積層的池化操作使得圖像大小減小到6像素×6像素大小,最后送入到2個全連接層和一個SoftMax層進行分類。土地覆蓋分類相比于ILSVRC大規模圖像庫1 000類的分類任務,土地覆蓋分類具有樣本少,分類類別數少的特點,并且土地覆蓋分類訓練樣本通常采集以樣本點為中心的鄰域參與模型訓練,鄰域大小遠遠小于224×224的模型輸入。AlexNet等在解決遙感影像像素級土地覆蓋分類問題中存在樣本形式與網絡輸入輸出要求不匹配等問題,模型輸入設計太小無法構建具有一定深度的網絡結構,樣本尺寸選擇過大會淹沒中心樣本點的信息。為此,本研究結合土地覆蓋分類特點和AlexNet等模型特點設計了一個具有3個卷積層、2個全連接層和一個SoftMax層的卷積神經網絡模型LCNet。LCNet有效緩解了訓練樣本尺寸太小和模型設計輸入尺寸太大之間的矛盾。LCNet模型輸入大小為27×27,經過第一層的卷積池化操作使得圖像大小減小到13×13,第二層做卷積和特征圖層的提取,經過第三層的卷積池化操作得到6像素×6像素大小圖像,最后送入2個全連接層和一個SoftMax層進行分類,具體模型結構如圖2所示。模型訓練時我們需要將采集不同尺寸的樣本數據上采樣到標準大小(27×27)作為模型的標準輸入,采樣方法使用最鄰近采樣法以盡可能保持遙感影像的光譜信息。模型分類階段針對待分類數據的每一個像素采集一定尺寸鄰域信息并和訓練樣本做一樣的上采樣操作作為訓練好模型的輸入判斷每一個像素的歸屬類別,本研究模型LCNet的設計和模型的訓練均在Caffe深度學習框架上完成。

圖2 土地覆蓋分類模型結構圖
研究區域一實驗數據所選區域位于美國科羅拉多州的一幅陸地衛星5數據,具體陸地衛星5相機指標數據如表1所示。由于LCNet模型的輸入圖像為3波段圖像數據,本研究首先對原始影像數據進行PCA(principal component analysis)變換來提取前3個主要成分作為模型實驗數據,圖3是543波段假彩色合成影像,實驗區圖像大小為400像素×360像素大小,根據人工目視解譯和以往研究資料數據將影像中的地物類別分為林地、草地、耕地、沙地、裸地、山體地陰影6類。

表1 陸地衛星5多光譜相機技術指標
研究區域二實驗數據所選區域位于北京市昌平區的一幅快鳥數據,影成像時間為2016年10月25日,具體快鳥相機指標數據如表2所示。本研究使用321波段作為實驗數據,圖4是321波段真彩色合成影像,實驗區圖像大小為450像素×350像素大小,根據人工目視解譯和實地考察將影像中的地物類別分為林地、草地、池塘、河流、道路、黑色居民樓、紅色居民樓、高亮地物等8類。

圖3 研究區域一示意圖

波段范圍/μm空間分辨率/m幅寬/km重訪時間/d0.45~0.522.440.52~0.662.4416.51~60.63~0.692.440.76~0.902.44

圖4 研究區域二示意圖
根據目視解譯和以往研究資料從圖像中手工選取了林地,草地,耕地,沙地,裸地,山體地陰影等6類地物樣本,具體樣本數據的采集是以樣本點為中心采集樣本尺寸大小分為3×3、5×5、7×7、9×9等尺寸大小的樣本作為模型訓練數據,具體每一類的類別數量如表3所示。在模型分類結果評價中以同樣方法分別采集各尺寸樣本1 193個樣本用于分類結果精度評價,其中林地214個、裸地190個、耕地206個、草地186個、山體陰影195個、沙地202個,使用驗證樣本對不同尺寸訓練樣本得到的模型的分類結果通過計算混淆矩陣求取總體分類精度和Kappa系數進行精度評價對比分析。

表3 研究區一6類訓練樣本采集數量
由于研究區域二為視覺空間特征更好的高分辨率數據,本研究采集5×5、7×7、9×9等3類尺寸大小的樣本作為模型訓練數據,具體每一類的類別數量如表4所示。在模型分類結果評價中以同樣方法分別采集各尺寸樣本2 012個樣本用于分類結果精度評價,其中林地244個、草地231個、池塘226個、河流257個、道路227個、黑色建筑物282個,紅色建筑物279個,高亮地物266個,使用驗證樣本對不同尺寸訓練樣本得到模型的分類結果通過計算混淆矩陣求取總體分類精度和Kappa系數進行精度評價對比分析。

表4 研究區二8類訓練樣本采集數量
LCNet模型相比AlexNet模型由于層數和輸入圖像大小的變化使得模型參數大大減少,從而模型有了更快的訓練速度。由于模型訓練樣本數據數量少,本研究在訓練模型時相比AlexNet模型降低了學習率以使LCNet模型訓練能夠穩定收斂。陸地衛星數據和快鳥數據都在訓練1 000次左右時迅速達到了近90%的精度,從圖6可以看出快鳥數據相比陸地衛星數據訓練過程更為穩定。陸地衛星數據最終5像素×5像素大小的模型輸入訓練精度達到了97.76%的最好訓練精度,快鳥數據最終7像素×7像素大小的模型輸入訓練精度達到了98.13%的最好訓練精度。LCNet模型陸地衛星影像訓練過程如圖5所示,快鳥影像訓練過程如圖6所示。
將陸地衛星實驗區域的每個像素按照3×3、5×5、7×7、9×9鄰域大小進行采集分別輸入各自樣本大小訓練好的模型當中進行逐像素類別判斷,并對各自尺寸分類結果進行精度評價。快鳥數據實驗區按照5×5、7×7、9×9鄰域大小進行采集進行逐像素類別判斷。陸地衛星影像分類結果精度對比如圖7和圖8所示,分類結果如圖9所示,快鳥影像分類結果如圖10所示。
從圖9分類結果精度對比圖可以看出隨著窗口尺寸的增大陸地衛星影像的分類精度有所提高,分類精度在5×5時總體分類精度最高,隨著尺寸的增加結果影像的分類精度有所下降。從分類結果圖中可以看出圖像在3×3時鄰域信息較少,卷積神經網絡不能很好綜合鄰域信息提取有效表達地物的特征,在最終圖像分類效果相對較差;但是隨著鄰域信息的增加,包含過多的冗余信息反而對結果造成影響,從9×9分類結果圖中可以看出圖像有較強的濾波效應,圖像分類類別表現為圖像細節信息減少,類別邊緣平滑。圖像在5×5鄰域尺寸樣本細節信息相對9×9鄰域尺寸樣本表現較好;在快鳥影像分類結果中7×7樣本數據分類精度最高,在9×9分類結果圖中可以看出圖像有一定的濾波效應??禅B高分辨率影像相比陸地衛星中分辨率影像視覺空間特征更好,濾波效應減小,分類細節信息保存更好;不同尺寸對分類結果影響差距不大,模型在高分辨影像上對樣本尺寸選擇更為魯棒。

圖5 陸地衛星影像不同尺寸樣本模型訓練過程

圖6 快鳥影像不同尺寸樣本模型訓練過程

圖7 陸地衛星不同尺寸樣本模型總體分類精度

圖8 快鳥不同尺寸樣本模型總體分類精度

圖9 陸地衛星影像各尺寸大小分類結果圖

圖10 快鳥影像各尺寸大小分類結果圖
通過3.2節的實驗分析知道,針對陸地衛星影像,無論在細節保留度還是總體分類精度上,5×5大小的樣本尺寸得到的分類結果都要好于其他樣本尺寸大小,為了分析本方法模型的有效性,文章針對陸地衛星影像將使用5×5樣本尺寸大小作為本方法的標準輸入樣本大小,使用同一組訓練樣本與驗證樣本和采用光譜特征的SVM分類器以及采用光譜加紋理特征的SVM分類器進行分類結果對比。針對快鳥影像使用7×7樣本尺寸大小與傳統方法做對比。紋理特征選用基于灰度共生矩陣,加上每個波段選擇2個紋理度量均值(mean)和非相似性(dissimilarity),從而得到一個8維的紋理特征。將紋理特征和光譜特征作為SVM分類器的輸入特征進行分類。
從圖11分類結果中可以看出,利用光譜和光譜加紋理特征的分類器進行陸地衛星中影像分類時,有較多的細碎小圖斑,如圖11(b)中紅色方框部分,需要做影像分類后處理去除,存在較多將裸地錯分為陰影和草地的情況,加入紋理信息特征后陰影誤分情況減少,碎斑誤分類情況有所改善,采用LCNet在TM影像分類結果中碎斑明顯較少,裸地部分誤分草地情況大大改善,同類地物分類結果更為連續一致,可以省去分類后處理的環節。由于陸地衛星中分辨率影像視覺空間特征的限制,LCNet在中分辨率土地覆蓋分類中一定程度上損害了細節信息并且對輸入像素尺寸要求更為嚴格,快鳥高分辨率視覺空間特征更好,更有利于卷積神經網絡利用空間信息,緩解了陸地衛星中分辨率影像分類中的濾波效應。相比傳統方法誤分情況大大改善,傳統方法存在將水誤分為林地和將高亮地物誤分為草地的情況,如圖12(b)和圖12(c)中黃色和紅色方框區域,LCNet在該區域表現更好。
定量精度評價中,陸地衛星影像和快鳥影像3種分類方法總體分類精度和Kappa系數如圖13和圖14所示,從表5和表6中看出加入紋理特征后可以看出相對于表7和表8單一光譜特征kappa系數都有所提升,使用深度學習特征的總體分類精度和kappa系數都要高于其他2種傳統分類方法。并且從表9和表10混淆矩陣中可以看出LCNet相對于傳統分類方法誤分類情況較輕,加入紋理特征相對SVM誤分情況有所緩解,但依然有較大誤分,尤其對于草地和林地地物光譜差異較小的地物,單純人為的紋理構造特征并沒有得到地物之間區分的本質差異,卷積神經網絡本身作為一個強特征提取器,能夠自動迭代尋找不同樣本之間的差異,從而使光譜差異很小的不同地物得以很好地區分。在陸地衛星中分辨率影像中,分類結果連續一致性好,但本方法在去除細小碎斑的同時也少了很多細節信息,如圖11(d)中黃色方框區域。這可能是Relu非線性激勵函數和最大值池化層作用的結果,非線性函數使得一些神經元可能永遠不被激活,從而參數得不到更新,使得高亮和低亮地物出現類似濾波效果的擴張或者縮水現象,同時淹沒了一部分細節信息。由于陸地衛星中分辨率影像視覺空間特征的限制,LCNet在中分辨率土地覆蓋分類中相對于傳統方法分類精度提升有限并且對輸入像素尺寸要求更為嚴格,LCNet在高分辨率影像中細節信息保存更好,對樣本尺寸選擇更為魯棒,分類精度提升更大。

圖11 陸地衛星不同分類方法分類結果圖

圖12 快鳥不同分類方法分類結果圖

圖13 陸地衛星不同方法分類結果總體分類精度

圖14 快鳥不同方法分類結果總體分類精度

類別裸地耕地草地陰影沙地林地裸地92.631.461.083.082.480.00耕地2.1194.170.000.510.971.47草地4.212.9195.700.001.503.93陰影0.000.970.0095.380.001.13沙地0.000.000.540.0095.050.00林地1.050.492.681.030.0093.47

表6 光譜加紋理特征的快鳥分類結果混淆矩陣

表7 光譜特征的陸地衛星影像分類結果混淆矩陣

表8 基于光譜特征的快鳥分類結果混淆矩陣

表9 土地覆蓋分類模型的陸地衛星影像分類結果混淆矩陣

表10 土地覆蓋分類模型的快鳥分類結果混淆矩陣
針對卷積神經網絡在土地覆蓋分類相關研究鮮有報道,缺少相應的探索和分析,文章結合土地覆蓋分類的特點,參考AlexNet等ILSVRC成功模型結構設計了LCNet模型在中高分辨率影像土地覆蓋分類做了初步的實驗驗證,對比分析了不同尺寸樣本和不同分辨率影像對分類結果的影像,并與傳統基于光譜和基于光譜加紋理特征的分類方法進行對比得出結論:
①使用卷積神經網絡對中分辨率影像進行土地覆蓋分類時總體分類精度隨樣本尺寸先增加后減少,大的樣本尺寸對分類結果有較強的濾波效應,同時說明卷積神經網絡具有強大的特征學習能力,能在小尺寸上學得地物光譜差異,因此應為模型分類選擇合適的樣本大小。
②使用卷積神經網絡對高分辨率影像進行土地覆蓋分類時總體分類精度同樣隨樣本尺寸先增加后減少;高分辨率視覺空間特征更好,更有利于卷積神經網絡利用空間信息,緩解了陸地衛星分類中的濾波效應,分類結果細節信息保存更好;LCNet在高分辨率影像中對樣本尺寸的選擇更為魯棒,相對中分辨率影像分類精度提升更大。
③本方法中卷積神經網絡中使用了Relu非線性激勵函數以及最大值池化等操作在中分辨率影像中導致地物邊緣有擴張和縮小現象較為嚴重,這是導致細節信息減少的一個重要方面,為后續如何選擇激勵函數提出參考。
當然,本方法還存在一些不足。比如,模型參數設置是否合理,模型結構對于不同影像分辨率影像的影響,激勵函數選擇等。另一方面還需要更多參考借鑒近年來卷積神經網絡發展的新模型新技術,進一步改進模型,探究更適用于土地覆蓋分類的模型結構,為提高遙感影像土地覆蓋分類精度提供新的技術途徑。