張明華,牛玉瑩,杜艷玲,黃冬梅,2,劉刻福
基于殘差3DCNN和三維Gabor濾波器的高光譜圖像分類
張明華1,牛玉瑩1,杜艷玲1,黃冬梅1,2,劉刻福3
(1. 上海海洋大學信息學院,上海 201306;2. 上海電力大學,上海 200090;3. 自然資源部東海局,上海 200137)
高光譜圖像含有數百個波段,包含豐富的光譜信息,因此被廣泛應用于地物分類中,但仍存在著維數災難的問題。高光譜圖像中同時也含有豐富的紋理信息,有效利用紋理信息能夠顯著提高分類精度。三維Gabor濾波器不僅能夠保留圖像豐富的光譜信息,還能提取到圖像的紋理特征。為了充分利用高光譜圖像的特征,提出一種基于三維Gabor和殘差三維卷積神經網絡(Res-3DCNN)的分類方法。三維卷積神經網絡(3DCNN)能夠直接對三維立方體數據進行處理,提取到深層紋理-光譜信息,然而隨著網絡層的加深會產生網絡退化問題,因此利用殘差思想對3DCNN模型進行改進。在PaviaU,Indian Pines和Salinas 3個公共高光譜圖像數據集上進行實驗,分別取得99.17%,97.40%,98.56%的平均分類精度,結果表明該方法能有效提高高光譜圖像的地物分類精度。
高光譜圖像分類;卷積神經網絡;三維Gabor濾波器;三維卷積;殘差學習
衛星傳感器捕獲的高光譜圖像(hyperspectral images,HSI)[1]每個像素都含有大量光譜帶,能夠同時獲取地物的空間信息和光譜信息。與RGB圖像相比,HSI能夠更精細、更準確地識別地物信息。因此HSI在遙感應用中發揮了重要作用,如目標檢測、地物分類等。然而,HSI分類仍然面臨著維數災難[2]的問題。
隨著深度學習的應用愈發廣泛,利用深度學習對HSI進行分類逐步成為目前的研究熱點。卷積神經網絡(convolutional neural networks,CNN)[3]的網絡結構簡單,不需要人工設計參數,并且能夠提取深層特征。CHEN等[4]提出將空間信息加入到基于光譜信息的堆疊自編碼器(stacked autoencoder,SAE)中,提出一種新的融合光譜信息和空間信息的深度學習框架。HUANG等[5]提出雙向遞歸神經網絡(bidirectional recurrent neural network,Bi-RNN),用于HSI分類,考慮了波段之間的相關性,同時利用前向和后向的信息進行分類。無論是SAE還是RNN在輸入時都要將特征拉成一維的向量,以適應網絡結構,而HSI是三維結構,無法完整保留空間特征。二維卷積神經網絡(two-dimensional convolutional neural network,2DCNN)[6]在三通道圖像上表現良好,但是HSI有上百個波段,2DCNN無法很好地利用這些波段信息。3D圖像的處理促進了三維卷積神經網絡(three-dimensional convolution neural network,3DCNN)[7]的發展,3DCNN可以在空間維度上實施卷積操作,有效利用了圖像的空間特征,而相鄰像素一般在很小的空間里屬于同一類別的可能性很高,而且3DCNN可直接對三維數據進行特征提取,得到深層空間和光譜信息。但隨著網絡層次的加深,網絡難以收斂,尤其是在樣本量較少的情況下,網絡結構的加深并不能有效提高分類精度,甚至會呈現梯度消失和梯度爆炸的現象。殘差學習和普通神經網絡區別在于引入捷徑連接,構造殘差模塊,殘差模塊以跳層連接的形式實現,將單元的輸入直接與單元的輸出加在一起,再使用激活函數進行組合,有效防止了網絡層數加深時產生的梯度消失或梯度爆炸問題。并且殘差網絡容易優化、不會引入額外的參數。
HSI中的紋理信息,是辨別地物類別的重要因素。Gabor濾波器[8]具有提供區分性和信息性的特性,對圖像的邊緣變化敏感,有較好的方向性和尺度選擇性。與其他濾波方法相比,Gabor濾波器在提取紋理信息方面顯示出優越性能,可以同時在方向和尺度2個維度進行濾波,獲取紋理特征。付青等[9]提出了Log-Gabor-CNN方法,使用Log-Gabor提取其紋理特征。但Log-Gabor為二維Gabor濾波器,只能獲取其紋理特征而未考慮光譜信息。
三維Gabor濾波器[10]能夠在提取紋理特征的同時保留光譜信息。馮逍等[11]將三維Gabor濾波器與支持向量機(support vector machines, SVM)[12]結合(Gabor-SVM)用于高光譜影像分類。而SVM分類器雖然可以通過調節輸入的信息比如空譜信息來獲得分類結果,由于是基于淺層特征的分類,精度不高。魏祥坡等[13]提出了雙通道卷積神經網絡和三維Gabor結合的地物分類方法(Gabor-dual-channel- CNN,Gabor-DC-CNN),使用2DCNN提取圖像的空間信息,利用三維Gabor濾波器,對立方體數據進行濾波,輸入到一維卷積神經網絡(one-dimensional convolutional neural network,1DCNN)中進行深層光譜-紋理特征提取,最后將2種特征進行融合。1DCNN的感受野較小,只能考慮每個位置單獨的信息,而且需要雙通道進行特征提取,最后進行融合,需要大量的訓練時間,效率不高。
為了充分利用HSI立方體數據的信息,本文提出了一種基于三維Gabor濾波器和殘差3DCNN的HSI分類方法。該方法可以通過三維Gabor濾波器得到包含紋理-光譜信息的立方體數據,3DCNN可以直接對處理后的立方體數據進行特征提取,充分利用數據的紋理-光譜信息。在3DCNN中,添加了多個殘差模塊,用于更有效地提取抽象特征表示。同時,通過殘差模塊,解決隨網絡深度增加導致的梯度彌散和梯度爆炸問題,提升網絡性能,有效提高了HSI中的地物信息的分類精度。
本文方法針對高光譜三維立方體數據,首先使用三維Gabor濾波器,得到包含紋理-光譜信息的三維立方體數據;然后輸入到殘差三維卷積神經網絡(residual 3DCNN, Res-3DCNN)中進行特征提取,最后進行地物分類。方法總體過程如圖1所示。
由于HSI三維數據的特殊性,二維Gabor濾波器只能獲取紋理特征未考慮光譜特征。三維Gabor能夠在頻域和空間域找到最好的組合定位,在提取紋理信息的基礎上,考慮了圖像的光譜特征。Gabor濾波器的三維頻域的方向如圖2所示,對于紋理信息和光譜信息擁有較好的識別能力為





圖1 方法總體流程圖
Fig. 1 Method overall flowchart

圖2 三維Gabor濾波器角度
高光譜立方體數據(,,),使用HSI原始立方體數據輸入到三維Gabor濾波器中,經過卷積處理后,提取實部部分。構成一個具有紋理和光譜特征的新三維圖像三維結構數據,即

對于傳統的2DCNN,一般只能提取二維圖像的特征信息,而3DCNN可以通過三維卷積,提取3個維度的特征,適用于高維度的圖像數據,利用空間相關性,同時提取其空間特征和光譜特征。3D卷積的示意圖如圖3所示,3DCNN卷積為

其中,i為神經網絡序號;j為特征樣本序號;Pi和Qi為二維空間上卷積核的長和寬;Ri為第3個維度上的高;m為上一階段網絡的連接特征數;g為神經元的激活函數;為神經元在(x,y,z)處的值;為第m個特征的第(p,q,r)個神經元傳遞權重;bij為第i層第j個特征偏移量。
為了避免隨著網絡深度的增加而出現網絡退化現象,在3DCNN的基礎上,增加了殘差學習,使得樣本不足時,解決網絡退化的情況。殘差學習的主要內容是在神經網絡的結構上,增加一條路徑,從而跳過一些網絡模塊后,再與主路徑結合,是一種短路連接。可以通過該跳躍路徑,將訓練網絡架構時所生成的誤差,反向傳入。從而解決了網絡結構模塊過多造成的參數更新慢、梯度彌散問題,驅動整體架構更加高效。殘差思想示意圖如圖4所示,殘差映射為

其中,x為神經網絡的輸入;F(x)為函數映射;H(x)為殘差映射。
因此將殘差學習和CNN相結合,網絡結構如圖5所示。Conv表示卷積層,使用5×5×5大小的三維卷積核;Pooling表示池化層,使用2×2×4步長[14],對特征進行壓縮同時降低計算量。使用ReLU (rectified linear units)[15]激活函數,相比于Sigmoid、tanh激活函數,ReLU激活函數的收斂速度更快一些。由于HSI數據的結構特殊性,本文為了解決網絡架構中主要路徑與跳躍路徑相結合時所產生的維度不同問題,采用了在殘差模塊中不進行池化的方法,使得主要路徑與跳躍路徑得到的特征圖結構相統一,從而進行路徑結合。

圖5 Res-3DCNN網絡結構
網絡結構中共包含3個殘差模塊,其中1個虛線范圍表示使用一個殘差模塊,包括2個5×5×5的三維卷積核和一個特征融合模塊。本文設計的殘差模塊,放在卷積層之后,將上一層卷積得到的特征,與殘差模塊內經過2層卷積得到的特征進行特征融合,經過ReLU激活函數后,繼續輸入到下一個池化層。這使得該殘差模塊在輸入特征基礎上學習到新的特征,從而擁有更好的特征表示。
為了讓激活函數更有效地使用輸入信息,在每次ReLU之前采用批量歸一化(batch normalization, BN),為了防止實驗結果過擬合,采用Dropout正則化[16]方式,隨機刪除部分隱藏層結果。之后,將獲得的結果輸入全連接層。最后,使用Softmax激活函數,進行分類操作,得到其類別標簽。
實驗時的硬件運行環境是AMD Ryzen 5 3600X CPU @ 3.80 GHz處理器,Radeon RX 5500 XT @ 8 GB GDDR6顯卡,金士頓駭客3200 MHz @ 8g DDR4內存,編譯環境Python 3.6+Tensorflow 1.13。
為了證實本文方法的有效性,使用目前公開且具有代表性的PaviaU,Indian Pines和Salinas數據集進行實驗。數據集的具體參數見表1,訓練集、驗證集和測試集數據之比為2∶2∶6。

表1 數據集參數
訓練網絡時參數設置如下:方差為0.1;均值為0;Dropout為0.5;偏置為0.1的截斷正態分布;初始學習率為0.001。圖6給出了本文的方法在3個數據集上訓練時的驗證損失及訓練損失函數變化曲線。
從圖6可以看出,本文方法在3個數據集上的收斂速度較快,整體迭代周期達到50左右時,驗證損失和訓練損失達到一個較低的水平,說明網絡模型訓練良好,能夠有效進行特征提取。
本文與Gabor-SVM[11],Log-Gabor-CNN[9],3DCNN,Res-3DCNN和Gabor-DC-CNN[13]幾種方法進行了對比實驗。其中,Gabor-SVM使用三維Gabor濾波器;Log-Gabor-CNN使用CNN網絡;3DCNN采用本文方法中去除殘差結構的網絡架構;Res-3DCNN采用本文方法中去除3D Gabor濾波器的網絡架構。采用總體精度(overall accuracy,OA)、平均精度(average accuracy,AA)以及Kappa系數作為評價指標。在3個數據集上的實驗結果分別見表2~4。
從表2~4的結果顯示,3DCNN在3個數據集上的平均精度達到95%左右,具有較高的分類精度。3DCNN保留了充分的光譜信息,有助于分類精度的提高。Res-3DCNN無論從整體精度還是平均精度上均比3DCNN的分類精度高,證明了殘差學習解決網絡退化問題、提高分類精度的有效性。本文提出的3DGabor-Res-3DCNN方法,平均每一類的分類精度比Res-3DCNN高出2%。

圖6 3個數據集上的損失精度收斂曲線

表2 PaviaU數據集的分類結果(%)

表3 Indian Pines數據集的分類結果(%)

表4 Salinas數據集的分類結果(%)
由于Gabor-SVM主要基于淺層特征的分類方法,缺乏更深層次的特征表達,導致分類精度不高。Log-Gabor-CNN的平均分類精度在92%左右,比Gabor-SVM高約5%,證明了CNN能夠得到更抽象的特征表示。Log-Gabor-CNN在PaviaU數據集上整體分類精度比Gabor-DC-CNN低了6%左右,尤其是第8類,低了13%,在Indian Pines和Salinas數據集上整體分類精度比Gabor-DC-CNN低了5%左右。主要原因是Log-Gabor-CNN是二維Gabor濾波器,Gabor-DC-CNN方法使用的是三維Gabor,二維Gabor只考慮紋理特征,三維Gabor在提取紋理特征的同時考慮光譜信息,所以保留光譜信息可以有效提升分類精度。本文方法與Gabor-DC-CNN相比,在PaviaU數據集中,總體精度提升了1.70%。在Indian Pines數據集中,總體精度提升了1.29%。在Salinas數據集中,總體精度提升了2.44%。
針對樣本數量較少的Indian Pines數據集的第1類和第6類,本文方法的分類精度和其他方法相比較,分類精度至少提高了2%~4%,見表3。
當圖像中的地物特征比較容易區分時,本文方法的分類結果與其他深度學習方法相差不大。例如Salinas數據集的第2,6,12類;Indian Pines數據集的第5,8,10類;PaviaU數據集的第2,5,9類。其特征比較容易區分,均可取得較好的分類結果。
而對于特征類似、分類時易產生誤差的地物種類,本文方法的分類精度也有提高。比如PaviaU的第3類和第6類,分別是磚塊、砂礫和裸土,與Gabor-DC-CNN相比精度提高了2%,與Log-Gabor- CNN相比精度提高了7%和10%。說明了只有紋理特征沒有光譜特征會對分類精度造成影響,進一步說明了針對特征類似的地物,三維Gabor濾波器保留豐富的光譜特征能夠提高其分類精度。
圖7~9分別顯示了在PaviaU,Indian Pines及Salinas數據集中本文方法和對比實驗方法的分類效果圖。



從圖7~9中可以看出,本文方法明顯錯分點更少。Gabor-SVM的分類效果與參考樣本相差較大。從圖7的PaviaU數據集的第6類可以明顯地看出,Res-3DCNN比3DCNN錯分點更少,說明深度學習方法更能提取深層特征的優勢,并且加入殘差學習可以有效提高方法的分類精度。圖7第8類可以看出,Gabor-DC-CNN方法比Log-Gabor-CNN方法分類效果更好,證明三維Gabor濾波器保留的光譜信息能夠有效提高分類精度。從圖8的第12類可以明顯看出本文方法比其他方法錯分點更少,說明三維Gabor濾波器的紋理信息和光譜信息有助于提高分類精度。
表5顯示了實驗中各方法的訓練時間和測試時間。

表5 各方法訓練時間和測試時間(s)
從訓練時間和測試時間的結果可以看出,本文方法比Gabor-DC-CNN方法消耗的時間少,主要因為Gabor-DC-CNN是雙通道卷積神經網絡,需要分別進行訓練,所需時間稍長。本文和3DCNN方法相比,訓練時間多了10 s左右,主要因為使用了Gabor濾波器進行濾波,加入殘差會在原來的網絡結構上增加一條路徑,從而降低了網絡運行效率,增加了訓練時間。Log-Gabor-CNN是2DCNN,相比三維卷積在時間效率上會快一些,但同時分類精度會略有下降。Gabor-SVM是使用三維Gabor濾波和SVM進行分類,和其他深度學習方法相比優點在于省去了網絡訓練步驟,因此效率更高,和本文方法相比訓練時間快了50 s左右,但分類精度不高。
本文針對HSI維度高,具有豐富的光譜信息和紋理信息的特性,提出了一種基于三維Gabor濾波器和殘差3DCNN的HSI分類方法。主要貢獻為:
(1) 通過三維Gabor濾波器得到的紋理特征和光譜信息,有助于高光譜遙感圖像的地物分類。
(2) 通過Res-3DCNN對處理后的數據進行深層特征提取,得到深層光譜紋理特征,利用殘差模塊,有效解決了網絡訓練中梯度消失以及梯度爆炸問題,有效提高地物分類精度。
實驗結果表明,本文提出的方法3DGabor-Res- 3DCNN的分類精度能夠達到97.86%。與其他HSI分類方法相比,本文方法能夠有效提高分類精度。在之后的研究工作中,準備在保證分類精度的同時,進一步提高算法的運行效率。
[1] AHMAD M, SHABBIR S, OLIVA D, et al. Spatial-prior generalized fuzziness extreme learning machine autoencoder-based active learning for hyperspectral image classification[J]. Optik, 2020, 206: 163712.
[2] HSIEH P F. Impact and realization of increased class separability on the small sample size problem in hyperspectral classification[J]. Canadian Journal of Remote Sensing, 2009, 35(3): 248-261.
[3] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[4] CHEN Y S, LIN Z H, ZHAO X, et al. Deep learning-based classification of hyperspectral data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2094-2107.
[5] HUANG S, WANG X, HE H, et al. Hyperspectral image classification based on bidirectional recurrent neural network[C]//2019 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC). New York: IEEE Press, 2019: 1-4.
[6] LEE H, KWON H. Contextual deep CNN based hyperspectral classification[C]//2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). New York: IEEE Press, 2016: 3322-3325.
[7] LIU X F, SUN Q Q, MENG Y, et al. Feature extraction and classification of hyperspectral image based on 3D- convolution neural network[C]//2018 IEEE 7th Data Driven Control and Learning Systems Conference (DDCLS). New York: IEEE Press, 2018: 918-922.
[8] LIU C J, WECHSLER H. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition[J]. IEEE Transactions on Image Processing, 2002, 11(4): 467-476.
[9] 付青, 郭晨, 羅文浪. 一種利用空譜聯合特征的高光譜圖像分類方法[J]. 激光與光電子學進展, 2020, 57(20): 380-386.
FU Q, GUO C, LUO W L. A hyperspectral image classification method based on spectral-spatial features[J]. Laser & Optoelectronics Progress, 2020, 57(20): 380-386 (in Chinese).
[10] SHEN L L, ZHENG S H. Hyperspectral face recognition using 3D Gabor wavelets[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). New York: IEEE Press, 2012: 1574-1577.
[11] 馮逍, 肖鵬峰, 李琦, 等. 三維Gabor濾波器與支持向量機的高光譜遙感圖像分類[J]. 光譜學與光譜分析, 2014, 34(8): 2218.
FENG X, XIAO P F, LI Q, et al. Hyperspectral image classification based on 3-D Gabor filter and support vector machines[J]. Spectroscopy and Spectral Analysis, 2014, 34(8): 2218 (in Chinese).
[12] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[EB/OL]. [2021-01-07]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=142f0rg03u3e06p0u57s04f08k398057&site=xueshu_se.
[13] 魏祥坡, 余旭初, 譚熊, 等. CNN和三維Gabor濾波器的高光譜圖像分類[J]. 計算機輔助設計與圖形學學報, 2020, 32(1): 90-98.
WEI X P, YU X C, TAN X, et al. Convolutional neural networks and 3D Gabor filtering for hyperspectral image classification[J]. Journal of Computer-Aided Design & Computer Graphics, 2020, 32(1): 90-98 (in Chinese).
[14] AKHTAR N, BEG M M S. Improving microblog clustering: tweet pooling schemes[EB/OL]. [2021-01-07]. https://xueshu. baidu.com/usercenter/paper/show?paperid=1m020p80er3h0av0w14h08u0ch644942&site=xueshu_se.
[15] CLEVERT D A, UNTERTHINER T, HOCHREITER S. Fast and accurate deep network learning by exponential linear units (ELUs)[EB/OL]. [2021-01-07]. https://xueshu.baidu.com/ usercenter/paper/show?paperid=a51510acdf684bee61be7c85f67f89ff&site=xueshu_se.
[16] GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning[EB/OL]. [2021-01-07]. https://www.oalib.com/paper/ 4083699#.YOVid8jr4y0.
Hyperspectral image classification based on residual 3DCNN and 3D Gabor filter
ZHANG Ming-hua1, NIU Yu-ying1, DU Yan-ling1, HUANG Dong-mei1,2, LIU Ke-fu3
(1. College of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2. Shanghai University of Electric Power, Shanghai 200090, China; 3. East China Sea Bureau, Ministry of Natural Resources, Shanghai 200137, China)
Hyperspectral remote sensing images contains hundreds of spectral bands and rich spectral information, resuling in wideapplications in the classification of ground objects, but there remains the problem of the curse of dimensionality. Hyperspectral images also contain rich texture information which can improve the classification precision significantly. 3D Gabor filter can not only keep rich spectral information of the images, but also extract the image texture features. In order to make full use of the features of hyperspectral images, this paper proposed a hyperspectral image classification model based on 3D Gabor and residual three-dimensional convolution neural network (Res-3DCNN). The 3DCNN can deal with three-dimensional cubic hyperspectral data and extract sufficient texture-spectral information. However, the deepening of convolutional neural network structure will lead to the problem of network degradation. Therefore, the idea of residual learning was applied to the improvement of the performance of 3DCNN. The proposed method was examined with three public hyperspectral data sets of PaviaU, Indian Pines and Salinas, reaching the average classification accuracy of 99.17%, 97.40% and 98.56%, respectively. Experimental results prove that the proposed method can effectively improve the ground targets classification accuracy of hyperspectral images.
hyperspectral images classification; convolutional neural network; three-dimensional Gabor filter; three-dimensional convolution; residual learning
TP 79
10.11996/JG.j.2095-302X.2021050729
A
2095-302X(2021)05-0729-09
2021-01-07;
2021-02-17
7 January,2021;
17 February,2021
國家自然科學基金項目(41906179);上海市自然科學基金項目(18ZR1417300);上海市科委部分地方高校能力建設項目(20050501900)
National Natural Science Foundation of China (41906179); Natural Science Foundation of Shanghai (18ZR1417300); The Capacity Development Project of Local Universities byShanghai Science and Technology Commission (20050501900)
張明華(1977-),女,河南鄭州人,副教授,博士。主要研究方向為遙感圖像處理、海洋信息處理。E-mail:mhzhang@shou.edu.cn
ZHANG Ming-hua (1977-), female, associate professor, Ph.D. Her main research interests cover remote sensing image processing, ocean information processing. E-mail:mhzhang@shou.edu.cn
黃冬梅(1964-),女,河南鄭州人,教授,碩士。主要研究方向為海洋遙感處理與分析、海洋大數據管理、智能輔助決策系統。E-mail:dmhuang@shou.edu.cn
HUANG Dong-mei (1964-), female, professor, master. Her main research interests cover ocean remote sensing processing and analysis, ocean big data management, intelligent DSS. E-mail:dmhuang@shou.edu.cn