高紅民,曹雪瑩,陳忠昊,花再軍,李臣明,陳月
(河海大學計算機與信息學院,江蘇 南京 211100)
高光譜圖像(HSI,hyperspectral image)可以從上百條連續的光譜波段中提取地物信息,這使其擁有強大的對地目標區分能力。在過去的幾十年里,高光譜圖像在目標探測[1]、土地監測[2]、農業監測[3]以及海洋遙感[4]等方面均發揮了重要作用。
迄今為止,研究者已經提出各種方法將高光譜圖像的像元劃分為特定的土地覆蓋類。在早期的分類方法中,K 近鄰分類器[5]和支持向量機(SVM,support vector machine)[6]等光譜分類器被廣泛使用,但以上方法往往會面臨高光譜圖像極高的光譜波段維數帶來的“小樣本問題”和特征冗余帶來的分類效率下降的問題。為了緩和其高維性,特征選擇[7]和特征提取[8]的方法常被選用,這2 種方法的目標均是從原始高光譜數據集中提取更具代表性的信息,區別在于后者并非簡單地選擇波段,而是從中抽象出更具代表性的特征波段。
為了更好地應對高光譜圖像復雜的空間分布和光譜分布,將空間和光譜特征納入分類方法的多核分類器[9]與基于稀疏表示的分類器[10]也得到了廣泛關注。但是這些方法大多屬于淺層模型,這種模型中的非線性變換層數不足以表示高光譜圖像復雜的空間和光譜特征,泛化能力較弱。同時,其往往基于手工特征,高度依賴個人經驗。為了克服這些缺點,深度學習[11]被引入高光譜圖像分類中,它可以自動地從原始輸入數據中由低到高地學習層次特征,進而充分挖掘高光譜圖像中更具代表性的顯著特征。Chen 等[12]提出一種堆疊自動編碼器方法對高光譜圖像進行分類,Liu 等[13]提出一種結合深度置信網絡與主動學習的高光譜圖像分類方法。這2 種方法都是將原始三維圖像壓縮成一個扁平的向量以滿足框架輸入的要求,但會打破原始圖像中固有的空間?光譜特征結構,破壞高光譜空間信息,最終導致分類精度下降。
為了進一步利用高光譜圖像的空間特征信息,基于卷積神經網絡(CNN,convolutional neural network)的高光譜圖像分類算法被提出。作為深度學習的代表算法之一,卷積神經網絡擁有出色的表征學習能力,這使其在空間特征信息提取方面擁有巨大的優勢。為了提取更有效的空間?光譜判別特征信息,Chen 等[14]提出了正則化特征提取方法,Li 等[15]提出了一種不依賴任何預處理或后處理的三維CNN 高光譜圖像分類方法。但這些方法都面臨CNN 模型向深度進發時所產生的梯度彌散及網絡退化現象的困擾。為此,借助殘差網絡[16],Zhong等[17]完成了一個可以從光譜特征和空間背景中連續學習判別特征的深網絡模型,Song 等[18]在殘差網絡的基礎上加入深淺特征融合來進一步提升性能。為了進一步提升各層卷積利用率,獲取更多有效判別特征,Wang 等[19]設計了一種快速密集頻譜空間卷積框架,不需要像深淺層特征信息融合方法那樣手動尋找最優特征融合層,但其往往需要大量的跳躍結構參與,這會導致訓練參數大幅增加,進而使計算代價增大。上述方法的分類模型均擁有非常深的網絡結構,但過深的網絡結構在提取更加抽象的特征信息的同時也會帶來“精度飽和”和“網絡退化”的現象,這同樣會影響高光譜圖像的最終分類精度。為此,王瑩[20]提出了一種改進的基于CNN 的高光譜圖像分類網絡來進一步提升分類結果,但其在小樣本情況下的分類結果仍有進一步提升的空間。另一部分研究者選擇增廣網絡寬度[21]來獲取更豐富的特征信息,如Lee 等[22]設計了一種多尺度濾波器對輸入圖像進行特征提取,Zhang等[23]提出了一種多尺度密集網絡用于高光譜圖像分類。與僅針對單一特征圖進行提取的多尺度濾波器相比,多尺度密集網絡利用不同卷積核獲取更豐富的空間鄰域信息,并提取了更加有效的判別特征,從而使其在分類精度上有了進一步提升,但將整個網絡的各級特征信息進行組合同樣會造成訓練參數過大、計算成本過高,且其從本質上說,仍是完成了一種對較淺層空間?光譜特征的彌補,與深淺層特征信息融合所達成的目標差異不大,因此其在最終的分類精度和運行時間上并沒有獲得顯著提升。
為了解決以上問題,本文提出了一種基于多尺度近端特征拼接網絡(MPFCN,multi-scale proximal feature concatenate network)的高光譜圖像分類方法,它注重利用近端卷積層之間的相互聯系進行特征提取,并結合多尺度融合手段搭建一個動態特征圖來獲取更豐富細致的空間?光譜判別特征,同時,它還具有輕量化的特點,具體創新總結如下。
1)為充分利用各相鄰卷積層間的特征相關性,本文引入近端特征上下文信息,相比于遠端特征或密集特征融合,近端特征拼接可以獲得更細致的空間?光譜判別特征,且不會因為過多的超鏈接結構增加網絡負擔,這有助于提升整體網絡的性能,并獲得更高的分類精度。
2)為了進一步利用高光譜圖像的空間域信息,本文設計了一種近端多尺度濾波器模塊。該模塊利用不同感受野的濾波器提取各相鄰特征圖上的特征信息,并利用超鏈接將所提取的信息相拼接,從而得到一個包含相鄰近端特征上下文信息與不同尺寸空間相鄰特征信息的動態特征圖,使HSI 的特征表達更加豐富全面。
3)為了保持整體模型結構的輕量化,本文在多尺度濾波器中引入空洞卷積,在擴大卷積感受野的同時維持一個較低的訓練參數,使整體模型可以進行高效輕量的特征提取,更好地應對高光譜圖像“小樣本”問題。
空洞卷積是指在普通卷積中添加零填充,以擴展卷積核感受野的卷積方法。其優勢是在不改變特征圖分辨率的前提下,使感受野比普通卷積更大,感知信息的范圍更大,進而改善下采樣帶來的特征信息丟失問題。假設k'表示等效卷積核大小,k表示真實卷積核尺寸,d表示擴張率,則等效卷積尺寸為

為了更直接地展示空洞卷積的工作原理,圖1中展示了在相同尺寸卷積核下,通過調整擴張率來獲得不同的感受野。

圖1 空洞卷積原理示意
如圖1(a)所示,當d=1 時,感受野與卷積核的尺寸均為3×3。如圖1(b)所示,當d=2 時,感受野增加至5×5。如圖1(c)所示,當圖1(a)和圖1(b)級聯時,感受野增加至7×7。圖1(b)中每個圓點像素都是圖1(a)的卷積輸出。具體計算式為

其中,Gi表示當前圖層的感受野,Gi+1表示下一圖層的感受野,S表示從第1 層到第i?1 層步長的乘積。可以看出,空洞卷積級聯時,其感受野的面積呈指數級增長。此外,相較于普通卷積,空洞卷積不會因增大感受野而造成訓練參數的增加,這使整體網絡結構在獲取更大范圍內特征信息的同時,更加高效和輕量。
傳統的多尺度濾波器以優化利用輸入圖像的不同局部結構為目標,深入挖掘特征圖的空間局部相關性。因此,在高光譜圖像中應用多尺度濾波器,可以很好地利用高光譜圖像局部空間結構和局部譜相關。為展示所提方法相較于傳統多尺度濾波器模塊的優越性,本文選用尺寸為3×3、5×5、7×7 的常用卷積核,搭建傳統的多尺度濾波器模塊,如圖2 所示。拼接層中的3×3、5×5、7×7 表示感受野范圍。
為了提高各級卷積層的利用率,特征拼接常被用于基于CNN 的高光譜圖像分類算法中,本文利用卷積神經網絡在響應輸入特征平移不變性時往往具有一定規律的特點,將近端特征圖進行拼接,得到一幅包含三層卷積結果的動態特征圖。該動態特征圖中包含了相鄰卷積層所提取特征間的上下文聯系,再一次提高了各級卷積層利用率,并使所提取的空間?光譜判別特征更加細致。

圖2 傳統多尺度濾波器模塊示意
本文所提基于多尺度近端特征拼接網絡的高光譜圖像分類算法主體結構由一種改進的多尺度濾波器模塊組合而成。
2.4.1 改進的多尺度濾波器模塊
改進的多尺度濾波器模塊如圖3 所示,它包含3 個卷積核尺寸為3×3 的卷積層,且每個卷積層都配置了批量歸一化(BN,batch normalization)層和激活函數ReLU 進行加速訓練和非線性化處理。從圖3 中可以看出,該模塊共有3 條支路,分別為第一卷積層支路、第二卷積層支路、第三卷積層與第一卷積層級聯支路。其中,第一卷積層擴張率為1,感受野為3×3;第二卷積層擴張率為2,感受野為5×5;第三卷積層與第一卷積層級聯,所得特征圖感受野為7×7。最后,將3 條支路所得特征圖進行拼接,并利用BN 層與ReLU 函數加速訓練,增強模型泛化能力。
綜上所述,改進的多尺度卷積塊在充分利用各級卷積層提取的特征圖的同時,利用空洞卷積降低了訓練參數,使整體模型更加輕量化。此外,相鄰特征的拼接引入近端特征上下文關聯信息,也使光譜空間特征信息表達更細致。
2.4.2 多尺度近端特征拼接網絡模型

圖3 改進的多尺度濾波器模塊

圖4 多尺度近端特征拼接網絡模型的整體結構
圖4 展示了多尺度近端特征拼接網絡模型的整體結構,其流程如下。首先,用主成分分析(PCA,principal component analysis)法對原始高光譜圖像進行降維,提取主成分信息含量最大的波段;然后,以待分類像元為中心,提取相應尺寸的待分類圖像塊(patch)。這些patch 將會被輸入多尺度近端特征拼接網絡中進行特征提取并分類,以此得到最終的地物分類圖。具體來說,多尺度近端特征拼接網絡包括改進的多尺度濾波器模塊、平均池化層、全局平均池化層和Softmax 分類器。其中,每個改進的多尺度濾波器模塊后都配備了一個平均池化層。
為了防止前級濾波器圖層數量對內存造成影響,本文以改進的多尺度濾波器模塊為單位,逐步增加各多尺度濾波器圖層數量,如第一個模塊的濾波器圖層數量為32,第二個模塊的濾波器圖層的數量以2 的倍數遞增,依次類推。平均池化層的作用在于抑制過擬合,維持較低的訓練參數,降低特征圖尺寸,其尺寸為2×2。全局平均池化層起到將特征圖降維重組并映射到樣本空間的作用,相比全連接層,它占用更少的訓練參數,抑制過擬合的效果更好。Softmax 分類器負責對每個像素點進行分類。以上部分共同協作,使多尺度近端特征拼接網絡在小樣本狀態下獲得了的高精度分類結果和分類效率。
1)IP(Indian pines)數據集。IP 數據集是由AVIRIS 成像光譜儀在美國印第安納州西北部獲取的圖像。它的空間尺寸為145 像素×145 像素,單個像素分辨率為20 m;光譜波段共220 條,其波長范圍為0.4~2.45 μm。本文將水汽吸收波段去除,則IP 數據集的最終輸入尺寸為145 像素×145 像素×200 像素,其包含的真實地物類別為16 種。
2)PU(University of Pavia)數據集。PU 數據集是ROSIS 成像光譜儀在帕維亞大學上空獲取的圖像。它的空間尺寸為610 像素×340 像素,去除水汽吸收波段后,光譜維波段共103 條。PU 數據集的最終輸入尺寸為610 像素×340 像素×103 像素,其包含的真實地物類別為9 種。
3)SA(Salinas)數據集。SA 數據集同樣由AVIRIS 成像光譜儀獲取,其圖像呈現了薩利納斯山谷地貌。它具有高空間分辨率的特點。去除水汽吸收波段后,SA 數據集的最終輸入尺寸為512像素×217 像素×204 像素,其包含的真實地物類別為16 種。
IP 數據集、PU 數據集和SA 數據集灰度圖和真實地物信息類別分別如圖5 和表1 所示。

圖5 IP 數據集、PU 數據集和SA 數據集灰度圖

表1 IP 數據集、PU 數據集和SA 數據集真實地物信息類別
為了驗證本文所提多尺度近端特征拼接網絡的合理性和有效性,本文分別在3 幅高光譜圖像數據集上進行驗證實驗。所有實驗均在一臺CPU 為Intel E5-2667、GPU 為1080Ti 的筆記本電腦上進行,使用的編程語言為Python,深度學習模型框架為Keras。在評價指標方面,本文選取總體精度(OA,overall accuracy)、平均精度(AA,average accuracy)和Kappa 系數(KA,Kappa coefficient)3 個指標。為了避免隨機因素的影響,所有展示數據均為相同條件下10 次實驗結果的平均值。在訓練集的劃分中,本文分別在IP 數據集、PU 數據集、SA 數據集上隨機選取10%、4%、2%的樣本作為訓練樣本,并將剩余90%、96%和98%的樣本作為測試樣本。在利用PCA 法對3 個數據集的光譜維進行降維時,IP 數據集和SA 數據集選擇前3 個波段,而PU 數據集選擇前5 個波段。3 個數據集實驗中,批尺寸均設置為32,反向傳播均選用隨機梯度下降(SGD,stochastic gradient descent)法,初始學習率為0.01,衰減率為0.01 與迭代次數之比。迭代次數設置為150 次。本文將從內部參數選取和與其他典型方法比較兩方面對MPFCN 的性能進行分析。
本節將從patch 尺寸和網絡模型深度(改進的多尺度濾波器模塊數)兩方面進行參數選取實驗,這是因為patch 尺寸中包含高光譜圖像的光譜信息與空間鄰域信息,它決定了輸入信息的多少;網絡模型的深度決定了能否提取到關鍵光譜判別特征。具體實驗方法如下。
本文分別選取7×7、13×13、27×27 這3 個patch尺寸進行實驗。在多尺度濾波器模塊數選取方面,由于平均池化層的作用,每增加一個多尺度濾波器模塊,特征圖尺寸就會縮小一半,因此本文根據patch尺寸,遵循盡可能深地增加網絡模型的原則,分別選取多尺度濾波器模塊數為2、3、4、5 進行測試。在3幅高光譜數據集上的測試結果分別如表2~表4 所示。

表2 IP 數據集參數測試

表3 PU 數據集參數測試

表4 SA 數據集參數測試
從表2~表4 中可以看出,隨著多尺度濾波器模塊數量與patch 尺寸的增加,3 個數據集的整體分類精度均逐步增加。在固定多尺度濾波器模塊數量的情況下,patch 尺寸越大,OA、AA、KA 越大;在固定patch 尺寸的情況下,增加多尺度濾波器模塊數量會使整體分類精度呈現逐步攀升至某一值后開始波動的現象,這是由于在網絡不斷向深度進發的過程中往往會出現精度飽和及梯度彌散等現象,從而對最終分類結果造成影響。
實驗結果證明,本文所提方法通過加入近端特征上下文間的聯系,提高了對各級卷積層及特征圖的利用,進而提取更精細的空間?光譜特征信息,進一步提升了分類性能。同時,實驗結果也證明本文所提網絡不需要搭建一個過深的網絡結構就可以達到非常高的分類精度,避免了過深網絡所帶來的精度飽和等一系列會影響最終分類結果的問題。
為了突出MPFCN 的先進性,本節將其與其他4 種典型方法在定量分類結果、運行時間以及小樣本情況下的分類效果進行對比。4 種典型方法分別為SVM[6]、2D 卷積神經網絡(DCNN)[20]、殘差網絡(ResNet)[16]以及傳統的多尺度濾波器網絡MCNN(multi-scale CNN)。為了更好地進行對比,ResNet、MCNN 和DCNN 的輸入patch 尺寸及參數選取均與MPFCN 相同,其迭代次數均以訓練集樣本數據精度收斂至1 為止。其余設置參考上述相關文獻進行設置。在3 個數據集中,分別測試了在訓練樣本數量固定的情況下不同方法的分類性能。
3.4.1 定量分類結果
本節在IP 數據集的對比實驗中,隨機選取了10%的訓練樣本,并將剩余90%樣本作為測試樣本。圖6展示了IP數據集的地物灰度圖和不同分類方法的分類圖。

圖6 IP 數據集的地物灰度圖和不同分類方法的分類圖
從圖6 可以看出,SVM 的分類效果最差,且存在大量噪聲,這是因為其為淺層模型分類方法,泛化能力差,不足以應對高光譜圖像復雜的光譜空間分布。相比利用增加網絡模型深度來提取更多判別特征的 DCNN 和 ResNet,MCNN 和MPFCN 有更好的視覺體驗,本文所提MPFCN 在細節表現力上優于MCNN,它可以更加精確地對邊緣像素進行分類,并展示與地物灰度圖更相似的結果。表5 和表6 給出了不同分類方法針對IP數據集的定量分析結果和分類精度,同樣可以看出,使用DCNN、ResNet、MCNN 和MPFCN 所獲取的分類精度明顯優于SVM 的分類精度(OA為75.07%),MPFCN 由于更加充分地利用了各層卷積及特征圖,并引入近端特征上下文聯系信息,分類精度最高,OA 達到98.51%。此外,表6 展示了不同方法在IP 數據集下的訓練參數數量。
在PU 數據集和SA 數據集上進行的比較實驗分別隨機選取4%和2%的樣本作為訓練樣本,剩余96%和98%的樣本作為測試樣本。圖7 和圖8 分別展示了2 個數據集的地物灰度圖以及不同分類方法的分類圖,表7~表10 則給出了不同分類方法的定量分析結果和分類精度。在2 個數據集對比實驗中,MPFCN 在PU 數據集和SA 數據集上的OA 均最高,分別為99.56%和99.70%。此外,表8 和表10 展示了在PU 數據集和SA 數據集下,各對比方法的訓練參數數量。總體來說,MPFCN 在IP 數據集、PU 數據集和SA 數據集上的3 個指標性能均達到最優。

表5 不同分類方法針對IP 數據集的定量分析結果

表6 不同分類方法針對IP 數據集的分類精度

圖7 PU 數據集的地物灰度圖和不同分類方法的分類圖

圖8 SA 數據集的地物灰度圖和不同分類方法的分類圖

表7 不同分類方法針對PU 數據集的定量分析結果

表8 不同分類方法針對PU 數據集的分類精度

表9 不同分類方法針對SA 數據集的定量分析結果

表10 不同分類方法針對SA 數據集的分類精度
3.4.2 運行時間對比
本節以SA 數據集為例,對比DCNN、ResNet、MCNN 和MPFCN 的運行時間,將各個網絡的迭代次數設置為150 次,結果如表11 所示。

表11 基于SA 數據集的各分類方法運行時間
從表11 可以發現,基于傳統多尺度濾波器網絡的MCNN 分類方法運行時間最長,這是因為其引入了大量卷積核,造成訓練參數的增加,從而使運行時間上升;DCNN 與ResNet 本質上都是通過增加網絡深度來獲得更有效的空間?光譜判別特征進行分類,二者訓練時間相差不大;本文所提MPFCN 方法借助空洞卷積,減輕了擴大感受野所帶來的卷積核尺寸增加從而導致訓練參數增加的問題,同時在盡可能少的超鏈接結構下完成了對每層卷積的充分利用,降低了模型復雜度,相比其他典型分類方法,縮短了訓練及測試時間。
3.4.3 小樣本情況下的分類效果對比
根據3 個數據集各自的分布特點,本節對IP數據集隨機劃分了5%、7%、10%、15%和20%的樣本數據作為訓練集,剩余樣本作為測試集;對PU 數據集隨機劃分了0.5%、1%、2%、4%和5%的樣本數據作為訓練集;SA 數據集的相關訓練樣本的選取比例為 0.3%、0.5%、1%、2%和5%。3 個數據集的實驗結果如圖9 所示。
從圖9 可以看出,隨著訓練集樣本占比的增加,所有數據集的分類結果均會迅速增加,當訓練樣本的規模足夠大時,分類精度上升的速度會逐漸變緩,分類結果趨于穩定。同時,在小樣本情況下,本文所提MPFCN 依舊能提供良好的性能。
3.4.4 消融實驗
為驗證所提方法合理性及有效性,本節設計了原始模塊、多尺度近端特征拼接模塊、帶有空洞卷積的多尺度模塊和改進的多尺度濾波器模塊,如圖10 所示。將這4 個模塊分別應用到多尺度近端拼接網絡中,以IP 數據集為例進行消融實驗,對比結果如圖11 所示。
從圖11 可以看出,原始模塊整體性能表現最差,這是因為其網絡模型較大,訓練代價昂貴,過擬合現象嚴重。在采用近端特征拼接,即引入相鄰卷積層間上下文聯系后,OA 上升至97.87%。此外,從圖11 還可以看出,采用空洞卷積可以大幅提升網絡的分類性能,其OA 達到了98.41%,這是因為空洞卷積可以大幅減少訓練參數,抑制過擬合。本文所提方法在加入空洞卷積及近端特征拼接后,3 個評價指標均取得了最優的結果,OA 達到了98.51%。

圖9 針對不同數量的樣本進行性能分析

圖10 模塊結構

圖11 消融實驗對比結果
本文提出了一種基于多尺度近端特征拼接網絡的高光譜圖像分類方法,該方法通過將近端特征上下文信息引入網絡模型中,使所提取的空間?光譜特征細節表現力更強,進而可以更好地應對高光譜圖像復雜的空間分布與光譜分布。此外,為了保持整體模型輕量化,所提方法在不增加訓練參數的情況下,利用空洞卷積對特征圖進行多尺度信息提取,豐富了所提取的空間?光譜判別特征,進一步提升了分類性能,在3 個真實高光譜圖像的數據集上的實驗結果證明,所提方法在小樣本條件下可以獲取更優秀的分類結果。
下一步研究將引入注意力機制,對近端特征進行權重配比,進一步優化所獲取的近端特征拼接圖,從而提升網絡的整體性能。