



摘要:近年來,由于高光譜圖像中數據的獨特性質及其包含的海量信息,高光譜圖像的分類任務已成為遙感影像研究的熱門領域。然而,傳統的高光譜圖像分類任務大多通過人工處理進行特征提取,導致分類任務的效率低下,且相關任務的算法性能較差。現有的工作大多基于CNN網絡進行研究,無法有效提取全局信息。為了解決這些問題,本文提出了一種基于Transformer的高光譜圖像分類方法。在三個數據集上的實驗結果表明,所提出的模型具有更優的性能。
關鍵詞:深度學習;高光譜圖像;注意力機制;卷積神經網絡
一、引言
高光譜圖像(hyperspetral image,HSI)是通過搭載在不同空間平臺上的高光譜傳感器,名為成像光譜儀,在電磁波譜的紫外、可見光、近紅外和中紅外區域,以數十至數百個連續且細分的光譜波段對目標區域同時成像而形成的圖像。早期的高光譜圖像分類方法主要是通過人工提取高光譜圖像中的特征,然后利用傳統的機器學習方法對HSI進行分類。雖然這些方法在一定程度上能夠對高光譜圖像進行有效地識別和分類,但是需要人工構建特征。此外,近年來高光譜圖像數據呈現出海量增長的趨勢,數據的特征維度也越來越高。研究者們將深度學習技術應用到高光譜圖像數據處理中。
這些基于深度學習的方法首先通過深度神經網絡,如循環神經網絡或卷積神經網絡,來提取高光譜圖像中的空間信息和光譜信息,然后利用分類器對圖像進行分類。雖然基于CNN的主流方法能夠有效提取高光譜特征,但是由于CNN的結構,它只能提取局部特征,無法準確有效地捕捉全局特征。近來,Transformer在自然語言處理領域取得了巨大的成功,并被應用到計算機視覺任務中。
與基于CNN的方法相比,Transformer借助注意力機制,有效地兼顧了局部與全局特征。本文提出了一種基于Transformer的高光譜圖像分類算法。首先利用主成分分析(PCA)來對高光譜圖像數據進行降維處理,然后將處理后的數據利用空-譜聯合特征提取模塊(SSRN)來提取高光譜圖像的空-譜聯合特征,最后采用Visual-transformer(ViT)對于提取后的空-譜聯合特征進行分類。
二、相關工作
針對高光譜圖像研究中的特征提取,國內外學者進行了多方面地研究。比如,徐沁[1]等人提出新型多尺度特征提取模塊及擁有多尺度空譜融合注意力模塊的SE-Res2Net。歐陽寧[2]等人在此基礎上提出一種基于多層次空-譜融合網絡的高光譜圖像分類方法。王雷全[3]等人提出基于光譜-空間一致性正則化的高光譜圖像分類方法。王愛麗[4]等人將殘差網絡引入動態卷積提取深度精細化特征。
在國外,Hong[5]等人針對傳統圖卷積網絡計算成本巨大的問題,提出了mini-batch圖卷積網絡,提升了高光譜分類任務在單個傳統圖卷積網絡以及單個卷積神經網絡模型中的性能表現。Hang[6]等人針對高光譜圖像在傳統的循環神經網絡中特征提取無優先級及差別性的問題,在循環神經網絡的基礎上,進一步設計了級聯循環神經網絡,從而提高了高光譜圖像的特征提取效率。盡管這些工作能夠有效提取高光譜圖像所蘊含的豐富特征,但是沒有對于全局特征進行有效提取。
三、方法
圖1展示了用于高光譜圖像分類的SSRN-Vitransformer框架,主要由四部分組成:降維模塊、空-譜聯合特征提取模塊(SSRN)、基于ViT的全局特征提取模塊以及分類模塊。
(一)高光譜圖像空譜聯合特征提取
高光譜圖像具有高緯度和高冗余的特點,本文利用PCA對高光譜圖像進行降維,并采用SSRN連續提取光譜和空間特征。SSRN主要由光譜特征學習模塊和空間特征學習模塊兩部分構成。以Indian Pines數據集(3-D樣本的大小為7×7×200)為例來說明該模塊是如何進行特征提取的。
光譜特征學習部分包括兩個卷積層和兩個光譜殘差塊。在第一個卷積層中,具有(1,1,2) 的子采樣步長的 24個尺寸為1×1×7 卷積核對輸入的HSI體積進行卷積,以生成24個尺寸為7×7×97個特征立方體。空間特征學習部分使用連續的3-D卷積濾波器組提取空間特征,其中卷積核具有與輸入3-D特征量相同的深度。該部分包括一個3-D卷積層和兩個空間殘差塊。
在上述兩個特征學習部分之后,平均池化層 (POOL)將提取的5×5×24光譜空間特征量,進一步轉換為1×1×24特征向量。然后,全連接(FC)層根據土地覆蓋類別的數量使SSRN適應對應的高光譜圖像數據集,并生成輸出向量 =[1,2,…,L ]。
(二)高光譜圖像全局特征提取
傳統的Transformer以一維特征作為輸入,為了方便處理高光譜圖像,本文將圖像x∈RH×W×C重新處理為一系列扁平的 2D向量xp,其中(H,W)是原始圖像的大小,C是通道數,(P,P)是每個圖像塊的分辨率,N=HW/P2是生成的塊數,也作為Transformer的有效輸入序列長度。Transformer在其所有層中使用恒定的潛在向量大小D,然后將數據展平并使用可訓練的線性投影映射到D維空間內:
(1)
將此投影的輸出稱為圖像塊嵌入。在圖像塊嵌入序列z00" = xclass之前添加了一個可學習的嵌入模塊,其在Transformer編碼器(z0l" )輸出處的狀態用作圖像表示y:
y=LN(z0l" )" " " " " " " " " " " " " " " " (2)
在預訓練和校正期間,分頭都附加到z0l" 。分類頭由 MLP實現,使用標準的可學習1D位置嵌入。生成的嵌入向量序列用作編碼器的輸入:
zl=MLP(LN(z'l) )+z'l" "," " " " " " "l=1…L" " " " " " (3)
z'l" =MSA(LN(zl-1) )+zl-1," " " " l=1…L" " " " "(4)
四、實驗部分
采用Indian Pines,Pavia University,Salinas scene三個數據集進行實驗,并采用三種基準方法進行對比,分別為基于全局濾波器的深度網絡(GFDN)、標簽一致性變換網絡(LCTL)以及基于PCA的EPFs(PCA–EPF)。
batch size設為64,epoch設為80。采用Adam作為優化器,同時學習率為0.001。隨機選取10%為訓練集合,80%作為測試集,剩余10%作為驗證集。本實驗利用總體分類精度(Overall Accuracy,OA),平均分類精度(Average Accuracy,AA),Kappa 系數評價指標。
本文所提出的SSRN-ViT方法在Indian Pines、Pavia University、Salinas scene上實驗。從表1中可以看出,所提出方法在Indian Pines以及Salinas Scene上取得了最好的結果。此外,在Salinas Scene數據集上,在OA指標上比GFDN高出約2%。這些提升表明SSRN-ViT聯合模塊能更好地捕獲光譜-空間交互信息,改善了空-譜融合特征的表達能力。
五、結束語
本文所提出的SSRN-ViT方法首先利用PCA對高光譜圖像進行降維處理,然后利用SSRN模型構建了高光譜圖像光譜-空間特征聯合提取模塊,同時基于此利用Transformer模型對高光譜圖像進行全局特征提取。最后,所提出的方法不僅在三個高光譜圖像數據集上表現出了較好的分類性能,還降低了模型復雜度。
作者單位:黃夢凡 南寧師范大學計算機與信息工程學院
參" 考" 文" 獻
[1]徐沁,梁玉蓮,王冬越,等.基于SE-Res2Net與多尺度空譜融合注意力機制的高光譜圖像分類[J].計算機輔助設計與圖形學學報,2021,33(11):1726-1734.
[2]歐陽寧,朱婷,林樂平.基于空譜融合網絡的高光譜圖像分類方法[J].計算機應用,2018,38(7):1888-1892.
[3]王雷全,趙欣,秦智超.基于光譜-空間一致性正則化的高光譜圖像分類[J].中國電子科學研究院學報,2021,16(8):789-796.
[4]王愛麗,劉美紅,薛冬,等.結合動態卷積和三重注意力機制的高光譜圖像分類[J].激光與光電子學進展,2022,59(10):341-351.
[5]Hong D,Gao L,Yao J,et al.Graph convolutional networks for hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sensing,2020,59(7):5966-5978.
[6]Hang R, Li Z,Liu Q,et al.Hyperspectral image classification with attention-aided CNNs[J].IEEE Transactions on Geoscience and Remote Sensing, 2020,59(3):2281-2293.