辛紫麒, 李忠偉, 王雷全, 許明明, 胡亞斌, 梁 建
基于光譜-空間聯合Transformer模型的黃河三角洲濕地高光譜影像分類
辛紫麒1, 李忠偉1, 王雷全2, 許明明1, 胡亞斌3, 梁 建4
(1. 中國石油大學(華東)海洋與空間信息學院, 山東 青島 266580; 2. 中國石油大學(華東)計算機科學與技術學院, 山東 青島 266580; 3. 自然資源部 第一海洋研究所, 山東 青島 266061; 4. 南通智能感知研究院, 江蘇 南通 226007)
黃河三角洲濕地地物類型在光譜曲線上差異較小, 且在空間上分布零散, 呈破碎化特性。現有的分類方法受限于局部感受野難以捕捉到圖像的長距離依賴關系, 導致在黃河三角洲濕地高光譜影像中分類精度不理想, 針對此問題, 本文提出了一種光譜-空間聯合Transformer模型。光譜和空間支路分別以光譜向量和空間鄰域為輸入, 基于自注意力機制提取全局光譜和空間特征, 在兩個支路引入多階特征交互層, 實現淺層邊緣信息和深層語義信息的融合, 最后采用自適應相加的方式將兩路特征融合, 送入分類器實現最終分類。本文在黃河三角洲濕地高分五號GF-5和CHRIS兩幅高光譜影像上驗證方法的有效性, 實驗結果表明, 該方法顯著提高了濕地分類的精度, 在選用3%的樣本訓練條件下總體精度分別達到了90.90%和94.17%, 優于其他分類方法。研究結果可實現黃河三角洲濕地地物類型的高精度分類, 為濕地的保護提供技術支持。
黃河三角洲濕地; 高光譜影像分類; Transformer模型; 光譜-空間聯合
黃河三角洲濕地是中國暖溫帶最廣闊、最完整、最年輕的濱海濕地, 其不僅在儲備資源、調節氣候、水質凈化[1-3]等方面發揮著重要作用, 還是眾多珍稀動植物的棲息地[4], 具有不可估量的價值。黃河三角洲濕地在海洋、陸地和河流的多重作用下本身具有原生性、脆弱性的特點, 近年來, 油田開發、旅游設施建設、農田開墾、灘涂開發等人類活動使得濕地面積劇烈變化[5-6], 進而影響到其生態價值和生物多樣性。因此, 實現黃河三角洲濕地的高精度分類, 掌握不同類型濕地植被的空間分布格局與特征, 可為濕地以及生物多樣性的保護提供必要的參考信息。
作為一種典型的遙感圖像, 高光譜圖像在光譜維有數十甚至上百個連續且細分的波段, 同時相鄰的地物之間具有高度的相關性, 蘊含著豐富的光譜和空間信息, 為實現黃河三角洲濕地精細化分類提供了可能。一些學者基于高光譜數據對黃河三角洲濕地進行了分類研究, 吳培強等[7]基于地物光譜可分性對黃河三角洲濕地CHRIS高光譜影像進行波段選擇, 并應用支持向量機等方法進行分類, 提升了分類精度; 馬毅等[8]選用人工神經網絡等8種常用的遙感圖像監督分類方法, 開展了不同融合策略決策分類結果的比較研究。然而上述基于傳統機器學習的方式需要復雜的特征工程, 且不易遷移到其他數據, 不能滿足實時高效、泛化性強的濱海濕地分類需求。
近年來興起的以卷積神經網絡為代表的深度學習方法通過局部連接、共享權重自動提取高光譜圖像中的紋理邊緣等淺層特征和高階語義信息等深層次特征, 能夠有效地擬合高光譜圖像的分類標簽與高光譜圖像數據特征之間的非線性關系, 許多學者也將其應用于黃河三角洲濕地分類中。HU等[9]采用卷積神經網絡模型提取光譜空間特征, 并使用模糊隸屬度決策融合算法對黃河三角洲濕地進行分類; XIE等[10]提出了一個具有殘差連接的雙分支卷積神經網絡框架, 并設計了一個全局光譜-空間注意力模塊來引導網絡聚焦于更具辨別性的特征, 取得了良好的分類效果。
另外, LIU等[11]融合了高光譜圖像光譜分辨率高和多光譜圖像空間分辨率高的優點, 同時使用兩種數據對黃河三角洲濕地進行分類, 在訓練樣本量有限的情況下進一步提高了分類精度。然而, 上述方法受到局部感受野的限制, 難以捕獲中長距離依賴; 另外, 黃河三角洲濕地地物類型分布零散, 呈破碎化特性, 且在光譜曲線上差異較小, 需要綜合考慮全局信息才能實現高精度的分類。
近期, Transformer模型[12]在計算機視覺領域引起了極大的反響, 它通過自注意力機制計算所有輸入數據之間的相關性, 從而捕獲全局信息。高光譜圖像作為一種典型的序列數據, Transformer模型能有效地表征其光譜序列信息, 基于此, 一些學者將Transformer模型應用于高光譜圖像分類任務中并取得了良好的分類精度[13-15], 但上述模型多選擇城市、農田等公開數據集進行實驗驗證, 很少應用于空間異質性強的濱海濕地的分類評估, 對高光譜圖像分類的潛力也尚未得到徹底探索。
鑒于此, 本文提出了一種光譜-空間聯合的Transformer模型用于黃河三角洲濕地高光譜影像分類, 主要工作如下:
(1)提出了一種基于Transformer的端到端的黃河三角洲濕地高光譜圖像分類模型, 由光譜Transformer支路和空間Transformer支路組成, 分別提取全局光譜序列特征和鄰域內的全局空間特征;
(2)設計了卷積映射層分別將光譜向量和空間鄰域轉化成Transformer的輸入;
(3)引入了多階特征交互層對光譜和空間支路的Transformer編碼器提取的多階特征進行交互, 實現了淺層與深層特征的融合。
研究采用的數據分別來源于高分五號(GF-5)衛星以及PROBA/CHRIS衛星。GF-5數據覆蓋了黃河三角洲自然保護區濕地, 空間尺寸為462×617, 每個像素的空間分辨率為30 m; 含有150個波段, 范圍達到390~1 029 nm, 光譜分辨率從3.67~4.81 nm不等。GF-5數據對應的研究區空間范圍內由8種地物類型組成, 包括互花米草、水體、蘆葦、鹽地堿蓬、鹽堿灘、裸潮灘、潮灘蘆葦和檉柳。通過對黃河口濕地研究區進行實地踏勘, 得到了與獲取的遙感影像相近時相的現場踏勘資料, 根據現場資料并結合其他高空間分辨率的遙感影像完成了研究區的地物解譯, 其假彩色合成影像以及地物真值圖如圖1所示。

圖1 GF-5數據假彩色合成影像以及地物真值
CHRIS數據采集于黃河入海口新老入海徑流清八汊和清水溝交界處, 包含510×511個像素, 空間分辨率為17 m; 在光譜維, 由18個波段組成, 覆蓋了406~ 1 036 nm的光譜范圍, 光譜分辨率從5.9~44.1 nm不等。
CHRIS數據對應的研究區空間范圍內由檉柳堿蓬混生區、灘涂、蘆葦、裸地、水體以及互花米草6種地物類型組成, 其假彩色合成影像以及地物真值圖如圖2所示。
提出的光譜-空間聯合Transformer模型(spectral- spatial unified Transformer, SSUT)如圖3所示, 包含光譜Transformer支路、空間Transformer支路以及光譜-空間聯合分類部分。

圖2 CHRIS數據假彩色合成影像以及地物真值

圖3 光譜空間聯合Transformer模型總體框架

由于最初Transformer模型應用于機器翻譯[16]任務, Transformer編碼器只能接收一維詞向量作為輸入, ViT模型[12]為將Transformer模型遷移到計算機視覺領域實現二維圖像的分類任務, 首先將圖像分割成塊、展平成一維向量, 再通過一個線性映射層進行維度變換輸入到Transformer編碼器中。然而, 這種方式必然會造成一些紋理邊緣等淺層特征的丟失[17-18]。鑒于此并基于高光譜數據光譜和空間維度的特點, 本文提出了光譜向量以及空間鄰域的卷積映射層, 分別將相鄰的光譜波段以及圖像塊通過卷積映射成一維向量輸入到Transformer編碼器中。


圖4 光譜向量(a)和空間鄰域(b)卷積映射層
另外, 在所有生成的token之前添加了一個可學習的“類別token”, 類別token能夠表示Transformer編碼器中該層子模塊的所有token的信息。與此同時, 由于Transformer模型本身不包含位置信息, 因此對于所有token生成維度相同的位置編碼信息并與之相加, 引入所有token之間的相對位置關系, 為模型提供關鍵的上下文信息。
如圖5所示, Transformer 編碼器由個子模塊堆疊而成, 每個子模塊的主要構成部分為多頭自注意力機制(multi-head self-attention, MHSA)和前饋層(feedforward layer, FFL)[12]; 而在多頭自注意力機制和前饋層之前, 使用層歸一化(layer normalization, LN)[19], 在兩個層之后使用殘差[20]連接緩解梯度消失的問題。
2.3.1 多頭自注意力機制
作為Transformer模型最核心的部分, 多頭自注意力機制是多個自注意力機制的堆疊和集成, 通過計算所有輸入數據之間的相關系數捕獲長距離依賴關系。自注意力機制的計算流程如下:


圖5 Transformer編碼器



而多頭自注意力以不同的變換矩陣將輸入線性映射到個特征子空間中, 并使用獨立的自注意力機制并行處理它們, 將得到的結果進行級聯并再次通過一個線性映射層W以獲得最終輸出[16]。綜上, 多頭自注意力機制的過程可以通過如下式(1)~(3)表示:



2.3.2 前饋層、層歸一化以及殘差連接
盡管多頭自注意力機制通過計算所有輸入向量之間的注意力分數得到了每個向量的注意力表示, 但過程中使用的均為線性變換操作, 而為了引入非線性因素, 前饋層被添加到網絡中。前饋層首先通過一個線性層對token進行維度變換, 再經過一個GeLU激活函數, 最后通過另一個線性層將token映射回初始的維度。通過前饋層, 特征的表達能力得到了增強, 能夠更好地表示每個token與其他所有token之間的作用關系。
層歸一化在多頭自注意力機制層和前饋層之前進行, 對每一層單個樣本的所有神經元節點進行歸一化, 從而保證數據特征分布的穩定性, 加速模型的收斂速度。在Transformer編碼器中每個子模塊中存在兩個殘差連接, 分別是經過層歸一化、多頭自注意力機制之后的疊加, 以及經過層歸一化、前饋層之后的疊加。
整個Transformer編碼器的過程可以通過如下公式(4)和式(5)表示:


上文提到, 在所有生成的token之前設置了一個可學習的類別token, 它可以代表當前子模塊中所有token的信息, ViT模型[12]將最后一個子模塊的類別token送入分類器得到最終的分類結果。然而研究[18]表明, Transformer編碼器隨著子模塊的堆疊, 每層學習到的信息也是不同的, 而多層信息的交互與融合更有利于最后的分類任務。基于此, 引入多階特征交互層, 將所有子模塊的類別token取出并輸入到一個新的Transformer編碼器子模塊中, 使最后的輸出融合多個子模塊的信息。
具體來說, 如圖6所示, 多階特征交互層以Transformer編碼器中所有子模塊的類別token作為輸入, 由多頭自注意力機制、前饋層、層歸一化以及殘差連接構成。不同于之前的子模塊需要計算任意兩個token之間的注意力分數, 多階特征交互層只計算最后一個子模塊的類別token與其余類別token的關系, 從而將之前子模塊的學習到的信息融入最后一層, 這樣不僅實現了模型前后階信息的融合, 計算復雜度也由(O(2))降低到了(O()), 提高了模型的效率。

圖6 多階特征交互層
經過多階特征交互層之后, 得到了最終的光譜特征與空間特征, 兩路特征通過自適應相加的方式[21]進行融合。首先, 多層感知機頭, 包括一個層歸一化和一個線性層, 分別將光譜特征和空間特征的維度映射為待分類類別的數目; 其次, 設置一個0~1之間可學習的參數γ, 初始化為0.5, γ在訓練的過程中不斷優化直到達到最優的光譜-空間融合比例, 特征融合過程可通過下式(6)表示:

其中spe和spa分別代表光譜特征和空間特征。最后, 對融合的特征應用Softmax函數計算得到當前像素隸屬于每個類別的最終概率。
模型采用交叉熵損失函數, 采用Adam優化器對模型進行梯度下降的訓練優化, 學習率設置為0.000 5。訓練的epoch設置為100, batch size為64。對于模型中一些具體的參數, 光譜向量的空間尺寸設置為7×7, 每3個波段生成一個維度為256的token, 步長為2, Transformer編碼器共包含8個子模塊, 多頭自注意力機制中head數目為32; 空間鄰域的尺寸設置為27×27, PCA之后保留的光譜波段數目為3, 每3×3的圖像塊生成一個token, 步長為(3, 3), Transformer編碼器中token的維度為64, 共含有8個子模塊, 多頭自注意力機制中head數目為8。所有實驗均在顯存為24GB的 NVIDIA GeForce GTX 3090 GPU上進行。
選用高光譜圖像分類任務中權威的4個評價指標衡量算法的有效性: 類別精度、總體精度OA(Overall Accuracy)、平均精度AA(Average Accuracy)、Kappa系數。類別精度為在某個類別中正確分類的樣本數與該類樣本數的比值, 總體精度OA為所有正確分類的樣本數與總樣本數目的比值, 平均精度AA為每個類別精度的平均值, Kappa是根據混淆矩陣計算出的一個位于–1~1之間的得分, 用于衡量分類結果與地面真值之間的一致性程度。四個評價指標均為值越大, 算法效果越好。
為了證明提出的光譜-空間聯合Transformer模型在黃河三角洲濕地高光譜圖像分類的有效性, 選擇幾種先進的高光譜圖像分類方法在GF-5和CHRIS數據集進行對比, 包括: 經典的機器學習分類器SVM[22]; 基于卷積神經網絡的方法: 一維卷積神經網絡(1DCNN)[23], 二維卷積神經網絡(2DCNN)[24], 三維卷積神經網絡(3DCNN)[25]; 光譜-空間聯合網絡(SSUN)[26]; 基于Transformer模型的方法: ViT[12], SpectralFormer[15]。現有的基于深度學習的黃河三角洲濕地高光譜影像分類方法通常篩選出影像的部分像素作為感興趣區域, 進而選擇10%樣本進行訓練, 其余樣本進行測試[27-28]; 而本文則是對影像的所有像素進行分類, 樣本數較多, 因此在兩個數據集上均隨機選擇3%的樣本進行訓練, 其余樣本進行測試, 為了實驗的公平性, 不同方法的訓練集和測試集均相同。在GF-5和CHRIS數據集上的分類精度如表1和表2所示。
通過表1和表2不難看出, 與其他方法相比, 光譜-空間聯合Transformer模型(SSUT)在兩個數據集的OA、AA和Kappa系數均達到了最高值, 證明了提出方法的有效性和泛化性。以GF-5數據集的OA為例, SSUT的精度達到了90.90%, 比SSUN(89.11%)提高了1.79%, 比ViT(89.45%)提高了1.45%, 比3DCNN (84.85%)提高了6.05%, 比SVM(80.41%)提高了10.47%。不僅如此, SSUT在檉柳、鹽地堿蓬、鹽堿灘、裸潮灘等多個類別上均取得了最佳的分類結果, 證明了提出的模型能夠提取濕地的每種地物類型最有鑒別性的特征。
除此之外, 還可以得出以下結論: SVM盡管取得了良好的分類效果, 但仍低于2DCNN、3DCNN、SSUN等方法, 這在一定程度上證明了基于深度學習的方法在黃河三角洲濕地高光譜影像分類中的實用性; 3DCNN的分類結果優于1DCNN和2DCNN, 表明圖像的光譜和空間特征聯合提取有助于分類精度的提高; 另外, 可以觀察到在兩個數據集上ViT的精度均優于2DCNN, 而SpectralFormer的精度優于1DCNN, 這是由于Transformer不像CNN受限于局部感受野, 能夠捕捉到長距離依賴, 從而提取全局空間或光譜信息, 提高分類精度; SSUN分別使用LSTM[29]和CNN來提取圖像的光譜和空間特征并將它們聯合分類, 然而LSTM受限于不能并行訓練, 而在SSUT中, Transformer則能夠訓練多層疊加的模型, 增強了模型的表達能力, 因此在總體精度OA (90.90%與89.11%)、平均精度AA(88.35%與85.18%)以及Kappa系數(88.03%與85.64%)3個評價指標上均有提高。

表1 GF-5數據的分類結果
注: 表中黑體數字代表所有方法比較中類別精度、OA、AA和Kappa精度的最高值, 表2同

表2 CHRIS數據的分類結果
在分類結果圖方面, 所有方法在GF-5以及CHRIS數據集上的結果如圖7和圖8所示。很明顯地, SSUT在兩個數據集上有最少的噪點和最平滑的邊界, 并且每種地物類型絕大多數樣本均被正確分類, 不存在某個特定類別有大量錯誤分類的情況, 這也從另外一個角度證明了提出的SSUT的有效性。在一些具體的類別上, 以GF-5數據集的檉柳和裸潮灘為例, 如圖7h中的紅框所示, 其他對比方法均有錯分類成其他類別的情況, 而SSUT則幾乎沒有錯分類的點, 體現了SSUT提取的特征更具有判別性。
為了探索光譜空間支路聯合的作用、多階特征交互層的作用, 本文進一步開展了相關消融實驗。

圖7 GF-5數據分類結果

圖8 CHRIS數據分類結果
3.3.1 空間光譜支路聯合消融實驗及分析
為了驗證光譜Transformer支路與空間Transformer支路的聯合對于最終分類結果的影響, 本文分別使用單獨的每一個支路對兩幅影像進行分類并將結果輸出, 將其與兩個支路聯合分類的結果進行對比, 實驗結果如表3和表4所示。通過以上結果可以看出, 將光譜和空間自適應相加的聯合支路與每個支路相比OA、AA和Kappa系數均更高, 因此, 光譜和空間的聯系不可忽略。不僅如此, 聯合分類能同時利用光譜特征和空間特征, 結合兩者的優勢, 達到更優的分類結果, 以GF-5數據集為例, 在8種地物類型上, 聯合分類的精度均高于任一支路的精度。
3.3.2 多階特征交互層消融實驗及分析
為了證明多階特征交互層的作用, 本文分別開展了在沒有多階特征交互層和有多階特征交互層的情況下光譜、空間支路以及聯合分類的實驗, 結果如下圖9和圖10所示。

表3 GF-5數據空間光譜支路聯合消融實驗結果

表4 CHRIS數據空間光譜支路聯合消融實驗結果

圖9 GF-5數據多階特征交互層消融實驗結果

圖10 CHRIS數據多階特征交互層消融實驗結果
從圖中可以得知, 除了在CHRIS數據集上引入多階特征交互層的聯合分類的AA略低以外(93.17%與93.44%), 其余所有的評價指標均有不同程度的提高。這證明多階特征交互層能夠更好地融合淺層邊緣信息與深層語義信息, 從而提取更具鑒別性的光譜與空間特征, 有利于最后的分類任務。
3.3.3 head數目對實驗精度的影響
為了驗證不同head數目對模型分類性能的影響, 分別設置了4組光譜支路和空間支路的head數目進行了實驗, 并采用分類總體精度OA作為評價指標, 實驗結果如表5和表6所示, 其中head1和head2分別表示光譜和空間支路head數目。通過分析可得, 無論是在GF-5還是在CHRIS數據集上, 當光譜支路的head數目為32、空間支路的head數目為8時, 分類精度達到最高。

表5 GF-5數據不同head數目的分類精度
注: 表中黑體數字代表在當前head數目下OA取得最高值, 表6同

表6 CHRIS數據不同head數目的分類精度
本文提出了一種基于Transformer模型的黃河三角洲濕地高光譜影像分類方法, 設計了光譜Transformer支路和空間Transformer支路, 兩個支路基于自注意力機制分別捕捉光譜向量和空間鄰域的長距離依賴關系, 另外還引入了多階特征交互層實現了多層信息的融合, 最后使用自適應相加的方式融合兩路特征實現分類。在GF-5以及CHRIS兩個黃河三角洲濕地高光譜影像上進行了實驗, 在選用3%的樣本訓練條件下總體精度分別達到了90.90%和94.17%, 與其他主流的高光譜影像分類方法相比有明顯的提高, 與此同時消融實驗的結果證明光譜空間支路的聯合以及多階特征交互層的引入均對地物分類精度提高有較好的效果。
在未來的工作中, 我們將研究在小樣本條件下的黃河三角洲濕地高光譜影像分類, 并開展多源數據融合方向的研究, 結合高光譜、多光譜、激光雷達等數據的優勢進一步提高對黃河三角洲濕地的分類精度。
[1] 王娜娜, 劉宏元, 李英, 等. 黃河三角洲濕地生態系統服務價值評估[J]. 山東農業科學, 2022, 54(2): 153-158.
WANG Nana, LIU Hongyuan, LI Ying, et al. Value evaluation of wetland ecosystem services in the Yellow River Delta[J]. Shandong Agricultural Sciences, 2022, 54(2): 153-158.
[2] 邵鵬帥, 韓紅艷, 孫景寬. 黃河三角洲濕地退化和恢復對檉柳土壤有機碳含量及紅外碳組分的影響[J]. 生態學雜志, 2022, 41(7): 1258-1265.
SHAO Pengshuai, HAN Hongyan, SUN Jingkuan. Effects of wetland degradation and restoration on soil organic carbon content and infrared carbon compounds of Tamarisk chinensis in the Yellow River Delta[J]. Chinese Journal of Ecology, 2022, 41(7): 1258-1265.
[3] 李永濤, 杜振宇, 王霞, 等. 黃河三角洲自然保護區濕地生態服務功能價值評估[J]. 海洋環境科學, 2019, 38(5): 761-768.
LI Yongtao, DU Zhenyu, WANG Xia, et al. Evaluation of wetland ecosystem services in Yellow River Delta Nature Reserve[J]. Marine Environmental Science, 2019, 38(5): 761-768.
[4] 朱書玉, 王偉華, 王玉珍, 等. 黃河三角洲自然保護區濕地恢復與生物多樣性保護[J]. 北京林業大學學報, 2011, 33(S2): 1-5.
ZHU Shuyu, WANG Weihua, WANG Yuzhen, et al. Wetland restoration and biodiversity conservation in the Yellow River Delta Nature Reserve[J]. Journal of Beijing Forestry University, 2011, 33(S2): 1-5.
[5] 于淼, 栗云召, 屈凡柱, 等. 黃河三角洲濱海濕地退化過程的時空變化及預測分析[J]. 農業資源與環境學報, 2020, 37(4): 484-492.
YU Miao, LI Yunzhao, QU Fanzhu, et al. Spatio- temporal changes and trend prediction of degraded coastal wetlands in the Yellow River Delta[J]. Journal of Agricultural Resources and Environment, 2020, 37(4): 484-492.
[6] 徐振田, Ali Shahzad, 張莎, 等. 基于Landsat數據的黃河三角洲濕地提取及近30年動態研究[J]. 海洋湖沼通報, 2020, 3: 70-79.
XU Zhentian, ALI Shahzad, ZHANG Sha, et al. Mapping the wetland in Yellow River Delta and its dynamics Mapping the wetland in Yellow River Delta and its dynamics in recent 30 years based on Landsat data[J]. Transactions of Oceanology and Limnology, 2020, 3: 70-79.
[7] 吳培強, 張杰, 馬毅, 等. 基于地物光譜可分性的CHRIS高光譜影像波段選擇及其分類應用[J]. 海洋科學, 2015, 39(2): 20-24.
WU Peiqiang, ZHANG Jie, MA Yi, et al. A CHRIS hyperspectral band selection method based on spectral separability and classification application[J]. Marine Sciences, 2015, 39(2): 20-24.
[8] 馬毅, 張杰, 任廣波, 等. 基于決策級數據融合的CHRIS高光譜圖像分類方法研究[J]. 海洋科學, 2015, 39(2): 8-14.
MA Yi, ZHANG Jie, REN Guangbo, et al. Research on decision-level data fusion classi-fication method for CHRIS hyperspectral imagery[J]. Marine Sciences, 2015, 39(2): 8-14.
[9] HU Y B, Zhang J, Ma Y, et al. Hyperspectral coastal wetland classification based on a multi object convolutional neural network model and decision fusion[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(7): 1110-1114.
[10] XIE Z J, Hu J W, Kang X D, et al. Multilayer global spectra-spatial attention network for wetland hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-13.
[11] LIU C, TAO R, LI W, et al. Joint classification of hyperspectral and multispectral images for mapping coastal wetlands[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14: 982-996.
[12] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]// International Conference on Learning Representations. Austria: OpenReview.net, 2021.
[13] HE X, CHEN Y S, LIN Z H. Spatial-spectral transformer for hyperspectral image classification[J]. Remote Sensing, 2021, 13(3): 498.
[14] QING Y H, LIU W Y, FENG L Y, et al. Improved transformer net for hyperspectral image classification[J]. Remote Sensing, 2021, 13(11): 2216.
[15] HONG D F, HAN Z, YAO J, et al. SpectralFormer: Rethinking hyperspectral image classification with transformers[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-15.
[16] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[17] WU H P, XIAO B, CODELLA N, et al. Cvt: Introducing convolutions to vision transformers[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 22-31.
[18] YUAN K, GUO S P, LIU Z W, et al. Incorporating convolution designs into visual transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 579-588.
[19] XIONG R B, YANG Y C, HE D, et al. On layer normalization in the transformer architecture[C]//: International Conference on Machine Learning. Vienna: ACM, 2020: 10524-10533.
[20] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 770-778.
[21] WANG D, DU B, ZHANG L, et al. Adaptive spectral–spatial multiscale contextual feature extraction for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(3): 2461-2477.
[22] MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778- 1790.
[23] RASTI B, HONG D F, HANG R L, et al. Feature extraction for hyperspectral imagery: The evolution from shallow to deep: Overview and toolbox[J]. IEEE Geoscience and Remote Sensing Magazine, 2020, 8(4): 60-88.
[24] CHEN Y S, JIANG H L, LI C Y, et al. Deep feature extraction and classification of hyperspectral images based on convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(10): 6232-6251.
[25] LI Y, ZHANG H K, SHEN Q. Spectral-spatial classification of hyperspectral imagery with 3D convolutional neural network[J]. Remote Sensing, 2017, 9(1): 67.
[26] XU Y H, ZHANG L P, DU B, et al. Spectral–spatial unified networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10): 5893-5909.
[27] GAO Y H, LI W, ZHANG M M, et al. Hyperspectral and multispectral classification for coastal wetland using depthwise feature interaction network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-15.
[28] LIU C, ZHANG M M, LI W, et al. Convolutional neural network for coastal wetland classification in hyperspectral image[C]// IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. Waikoloa Village: IEEE, 2020: 5104-5107.
[29] HOCHREITER S, SCHMIDHUBER J. Long short- term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
Hyperspectral image classification of Yellow River Delta wetlands based on a spectral-spatial unified transformer model
XIN Zi-qi1, LI Zhong-wei1, WANG Lei-quan2, XU Ming-ming1, HU Ya-bin3, LIANG Jian4
(1. College of Marine and Spatial Information, China University of Petroleum (East China), Qingdao 266580, China; 2. College of Computer Science and Technology, China University of Petroleum (East China), Qingdao 266580, China; 3. First Institute of Oceanography, Ministry of Natural Resources, Qingdao 266061, China; 4. Nantong Intelligent Perception Research Institute, Nantong 226007, China)
Slightdifference is noted in the spectral curve of land cover types in the Yellow River Delta, and the spatial distribution of land cover types is scattered and fragmented. Existing classification methods are limited by the local receptive field; thus, it is difficult to capture long-distance dependence of images, resulting in unsatisfactory classification accuracy in hyperspectral images of the Yellow River Delta wetland. To address this problem, this paper proposes a spectral–spatial joint transformer model. The spectral and spatial branches took the spectral vector and the spatial neighborhood as inputs, respectively, extracting global spectral and spatial features based on the self-attention mechanism. This paper also introduces a multilevel feature interaction layer in the two branches to realize the fusion of shallow edge information and deep semantic information. Finally, the two-way features were fused by adaptive addition and sent to the classifier for final classification. The effectiveness of the method was verified on two hyperspectral images of the Yellow River Delta wetland, namely, Gaofen-5 and CHRIS. The experimental results revealed that the method significantly improved the accuracy of wetland classification. The overall accuracy reaches 90.90% and 94.17% for the two images when using 3% of the samples for training, outperforming other classification methods. The research results can realize the high-precision classification of the land cover types in the Yellow River Delta and provide technical support for wetland protection.
Yellow River Delta wetland; hyperspectral image classification; Transformer model; spectral-spatial joint
Apr. 29, 2022
TP79
A
1000-3096(2023)5-0090-12
10.11759/hykx202204290012
2022-04-29;
2022-07-09
山東省聯合基金資助項目(U1906217); 國家自然科學基金資助項目(62071491)
[Shandong Provincial Joint Fund Project, No. U1906217; National Natural Science Foundation of China, No. 62071491]
辛紫麒(1998—), 男, 山東泰安人, 博士研究生, 主要從事遙感圖像處理研究, E-mail: B21160015@s.upc.edu.cn; 李忠偉(1978—),通信作者, E-mail: li.zhongwei@vip.163.com
(本文編輯: 譚雪靜)