


















摘要:
針對現有高光譜解混方法提取全局上下文信息不充分、 光譜空間特征之間的融合也會丟失全局信息, 進而導致獲取地表信息不準確的現狀, 提出一種運用雙分支網絡來提升解混性能的方法。 該方法通過3個模塊完成解混任務: 首先在空間特征提取模塊中使用Swin Transformer對全局空間上下文信息進行建模; 然后與三維卷積構建的光譜模塊提取的光譜信息進行融合; 最后運用光譜空間自注意力殘差模塊對光譜空間特征進行分析。 通過相同高光譜數據集上的土壤、 樹、 水、 路4種要素對該方法進行驗證, 并與DAEU、 CyCU-Net、 DeepTeans、 MSNet、 DAAN 5種方法的實驗數據進行對比, 結果表明: 在Samson數據集上, 該方法比上述5種方法在豐度估計上平均提升了18.31%, 在端元提取上平均提升了2.00%; 在Jasper Ridge數據集上, 豐度估計平均提升了2.70%, 端元提取平均提升了8.24%。
關"鍵"詞:高光譜解混; 全局信息; 雙分支網絡; 自注意力
中圖分類號:TP751
文獻標志碼:A
文章編號:16739868(2025)04020411
A Deep Network Hyperspectral Unmixing Method with
Global Spatial Feature Extraction
SU Qian,"FAN Yongsheng,"SANG Binbin,"XU Minjing
College of Computer and Information Science, Chongqing Normal University, Chongqing 401331, China
Abstract:
Aiming at the current situation that the existing hyperspectral unmixing methods do not extract enough global context information, and the fusion between spectral and spatial features could also lose global information, which will lead to inaccurate land surface information, a method using a double-branch network to improve the unmixing performance was proposed in this paper. The unmixing task had been completed by this method through three modules. Firstly, the Swin Transformer was used to model the global spatial context information in the spatial feature extraction module. Then, the model was fused with the spectral information extracted by the spectral module constructed by 3D convolution. Finally, the spectral spatial self-attention residual module was used to analyze the spectral spatial features. The proposed method was verified by four elements of soil, tree, water and road on the same hyperspectral data set, and compared with the experimental data of five methods: DAEU, CyCU-Net, DeepTeans, MSNet and DAAN. On the Samson dataset, the proposed method had an average increase of 18.31% in abundance estimation and 2.00% in endmember extraction compared with the above five methods. On the Jasper Ridge dataset, the average increase was 2.70% in abundance estimation and 8.24% in endmember extraction.
Key words:
hyperspectral unmixing; global information; double-branch network; self-attention
高光譜圖像是一種通過在大量連續波長范圍內采集數據來獲取物體表面光譜信息的圖像, 因其具有豐富的光譜信息, 能更精準識別其他圖像無法區分的細微材料。 地表相關信息對農業生產具有重大意義, 其研究需要運用高光譜圖像, 例如適宜的土壤能夠生產出更加優質的煙草[1-2]和茶葉[3], 不同的土壤能夠讓辣椒產生不同的營養和風味品質[4], 精準的陸面資料能夠降低地區天氣和降水的模擬誤差[5], 生態系統碳儲存功能與景觀格局變化有著極大相關性[6]等。 然而高光譜圖像具有空間分辨率較低, 圖像中普遍存在混合像元的問題, 因此對下游任務的開展將帶來不利影響。 高光譜解混技術的研發, 其目的就是將高光譜圖像中高度混合的像元分解成純物質的光譜(即端元)和純物質所占像元的比例(即豐度)。 高光譜解混技術的大量研究和應用主要基于2個不同的混合模型, 即線性和非線性混合模型[7]。 線性混合模型假設入射光只與一種物質產生作用, 其混合光譜可以表示為純物質光譜的線性組合。 非線性混合模型考慮到了多種物體之間的多次反射, 更符合實際情況, 但面臨著缺乏適當的非線性程度以及先驗知識相關方面的挑戰。
隨著大數據時代的來臨, 深度學習迅速發展, 并已用于高光譜解混任務中[8]。 與傳統的解混方法相比, 深度學習可以在任意網絡結構組合以及非線性結構上實現, 具有更高的適用性與靈活性。 自動編碼器(Auto Encoder, AE)是高光譜解混方法中典型的基于深度學習方法的基本網絡結構, 其主要分為編碼器和解碼器2個部分。 編碼器主要用于提取隱藏層的低維特征來進行豐度估計, 解碼器主要用于將低維特征重構為原始輸入數據并獲得端元矩陣。 目前, 已經有學者提出許多基于AE方法的變體。 例如: Palsson等[9]提出了一種深層AE來進行高光譜解混, 并驗證了不同激活函數對AE的作用; Shi等[10]針對現有方法對光譜變異性建模能力的不足, 提出了一個概率生成模型來解決端元變異性問題, 并通過神經網絡的非線性建模功能來擬合任意端元分布, 進而提供更準確的豐度和端元估計。 然而, 高光譜圖像中的相鄰像素間往往表現出高度的空間相關性, 上述方法并沒有充分考慮空間信息。 因此, Palsson等[11]提出了一種基于卷積AE的解混方法, 該方法直接使用高光譜圖像塊, 并且不使用任何池化或上采樣層, 因此始終保留了圖像的空間結構。 Yu等[12]受感受野機制和多級框架有效性的啟發, 提出了一種用于高光譜解混的多級卷積AE網絡, 能夠通過卷積AE在逐步多級分解過程中學習廣泛的上下文信息而不丟失細節特征。 過去也有一些學者嘗試解決這些問題, 例如Ghosh等[13]將卷積AE與Transformer相結合, 提出了一種新穎的基于深度神經網絡的Transformer高光譜解混模型, 使Transformer在視覺領域中建模全局上下文信息得到成功應用[14]。 但目前大多數基于AE的解混方法都是純粹基于卷積神經網絡(Convolutional Neural Network, CNN)提出的, 而CNN又受卷積核大小的限制, 容易丟失原始圖像中的大量上下文信息, 使其在處理高光譜圖像的復雜性問題上面臨較大的挑戰。
近年來, 許多學者也通過Swin Transformer和三維CNN的結合來進行光譜信息處理, 例如Ma等[15]使用Transformer代替CNN來學習HSI(Hyperspectral Image)的先驗, 然后在Transformer層后面添加了三維CNN探索HSI的空間光譜相關性, 使得在2個廣泛使用的HSI數據集和真實世界數據集上實現了相當大的增益。 Farooque等[16]提出了一種以處理HSI立方體作為輸入, 并采用涉及具有不同Atrous速率的三維層并行分支光譜空間特征提取模塊的方法, 該方法能夠以多種尺度和分辨率提取特征, 并在多個HSI數據集上取得一定的優越性。 但是使用Swin Transformer和三維CNN結合的方法依然是針對HSI的2種特征進行直接融合或拼接, 對于深層融合時出現的特征冗余現象的處理存在一定不足。
為此, 本文提出一種綜合考慮全局上下文信息的雙分支網絡結構, 其中空間特征提取模塊利用Swin Transformer建模全局空間上下文信息[17], 光譜特征提取模塊利用三維CNN進行光譜信息的建模, 而光譜空間自注意力模塊進一步提取全局深度融合的上下文信息, 最后在2個真實數據集上通過消融實驗和對比實驗進行驗證。
1"模型與原理
1.1"線性混合模型
對于線性混合模型, 高光譜圖像解混的過程可以根據如下公式進行表示:
Y=MA+N(1)
式中: Y∈RL×N為包含L個波段和N個像素的被觀測到的高光譜圖像; M∈RL×p為端元矩陣, 其中端元矩陣的每一列表示1個端元的光譜; A∈Rp×N為相應的豐度矩陣; N∈RL×N為添加的噪聲向量。 此外, 豐度矩陣代表每個像元中各個端元所占的比例, 所以豐度矩陣需要同時滿足豐度和為一約束(Abundance Sum-to-one Constraint, ASC)和豐度非負約束(Abundance Nonnegativity Constraint, ANC), 相應的公式如下:
ai≥0, i
∑pj=1ai,j=1
(2)
式中: ai為第i個像素; ai,j為第j個端元在第i個像素中所占的比例; p為端元數目。
1.2"基于AE解混的原理
基于AE的結構因適合于解混任務而被廣泛應用。 如圖1所示, 編碼器部分(Encoder)用來對原始高光譜圖像提取圖像特征, 同時將高維的數據轉換成位于隱藏層的低維特征。 解碼器部分(Decoder)則通過學習隱藏層的低維特征來重構高光譜數據。 利用原始高光譜數據和重建高光譜數據之間的誤差可以很好地訓練AE。 其中, 隱藏層的低維特征A代表豐度矩陣, 解碼器部分的權重M代表端元矩陣。
此外, 基于AE的解混方法通常使用ReLU激活函數和Softmax激活函數來滿足ASC和ANC, 相應的公式如下:
ReLU(x)=max(0, x)(3)
Softmax(x)=eai,j∑pj=1eai,j(4)
2"雙分支網絡模型
雙分支網絡模型能夠解決現有高光譜解混方法的不足之處, 它既能充分保留原始上下文信息, 又能有效避免卷積核過小的問題。 下面分別介紹其網絡結構以及所采用的損失函數。
2.1"網絡結構
與常規AE一樣, 本文的方法主要包括編碼和解碼2部分。 圖2呈現了所提出的高光譜雙分支網絡(Hyperspectral Double-branch Network, HDN)整體架構。 首先, 編碼部分通過雙分支網絡結構獲得光譜和空間特征, 這部分將在第2.2節中詳細闡述。 隨后是光譜空間自注意力模塊SSSAM(Spectral Spatial Self-attention Module), 將在2.3節中詳細闡述。 通過引入空間特征提取模塊和光譜特征提取模塊, 該網絡能夠同時獲取光譜和空間上下文信息, 并通過自注意力模塊SSSAM進一步提升全局上下文信息的建模能力。 最后, 解碼部分使用簡單的1×1卷積進行維度調整以獲取重構的輸入。
2.2"雙分支特征提取模塊
與其它圖像不同, 高光譜圖像可理解為一個三維圖像, 其中包括空間維度與光譜維度。 現有方法針對AE進行較多改進, 但都是基于二維卷積來考慮空間信息從而忽略了光譜維度的信息, 這就對解混性能造成負面影響。 受Yu等[12]以多尺度信息為基礎提出一種多級卷積AE思路的啟發, 本文提出一種雙分支網絡結構(圖3), 該網絡結構將同時考慮高光譜圖像的空間信息和光譜信息。
如圖3a所示, 本文利用Swin Transformer作為雙分支網絡結構中的空間特征提取模塊, 該模塊以整個高光譜圖像作為輸入并將其劃分成若干個不重疊的令牌補丁, 然后這些令牌補丁經過若干次重復的Transformer Blocks以進行空間信息長程相關性建模, 最后重塑維度得到與豐度圖相同的尺寸。
如圖3b所示, 對于光譜信息提取模塊, 本文使用1×1×3的三維卷積進行光譜信息提取, 每個三維卷積后使用Leaky_ReLU激活函數以及最大池化, 最后使用1個1×1的二維卷積將通道數調整至對應數據集的端元數量。 第i層和第j層特征圖神經元值的具體公式如下:
ux,y,zi,j=g∑dl-1τ=1∑ηλ=-η∑ρβ=-ρ∑γα=-γwα,β,λi,j,τ×vx+α,y+β,z+λi-1,τ+bi,j(5)
式中: g為激活函數; wi,j,τ為第i層和第j層特征圖中權重參數的值; bi,j為對應的偏置, dl-1為特征圖的數量。 通過2ρ+1、 2γ+1以及2η+1可分別計算卷積核的寬、 高與深度。
2.3"光譜空間自注意力模塊
近年來, 注意力網絡能夠幫助網絡模型減少特征的冗余, 使模型更加聚焦于重要的目標區域, 所以在計算機視覺領域應用廣泛。 考慮到高光譜圖像的波段數量較多且普遍存在波段信息冗余的問題, 以及傳統Self-attention雖能進行不同空間位置的特征交互, 但大多數仍通過計算(query, keys, value)三元組的交互獲得全局注意力信息, 這并沒有考慮相鄰鍵值對之間的豐富上下文信息, 因此本文將上下文信息與Self-attention的學習結合在一起, 形成光譜空間自注意力模塊, 如圖4所示。
由圖4可知, 該模塊首先經過2個3×3卷積核進行空間信息提取, 同時卷積核使用批歸一化(BN)和ReLU激活函數。 此外, 為防止梯度爆炸或梯度消失的問題, 本文引入殘差連接以幫助網絡訓練。 接著通過3×3卷積核對上下文進行編輯以獲取相鄰圖像的局部信息, 隨后與原輸入進行通道維度的拼接操作。 進一步經過1個1×1卷積學習多頭注意力矩陣, 再進行Softmax操作以得到注意力權重矩陣A, 此時A中每個空間位置都考慮到了全局特征。 權重矩陣A再與Value Map進行Self-attention計算, 獲得圖像全局信息, 以實現輸入的動態上下文表示。 最后將所得的局部信息與全局信息進行相加融合, 得到了對突出點著重關注的輸出特征。
2.4"損失函數
光譜角距離(Spectral Angular Distance, SAD)是尺度不變的目標函數, 因而使用光譜角距離作為網絡損失函數的第1項, 其公式如下:
LSAD(I, I∧)=∑pi=1arccos〈Ii, I∧i〉‖Ii‖2‖I∧i‖2(6)
式中: Ii和I∧i分別為原始高光譜數據和模型所重建的高光譜數據; p為數據個數。
光譜角距離雖有利于端元的提取, 但沒有考慮到豐度估計的偏差, 所以第2項損失使用均方誤差(Mean Square Error, MSE), 其公式如下:
LRe=∑pi=1‖Ii-I∧i‖2(7)
總損失為這2項損失的加權和, 即:
L=LSAD+LRe(8)
式中: 為權重系數, 用于控制2項損失函數之間的平衡。
3"實驗與分析
3.1"實驗設置
實驗中訓練模型使用的處理器型號為Intel Core i9-13900HX, 顯卡為8 GB的RTX4060。 本方法模型使用Python 3.7和PyTorch 1.11深度學習框架進行編寫, 其訓練參數如表1所示。
3.2"高光譜數據集描述
實驗中使用的高光譜數據集描述如下:
1) Samson數據集: 原始高光譜數據的空間分辨率為952×952, 為了便于實驗分析, 從原始圖像的第(252, 332)個像素開始, 該數據集在第100個通道的可視化如圖5a所示, 真實端元曲線可視化如圖5c所示。
2) Jasper Ridge數據集: 原始高光譜數據有512×614個像素, 同樣為了便于實驗分析, 從原始圖像的第(105, 269)個像素開始, 去除易受密集水蒸氣及大氣影響的波段通道: 1~3、 108~112、 154~166和220~224, 該數據集在第100個通道的可視化如圖5b所示, 真實端元曲線可視化如圖5d所示。
本實驗的其他詳細參數如表2所示。
3.3"評估指標
為了評估解混性能, 該領域常常使用以下4個指標進行評估: 均方根誤差ERMSE、 光譜角距離DSAD、 平均均方根誤差ARMSE與平均光譜角距離ASAD。 ERMSE與ARMSE越低表示模型估計的豐度圖更準確, DSAD與ASAD越低表示模型提取的端元更準確, 其表達式如下:
ERMSEj=1N∑Ni=1(a∧i,j-ai,j)2
ARMSE=1p∑pj=1ERMSEj
DSADi=arccoseTie∧i‖ei‖‖e∧i‖
ASAD=1p∑pp=1DSADi
(9)
式中: a∧i,j和ai,j分別為第i個像元中第j個端元的豐度估計比例和真實豐度估計比例; N為像元的數量; p為端元數量; e∧i和eTi分別為模型提取的端元和數據集的真實端元。
3.4"消融實驗
為了驗證本方法提出模型中各個模塊的有效性, 在Samson數據集上進行消融實驗。 將本文提出的模型拆分為: 僅使用空間特征提取模塊、 僅使用光譜特征提取模塊、 僅使用雙分支模塊(空間特征+光譜特征提取模塊), 并與本文最終的模型(空間特征+光譜特征提取模塊+光譜空間自注意力殘差模塊)進行對比, 結果如圖6所示。
在圖6中, 橫坐標表示各個模塊, 縱坐標表示綜合衡量指標數值, 本文將平均均方根誤差ARMSE和平均光譜角距離ASAD作為衡量指標, 可以看出僅使用光譜特征提取模塊或空間特征提取模塊因提取的特征信息不夠充分, 其表現不佳。 當使用雙分支模塊進行聯合信息提取時, 解混性能得到了一定改善。 當所有模塊進行組合時, 本文的方法獲得了最好的結果, 進而證明了本文方法的有效性。
3.5"定量結果分析
本文選用5種深度學習方法進行對比實驗, 然后對結果進行定量分析, 驗證本文提出方法的有效性, 包括: DAEU[9]、 CyCU-Net[18]、 DeepTrans[13]、 MSNet[12]、 DAAN[19]。 DAEU采用全連接層構建AE, CyCU-Net級連了2個卷積AE, DeepTrans將transformer模型引入基于卷積編碼器的解混方法中, MSNet采用多階段卷積神經網絡用于解混, DAAN則是一種基于去噪的深度AE增強網絡。 此外, 上述方法均使用頂點成分分析(Vertex Component Analysis, VCA)[20]來初始化端元矩陣。
3.5.1"Samson數據集的實驗結果分析
上述5種深度學習方法和本文提出的方法在Samson數據集上的定量分析結果如表3所示。 根據表3的數據可以看出, 本文提出的方法在土壤、 樹、 水3種要素的豐度估計上分別最高提升了38.89%、 28.57%、 4.41%, 端元提取上分別最高提升了3.51%、 33.33%、 6.90%。 圖7顯示了所有方法在Samson數據集上的端元提取結果, 其中圖7a、 7b、 7c分別對應于端元: 土壤、 樹、 水。 從圖中的走勢分析可知, 在不同的波段上各方法均有一定的差異, 但只有本文提出方法得到的整體結果最接近真實標簽(GT)。 圖8為所有方法在Samson數據集上的豐度估計結果可視化圖, 可以看出本文提出方法的效果也與GT最為接近。
3.5.2"Jasper Ridge數據集的實驗結果分析
在Jasper Ridge數據集上的定量分析結果如表4所示。 根據表4的數據可以看出, 本文提出的方法在土壤、 樹、 水、 路4種要素的豐度估計上分別最高提升了12.98%、 25.00%、 11.43%、 19.21%, 端元提取上分別最高提升了7.69%、 39.22%、 8.45%、 2.70%。 圖9顯示了所有方法在Jasper Ridge數據集上的端元提取結果, 其中圖9a、 9b、 9c、 9d分別對應于端元: 土壤、 樹、 水、 路。 從圖中的走勢分析可知, 本文提出方法得到的整體結果最接近GT。 圖10為所有方法在Jasper Ridge數據集上的豐度估計結果可視化圖, 可以看出本文提出方法的效果也與GT最為接近。
4"結論
針對深度神經網絡方法在高光譜圖像解混研究中的不足, 本文提出了一種結合二維和三維卷積的雙分支網絡模型, 以提升解混性能。 該網絡模型包含3個模塊, 首先通過Swin Transformer構建的空間模塊和三維卷積構建的光譜模塊分別進行高光譜圖像空間特征和光譜特征的提取, 然后通過光譜空間自注意力殘差模塊進行空間特征和光譜特征的深度融合以獲得聯合特征信息。 在Samson數據集和Jasper Ridge數據集上進行實驗, 以驗證模型的有效性。 采用均方根誤差ERMSE、 光譜角距離DSAD、 平均均方根誤差ARMSE與平均光譜角距離ASAD作為評估指標, 結果表明在豐度估計上分別平均提升了18.31%與2.70%, 在端元提取上分別平均提升了2.00%與8.24%, 證明了本文方法可以有效地提升高光譜解混的性能, 對于地表相關信息能夠更加精準地進行分析。
參考文獻:
[1]代先強, 楊盛剛, 肖鵬, 等. 渝東北煙區土壤退化現狀剖析 [J]. 西南大學學報(自然科學版), 2023, 45(12): 65-75.
[2]"王智, 楊勝剛, 范業晨, 等. 重慶市石柱縣煙田土壤養分空間異質性分布及評價 [J]. 西南大學學報(自然科學版), 2023, 45(11): 42-52.
[3]"楊鑒, 張珍明, 陳祖擁, 等. 貴州省典型茶園土壤鋅含量空間異質性及影響因素 [J]. 東北農業大學學報, 2023, 54(12): 21-31.
[4]"楊梅, 胡曉婷, 徐衛紅. 不同類型土壤與辣椒風味品質的相關性研究 [J]. 西南大學學報(自然科學版), 2024, 46(1): 2-16.
[5]"李恬, 李懷剛, 何建軍, 等. 陸面資料對復雜地形氣溫和降水模擬的影響——以濟南市為例 [J]. 西南大學學報(自然科學版), 2023, 45(9): 124-131.
[6]nbsp;莫金宵, 雷冬梅, 李杰, 等. 縣級自然保護區土地利用景觀格局與固碳功能關系分析——以云南省梁王山為例 [J]. 云南農業大學學報(自然科學), 2023, 38(4): 694-703.
[7]"HEYLEN R, PARENTE M, GADER P. A Review of Nonlinear Hyperspectral Unmixing Methods [J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 1844-1868.
[8]"LI S T, SONG W W, FANG L Y, et al. Deep Learning for Hyperspectral Image Classification: An Overview [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(9): 6690-6709.
[9]"PALSSON B, SIGURDSSON J, SVEINSSON J R, et al. Hyperspectral Unmixing Using a Neural Network Autoencoder [J]. IEEE Access, 2018, 6: 25646-25656.
[10]SHI S K, ZHAO M, ZHANG L J, et al. Probabilistic Generative Model for Hyperspectral Unmixing Accounting for Endmember Variability [J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 5516915.
[11]PALSSON B, ULFARSSON M O, SVEINSSON J R. Convolutional Autoencoder for Spectral-Spatial Hyperspectral Unmixing [J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(1): 535-549.
[12]YU Y, MA Y, MEI X G, et al. Multi-Stage Convolutional Autoencoder Network for Hyperspectral Unmixing [J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 113: 102981.
[13]GHOSH P, ROY S K, KOIRALA B, et al. Hyperspectral Unmixing Using Transformer Network [J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5535116.
[14]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image Is Worth 16×16 Words: Transformers for Image Recognition at Scale [EB/OL]. (2021-06-03) [2024-02-10]. https: //arxiv.org/abs/2010.11929.
[15]MA Q, JIANG J J, LIU X M, et al. Learning a 3D-CNN and Transformer Prior for Hyperspectral Image Super-Resolution [J]. Information Fusion, 2023, 100: 101907.
[16]FAROOQUE G, LIU Q C, SARGANO A B, et al. Swin Transformer with Multiscale 3D Atrous Convolution for Hyperspectral Image Classification [J]. Engineering Applications of Artificial Intelligence, 2023, 126: 107070.
[17]LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows [C] //2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021, Montreal, QC, Canada. IEEE, 2021: 9992-10002.
[18]GAO L R, HAN Z, HONG D F, et al. CyCU-Net: Cycle-Consistency Unmixing Network by Learning Cascaded Autoencoders [J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 5503914.
[19]SU Y C, ZHU Z Q, GAO L R, et al. DAAN: A Deep Autoencoder-Based Augmented Network for Blind Multilinear Hyperspectral Unmixing [J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5512715.
[20]NASCIMENTO J M P, DIAS J M B. Vertex Component Analysis: A Fast Algorithm to Unmix Hyperspectral Data [J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(4): 898-910.
責任編輯"柳劍