趙玉英 任明武
(南京理工大學計算機科學與工程學院 南京 210094)
波段選擇是指根據一定的準則或者搜索策略,從高光譜圖像的眾多波段中選擇最具代表性的波段,不加處理地組成波段子集,在保留原始特性的前提下對數據進行了降維處理[1~2],因此波段選擇也常被用于高光譜圖像分類領域的數據預處理階段。
本文提出的一種基于稀疏非負矩陣分解(Sparse Non-negative Matrix Factorization,SNMF)聚類[3~4]與類間可分性因子的高光譜圖像波段選擇方法,該方法先采用SNMF聚類算法對波段進行聚類,然后計算出每個波段的類間可分性因子,并以此為參考進一步從各類簇中選取波段,所有被選中的波段構成最終的波段子集。最后利用真實場景中采集的高光譜地表結構數據集進行實驗分析,采用波段子集的平均信息熵、平均相關系數和平均相對熵三項指標進行評價[5],并使用SVM分類器進行分類驗證。
非負矩陣分解(Non-negative Matrix Factorization,NMF)[6-7]的理念自誕生以來就被廣泛應用于圖像分析等多個領域,其分解的目標概括起來就是通過不斷的迭代優化步驟來求解出基矩陣W和系數矩陣H。對于非負矩陣的分解,可以近似表示為

式中,待分解矩陣V∈Rm×n,基矩陣W∈Rm×r,系數矩陣H是由系數向量ht組成的非負矩陣,H∈Rr×n,r的選取根據實際情況設置,一般要求r<<min{m,n},圖1形象地表示了這個問題。

圖1 非負矩陣分解表示
稀疏非負矩陣分解(Sparse Non-negative Matrix Factorization,SNMF)是對基本NMF增加了稀疏度的約束,將其應用于波段聚類時,首先要將高光譜波段矩陣分解為基矩陣W和系數矩陣H,而該波段的聚類則由稀疏系數矩陣中的對應系數權重確定,因此需對系數矩陣H做稀疏約束。此外,基于高光譜圖像的非高斯分布特性,本文選用基于K-L散度的目標函數[8]。
基于K-L散度與系數矩陣的L1范數稀疏約束[9]可得SNMF的目標函數如下:

更新迭代規則[10~11]如下:

基于K-L散度與系數矩陣的范數稀疏約束的SNMF迭代算法具體步驟如下。
Step 1輸入待分解矩陣V∈Rm×n,參數r,采用NNDSVD的 方 法[12]初 始 化W∈Rm×r和H∈Rr×n,設置迭代次數K;
Step 2對k=1:r,根據式(3)和式(4)進行迭代更新;
Step 3輸出迭代結束后的矩陣分解結果W和H。
類間可分性因子[13-14]的計算公式如下:

式中Dk表示第k個波段的類間可分性因子,其值與對應波段的類間可分性強度正相關,Dmin和Dmax分別表示在第k個波段上任意兩類地物目標光譜絕對值的最大值和最小值。Xik和Xjk分別為第k個波段上第i類目標和第j類目標的光譜反射率值,且i,j∈N,i≠j,N為目標總類別。
本文所提波段選擇算法流程如圖2所示。

圖2 基于SNMF聚類與類間可分性因子的波段選擇算法流程
算法首先進行數據預處理,然后使用SNMF算法,根據式(3)和(4)計算得到基矩陣W和稀疏稀疏矩陣H,并進行波段數為k的聚類計算,最后從各類簇中選出類間可分性因子最大的波段。
2019年8月~9月期間采用車載CGT-SI2B高光譜成像探測系統采集路表高光譜數據,選取工作波長408nm~1050nm之間共130個波段作為研究,每幅圖像大小為1920*1000。采集的數據集圖像中主要包含四種地表類型:柏油路、土路、水泥路、植被。由于是車載高光譜成像系統,很少有一幅圖像中會存在多種地表結構,因此本文進行波段選擇時所使用的高光譜圖像是由四類不同地表結構的圖像拼接而成,并對圖像的光譜值差異進行了校正,然后縮放為960*500,形成一幅涵蓋四類地表結構的高光譜圖像(如圖3所示),以便適用于當前的波段選擇方法。

圖3 高光譜圖像三維立方體
實驗時首先在如圖3所示的高光譜圖像上選取柏油路、土路、水泥路、植被共四類地物樣本,再根據圖4計算各波段的類間可分性因子。實驗中,波段數的選擇區間為5~30,步長為5。為了驗證本文方法的有效性,參照文獻[15~16],實驗采用平均信息熵(Average Information Entropy,AIE)、平均相對熵(Average Relativate Entropy,ARE)和平均相關系數(Average Correlation Coefficient,ACC)來定量評價,評價結果如表1所示。

圖4 地物樣本的均值波譜

表1 波段選擇定量評價
從表1的定量評價結果可以看出,聚類區間5~30范圍內(步長為5),當選擇的波段數為25時,對應的波段號為2、5~9、15、18、19、21、25、56、66、71、74、76、84、85、94、97、98、105、108、117、118,此時ACC最小,ARE最高,說明選出的波段相關性最小,類別可分性最高。當波段數為30時,波段間的相關性增加,類間可分性減小。總體表現來看,波段數為25時,效果較優。下面通過在不同波段數量下的SVM分類結果對比,進一步驗證所選波段的有效性。
使用本文方法對不同聚類數目下選擇波段組成的圖像進行實驗,從四種地物中分別抽取30%的樣本進行訓練,其余都用于測試。分類器采用RBF核的SVM,記錄不同波段數量下分類結果的OA、AA、Kappa系數,實驗結果如圖5所示。

圖5 不同波段數量下的SVM分類精度
從圖5可以看出,使用本文方法選出的波段具有良好的類別可分性,并且分類結果隨不同波段數量的變化趨勢相對穩定。其中波段數量為25時分類精度最高,OA達到95.22%,AA達到95.88%,Kappa系數達到93.48%。圖6是不同波段數量下的SVM分類效果圖,主要有少量水泥路和土路出現了錯分現象。土路被錯分成水泥路的像素點可能是因為野外環境下經過車子碾壓過的土路存在較多的混合像元,而水泥路被錯分成土路的像素點主要集中在草叢和水泥路的邊緣交界處,可能是因為邊界處的地面有一些零散的干枯葉子作為干擾,而實驗中選取的植被都是綠色植被。總體來看,波段數為25時四種地表結構的分類效果都比較好。

圖6 SVM分類效果圖
本文提出一種基于SNMF和類間可分性因子的高光譜波段選擇方法,并將其應用于高光譜圖像分類過程中波段選擇的相關研究。該方法首先利用稀疏約束的非負矩陣分解進行聚類,然后根據類簇內每個波段類間可分性因子的大小來選取最終的波段。利用采集的高光譜地表分類數據進行實驗驗證,采用平均信息熵(AIE)、平均相關系數(ACC)、平均相對熵(ARE)進行定量分析比較,又進一步選用SVM分類器驗證了所選波段的有效性和實用性。今后的工作中將研究深度學習領域的分類模型,結合高光譜圖像的光譜信息和空間信息設計合適的網絡模型用于高光譜圖像分類。