路 易, 郭 靜, 于少波
(1. 裝備學院 研究生管理大隊, 北京 101416; 2. 裝備學院 復雜電子系統仿真實驗室, 北京 101416)
高光譜影像的近鄰加權拉普拉斯降維方法
路 易1, 郭 靜2, 于少波1
(1. 裝備學院 研究生管理大隊, 北京 101416; 2. 裝備學院 復雜電子系統仿真實驗室, 北京 101416)
針對高光譜影像數據中存在信息冗余和非線性結構的現象,以及數據分布不均勻時拉普拉斯特征映射近鄰點選擇不恰當的問題,提出了一種基于Cam加權距離的拉普拉斯改進算法,用于高光譜影像數據降維以壓縮數據量并提高分類精度。首先對波段分組去除奇異波段,然后用基于Cam加權距離的拉普拉斯特征映射算法對剩余數據降維,最后將結果輸入最小距離分類器進行高光譜影像分類。通過Indiana Pines數據集進行驗證,實驗結果表明:與線性降維主成分分析法和非線性降維拉普拉斯特征映射相比,基于Cam加權距離的拉普拉斯特征映射算法分類精度更高。
Cam加權距離;拉普拉斯特征映射;非線性降維;波段選擇
高光譜圖像數據包括地物的二維空間信息和光譜波段信息,具有“圖像立方體”的形式和結構。高光譜圖像數據量大、數據冗余嚴重、譜間相關性強,為得到精確的分類結果,分類前對高光譜圖像數據進行降維處理尤為重要。高光譜數據降維方法主要分為2類:特征選擇和特征提取。高光譜圖像的特征選擇是波段組合優化問題,即選擇出信息量較大、相關性較小、類別可分性較好的波段組合。與特征選擇相比,特征提取是對原始高光譜數據進行數學變換,然后選取變換后的前n個特征作為降維之后的n個成分,實現數據降維[1]。
特征提取可以挖掘原始數據的隱含信息,可分為線性特征提取和非線性特征提取。主成分分析法(PrincipalComponentAnalysis,PCA)[2]和最大噪聲分離變換(MaximumNoiseFraction,MNF)是目前應用廣泛的線性特征提取方法。但實際上,在高光譜圖像數據的同類地物中和類間都存在非線性特性,在光譜維上尤為明顯。如果用傳統的線性模型對高光譜圖像進行處理無疑會丟失有用的信息。近年來,非線性流形學習方法在高光譜降維取得一定成果。常用的流形學習算法主要包括等距映射[3]、局部線性嵌入[4]、拉普拉斯特征映射(LE)[5]、局部切空間排列算法[6]等。拉普拉斯特征映射方法與線性方法PCA和非線性的其他流形學習方法相比,在低維流形保持能力、抵抗噪聲能力、處理稀疏數據能力以及算法計算復雜度上都有一定的優勢。但在參數選擇、鄰域計算、大尺度應用等方面仍需進一步研究。提出基于Cam加權距離的拉普拉斯特征映射,即在鄰域計算上做出了改進。具體做法為:用Cam加權距離替代拉普拉斯特征映射構建鄰域時所用的歐氏距離。
本文先通過相關系數矩陣對原始數據進行波段選擇,再分別用主成分分析法、拉普拉斯特征映射和基于Cam加權距離的拉普拉斯進行降維,將降維后的結果輸入最小距離分類器進行高光譜圖像分類,比較各方法的總體分類精度和計算時間,實驗結果表明:基于Cam加權距離的拉普拉斯可以得到更好的效果。
首先對高光譜影像原始數據進行波段選擇,在這一過程中用到了自動子空間劃分的相關理論。自動子空間劃分是高光譜影像常用到的特征選擇方法。本文用此方法先去除原始數據中少量的奇異波段,然后對剩下的數據進行非線性降維。本文提出的基于Cam加權距離的拉普拉斯降維方法是在拉普拉斯特征映射算法上進行了改進。拉普拉斯特征映射是近年來應用到高光譜影像的非線性特征提取方法[7]。
1.1 自動子空間劃分
自動子空間劃分(Auto-SubspacePartition,ASP)方法通過定義波段相關系數矩陣及其近鄰可傳遞相關矢量,將高光譜數據空間劃分為適合的數據子空間。這種劃分方法有著充分的理論依據,反映了數據的局部特性[8]。在對高光譜影像進行波段選擇時,根據高光譜影像具有相鄰譜段相關性強的特點,通常用此方法結合波段指數尋找最佳波段。本文提出了在特征提取前首先對原始數據所有波段進行分組,依據式(1)去除相關性極小的奇異波段,然后再進行特征提取的改進方案。
(1)

1.2 拉普拉斯特征提取方法

1) 計算像素點xi和xj的歐氏距離,構建鄰域圖G。當xj是xi鄰域k中的點時,xi與xj之間存在邊長為兩者歐氏距離的無向邊。
2) 計算G每條邊的權重,得到權重矩陣W。兩像素點間的權重系數
(2)
式中,σ2為徑向基核函數的方差。如果xj不是xi鄰域k中的點,則wij=0。
3) 通過極小化目標函數計算低維嵌入坐標Y。目標函數為
E(Y)=∑ij(yi-yj)2wij
(3)

4∑ijyiyjwij=2yTLy
(4)
為求得唯一流形坐標,附加條件yTDy=1,于是
Ly=λDy
(5)
降維后的數據為除0外的d個特征值對應的特征向量。
當起始的樣本數量較少或樣本數據不是標準正態分布時,基于歐氏距離來選取鄰域的方法并不能很好地構建鄰域信息。目前已有實驗證明高光譜數據空間存在非高斯分布結構[9],并且在高光譜影像空間中,每類樣本數據量多少不一。因此,在高光譜影像處理中直接應用基于歐氏距離的傳統k近鄰方法效果不佳。 傳統k近鄰方法選擇最近的k個樣本,可能出現信息的冗余以及重要信息的丟失,如圖1所示。實線區域內為k近鄰方法選擇的點,對于不均勻的分布k近鄰選擇的點都集中在一側,導致信息冗余且另一側信息丟失,因此這些近鄰點不能很好地重構中心點。為此,本文用基于Cam加權距離的拉普拉斯方法對高光譜數據進行降維,該方法可更合理地構造出樣本點的鄰接信息,使得高光譜數據的低維流形更準確的表達原始高維信息。

圖1 歐氏距離(實線)和加權距離(虛線)
2.1Cam分布
隨機向量X定義為
(6)

2.2 加權距離


(7)
式中,a,b,τ為待估計參數。
2.3 參數估計
Y服從標準正態分布,其概率密度函數為
(8)

(9)
那么
E(X)=c1bτ
(10)
E(‖X‖)=c2a
(11)
式中,c1,c2為常量。
(12)


(13)
(14)
于是得到
(15)
將以上計算的Cam加權距離替代拉普拉斯特征提取中的歐式距離,可以解決數據分布不均的問題,從而更好地對高光譜數據降維。
2.4 本文降維方法步驟
本文提出的高光譜影像數據降維方法將特征選擇和特征提取結合,流程如圖2所示。具體方法步驟為:


7) 由式(3)~式(5)計算低維嵌入坐標Y。

圖2 本文降維方法流程
3.1 實驗數據
實驗數據集為由成像光譜儀AVIRIS獲取的美國印第安納州某農林混合實驗場(IndianaPines)高光譜圖像。波長范圍為0.4 ~ 2.5μm,空間分辨率為25m,空間大小為145×145個像素點,從原始220個波段中去除水汽吸收波段和低信噪比波段([104~108],[150~163],220)后,保留了其中200個波段進行數據處理。數據集中共有16類地物。IndianaPines單一波段圖如圖3所示。

圖3 Indiana Pines單一波段圖
3.2 實驗結果
對有200個波段的IndianaPines數據進行波段選擇,計算相關系數矩陣。去除相關系數小于0.2的波段,剩余184個波段。首先對有184個波段的高光譜圖像用最小距離法進行分類,總體分類精度(OverallAccuracy,OA)為84.99%,比直接用200個波段進行分類提高1.1%。說明此時有效去除了16個奇異波段。接著對含有184個波段的高光譜數據進行實驗,分為用PCA、LE和基于Cam權重的LE進行降維,將降維后的結果輸入最小距離分類器比較實驗結果。
圖4為PCA、LE和Cam-LE分別將184個波段的高光譜數據降到不同維數下的總體分類精度條形圖。表1為對IndianaPines圖像分類的運行時間和總體分類精度對照表。表1的第一行為對原始數據200個波段進行分類的總體分類精度與運行時間。其余的是對波段選擇后的184個波段繼續進行降維并分類的總體分類精度和運行時間。圖、表顯示的結果均為各方法參數調到分類結果最優情況下的實驗結果。

圖4 PCA、LE和Cam-LE不同維數下的總體分類精度OA
實驗結果顯示:用PCA降到5維時,總體分類精度最高;且全過程的運行時間為9.11s,與流形學習方法相比時間最少。但在無先驗知識的情況下不能直接選擇出最佳維數。本文用LE進行降維時,近鄰k選為9分類精度最高。用不加改進的拉普拉斯方法降維,只在降到5維時分類精度低于PCA降維后的精度,在其他維數下分類精度整體高于PCA降維后的分類精度,且隨著維數增加精度呈上升趨勢。LE在計算時間上高于PCA,計算時間與近鄰數k有關。當k一定時,隨著維數增加計算時間也逐漸增加。用基于Cam加權距離的拉普拉斯降維選取k為12時分類精度最高,分類效果較好。但因為基于圖構建近鄰并且需要在k近鄰基礎上調整近鄰點,所以計算時間最長。

表1 不同維數下總體分類精度和運行時間
圖5為分別用PCA、LE和Cam-LE降維后維數不超過50時,分類精度最高的分類圖像。圖5a)、圖5c)、圖5e)為理想分類結果,圖5b)、圖5d)、圖5f)為實驗分類結果,每次實驗均隨機分配顏色進行分類。圖5a)和圖5b)為用PCA降到5維時進行分類的分類圖像,總體分類精度為77.34%。圖5c)和圖5d)為用LE降到50維時進行分類的分類圖像,選取k為9,此時總體分類精度為76.65%。圖5e)和圖5f)為用Cam-LE降到50維時進行分類的分類圖像,選取k為12,此時總體分類精度為83.54%。由圖像可以明顯看出第三組,即用改進后的拉普拉斯降維然后進行分類的效果最好。

a) 理想分類結果 b) PCA分類

c) 理想分類結果 d) LE分類

e) 理想分類結果 f) Cam-LE分類 圖5 PCA、LE、Cam-LE分類圖
本文提出基于Cam加權距離的拉普拉斯高光譜圖像降維方法,結合最小距離分類器用IndianaPines數據集進行分類實驗,并與傳統的線性降維PCA和非線性流形學習降維LE算法比較。結果證明:先進行波段選擇可以去除奇異波段,提高分類精度;基于Cam加權距離的拉普拉斯降維在分類精度上優于傳統線性PCA和非線性的流形學習降維LE;在計算時間上基于Cam加權距離的拉普拉斯與PCA和LE相比存在劣勢,但與不降維直接進行分類相比,在分類精度基本持平的情況下,計算時間更少。在本文方法基礎上,加入高光譜空間信息或利用各類標簽進行半監督拉普拉斯改進是下一步研究的方向。
)
[1]張兵.高光譜圖像處理與信息提取前沿[J].遙感學報,2016,20(5):1062-1090.
[2]JIA X,RICHARDS J A.Segmented principal components transformation for efficient hyperspectral remote sensing image display and classification[J].IEEE Trans.Geoscience and Remote Sensing,1999,37(1):538-542.
[3]杜培軍,王小美,譚琨,等.利用流形學習進行高光譜遙感影像的降維與特征提取[J].武漢大學學報(信息科學版),2011,36(2):148-152.
[4]劉嘉敏,羅甫林,黃鴻,等.應用相關近鄰局部線性嵌入算法的高光譜遙感影像分類[J].光學精密工程,2014,22(6):1668-1676.
[5]孫偉偉,劉春,李巍岳.聯合改進拉普拉斯特征映射和k-近鄰分類器的高光譜影像分類[J].武漢大學學報(信息科學版),2015,40(9):1151-1156.
[6]SUN W,HALEVY A,BENEDETTO J J,et al.Nonlinear dimensionality reduction via the ENH-LTSA method for hyperspectral image classification[J].Selected Topics in Applied Earth Observations & Remote Sensing IEEE Journal of,2014,7(2):375-388.
[7]錢進,鄧喀中,范洪冬.基于拉普拉斯特征映射高光譜遙感影像降維及其分類[J].遙感信息,2012,27(5):3-7.
[8]蘇紅軍,杜培軍,盛業華.高光譜影像波段選擇算法研究[J].計算機應用研究,2008,25(4):1093-1096.
[9]路威.面向目標探測的高光譜影像特征提取與分類技術研究[D].鄭州:中國人民解放軍信息工程大學,2005:7.
[10]ZHOU C Y,CHEN Y Q.Improving nearest neighbor classification with cam weighted distance[J].Pattern Recognition,2006,39(4):635-645.
(編輯:李江濤)
Dimensionality Reduction for Hyperspectral Images Based on Cam Weighted Distance Laplacian Eigenmap
LU Yi1, GUO Jing2, YU Shaobo1
(1. Department of Graduate Management, Equipment Academy, Beijing 101416, China; 2. Science and Technology on Complex Electronic System Simulation Laboratory, Equipment Academy, Beijing 101416, China)
In consideration of the information redundancy and intrinsic nonlinearities, and the irrelevancy of Laplacian Eigenmap k-nearest neighbor selected for the uneven distribution of hyperspectral image data, this paper presents an improved LE algorithm based on Cam weighted distance for hyperspectral image dimensionality reduction to compact feature representation and improve the accuracy of classification. First, the band is grouped for the removal of singular band, then the Cam weighted distance Laplacian Eigenmap is used to reduce the remaining data dimension, and finally, the results are put into the minimum distance classifier for hyperspectral image classification. By verification with the Indiana Pines data set, the experimental results show that compared with linear dimensionality reduction method of PCA and nonlinear method of LE, Cam weighted distance Laplacian Eigenmap algorithm gets higher classification accuracy.
Cam weighted distance; Laplacian eigenmap (LE); nonlinear dimensionality reduction; band selection
2017-04-17
部委級資助項目
路 易(1992—),女,碩士研究生,主要研究方向為高光譜遙感。luyi9246@163.com
TP701
2095-3828(2017)03-0027-05
A DOI 10.3783/j.issn.2095-3828.2017.03.005