陳昀琳
(浙江同濟科技職業學院,浙江 杭州 311231)
高光譜遙感技術是集高光譜數據獲取、處理、分析與應用為一體的遙感科學,擁有豐富信息量的高光譜數據為遙感圖像分類和地物識別提供了更精確的處理依據,憑借窄波段成像技術反映地物的生物物理屬性,在資源勘探[1]、農業監測[2]、海洋開發[3]、空天認識[4]等領域都有較明顯的優勢。
高光譜圖像巨大的數據量給數據分析處理帶來了較大的問題。如何有效地在保證不損失高光譜信息的情況下,盡可能保留數據的特征信息和去除數據冗余與相關性成為高光譜遙感圖像領域中一個非常重要的研究方向。
高光譜遙感圖像降維的主要目的是實現對高光譜圖像特征的提取。現有的高光譜降維方法主要包括基于特征提取和基于非變換的波段選擇。常見的基于特征提取的光譜遙感圖像降維算法包括:主成分分析(Principal Component Analysis,PCA)[5]、獨立分量分析(Independent Component Analysis,ICA)[6]、小波變換(Wavelet Transform,WT)[7]、最小噪聲分離(Minimum Noise Fraction,MNF)[8]等方法。ICA算法是一種盲源信號分離技術[5],在使用ICA算法降維時,首先需要確定降維后的特征數目,由于高光譜相鄰波段具有較強的相關性,因此特征數需要遠遠小于原始波段。
針對ICA不能學習過完備基,正交基對優化問題增加了硬約束,需要增加訓練樣本,從而增加了訓練難度。本文在ICA算法的基礎上特點,通過重建懲罰(Soft Reconstruction Penalty,SRP)替換ICA的正交性約束來克服ICA的缺點,即基于重建ICA(RICA)算法完成對高光譜影像的降維。
ICA基于統計獨立的原則,將多通道觀測到的信號借助于優化算法分解為獨立的若干獨立分量。不同于PCA基于數據的二階統計量的協方差矩陣,ICA是基于數據間的高階統計信息。因采用了更高階的統計特性,能夠有效消除信號之間的相關聯性,同時確保在取得高壓縮率時保證數據的光譜特性[6]。ICA利用高階累計量提取各個分量不僅去除了分量間的相關性,且保持分量間統計獨立,使得譜間維數得到有效壓縮。
ICA算法原理如下:假設X為一組觀測值,X∈R^(n×1),其中包含n個成員,每個成員為一個隨機變量,如式(1)所示:
X=(x1x2…xi…xn)T
(1)
式中xi為隨機變量,X中的n個隨機變量之間非獨立,在一定的條件下可用n個相互獨立的隨機變量線性組合重新表達X為:
(x1x2…xi…xn)T=A(s1s2…si…sn)T
(2)
式中A為滿秩矩陣且A∈Rn×n,si為一個隨機變量且兩兩相互獨立,利用矩陣S替換si
S=(s1s2…si…sn)T
(3)
由公式(1)(2)(3)可得:
S=A-1X
(4)
令W=A-1可得:
S=WX
(5)
其中W∈Rn×n。假設對信號X采集m次,則可得到數據集D∈Rm×n為:
(6)
設隨機變量si概率密度函數是psi(si),其中p的右下角si為隨機變量標示,括號中的si表示自變量。因為S的n個成員si是相互獨立的,因此S的概率密度函數為:
(7)
則X的概率密度函數是pX(X):
(8)
根據數據集計算W的值,從概率的角度來說,如果該數據集已經記錄,則讓該數據集出現概率最大的W就是最優值。根據最大似然估計法則可知,前述數據集出現的概率L為:
(9)
其中,∏表示連乘,di為數據集D的第i列,即:
di=(di,1di,2…di,n)T
(10)
當L具有最大值時,W取得最優解,對L偏導數得:
(11)
(12)
對公式(11)進行矩陣化,令:
K=WD
(13)
則K∈Rn×m,W∈Rn×n,K∈Dn×m,而gx為:
(14)
則:
(15)
因此對于W而言:
(16)
根據伴隨矩陣相關性質可得W的更新方程為:
W=W+α(ZTD+m(W-1)T)
(17)
其中α為學習速率,需人為設定。
因此聯合公式(5)(6)(9)(15)(17)可求得W的最優解,進而計算X的最優解,實現對信息的盲源分離。
但是在實際使用ICA方法對高光譜數據進行降維時會發現,因n維空間的正交基數為n,而特征矩陣W的特征數量(即基向量數量)大于原始數據維度時,會產生優化方面的困難,且樣本訓練時需要做ZCA白化預處理。
RICA是在ICA基礎上的擴展,通過將正交性約束改為一個Soft Reconstruction Penalty,克服了ICA模型的缺陷。RICA旨在通過用軟重建懲罰替換ICA的正交性約束來克服ICA的缺點,在使用梯度下降法對W進行訓練時,模型的損失函數為:
(18)

根據RICA的損失函數,能夠計算J(W)關于W的梯度為:
(19)
其中,N為樣本的數量,./表示元素除,ε是一個極小的常量,防止分母出現0值。通過梯度下降的方法逐步最小化損失函數的值,能夠得到最優的W矩陣。
本文采用一景經輻射定標、噪聲波段刪除、大氣校正后大小為138×289像素的高分5號高光譜影像作為實驗數據,空間分辨率為30 m。分別對PCA,ICA和RICA 3種降維方法進行對比實驗,降維前高光譜影像真彩色合成的效果如圖1所示,降維后前三單波段與RGB合成比較以RICA為例如圖2所示。

圖1 降維前高光譜影像真彩色合成效果

圖2 RICA降維后影像
從降維后影像中可以定性看出,影像在經過不同的降維方法計算后,各個波段的信息量依次呈現遞減趨勢,即噪聲逐漸增多,同時經過降維后的影像地物特征更加鮮明,同種地物在原始真彩色影像中出現的不同色調也在降維后呈現統一顏色,有利于分類前不同地物類型的確認。
遙感影像得知信息熵是描述各像元灰度值的總體分布特征的指標,所計算的值可以反映圖像信息的分散程度,即影像的信息量。信息熵與影像所包含的信息量相關且呈正比。經過降維后的影像第一波段的信息量最大,所以對PCA、ICA和RICA降維后數據進行信息熵計算,結果如表1所示。

表1 降維后影像信息熵
從計算的信息熵中可以看出雖然三者信息熵數據差別較小,但是對實驗數據而言,RICA的信息量相較其他兩種降維方法保留的信息量更多。
支持向量機(Support Vector Machine,SVM)是遙感影像監督分類中的一種分類算法,是建立在統計學理論基礎熵的機器學習方法。本文選擇RBF核函數作為SVM分類核函數,同時核函數中的Gamma參數設置為輸入影像波段數的倒數。
SVM分類樣本最終確定包括林地、水體、建筑物、耕地和其他在內的5種地物類型,選擇具有代表性和完備性的樣本點共1 232個。確定樣本后,需要計算樣本分離度,樣本的分離性可以定量確定兩類不同地物之間的差異性。本文通過Jeffries-Matusita距離進行樣本分離度計算,保證所有樣本的可分離度均大于1.8。
同一分類樣本對不同降維后的數據進行SVM分類的結果如圖3所示。

圖3 不同降維方法SVM分類結果
通過對以上分類結果目視分析,SVM分類算法對實驗數據的分類效果較好。使用總分類精度和Kappa系數對分類結果進行定量分析,Kappa系數是檢驗數據一致性的指標,代表數據的平均分類結果,能間接反應分類精度。計算結果如表2所示。

表2 SVM總分類精度和Kappa系數
與PCA和ICA算法相比,重建的ICA分類精度有所提高,較PCA和ICA算法分別提高了2.80%和3.38%。降維降低了數據的復雜性,減少了空間損耗,提高了運行速率。在ICA的損失函數中加入重構懲罰項的RICA解決了ICA無法學習完備基的問題,在利用梯度下降算法后進行迭代求解,利用SVM分類得到較PCA和ICA更好的結果。
本文通過分析ICA不能學習過完備基,要求數據必須白化這一特點,對未白化的數據效果不好,且運用梯度下降的同時還需要額外的基正交化操作,增加了訓練難度。對此,本文通過在損失函數中增加一個重建懲罰項代替強制的基正交化操作,即RICA算法,使模型的訓練更簡潔,并克服ICA無法學習過完備基的特點。通過SVM分類結果驗證了RICA降維后的分類效果和精度都高于PCA和ICA算法,實驗證明RICA是一種有效的高光譜數據降維方法。