張 龍 ,韓彥嶺 ,張 云 ,袁國良
(1.上海海事大學 上海 201306;2.上海海洋大學 上海 201306)
海冰是影響極地乃至全球氣候系統的一個重要因子[1],因此研究極地海冰變化成為氣候研究的重要方向。與常規的觀測手段相比,高光譜遙感技術可以及時有效地獲取海冰變化的詳細信息以及海冰接近連續的光譜信息,為極地海冰檢測及重要信息的獲取提供了重要手段。然而,高光譜數據量大,波段多且窄,波段之間相關性強,信息冗余度較高。一方面數據量的劇增給數據的處理和解譯帶來很多問題;同時波段之間的相關性和冗余信息對傳統的圖像分類算法提出了巨大挑戰。因此,有必要對高光譜海冰數據進行降維處理。現有的降維方法有基于特征提取和基于波段選擇兩種方法,而波段選擇方法可以保持圖像的原有特性,更有利于對圖像進行分析,成為高光譜降維的重要研究方向。目前已經提出的波段選擇算法很多,具體分為監督波段選擇和非監督波段選擇兩類,非監督波段選擇方法不需要有關地物類型的先驗知識,更符合遙感圖像處理的實際情況,在遙感圖像處理中有著廣泛的應用。
非監督波段選擇的基本思路是選擇具有代表性的波段子集,使得該子集內的波段間相關程度最小且各波段自身信息量盡量大[2]。目前對非監督波段選擇的研究很多,如基于信息理論的波段選擇算法[3]等。但這些方法存在缺點,例如熵只考慮了波段的信息量,忽略了波段間的相關性使得所選擇的波段子集不一定最優。應用于衡量不同像元間光譜相似性度量的方法[4],如光譜相關性度量(SCM),光譜信息散度(SID)和波譜角 (SAM)、以及結合SID和SAM優點的混合度量方法SID_SAM[5]等在光譜識別方面取得較好的效果。因此,本文提出將這些基于光譜相似性度量的方法應用于高光譜海冰圖像的非監督波段選擇中,利用光譜相似性度量比較波段間的不相似性,首先以熵最大的波段開始,然后采用SCM和SID_SAM方法進行初始波段選擇,再通過LP算法進行后續波段選擇,為了確保選出信息量較大,又有區別性的波段,數據需要進行預處理,例如,確定針對高光譜海冰數據可分性較好的波段范圍、移除壞波段等。另外,波段選擇過程中像素選擇的影響,需要選擇的波段數本文也進行了分析研究,并通過一些已廣泛運用的波段選擇算法,如熵(ENTROPY),一階光譜導數(FSD)[6]進行對比分析,實驗結果表明,就分類性能而言本文提出的方法優于其他傳統方法。
基于相似性的波段選擇是在考慮波段信息量的基礎上,盡量選擇相似性低的波段。該算法包括兩個過程:先通過計算單波段之間的相似度進行初始波段選擇,從而選出最不相似的兩個波段;然后聯合計算單波段與多波段之間的相似度進行后續波段選擇,從而能夠從整個波段空間選擇相似性最小的波段組合。
假設原始高光譜圖像有M個波段,初始波段選擇算法的基本步驟如下:
1)結合海冰的光譜特征,以隨機的或者熵最大的波段B1初始化算法。
2)從剩下的M-1個波段中找到與波段B1最優的組合波段B2,B2與B1最不相似。
3)從剩下的M-1個波段中找到與波段B2最優的組合波段B3,B3與B2最不相似。
4)如果B3=B1,則證明B1和B2為最不相似的波段組合,此時,算法中止執行。如果B3≠B1,繼續執行下一步。
5)繼續執行算法直到Bi+1=Bi-1為止,然后將選擇的波段Bi-1或者Bi作為初始波段(或者將二者作為初始波段對)。
采用的兩種初始波段選擇算法定義如下:
1)SID:由輻射或者反射的性質,假設波段B中所有的分量都是非負的,光譜信息散度定義如下:假設波段B1對應像素概率為 q =(q1,q2,…,qL),其中:qi=b1i/相應的可得到波段 B 2 對應像素概率為 p =(p1,p2,…,pL),其中:由信息理論得到波段B2關于波段B1的相對熵:

B1關于B2的相對熵為:

則兩個波段之間的光譜信息散度定義如下:

其中,Ii(B1)和 Ii(B2)為波段 B1 和 B2 在第 i個分量上的自信息,越小的度量值表明了兩個波段之間越大的相似性。
2)SAM:兩個波段的波譜角定義如下:

SID 與 S AM的混合度量有 S ID×sin(SAM)和 S ID×tan(SAM)兩種[5],都取得了比較好的評價結果,本文選擇前者。
3)SCM:假設波段B1和B2為集合Φ中的兩個波段B1=(b11,b12,…,b1L),其中波段和波段 B 2=(b21,b22,…,b2L),則兩個波段之間的相關性度量:

后續波段選擇算法的基本步驟如下:
1)以選擇的初始波段B1開始,初始化算法,得到選擇的波段子集Φ={B1}。
2)由確定的算法,找到與B1最不相似的波段B2,此時選擇的波段子集更新為Φ=ΦU{B2}。
3)繼續執行第二步,直到子集Φ中選擇的波段數目滿足要求為止。
采用的后續波段選擇算法定義如下:
LP:假設波段B1,B2為子集Φ中的兩個波段,為了找到與波段B1和B2最不相似的波段B,B1和B2可以用來估計波段B:

其中B′,為使用波段B1和B2對波段B的估計或者線性預測,a0,a1和a2是最小化線性預測誤差的參數,誤差:emin=PB-B′P,參數向量 a=(a0,a1,a2)T可以由最小二乘解來確定:

其中,x為L×3矩陣,第一列均為1,第二列包含波段B1的所有選擇像素,第三列包含波段B2的所有選擇像素,y為包含波段B的所有選擇像素的L×1向量。則獲得最大誤差emin的波段被認為與波段B1、B2最不相似,作為波段B3選入子集Φ中,很顯然,繼續執行算法可以繼續選擇波段,直到子集Φ中選擇的波段數目滿足要求為止。
由于高光譜的波段圖像之間具有很高的空間相關性,為了減少計算量提高波段選擇的效率需要對像素進行選擇。選擇的像素數目和像素位置往往對波段選擇算法的性能影響很大,因此本文中對不同的像素選擇方法做了對比分析。
1)選擇像素的數目:首先選擇所有像素進行波段選擇,然后分別選擇1%的像素和1‰的像素進行對比分析。
2)選擇像素的位置:為了消除隨機選擇像素時可能無法包含所有類別像素的影響,本文提出基于k_means聚類的像素選擇方法,具體步驟如下:
①選擇所有原始波段 (壞波段移除后)進行k_means聚類,合并相同類別。
②對不同類別的數目和位置進行統計,確定每類要選擇的像素數目。
③根據②,均勻的選擇相應類別的像素,直到每類像素的數目滿足要求為止。
通過實驗分析發現,基于k_means聚類的像素選擇方法能夠根據不同類別的像素所占比例,選擇相應的像素,為了對不同波段選擇算法的性能進行分析,可以存儲選擇的像素,從而提高分析的可靠性。
實際應用中很難確定需要選擇的波段數,根據經驗,如果圖像場景很復雜包含較多的類別時就需要選擇較多的波段,這是因為數據的維度應該足夠高以容納這些類別用于檢波或者分類[2]。高光譜圖像中不同信號源的最小數目可以使用虛擬維度(VD)來估計[7]。虛擬維度估計方法中,一般情況下,噪聲子空間投影(NSP)獲得了最大的估計,結果可以作為需要選擇波段數的一個參考值。
為了對選擇的波段信息量和類可分性進行評價,文中分別采用支持向量(SVM)進行監督分類和k_means進行非監督分類用于結果分析。當沒有可利用的像素級的真實地表信息時,來自于所有原始波段的分類圖可被看作真實地表,來自于選擇波段的分類圖可以用空間相關系數ρ與該真實地表進行對比,平均相關系數ρ越趨近于1意味著越好的分類結果。該方法是基于針對類別相似但光譜可分離情況下的一種合理假設[8]:使用所有的原始波段(壞波段剔除后),可得到一個很好或者至少令人滿意的分類性能。這種基于圖像相似性的方法在非監督情況下或者缺少像素級地表真實圖像的情況下,可以給出定量的評價。
實驗采用2014年4月12日采集的左上角經緯度74°1′10.93″N,79°47.22″W, 右 下 角 經 緯 度 73°2′12.71″N,80°5′33.86″W,具有 242個波段,大小為 3233×256海冰類型較容易判別EO-1高光譜海冰圖像。圖像中的地物類別主要有4類:厚冰,薄冰,海水和積雪。
為了選擇信息量較大又有區別性的波段,水汽吸收波段和低信噪比波段需要先移除,這是因為這些波段雖然不相似,但是幾乎不包含有用信息[2]。EO-1高光譜遙感L1產品數據包含242個波段,剔除受水汽影響、未經過輻射定標處理和重疊的波段后,剩下176個波段,即:8至57、79至120、128 至 166、179 至 223[9]。
由北極海冰的反射率特征[1]和實驗中高光譜海冰圖像的海冰反射率特征可以確定選擇波段的波長范圍為400~1 350 nm。包含在此波長范圍的已選擇波段為8至57和79至120,共92個波段作為波段選擇的原始波段。
表1列出了在給定不同虛警概率情Pf況下由NSP得到的虛擬維度的估計:

表1 NSP得到虛擬維度的估計Tab.1 VD estim ates obtained by the NSP method
如表1所示,在給定不同虛警概率時VD的值均為4,在后面的分析中,將此作為需要選擇波段數的一個參考值。
實驗中,通過隨機選擇1%的像素,k_means法選擇1%像素,k_means法選擇1‰像素和選擇所有像素分別進行波段選擇以進行對比分析。
圖1展示了不同像素條件下,SCM+LP選擇的波段進行監督和非監督分類結果與使用所有原始波段 (壞波段移除)對應分類圖之間的平均相關系數。如圖1(a)所示,在k_means選擇1‰的像素時,SCM+LP選擇4個波段的監督分類平均相關系數0.9861,選擇8個波段的監督分類平均相關系數為0.9864,分類精度只有細微的提高,而波段數卻增加了一倍。同時隨著選擇波段數的增加,分類精度也幾乎沒有變化。因此,虛擬維度的值VD=4在選擇合適的波段數目上給出了合理的預測,它可以在分類精度與所需降低的數據維數之間取得平衡。由圖1(a-b)可知k_means法選擇1%像素時選擇波段的分類精度與使用所有像素選擇波段的分類精度幾乎相同。同時k_means法選擇1‰像素時,SCM+LP選擇波段的分類精度是最高的,這表明了k_means法是一種非常有效的像素選擇方法。
在隨機選擇像素的情況下,由于選擇的像素的變化,選擇的波段也隨之變化很大,更重要的是,隨機選擇像素時不能保證所選擇的像素總能包含所有類別,尤其是像素較少的類別。相比較而言,k_means法選擇的像素總能包含不同類別的像素,在進行重復選擇時所選擇的波段號是固定不變的,便于對不同算法進行對比分析。需要指出的是,當k_means選擇0.1‰像素時,由于聚類誤差的存在,選擇像素太少時降低了波段選擇算法的性能,因此這里不再討論。
由3.3中的結果,這里僅對1‰像素的波段選擇結果進行對比分析。圖2給出了92個原始波段的熵,如圖2所示,第33個波段即40號波段的熵最大,在后面的分析中,將此作為選擇初始波段的起始波段。圖3為各個算法選擇波段的監督和非監督分類結果與所有原始波(壞波段移除后)對應分類圖之間的平均相關系數。

圖1 SCM+LP選擇波段性能(所有像素,隨機選擇1%,k_means選擇1%和k_means選擇1‰)Fig.1 The performance analysis of band selection based on SCM+LP(Comparison between using all pixels, 1%pixels with random selection pixels,1%pixels with k_means and 1‰ pixels with k_means)
如圖3所示,雖然ENTROPY+SCM和ENTROPY+SID_SAM選擇初始波段的分類精度要低于ENTROPY和FSD,但是隨著選擇波段數的增加,分類精度均高于后二者。LP在選擇3個波段時,分類精度也高于后二者。選擇6個波段時,三者分類精度均收斂。因此,就整體而言ENTROPY+SCM+LP、ENTROPY+SID_SAM+LP和LP選擇波段的分類精度是最好的,這說明了三者的波段選擇性能要優于ENTROPY和FSD。同時,本文提出的方法ENTROPY+SCM+LP獲得了最高的評價,分類精度優于ENTROPY+SID_SAM+LP和傳統的LP算法。ENTROPY+SCM+LP在選擇4個波段時,分類精度已經收斂,監督分類平均相關系數為0.98幾乎接近于1,但是數據的維數由92降到了4。

圖2 所有波段的熵Fig.2 The entropy of all bands

圖3 ENTROPY+SCM+LP,ENTROPY+SID_SAM+LP,LP,FSD和 ENTROPY的分類精度對比(k_means選擇1‰像素)Fig.3 Comparison on classification accuracy for ENTROPY+SCM+LP,ENTROPY+SID_SAM+LP,FSD and ENTROPY methods(1‰ pixels selected by k_means)
本文從極地海冰光譜特性出發,針對不同海冰類型在可分性較好的波段上進行波段選擇,將基于波段相似性度量的非監督波段選擇算法應用于高光譜海冰檢測,根據實驗結果分析,所研究方法,在考慮波段信息量的基礎上找出最不相似的波段,大大提高波段選擇效率的同時獲得較高的分類性能。主要貢獻如下:1)考慮到極地海冰的光譜特征,選擇光譜特征明顯且可分性較好的波段應用到高光譜圖像的波段選擇過程,可以有效縮減原始波段范圍,提高算法效率的同時選出信息含量比較高的波段。2)考慮到高光譜圖像較高的空間相關性,采用基于k_means聚類的像素選擇,分析以不同比率選擇像素情況下分類精度的變化,得出基于k_means聚類的1‰像素選擇可以兼顧效率與性能的平衡,在降低像素數目的同時保證了較高的分類性能。3)將光譜相似性度量方法應用于高光譜海冰圖像的初始波段選擇中,分析了不同的初始波段算法與后續波段算法組合的性能,本文提出的ENTROPY+SCM+LP方法獲得了最高的評價,能夠有效應用于高光譜海冰圖像的數據降維。
[1]柯長青,謝紅接,雷瑞波,等.北極海冰的光譜特征分析[J].光譜學與光譜分析,2012,32(4):1081.KE Chang-qing,XIE Hong-jie,LEI Rui-bo,et al.Analysis of the spectral characteristicsof the arctic sea ice[J].Spectroscopy and Spectral Analysis,2012,32(4):1081.
[2]Du Q,Yang H.Similarity-based unsupervised band selection for hyperspectral image analysis[J].Geoscience and Remote Sensing Letters, IEEE,2008,5(4):564-568.
[3]Martínez-UsóA,Pla F,Sotoca J M,et al.Clustering-based hyperspectral band selection using information measures[J].Geoscience and Remote Sensing, IEEE Transactions on,2007,45(12):4158-4171.
[4]Kong X,Shu N,Huang W,et al.The research on effectiveness of spectral similarity measures for hyperspectral image[C]//Image and Signal Processing (CISP), 2010 3rd International Congress on.IEEE,2010,5:2269-2273.
[5]Du Y,Chang C I,Ren H,et al.New hyperspectral discrimination measure for spectral characterization[J].Optical Engineering,2004,43(8):1777-1786.
[6]Bajcsy P,Groves P.Methodology for hyperspectral band selection[J].Photogrammetric Engineering&Remote Sensing,2004,70(7):793-802.
[7]Chang C I,Du Q.Estimation of number of spectrally distinct signal sources in hyperspectral imagery[J].Geoscience and Remote Sensing, IEEETransactionson,2004,42(3):608-619.
[8]Platt R V,Goetz A F H.A comparison of AVIRIS and Landsat for land use classification at the urban fringe[J].Photogrammetric Engineering&Remote Sensing,2004,70 (7):813-819.
[9]譚炳香,李增元,陳爾學,等.EO-1 Hyperion高光譜數據的預處理[J].遙感信息,2006(6):36-41.TAN Bing-xiang,LI Zeng-yuan,CHEN Er-xue,et al.EO-1 Hyperion hyperspectral data preprocessing[J].Remote Sensing Imformation,2006(6):36-41.