摘要: 基于高光譜影像數據的特點,分析了高光譜數據的降維方法。著重探討了波段選擇的若干算法:熵及聯合熵、最佳指數因子、自動子空間劃分、自適應波段選擇、波段指數和最優波段指數等算法。分析了各種算法的有效性、局限性和計算復雜度,并針對波段指數的不足,設計了最優波段指數(OBI)波段選擇新算法。最后通過具體的試驗,驗證了各種算法的性能。
關鍵詞:高光譜影像; 波段選擇; 特征提取與選擇
中圖分類號:TP751文獻標志碼:A
文章編號:1001-3695(2008)04-1093-04
高光譜遙感是20世紀最后二十年,人類在對地觀測方面取得的重大技術突破之一,也是當前及今后幾十年內的遙感前沿技術。它利用成像光譜儀納米級的光譜分辨率,獲取許多非常窄且光譜連續的圖像數據,實現地物空間、輻射、光譜信息的同步獲取;為每個像元提供數十至數百個窄波段的光譜信息,并生成一條完整而連續的光譜曲線[1~3]。
高光譜遙感大量的光譜波段數據為人們了解地物提供了豐富的信息,這對于后續進行的地物分類和目標識別是十分有益的。然而波段的增多也必然導致信息的冗余和數據處理難度的增加。如何既能有效利用高光譜數據的最大信息,又能較快地處理高光譜數據成為高光譜數據處理的研究熱點和未來發展方向。其中有關光譜特征提取與選擇的研究是一個重點。基于此,本文在分析高光譜數據特征提取與選擇方法的基礎上,著重探討了高光譜影像波段選擇的若干算法。
1特征提取與特征選擇
一般來說,面對高光譜數十、數百的波段信息,全部利用所有波段是不現實的,所以此時高光譜降維操作就顯得尤為重要。高光譜降維有兩種方法,即特征選擇和特征提取。特征提取與選擇的基本任務是如何從許多特征中找出那些最有效的特征[4]。在樣本數不是很多的情況下,用很多特征進行分類,無論從計算的復雜度還是性能上來說均是不適宜的。因此如何將高維特征空間壓縮到低維特征空間以便進行有效的分類成為一個重要的研究方向。
目前壓縮波段有兩種方法:一是從眾多波段中選擇感興趣的若干波段,或選擇信息量大、相關性小的若干波段;二是利用所有波段,通過數學變換來壓縮波段,如主成分分析法(PCA)、典型分析(CA)等[5]。本文主要介紹第一種降維方法,即波段選擇方法。波段選擇是遙感圖像識別與分類的重要環節之一,對于高光譜遙感圖像的特征選擇和提取,最初一般都集中在波段選擇上[6]。至今形成了比較成熟的波段選擇算法,主要分成兩類:一是基于信息量的最佳波段選擇,如熵與聯合熵、組合波段的協方差矩陣行列式、最佳指數(OIF);二是基于類間可分性的波段選擇,如均值間的標準距離、離散度、B距離、類間平均可分性等。本文重點研究第一類算法。
目前,國內外對波段選擇算法進行了很多研究。E.Arzuaga-Cruz等人[7]設計了信息散度波段子集選擇(information divergence band subset selection,IDSS) 算法,并用模擬數據及遙感數據進行了驗證,效果較好。Paskaleva等人[8]基于數據主成分的分布,提出了以波段不同主成分間最小距離、波段主成分相同分布下的Kullback-Liebler散度變化和波段連續幅度間的經驗相對變化等作為波段選擇標準的新的波段選擇策略,并應用于巖石及礦物的分類識別應用。 Wang Su等人[9]提出了線性約束波段選擇(linear constrained band selection, LCBS)的新的高光譜影像波段選擇算法,該算法在線性約束某波段影像的同時,最小化了該波段影像與其余波段影像的波段相關性和依賴性。P.Bajcsy等人[10]在系統總結前人研究成果的基礎上,建立了基于監督和非監督算法的高光譜遙感波段選擇算法方法論體系,該研究具有很高的指導價值。以上研究擴展和促進了高光譜波段選擇算法的發展,進一步完善了高光譜遙感信息處理技術體系;然而高光譜遙感信息處理技術和算法仍需要不斷完善。
2波段選擇主要算法
波段選擇屬于特征選擇的一種,通過特征選擇,可以強化那些最具有可分性的光譜波段。一般來說,選擇最佳波段的原則有三點:一是所選擇的波段的信息量應最大;二是所選擇的波段數據間的相關性要小;三是研究區內欲識別地物的光譜響應特點能使某些類別地物之間最容易區分。那些信息含量多、相關性小、地物光譜差異大、可分性好的波段就是應該選擇的最佳波段[11~13]。
圖1為針對高光譜影像的波段選擇示意圖。其中:影像預處理包括消除噪聲、輻射校正、幾何校正等;基本統計量包括均值、標準差、相關系數等,作為后續處理的依據。
針對高光譜的不同應用目的,所選擇的波段數目是不同的。一般來說,大多數所要求的波段是三個波段的組合,以便在處理影像時對三個波段分別賦予R、G、B顏色值,進行影像的后處理。但由于應用的目的不同,也有要求選擇任意N個波段的。針對這種情況,本文研究的波段選擇算法可以提供三波段組合也可以提供任意N個波段。
最終波段選擇的方法有兩種:一種是根據用戶設定的閾值,指數大于閾值的波段就被選擇出來;另一種方法是選擇波段指數排列在前面的N個波段。
2.1熵及聯合熵(joint entropy,JE)
根據香農信息論理論,信息熵是在平均意義上來表征信息源總體特征的量;信息熵越大,圖像所含信息越豐富。對高光譜數據而言,第i波段圖像的熵值H(i)等于其圖像輻射亮度值的概率與其概率對數的乘積。在此基礎上,根據聯合概率分布知識,可以得到三個波段圖像的聯合熵H(i1,i1,i3)。對所有可能的波段組合計算其聯合熵,并按從大到小的順序進行排序,聯合熵最大的前N個波段組合就是最佳的。
實驗中發現,信息熵算法雖然簡單、易理解,但也有其缺點。其計算時空復雜度相當高,對計算機性能要求也高。而且由于高光譜遙感數據的波段信息之間的強相關性,使得多種波段組合方式具有相同的聯合熵,這也使算法的效果不太理想。
2.2最佳指數因子(optimal index factor,OIF)
選擇的波段數目n一般取3,即將所有可能的三個波段組合在一起。OIF越大,則相應組合波段圖像的信息量越大。在實際應用中,這種方法存在其局限性。首先,它選擇出來的最優波段組合未必是最優的;其次,OIF算法對于高光譜圖像波段選擇而言計算量仍然過大。比如計算波段間的相關系數,在實驗中就要運行40 min以上。
2.3自動子空間劃分(auto-subspace partition,ASP)
高光譜影像的一個顯著特點是,相鄰譜帶間存在較強的相關性,且這種譜間相關性比空間相關性要強得多[15]。所以應用聯合熵算法,所選出的波段基本上集中在一個連續的子空間;而連續的子空間往往相似性大,這就造成信息的重復使用,影響了后續的處理效果。波段數據的全局統計特性與局部特性存在差異,因而在全空間進行波段選擇并不一定能選出最佳波段[16]。
解決上述問題的思路就是將全部波段劃分為若干個子空間,然后再進行波段選擇。谷延鋒等人[15]提出一種自動子空間劃分方法。該方法通過定義波段相關系數矩陣及其近鄰可傳遞相關矢量,將高光譜數據空間劃分為適合的數據子空間。這種劃分方法有著充分的理論依據,反映了數據的局部特性。自動子空間劃分就是根據相關系數矩陣灰度圖的成塊特點,依據高光譜影像相鄰波段相關系數的大小,將波段劃分為若干個子空間。本文提出了在波段選擇前首先對所有波段進行分組,劃分為若干個子空間,然后再進行波段選擇的改進方案。
其中:Ri, j是波段xi與yi間的相關系數;xik和yik分別是該波段影像內的第k個像素;n代表一個波段圖像內像素的總數目;和分別是該波段xi和yi的均值。根據式(2),可以計算高光譜所有波段數據之間的相關矩陣。
2.4自適應波段選擇(adaptive band selection,ABS)
針對OIF方法在實際應用中存在的局限性,劉春紅等人[5]對OIF方法和其他方法進行充分研究之后,提出自適應波段選擇的方法。該方法充分考慮了各波段的空間相關性和譜間相關性。其公式如下:
其中:Si為第i個波段的標準差;Ri-1,i和Ri,i+1是第i個波段與其前后兩波段的相關系數或第i個波段與任意兩個波段的相關系數;Ij是第i幅圖像的指數大小。
需要說明的是,當Ri-1,i和Ri,i+1取第i個波段與其前后兩波段的相關系數時,得到的是三個波段組合的指數值;當Ri-1,i和Ri,i+1取第i個波段與任意兩個波段的相關系數時,得到的是單個波段的指數值。所以該方法既可以得到三個波段的組合結果,也可以得到任意N個波段的結果。這可由用戶根據不同的需要來選擇。
這種方法充分考慮了每幅圖像的信息富集程度與相鄰波段的相似性。指數越大,相應波段組合圖像的信息量就越大,越具有代表性。
2.5波段指數(band index,BI)
由于基于全局的波段選擇算法,選擇的波段往往是連續地集中在某一個連續的子空間中。而連續的子空間往往相似性大,這就造成信息的重復使用,影響了后續的處理效果。姜小光等人[12] 提出了一種基于波段指數的選擇方法,該算法先根據相關系數矩陣對所有波段進行分組,再分別計算每一波段的波段指數,最后進行波段選擇。
其中:σi為第i波段的均方差;Rw為第i波段與所在子空間內其他波段相關系數的絕對值之和的平均值;Ra為第i波段與所在子空間以外的其他波段之間的相關系數的絕對值之和。
由于同一組內各波段的相關性強而組間波段的相關性弱,一個波段的整體相關性強弱主要由其與組內各波段的相關性大小決定。各個組的大小即構成子空間的波段數不同,因此用組內一波段與其他組波段相關系數絕對值之和的平均值作為其波段指數分母的一項,能合理地反映該波段的整體優劣水平。所以波段指數能綜合地反映通道信息含量和相關性兩個因素,可作為選擇波段的重要參數之一。
2.6最優波段指數(optimal band index,OBI)
波段指數方法雖然綜合考慮了波段的信息含量和相關性兩個因素,但由于該指數基于成像光譜數據具有分組成塊的結構特點而設計,它在分組時,每個組的維數是不同的,造成了每組的Ra由于所處組維數的不同而人為地影響了計算的效果。而且如果分組沒有考慮影像的空間結構信息,之前并沒有對噪聲波段進行處理,可能會影響到最終的計算結果。
基于以上考慮,本文提出了一個用最優波段系數來衡量波段選擇標準的新的改進算法。分形幾何中的分形維數是表達空間結構、空間復雜度的一個工具和度量指標。因此,可以用遙感影像分形維數來定量表示其空間結構的變化。其基本思想是:首先用分形理論中的分維數對噪聲波段進行刪除,預選出影像空間結構、質量及光譜特征較好的波段;然后用圖像的分形維數劃分子空間。
3實驗研究
3.1實驗數據
實驗影像數據采用中國科學院上海技術物理研究所研制的實用型模塊化成像光譜儀(operational moduler imaging spectrometer, OMIS)所獲取的64波段536×512數據,其光譜范圍為460~1 100 nm,波段寬為10 nm。研究區經緯度:40.262 377 N,116.258 722 E。圖2為研究區的高光譜影像數據立方體(由12、24、20波段假彩色合成)及研究區某地物光譜曲線圖。
為了與傳統的波段選擇方法(利用信息統計量均值、方差等信息)對比,實驗中計算了各個波段亮度的均值和標準差。均值反映了波段圖像的亮度信息;標準差則在一定程度上反映了相應波段所含信息量的大小,如圖3所示。其中:曲線①為光譜亮度值均值;曲線②為光譜亮度值均方差。
3.2三波段組合結果分析
需要說明的是,以上算法中,熵及聯合熵算法、最佳指數因子、自動子空間劃分均為三波段組合選擇算法;另外,自適應波段選擇既可以選擇三波段組合也可以選擇任意N個波段。
以下是以各種算法選擇的三波段組合。其中只選取相關指數值排在前10位的結果。
由表1可以得出以下結果。聯合熵波段選擇的結果,使波段容易聚集在某一連續的波段間,如明顯集中在35~45。由于相鄰波段其相關性大,造成冗余信息多,效果不理想。
最佳指數因子波段選擇的結果是,所選波段間的距離仍然較近,波段間的相關性較強,組成圖像的視覺效果比用其他方法所求的組合波段的合成圖像的視覺效果差。
采用子空間劃分方法,使選擇的波段覆蓋的波段范圍大為擴展。例如本次實驗結果基本上覆蓋了12~63的所有波段范圍。可以看出,對波段進行子空間劃分后,由于冗余波段減少,選出的波段即是那些信息量大、相關性小,具有明顯區分度的最佳波段組合。
自適應波段選擇方法充分考慮了各波段的空間相關性和譜間相關性及每幅圖像的信息富集程度與相鄰波段的相似性。實驗結果表明,自適應波段選擇方法能夠選擇出所需的波段,該方法有助于減少后續處理的計算量并能提高分類效果。
3.3N波段結果分析
有時由于應用的目的不同,需要選擇高光譜的前N個波段。本文據此研究了相關的算法。自適應波段選擇、波段系數和最優波段指數三種算法就是選擇任意N個波段的算法。
以下是以各個算法選擇的前N個波段的結果(由于篇幅原因,此處選擇N=10)。表2列出的分別是自適應波段選擇、波段指數和最優波段指數選擇出來的前10個波段的排序結果。
由結果可以得出以下結論:ABS和OBI兩種算法所得波段基本相同,如前10個波段完全相同,前20個波段有19個是相同的,只是排序有稍微的不同;而BI與ABS、OBC相比,前10個波段中也有4個波段是相同的,而前20個波段相同的個數也分別達到了15、16個。說明了這些算法的效果還是比較一致的。同時,根據波段亮度的均值和標準差圖像可知,在前5個波段中ABS算法所選波段的標準差最大為947.066、最小為843.136;OBI算法所選波段的標準差最大為947.066、最小為794.514;而BI算法所選波段的標準差最大只有812.619、最小僅為703.881。這也說明該算法在選擇高光譜波段方面是可行的;同時也說明以上算法在選擇高光譜波段方面是可行的。
4結束語
高光譜遙感經過近幾年的發展,出現了多種針對高光譜特點的數據處理算法和技術。
本文對這些算法進行了歸納分析,并用實驗分析了各種算法的性能和優缺點。分析了各種算法的有效性、局限性和計算復雜度,并針對波段指數的不足,設計了最優波段指數波段選擇新算法。最后通過具體的實驗,驗證了各種算法的性能。
總之,雖然波段選擇算法眾多,但面向應用時,波段選擇的效果要以地物識別分類達到最佳效果為目標。因此,筆者下一步的工作將重點研究有針對性、目的性和面向應用目標的波段選擇算法。
參考文獻:
[1]張良培,張立福.高光譜遙感[M].武漢:武漢大學出版社,2005.
[2]趙英時.遙感應用分析原理與方法[M].北京:科學出版社,2003.
[3]蒲瑞良,宮鵬.高光譜遙感及其應用[M].北京:高等教育出版社,2000.
[4]邊肇祺,張學工.模式識別[M].北京:清華大學出版社,2000.
[5]劉春紅,趙春暉,張凌雁.一種新的高光譜遙感圖像降維方法[J].中國圖象圖形學報,2005,10(2):218-222.
[6]陳桂紅,唐伶俐,姜小光. 高光譜遙感圖像特征選擇和提取方法的比較[J].干旱區地理,2006, 29(1):143-149.
[7]ARZUAGA-CRUZ E, JIMENEZ-RODRIGUEZ L O, VLEZ-REYES M. Unsupervised feature extraction and band subset selection techniques based on relative entropy criteria for hyperspectral data analysis[C]//Proc of SPIE Algorithm and Technologies for Multispectral, Hyperspectral, and Ultrospectral Imagery. 2003:462-473.
[8]PASKALEVA B, HAYAT M. Optimized algorithm for spectral band selection for rock-type classification[C]//Proc of SPIE Pefense and Security Conference, Algorithm and Technologies for Multispectral, Hgperspectral, and Ultrospectral Imagery. Orlando:[s.n.], 2005:131-138.
[9]WANG Su, CHANG C I. Linearly constrained band selection for hyperspectral imagery[C]//Proc of SPIE Algorithm and Technologies for Multispectral, Hyperspectral, and Ultrospectral Imagery. 2006.
[10]BAJCSY P, GROVES P. Methodology for hyperspectral band selection[J]. Photogrammetric Engineering and Remote Sensing Journal, 2004, 70(7):793-802.
[11]趙春暉,劉春紅.超譜遙感圖像降維方法研究現狀與分析[J].中國空間科學技術,2004,5:28-36.
[12]姜小光,王長耀,王成.成像光譜數據的光譜信息特點及最佳波段選擇——以北京順義區為例[J].干旱區地理,2000,23(3):214-220.
[13]陳蜜,易堯華,劉志剛,等.基于分塊特性的高光譜影像波段選取方法的研究[J].測繪通報, 2006,3:10-13,21.
[14]CHACVEZ P S,BERLIN G L,SOWERS L B. Statistical method for selecting landsat MSS ratios [J].Journal of Applied Photographic Engineering,1982,1(8):23-30.
[15]GU Yan-feng, ZHANG Ye. Unsupervised subspace linear spectral mixture analysis for hyperspectral images[C]//Proc of International Conference on Image Processing. 2003:801-804.
[16]王立國,谷延鋒,張曄.基于支持向量機和子空間劃分的波段選擇方法[J].系統工程與電子技術,2005,27(6):974-977.
[17]張華國,黃韋艮,周長寶,等.關于IKONOS衛星遙感圖像的分形特征研究[J].測繪通報,2005,5:15-18.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”