摘要:針對高光譜數據的特點,探討了高光譜數據特征提取的若干算法,重點研究了導數光譜和光譜編碼技術,并從地物光譜曲線中提取了其光譜吸收特征。對同類曲線特征求交得到識別地物的有效特征;對不同類曲線特征求交得到區分不同類地物的有效特征。最后基于提取的特征建立了地物識別決策樹,從而達到快速識別分類地物的目的,能夠實現依據地物光譜特征的地物識別與分類。
關鍵詞:高光譜; 光譜特征; 特征提取; 地物識別
中圖分類號:TP751文獻標志碼:A
文章編號:1001-3695(2008)02-0390-05
0引言
高光譜遙感是20世紀最后二十年人類在對地觀測方面取得的重大技術突破之一。它在成像過程中以極高的光譜分辨率用上百個連續窄光譜波段描述一個像元;在提供每一波段區間圖像的同時,對每一像素產生一條完整而連續的光譜曲線[1]。高光譜遙感圖像包含了豐富的空間#65380;輻射和光譜三重信息,在相關領域具有廣泛的應用和發展空間。高光譜數據的特點如下[2~4]:a)圖譜合一。在獲取數百個光譜圖像的同時,可以顯示圖像中每個像元的連續光譜。b)海量數據。高光譜的波段一般都是上百個,未來甚至能達到千以上。c)數據冗余度高。成像光譜儀采樣間距一般都在納米級,造成了相鄰波段的高度相關性,冗余度也隨之增加。d)信噪比低。高光譜數據信噪比下降,噪聲增加,增加了數據處理的難度。
高光譜數據處理方法有特征選擇和特征提取兩種。特征選擇即在全部數據集中,選擇若干能包含原數據最大信息的特征。為了有效地處理數據,降維成為一個必然的選擇。降維即在盡可能地保留信息的同時,對波段進行壓縮[5]。目前壓縮波段有兩種方法:a)從眾多波段中選擇感興趣的若干波段,或選擇信息量大#65380;相關性小的若干波段。b)利用所有波段,通過數學變換來壓縮波段,如主成分分析法(PCA)等。
特征提取即從原始數據中提取其特征參數,以滿足后續處理要求。由電磁波理論可知,相同物體具有相同的電磁波譜特征;不同物體由于物質組成#65380;內部結構和表面狀態不同,具有相異的電磁波譜特性。這是利用地物光譜特征來識別和區別地物的基礎。本文重點論述特征提取算法。
由于高光譜數據的特點,如何既有效地利用數據的最大信息,又能較快地處理成為高光譜的研究熱點和未來發展方向。其中,有關光譜特征選擇和特征提取的研究是一個重點。國內外學者對此進行了廣泛研究。Benediktsson等人[6]利用判別邊界特征提取(decision boundary feature extraction,DBFE)對1991年冰島AVIRIS影像進行分類;Nakariyakul等人[7]運用比率特征選擇(ratio feature selection,RFS)利用高光譜數據對農業生產進行了研究;P.J.Withagen等人[8]利用波段選擇算法從數據立方體中提取了可用于實時多譜線CCD照相機的波段特征;Du Pei-jun等人[9]系統地研究了對光譜向量的編碼技術;Li Jiang[10]則將基于小波的特征提取算法用于混合像元分解和端元提取;Zhu Xiao-kun等人[11]將基于聯合熵的算法用于最優波段選擇和影像融合質量評價;B.C.Kuo等人[12]系統地研究了特征提取算法,如可分性分析特征提取(discriminant analysis feature extraction,DAFE)#65380;非參數可分性分析(nonparametric discriminant analysis,NDA)#65380;非參數加權特征提取(nonparametric weighted feature extraction,NWFE)等算法[12],并將算法應用于高光譜圖像的降維上。以上研究大大擴展了高光譜數據處理的具體算法和應用范圍。然而,現有的大部分遙感數據處理算法都是針對寬波段遙感的,只能對低維數據進行處理[13],針對高光譜數據高維特征的處理算法還不完善。本文針對高光譜數據的特點,研究了地物光譜特征提取算法,提取了高光譜數據的部分光譜特征并進行了相關試驗研究,為進一步的高光譜數據處理研究提供支撐。
1幾種高光譜特征提取算法
1.1光譜吸收特征參數
地物光譜曲線反映了地物的吸收和反射特征,大多數地物具有典型的光譜波形特征。因此,對光譜吸收特征參數(spectral absorption feature parameter,SAFP)的提取將成為未來高光譜信息處理研究的主要方向[14]。根據有關研究,從光譜曲線中提取的光譜吸收特征可以用吸收波長波段位置#65380;反射值#65380;深度#65380;寬度#65380;斜率#65380;對稱度#65380;面積等參數表示。
吸收波段位置(P)是光譜最小值對應的波長,有時也可定義為光譜最大值對應的波長;吸收波段位置處的光譜值即反射值(R);波段深度(H)是由于礦物化學成分在某波長點上吸收光譜特征而比鄰接波段有較低的反射率;寬度(W)是指波段深度一半處的寬度;斜率K=tan-1[(Re-Rs)/(λe-λs)]。其中:Re#65380;Rs分別為吸收終點#65380;吸收始點反射率值;λe#65380;λs為相應的波長;吸收峰對稱度S=A1/A(A1為吸收峰左半端的面積,A為吸收峰的整體面積);面積為寬度和深度的綜合參數。SAFP示意圖如圖1所示。
利用這些參數可以對地物進行識別和分類,如對同類地物光譜曲線特征求交得到識別地物的有效特征;對不同類地物光譜曲線特征求交得到區分不同類地物的有效特征,從而達到快速識別實現地物分類的目的。
1.2光譜編碼
為了壓縮高光譜的大量數據,更有效且充分地利用數據的有效信息,最早提出的是二值編碼算法。這種方法比較簡單,在要求精度不高且要求快速處理時可以利用此方法。其基本原理就是對預處理的光譜數據指定一個閾值T(一般取整個光譜反射值的平均值),大于閾值的數據賦1;否則賦0。算法如下:
SAI從本質上表達了地物光譜吸收系數的變化特征。在本次試驗中,通過試驗分析可知SAI較全面地反映了地物光譜曲線的識別特征,比SAFP效果更佳,更能消除非研究地物光譜的影響。
2實驗研究
實驗選用USGS光譜數據庫數據。選擇actinolite HS22.3B(陽起石)和actinolite HS116.3B作為同類地物識別試驗;選擇actinolite HS22.3B和almandine WS476(鐵鋁榴石)#65380;actinolite HS116.3B和almandine WS476作為不同類地物的試驗。原始光譜曲線如圖3所示。
基于Visual Basic 6.0,開發了高光譜數據光譜特征提取系統。該系統主要包括原始光譜特征提取#65380;導數光譜#65380;光譜編碼#65380;光譜特征綜合分析四大模塊。需要說明的是,對一條光譜曲線來說,其波谷/波峰的數目是很多的,實驗中只提取了具有最小波谷值和最大波峰值的波谷和波峰。另外在對相同和不同類地物特征求交時,分別設置了不同特征參數的閾值。
2.1原始光譜特征分析
實驗中分別對actinolite HS22.3B#65380;actinolite HS116.3B和almandine WS476的原始光譜曲線提取光譜吸收特征參數。結果在表1中列出。表中波長的單位為nm(以下所有表格相同,不再說明);波谷/波峰點反射值#65380;波谷/波峰深度單位為光譜反射率。
由表1可以看出,作為同類地物的actinolite HS22.3B和actinolite HS116.3B,其特征值大部分都很接近;而它們的特征值與almandine WS476相比則有明顯的差別。對actinolite HS22.3B和actinolite HS116.3B的特征求交得到其共同特征,這些共同特征即是反映地物不同于其他地物的獨特標志,可以作為識別地物的有效特征。提取的有效識別特征如表2所示。
對actinolite HS22.3B和almandine WS476以及actinolite HS116.3B和almandine WS476的特征求交,得到區分地物的無效特征。對不同的地物來說,要正確區分它們只能找那些具有明顯區別的#65380;能夠代表某種地物的標志性特征。提取的有效特征如表3所示。
由以上分析可以得出以下結論:對原始光譜曲線,識別陽起石最有效的是波峰波長位置;其次是波峰對稱度;最差的是波谷波長位置和波峰光譜吸收指數。區分陽起石和鐵鋁榴石最有效的是波峰波長位置和波谷反射值;其次是波谷寬度和波峰寬度;最差的是波谷SAI和波峰反射值。
對于波谷和波峰總數,由于它們最容易受外界干擾,用來識別地物效果不是太理想。
2.2導數光譜分析
運用導數光譜提取吸收光譜特征參數,其步驟與提取原始光譜曲線一樣,在此不再說明。由于篇幅有限,用導數光譜技術提取的特征參數不再列表給出,只給出了對吸收光譜特征分析后的結果。
1)一階導數光譜分析(表4#65380;5)
由分析結果可以看出,對二階導數光譜曲線,識別陽起石最有效的特征為波谷波長位置#65380;波峰波長位置#65380;波峰斜率#65380;波峰對稱度;其次為波峰光譜吸收指數;最差的是波峰寬度。特征的總體有效性比一階導數有所提高。
區分陽起石和鐵鋁榴石最有效的是波谷波長位置#65380;波峰波長位置#65380;波峰斜率和波峰深度;其次是波谷寬度#65380;波谷斜率#65380;波谷SAI#65380;波峰寬度和波峰反射值;最差的是波谷反射值。
3)三階導數光譜分析(表8#65380;9)
由分析結果可以看出,對三階導數光譜曲線,識別陽起石最有效的特征為波谷波長位置#65380;波谷斜率#65380;波峰寬度#65380;波峰斜率#65380;波谷光譜吸收指數;其次為波谷寬度;最差的是波谷對稱度。特征的有效性比一#65380;二階導數都好。
區分陽起石和鐵鋁榴石最有效的是波峰波長位置#65380;波峰斜率#65380;波谷深度#65380;波谷斜率#65380;波峰深度和波峰SAI;其次是波峰寬度;最差的是波峰反射值。
從一階導數到三階導數光譜特征的分析可以得出以下結論:光譜導數階數越高,能提取的有效識別地物的特征越多。例如上面的數據,對于識別陽起石,一階導數最有效的特征只有三個,而二階導數有四個,三階導數則有五個;對于區分陽起石和鐵鋁榴石,一階導數最有效的特征只有兩個,而二階導數有四個,三階導數更是達到六個。可以看出,導數光譜階數越高特征的有效性越好。
2.3光譜編碼匹配
運用二值和四值編碼技術對原始光譜曲線進行處理,并對它們進行匹配。匹配時計算匹配波段數占總波段數的比例,得到匹配比。匹配結果如表10和11所示。
由表10和11可以看出,采用二值編碼時,同一地物的匹配比明顯大于不同地物的匹配比;采用四值編碼時,由于描述精度的提高,同一地物的匹配比也明顯大于不同地物的匹配比,但匹配比都比二值編碼降低了許多。例如同類地物匹配比降低了0.054 1,不同地物匹配比則分別降低了0.355和0.292。所以四值編碼可以更有效地對地物光譜特征進行描述和區分。
2.4識別決策數的建立
決策數是遙感圖像分類中廣泛應用的方法。它通過一定的規則對輸入的數據集進行分類,其基本思想是通過一些判斷條件對原始數據集逐步進行二分和細化[21]。其中:每一個分叉點代表一個決策判斷條件,每個分叉點下有兩個葉節點,分別代表滿足和不滿足條件的類別。
本文在以上實驗的基礎上建立了識別地物的識別決策樹,如圖4所示。其中:T0和T1為決策樹的判別條件。
運用不同的光譜曲線其判別條件也稍有不同。例如下面的判別條件針對三階導數光譜:
T0:(波峰波長位置=221.1 and波峰斜率=-1.57 and波谷斜率=1.57) OR (波谷反射值=-36 210 742.187 5 and波峰寬度=170 and …)。T01:true;T02:1。
T1:(波谷波長位置=602.7 and波谷斜率=-1.57 and波谷對稱度=0.2 and波谷SAI=0.87) OR (波峰寬度=288 and波峰斜率=1.57)。T11:true;T12:1。
3結束語
本文針對高光譜數據波段多#65380;數據量大#65380;冗余度高等特點,論述了高光譜數據處理方法,即高光譜數據特征提取算法。重點結合具體的應用對特征提取算法進行改進#65380;編程和分析,開發了高光譜數據挖掘處理系統(HRSDMPS)軟件。通過實例分析得出以下結論:a)由于高光譜的廣泛應用,高光譜降維即波段選擇和特征提取及其算法研究將成為未來的研究熱點。b)基于地物光譜曲線可以提取吸收光譜特征參數,并以此作為識別和區別地物的標志,達到快速對地物進行識別和分類的目的。c)光譜微分技術對地物特征信息的表達較為有效,本文研究了三階導數算法及其在光譜特征提取中的應用。研究表明,在一定程度上光譜導數階數越高,能夠提取的吸收光譜特征也越多并且越有效。d)基于知識的識別決策樹的建立可以更有效地依據特征信息對地物進行識別和分類,將是未來高光譜數據挖掘的研究熱點。
參考文獻:
[1]蒲瑞良,宮鵬.高光譜遙感及其應用[M].北京:高等教育出版社,2000.
[2]趙英時.遙感應用分析原理與方法[M].北京:科學出版社,2003.
[3]張良培,張立福.高光譜遙感[M].武漢:武漢大學出版社,2005.
[4]張杰林.高光譜數據挖掘與知識發現技術研究[D].徐州:中國礦業大學,2004.
[5]楊哲海,韓建峰,宮大鵬,等.高光譜遙感技術的發展與應用[J].海洋測繪,2003,23(6):55-58.
[6]BENEDIKTSSON J A, SVEINSSON J R, ARNAS K. Classification and feature extraction of AVIRIS data[J].IEEE Trans on Geoscie-nce and Remote Sensing, 1995,33(5):1194-1205.
[7]NAKARIYAKUL S, CASASENT D. Hyperspectral ratio feature selection: agricultural product inspection example[C]//Proc of SPIE, vol 5587. 2004:133-143.
[8]WITHAGEN P J, den BREEJEN E, FRANKEN E M, et al. Band selection from a hyperspectral data-cube for a real-time multispectral 3CCD camera[C]//SHEN S S, DESCOUR M R. Proc of SPIE, vol 4381. Orlando:[s.n.], 2001:84-93.
[9]DU Pei-jun, FANG Tao, TANG Hong, et al. Encoding methods of spectral vector in hyperspectral remote sensing image[J]. Journal of Shanghai University:English Edition, 2005,9(1):52-57.
[10]LI Jiang. Liner unmixing of hyperspectral signals via wavelet feature extraction[D]. Mississippi: Mississippi State University, 2002.
[11]ZHU Xiao-kun, JIA Yong-hong. Solution to joint entropy and its applications in remote sensing[EB/OL].http//:citeseer.ist.psu.edu/707140.html.
[12]KUO B C. LANDGREBE D. Improved statistics estimation and feature extraction for hyperspectral data classification[D]. West La-fayette, USA: Purdue University, 2001.
[13]SALEHIA B, ZOEJ M J V. Wavelet-based reduction of hyperspectral imagery[C]//Proc of ISPRS. Istanbul:[s.n.], 2004.
[14]王晉年,張兵,劉建貴,等.以地物識別和分類為目標的高光譜數據挖掘[J].中國圖象圖形學報,1999,4A(11):957-964.
[15]杜培軍,陳云浩,方濤,等.高光譜遙感數據光譜特征的提取與應用[J].中國礦業大學學報,2003,32(5):500-504.
[16]PHILPOT W D. The derivative ratio algorithm:avoiding atmospheric effects in remote sensing[J]. IEEE Trans on Geoscience and Remote Sensing, 1991,29(3):350-357.
[17]DICK K, MILLER R J. Derivative analysis applied to high resolution optical spectra of freshwater lakes[C]//Proc of the 14th Canadian Symposium on Remote Sensing. Calgary Alberta:[s.n.], 1991:400-403.
[18]HUGUENIN R L, JONES J L. Intelligent information extraction from reflectance spectra: absorption band positions[J]. Journal of Geophysical Research, 1986,91(B9):9585-9598.
[19]CLOUTIS E A. Hyperspectral geological remote sensing :evaluation of analytical techniques[J]. Jouranl of Remote Sensing, 1996,17(12):2215-2242.
[20]王晉年,鄭蘭芬,童慶禧.成像光譜圖像吸收鑒別模型與礦物填圖研究[J].環境遙感,1996,11(1):20-30.
[21]趙萍,馮學智,林廣發.SPOT衛星影像居民地信息自動提取的決策樹方法研究[J].遙感學報,2003,7(4):309-315.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”