趙 潔
(1.武漢大學 遙感信息工程學院,湖北 武漢 430079)
基于K均值聚類的高光譜遙感影像分類研究
趙 潔1
(1.武漢大學 遙感信息工程學院,湖北 武漢 430079)

討論了信息熵和均勻光譜間隔(USS)兩種無監督高光譜影像波段選擇方法,分析比較了基于K均值聚類的歐氏距離、相關系數以及光譜角3種相似性度量。實驗表明,利用USS對高光譜影像降維,采用將歐氏距離作為相似性度量的K均值聚類方法進行影像分類,所得到的分類結果精度較高,計算時間較短。
高光譜;無監督波段選擇;K均值聚類;相似性度量
高光譜影像分析是當前遙感領域研究的熱點,有巨大的潛在價值,多應用于公共安全、軍事偵察、土地使用狀況調查等領域。高光譜影像通常含有200 多 個在光譜段上非常窄且連續的波段,這些波段包括可見光、近紅外、中紅外、熱紅外等,每個像素都可以獲得一條連續的光譜曲線[1];相比其他遙感影像包含了更多的光譜信息以及空間信息。高光譜影像具有較高的光譜分辨率,更容易對地物進行分辨,可應用于精細土地覆蓋與土地利用制圖,與此同時,較高的光譜分辨率伴隨著巨大的數據量,造成的數據冗余也為高光譜圖像處理帶來困難,高維數據也很容易導致Hughes現象[2,3]的產生。因此波段選擇是高光譜影像分類前必不可少的步驟。波段選擇總體上分為無監督波段選擇與監督波段選擇兩類[4],無監督波段選擇無需先驗知識,可以自動完成[5]。在影像分類方法中,K均值聚類是一種簡單有效的非監督分類方法,分類結果較好,被廣泛應用到圖像分割、模式識別、機器學習等多個領域。本文利用K均值聚類進行高光譜影像分類,并對3種不同的相似性度量進行對比分析。
高光譜數據本身具有數據量大、維度高、混合像元等特點,影像分類處理過程包括數據降維(波段選擇)、數據去噪以及影像分類。
1.1 無監督波段選擇
從對象信息可用性的角度來看,波段選擇可以分為監督波段選擇與無監督波段選擇。監督波段選擇需要已知的先驗知識對數據進行訓練,可以明確地選擇包含重要對象信息的波段,相比無監督波段選擇,監督波段選擇能得到更好的檢測或分類。而無監督波段選擇不需要任何的對象信息,可以實現快速、自動的波段選擇。當先驗知識未知時,可以利用無監督的方法進行波段選擇,無監督波段選擇較少甚至不需要進行圖像預處理。無監督波段選擇有多種方法,如信息熵、USS、光譜相關系數、一階光譜微分、二階光譜微分、主成分分析排序等。本文主要討論信息熵和USS兩種波段選擇方法。
1)信息熵的概念由數學家Claude Shannon在1948 年提出,解決了對信息的量化度量問題。該方法需要對每個波段分別估計信息熵[6,7],信息熵定義為:

式中,H是信息熵;p是一個高光譜波段反射率的概率密度函數;m是不同的反射率的數量。概率可以根據反射率的直方圖計算得到。通常H越大,則數據所含的信息越多;反之,所含信息越少[8]。
2)USS也是一種有效的波段選擇方法。由于高光譜影像所含的光譜信息較多,相鄰波段之間有較大的相關性,需要對數據進行篩選從而獲得含有較高獨特信息量的部分波段,降低各個波段之間的相關性,提高數據分析的效率。USS方法通過控制步長選擇出間隔均勻、相關性低、信息量大的少量波段,從而達到降維的目的。
1.2K均值聚類算法
K均值聚類可以將數據自動劃分為K組[9,10],通過選擇初始聚類中心,再反復迭代確定最終分組。整體流程為:①每一個元素按照一定的選擇標準被劃分到最近的聚類中心;②計算每個聚類的平均值;③每個聚類中心將會被新的平均值代替,作為新的聚類中心;④重復步驟②~③。
從理論上講,當聚類中心不再發生變化,以上迭代將停止,所有的元素都被分到對應的類別中。在實際計算過程中,需要選擇一個極小的閾值來結束K均值聚類計算,即當新的聚類中心與前一個聚類中心的“距離”小于這個閾值,迭代終止?!熬嚯x”則是一種選擇標準,即相似性度量。然而在實際操作中,K均值聚類的結果容易被信號中的噪聲影響,聚類結果精度將降低。此外,K均值聚類的結果還與聚類初始中心有關,因此在本文中,將采取相同的初始聚類中心進行實驗。
1.3 相似性度量
相似性度量是一種便于量化的評價標準,K均值聚類可以使用多種不同的相似性度量來判斷新聚類中心的位置,例如曼哈頓距離(L1 norm)、歐氏距離(L2 norm)、相關系數、光譜角(spectral angle mapper)。本文選擇歐氏距離、相關系數以及光譜角這3種不同的相似性度量進行比較分析。
1)歐氏距離是一種最常見的距離度量。在二維和三維空間中,歐氏距離是一個可以用尺子測量的兩個點之間的“普通”距離,并可以由此推廣到n維空間。通常來說,對于一個n維空間,點p(p1,p2,…,pi,…,pn)與點q(q1,q2,…,qi,…,qn)之間的距離為:

歐氏距離可以看作兩個點之間的相似程度,距離越近,相似度越高;反之,相似度越低。因此通過比較歐氏距離的大小,選擇出歐氏距離最小時某一點所屬空間,并將其分配到這一空間,從而完成聚類。
2)相關系數是反映兩個變量之間關系密切程度的統計指標。相關系數通常被用來描述一個矢量X(x1,x2,…,xi,…,xn)與另一個矢量Y(y1,y2,…,yi,…,yn)之間的關系:

相關系數越大,說明矢量X與矢量Y的相似程度越高;反之,則相似程度越低。在K均值聚類的計算中,需要將像素矢量X與k個聚類中心的矢量Y1,Y2,Y3,…,Yk進行相關系數計算,分別得到k個相關系數。當與矢量Yp(p=1,…,k)的相關系數最大時,該像素矢量X則被分類到聚類p中。
3)光譜角是像素矢量和平均類矢量之間的夾角。通過光譜角分類器,可以直接將影像某個像素的光譜與一個已知的光譜或者端元進行比較,有效區分出每個像素的光譜曲線,已知光譜通常是在實驗室或在現場用光譜儀測量所得[11]。這種方法將兩個(未知和已知)光譜作為載體,計算它們之間的光譜角,通常作為確定礦物的首選方法,且在同類區域中可獲得較好的結果。將各個像素的光譜視為一個矢量并將其投影到n維空間中,其中空間的維度等于波段數。光譜角θ為:

式中,vi為像素矢量;mi為第i類的平均矢量。光譜角θ越小,說明該光譜與已知光譜越相似;反之,則說明該光譜與已知光譜相似性越低。因此可以通過選擇最小的光譜角來確定影像像素分類。光譜角分類器對照明因素不敏感[12]。
高光譜數據包含大量的光譜信息,光譜波段數量通常在200以上,并包括高噪聲的混合像素,因此首先進行影像波段的選擇實驗。本文分別選取信息熵、USS兩種方法進行波段選擇實驗,目的是尋找有效的波段選擇方法;再采用歐氏距離、相關系數以及光譜角3種不同相似性度量,進行基于 K均值聚類的影像分類實驗,分析不同的相似性度量對影像分類精度的影響。實驗流程如圖1所示。
2.1 實驗數據

圖1 實驗流程
本文所用實驗數據為覆蓋美國加利福尼亞州薩利納斯的AVIRIS數據,影像大小為512×217,分辨率為3.7 m。AVIRIS數據有224個波段,去除20個水吸收波段([108-112],[154-167],224)后,剩余204個波段可用。此影像地物類型包括蔬菜、裸露的土壤和葡萄園的土地等16類地物,如表1所示,地面真實地物分類如圖2所示。

表1 薩利納斯場景地面真實分類及其樣本數

圖2 地面真實地物分類
2.2 波段選擇實驗
高光譜影像有大量的光譜信息,同時也含有大量的噪聲,因此,在本文的實驗中,為了得到更好的影像分類結果,首先進行人工去噪,刪除明顯含有大量噪聲的波段,部分噪聲波段如圖3所示。人工篩選后,剩余177個可用波段。在此基礎上,選擇了兩種不同的方法進行波段選擇,然后利用最大似然分類(監督分類)對所選出的波段進行分類,實驗結果如表2所示。

圖3 高噪聲波段

表2 不同波段選擇方法的分類結果
根據上述實驗分析,得到以下結論:
1)從表2可以看出,USS的總體精度與Kappa系數均高于信息熵的結果。USS波段選擇方法較信息熵能夠更好地選擇出具有獨特信息的波段且進行影像分類的計算時間較短,分類精度較高。
2)分類所用的波段數將對計算結果產生較大的影響。對于信息熵,用的波段越多,分類精度越高。但是當波段數大于30后,分類精度相對穩定,不會隨著波段數的增加而有較多提高。
3)去除壞波段(高噪聲)可以略微提高分類精度,并且減少較多的計算時間。
2.3 K均值聚類實驗
在波段選擇實驗的基礎上,利用USS方法選取35 個波段,對其進行K均值聚類影像分類實驗。分別選擇歐氏距離、相關系數以及光譜角作為相似性度量進行K均值聚類,得到的影像分類結果如圖4所示,影像分類精度如表3所示。

圖4 影像分類結果

表3 3個不同的相似性度量的精度
根據表3和圖4的分類結果,可以得到以下結論:
1) 根據分類結果的精度,K均值聚類為非監督分類,整體精度弱于監督分類,其中歐氏距離的效果比相關系數和光譜角好,光譜角的分類精度是這3種方法中最低的。
2)比較3種方法的計算時間,歐氏距離所需要的計算時間最少,可以最快地得到分類結果,光譜角耗時最多。
3)根據圖4可以看出這3種方法對于不同地物的分類精度有所不同。歐氏距離、相關系數以及光譜角均可將第1類、第4類與第9類地物較為完整地分類;而對于第3類、第8類、第15類以及第16類地物,3 種方法均不能進行有效分類;對于第10類與第12類地物,歐氏距離作為相似性度量的分類結果明顯較好;對于第11類地物,相關系數作為相似性度量的分類結果較好;對于第6類地物,光譜角作為相似性度量的分類結果較好。由此可知,基于K均值聚類的分類方法進行影像分類時,3種不同的相似性度量對不同地物的分類效果具有一定的選擇性。
4)3種不同的相似性度量中,采用歐氏距離作為相似性度量進行影像分類最有效、精度最高;利用光譜角的分類效果差且耗時最長。針對各個種類的地物,選擇不同的相似性度量所得到的分類結果不同。
本文在討論兩種無監督高光譜影像波段選擇方法的基礎上,分析比較了基于K均值聚類的3種相似性度量。實驗表明,本文所采用的兩種無監督波段選擇方法中,USS能夠較好地選擇出具有獨特信息的波段,對高光譜影像進行有效降維,且方法簡單、計算簡便;利用3種不同的相似性度量進行K均值聚類影像分類實驗表明,將歐氏距離作為相似性度量,能夠取得相對較好的分類精度,且性能優于其他的方法。
[1] 劉雪松,葛亮,王斌,等.基于最大信息量的高光譜遙感圖像無監督波段選擇方法[J].紅外與毫米波學報,2012,31(2):166-170
[2] Hughes G P. On the Mean Accuracy of Statistical Pattern Recognizers[J].IEEE Transactions on Information Theory, 1968,14(1):55-63
[3] 楊諸勝,郭雷,羅欣,等.一種基于主成分分析的高光譜圖像波段選擇算法[J].微電子學與計算機,2007,23(12):71-74
[4] Lee J H,Kim Y S,Lee D,et al. Robust CCD and IR Image Registration Usinggradient-based Statistical Information[J]. IEEE Signal Processing Letters,2010,17(4):347-350
[5] He Y,Qian D. Fast Band Selection for Hyperspectral Imagery[C]. IEEE 17th International Conference on Parallel and Distributed Systems (ICPADS),Tainan,2011
[6] Bajcsy P,Groves P.Methodology for Hyperspectral Band Selection[J]. Photogrammetric Engineering and Remote Sensing,2004,70(7):793-802
[7] Russ J C. The Image Processiong Handbook[M].New York: CRC Press,2011
[8] Bajwa S,Bajcsy P,Groves P,et al. Hyperspectral Image Data Mining for Band Selection in Agricultural Applications[J]. Transactions-american Society of Agricultural Engineers,2004, 47(3): 895-908
[9] Macqueen J B. Some Methods for Classification and Analysis of Multivariate Observations[J].In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability,1967,1(14): 281-297
[10] Wagstaff K,Cardie C,Rogers S,et al. Constrained K-means Clustering with Background Knowledge[J].Proceedings of the ICML,2001(1):577-584
[11] Sohn Y,Rebello N S.Supervised and Unsupervised Spectral Angle Classifiers[J]. Photogrammetric Engineering and Remote Sensing,2002,68(12):1 271-1 282
[12] Lv Z,Yu X,Zhang Z,et al.Automatic Remote Sensing Image Classification Method Based on Spectral Angle and Spectral Distance[C]. IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Melbourne,2013
P237
B
1672-4623(2016)03-0026-04
10.3969/j.issn.1672-4623.2016.03.009
趙潔,碩士,研究方向為攝影測量與遙感。
2015-12-15。