何浩, 沈永林, 劉修國, 馬麗
(1.中國地質大學(武漢)信息工程學院,武漢 430074; 2.中國地質大學(武漢)機械與電子信息學院,武漢 430074; 3.新疆大學建筑工程學院,烏魯木齊 830047)
?
空間-光譜約束的圖半監督高光譜影像分類算法
何浩1,3, 沈永林1, 劉修國1, 馬麗2
(1.中國地質大學(武漢)信息工程學院,武漢430074; 2.中國地質大學(武漢)機械與電子信息學院,武漢430074; 3.新疆大學建筑工程學院,烏魯木齊830047)
摘要:高光譜影像數據的類標簽樣本獲取困難,而在少量標簽點情況下的分類精度通常不理想。為此,提出了一種改進的空間-光譜約束的圖半監督分類算法(spatial-spectral constrained graph-based semi-supervised classification,SS-GSSC)。首先,以歐氏距離結合RBF(radial basis function)核函數確定空間相似性權值; 采用光譜相關角(spectral correlation angle,SCA)計算光譜相似性權值; 然后,將2種權值以乘積的形式進行組合,對相似性測度進行約束; 最后,利用標簽傳遞算法對測試數據進行標簽預測,獲得分類結果。通過分別對Indian Pines影像和DC Sub影像進行分類實驗的結果表明,該算法較之以往的分類算法,能更好地消除同類地物圖斑中夾雜異類地物散點的現象,在少量標簽點(每類25個)情況下,取得了較高的分類精度。
關鍵詞:半監督分類; 圖; 空間-光譜; 高光譜遙感
0引言
高光譜遙感影像分類一直是高光譜遙感領域較為熱門的研究方向,從傳統的監督分類、非監督分類,到近年來興起的半監督分類,國內外研究人員已發展了多種分類算法。然而,多數算法僅利用光譜相似性測度進行分類,對地物的空間信息利用不足。針對此問題,國內外學者進行了大量的相關研究,提出了多種空間-光譜分類算法[1]。在引入空間信息輔助分類時,通常利用影像的紋理、形狀等特征作為輔助信息。趙銀娣等[2]提出了一種適用于多光譜紋理影像分類的廣義馬爾可夫隨機場模型,該算法提高了紋理影像的分類精度; 黃昕等[3]提出了一種像元形狀指數及基于形狀與光譜特征融合的高空間分辨率遙感影像分類算法,該算法計算簡便且能有效表達高分辨率影像的地物特征; Xia等[4]利用4種特征提取方法,結合旋轉森林進行特征提取,再采用空間上下文信息、先驗馬爾可夫場等方法進行高光譜影像分類,顯著提高了分類精度; Wang等[5]提出了一種新的基于空間-光譜標簽傳遞分類算法用于高光譜圖像的半監督分類; Ji等[6]采用構建超圖結構形式將像元光譜特征與空間約束相結合,進行高光譜圖像分類; Ghamisi等[7]提出了一種基于隱馬爾可夫隨機場分割和支持向量機(support vector machine,SVM)相結合的分類算法; Li等[8]提出了一種非局部聯合協同表示分類算法與局部自適應字典相結合的高光譜圖像分類算法。這些算法在標簽數量較多的情況下具有很高的分類精度,但同時也都具有計算較復雜的問題; 當標簽數量少、無標記樣本數量龐大時,分類精度通常不理想。分類結果也常伴隨著同類地物圖斑中夾雜其他類別地物散點的現象。
本文在圖半監督分類方法的基礎上,顧及空間信息約束,提出一種改進的空間-光譜約束的圖半監督分類算法(spatial-spectral constrained graph-based semi-supervised classification,SS-GSSC)。該算法基于2點假設[6]: ①具有相似光譜特征值的像元點可能具有相同的類別標簽; ②空間鄰近的像元點可能具有相同的類別標簽。算法采用乘積的方式組合空間信息與光譜信息的權值,從而擴大像元點之間的相似性差異。能夠在少量標簽情況下,取得較高的分類精度。同時,也在一定程度上解決了同類地物圖斑中夾雜其他類別地物散點的問題。
1空間-光譜約束的圖半監督分類算法
傳統的分類方法大體可分為監督分類和非監督分類。監督分類常利用有類別標簽的訓練樣本數據訓練獲得一個分類器,對無標簽的測試數據進行標簽預測; 而非監督分類則是直接對沒有類別標簽的數據,利用數據的聚類特性進行分類; 近年來在模式識別領域興起的半監督分類算法,同時利用了少量標簽數據的類別信息和無標簽數據中的隱含信息,對小樣本分類具有一定的優勢。基于圖的半監督分類(graph-based semi-supervised classification,GSSC)[9]最大的特點就是用圖來表示數據之間的關系。
綜合考慮高光譜影像中目標像元與鄰近相似像元在空間和光譜上的關系,將2種相似性測度組合定權,改進圖半監督分類算法。該算法包括: 相似性測度選擇、組合和標簽傳遞計算。
1.1空間相似性測度


(1)
1.2光譜相似性測度


(2)

(3)
式中:n表示波段數;k為波段;r,t分別代表第i和第j個像元點的光譜值。
1.3相似性測度的組合方法
空間相似性權值和光譜相似性權值從不同的角度描述了像元點之間標簽相似程度。實驗了多種權值組合方法,發現采用權值相乘的方法組合定權,分類效果最好。這從理論上也很容易得到解釋,如果2個像元點之間的2種相似性權值都很小或都很大,以乘積的形式組合可使這種相似性差異進一步擴大; 當2種相似性權值出現一大一小時,取乘積可使其相似性權值保持適中,從而有效地避免了光譜相似而空間距離較遠的異類地物被誤分為同一類地物的情況。則組合定權公式為

(4)
式中:Wij為像元i與像元j之間的組合邊權值;W為對稱矩陣; 為了避免像元自相似性,令Wii=0。
1.4標簽傳遞算法
用圖表示數據之間的關系,圖的結點表示數據點(包括標簽數據和無標簽數據),點與點之間的邊權值采用上述相似性測度組合方法計算獲得。則預測標簽值可表示為

(5)
式中: 參數α取值范圍為(0,1); I為單位矩陣;
S=D-1/2WD-1/2,
(6)
其中D為對角矩陣,元素Dii為W的第i行之和;
Y*=(Yl,Yu)T={y1,y2,…,yl,yl+1,…,yl+u}T,
(7)

(8)
獲得,式中C為類別數。
空間-光譜約束的圖半監督分類步驟如下:
1)輸入帶標簽的訓練數據Yl和無標簽的待分類數據Yu; 設置RBF核函數的帶寬超參數σ和標簽傳遞調節參數α; 設置訓練數據標簽個數。

3)設置標簽矩陣。步驟為由Yl和Yu(無標簽數據的標簽值均為0)的標簽構成N×C的標簽矩陣Y,其中N為像元總數。
4)標簽傳遞算法。首先,構建由訓練數據和測試數據組成的全部數據的全連接圖,邊權值矩陣采用上述已計算出的W; 然后,利用公式(6)計算對稱矩陣S; 最后,利用公式(5)計算預測標簽矩陣F*,取極大值對應類別作為該像元的類別。
5)輸出預測標簽矩陣及分類結果圖。
2實驗結果及分析
2.1實驗數據
為了方便比較算法的分類效果,選取了2種不同傳感器的高光譜遙感影像。
1)Indian Pines數據集是AVIRIS傳感器采集的數據,采集于1992年美國印第安納州的一個農場,空間分辨率為20 m,去除水汽吸收波段,剩余200個波段。農田區域具有比較規整的幾何形狀,作物類別主要包括玉米和大豆,由于耕種情況和土壤濕度的不同,可以細分為多種類別。根據Landgrebe的報告[10],選擇所有的16個類別進行實驗。
2)Washington DC數據集為機載傳感器HYDICE采集,影像由210個波段組成,波長范圍400~2 400 nm,去除水汽吸收波段,剩余191個波段。實驗選擇了Washington DC的一個子場景,命名為DC Sub。該影像為行號655—762和列號67—177組成的108像元×111像元的影像,包含草地、樹、屋頂、道路和陰影等6類地物。
實驗中分別采用以光譜特征值作為相似性測度的GSSC方法和SS-GSSC方法進行對比實驗。設置參數σ=10,α=0.1,標簽數量選擇時,每一類地物隨機選擇3~25個標簽,例如標簽數量選擇為{3,5,10,15,20,25},分別測試各數據集在不同標簽數量情況下的分類效果。為了避免隨機選取標簽帶來實驗結果的偶然性,對每種參數情況進行10次測試,取平均值進行分類精度評價。
2.2Indian Pines數據集的分類結果
當每類地物標簽數量取25時,16類地物的分類精度及總體分類精度如表1所示。

表1 Indian Pines數據集訓練與測試樣本數及各類別分類精度
從表1可以看出,利用基于光譜特征的GSSC方法,分類精度較低,總體精度僅為56.20%; 加入空間信息后,采用SS-GSSC算法總體分類精度提高到了92.09%。由此可見,空間信息的參與大大提高了影像的分類效果。此外,本文算法SS-GSSC相對于傳統算法GSSC能更好地區分玉米、干草、大豆、木材和大廈等地物。
2.3DC sub數據集的分類結果
在DC sub數據集中6類地物的分類精度如表2所示。

表2 DC sub數據集訓練與測試樣本數及各類別分類精度
分別采用GSSC算法和SS-GSSC算法進行分類的結果如圖1所示。

(a) RGB假彩色合成影像 (b) 地面真實數據 (c) GSSC 分類結果

(d) SS-GSSC分類結果(e) SS-GSSC全圖分類結果
圖1DC Sub數據集分類結果
Fig.1Classification results of DC Sub
為了便于定量評價本文方法的分類精度,分類對象全部選擇有地面真實數據的區域,如圖1(b)所示。標簽數量取25時,僅利用光譜特征的GSSC算法分類結果,在大塊圖斑中有較明顯的異類散點出現,如圖1(c)所示; 采用SS-GSSC算法分類,分類精度由95.57%提升到了99.62%,且消除了同類圖斑中夾雜異類散點的現象,只在類別邊界區域出現少量誤分類點,如圖1(d)所示。
進一步驗證分類效果,將分類對象擴大到全圖所有像元,標簽數量仍取每類25個,采用SS-GSSC算法分類,總體分類效果良好,分類結果如圖1(e)所示。影像右側的小路、草地、樹和建筑物等都得到了很好的區分,同類別內異類散點較少。但受標簽點位置的影響,在標簽點較少的區域,出現了少量誤分類點。例如影像左側的部分草地、樹被誤分成了道路。
2.4標簽數量對分類精度影響分析
分別選取標簽數量為3,5,10,15,20和25個,采用SS-GSSC算法對數據集Indian Pines進行分類,其分類結果如圖2所示。

(a) RGB假彩色合成影像 (b) 地面真實數據(c) 3個標簽分類結果 (d) 5個標簽分類結果

圖2-1 不同標簽數量Indian Pines數據集分類結果

(e) 10個標簽分類結果(f) 15個標簽分類結果 (g) 20個標簽分類結果(h) 25個標簽分類結果

圖2-2 不同標簽數量Indian Pines數據集分類結果
從圖2中可以發現,每類標簽數量取3時,在地類復雜區域有明顯的誤分類現象,隨著標簽數量的增加,分類精度逐漸提高。當標簽數量增加到15時,分類精度的提升較為緩慢。但整體上,采用本文算法都能不同程度地消除同類圖斑中部夾雜異類散點的現象,誤分類點只在區域邊緣出現。
為了進一步比較本文算法的分類效果,在實驗條件相同的情況下與文獻[5]中提出的(spatial-spectral label propagation based on the SVM,SS-LPSVM)算法比較,SS-GSSC算法在標簽數量很少時,例如標簽數量取3和5時,已具有較高的分類精度; 隨著標簽數量的增加,該算法分類精度仍略高于SS-LPSVM算法。分類精度比較如圖3所示。

圖3 Indian Pines數據集分類精度比較
3結論
本文提出的空間-光譜約束的圖半監督高光譜影像分類算法克服了以往基于像元光譜特征分類算法的局限性,增加了相鄰像元之間的空間信息,提高了影像的分類精度,減少了同一類地物圖斑中夾雜異類地物散點的情況,對高光譜影像分類具有一定的普遍適用性。
分別對Indian Pines影像和DC Sub影像進行的分類實驗表明: 與傳統的基于光譜特征分類算法相比,本文算法有較明顯的精度提升; 在Indian Pines影像上進一步做標簽數量對分類精度的影響分析,發現即使在標簽數據較少的情況下,該算法仍然具有較高的分類精度; 同等實驗條件下,與文獻[5]中提出的SS-LPSVM算法比較,本文算法分類精度也略有提高。
但在標簽數據分布非常不均勻的情況下,本文算法容易產生明顯的誤分類現象。這是該算法的不足之處,也將是下一步研究的重點。
參考文獻(References):
[1]Fauvel M,Tarabalka Y,Benediktsson J A,et al.Advances in spectral-spatial classification of hyperspectral images[J].Proceedings of the IEEE,2013,101(3):652-675.
[2]趙銀娣,張良培,李平湘.廣義馬爾可夫隨機場及其在多光譜紋理影像分類中的應用[J].遙感學報,2006,10(1):123-129.
Zhao Y D,Zhang L P,Li P X.Universal Markov random fields and its application in multispectral textured image classification[J].Journal of Remote Sensing,2006,10(1):123-129.
[3]黃昕,張良培,李平湘.融合形狀和光譜的高空間分辨率遙感影像分類[J].遙感學報,2007,11(2):193-200.
Huang X,Zhang L P,Li P X.Classification of high spatial resolution remotely sensed imagery based on the fusion of spectral and shape features[J].Journal of Remote Sensing,2007,11(2):193-200.
[4]Xia J S,Chanussot J,Du P J,et al.Spectral-spatial classification for hyperspectral data using rotation forests with local feature extraction and Markov random fields[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(5):2532-2546.
[5]Wang L G,Hao S Y,Wang Q M,et al.Semi-supervised classification for hyperspectral imagery based on spatial-spectral label propagation[J].ISPRS Journal of Photogrammetry and Remote Sensing,2014,97:123-137.
[6]Ji R R,Gao Y,Hong R C,et al.Spectral-spatial constraint hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(3):1811-1824.
[7]Ghamisi P,Benediktsson J A,Ulfarsson M O.Spectral-spatial classification of hyperspectral images based on hidden Markov random fields[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(5):2565-2574.
[8]Li J Y,Zhang H Y,Huang Y C,et al.Hyperspectral image classification by nonlocal joint collaborative representation with a locally adaptive dictionary[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(6):3707-3719.
[9]Zhu X J.Semi-Supervised Learning with Graphs[D].Pittsburgh,Pennsylvania State:Carnegie Mellon University,2005.
[10]Landgrebe D.Multispectral Data Analysis:A Signal Theory Perspective[R].West Lafayette:School of Electrical and Computer Engineering,Purdue University,1998.
(責任編輯: 陳理)
Spatial-spectral constrained graph-based semi-supervised classification for hyperspectral image
HE Hao1,3, SHEN Yonglin1, LIU Xiuguo1, MA Li2
(1. Faculty of Information Engineering, China University of Geosciences(Wuhan), Wuhan 430074, China; 2. Faculty ofMechanicalandElectronicInformation,ChinaUniversityofGeosciences(Wuhan),Wuhan430074,China;3.FacultyofArchitectureEngineering,XinjiangUniversity,Urumqi830047,China)
Abstract:It is difficult to obtain labels of samples for hyperspectral data. Few labeled samples usually lead to low classification accuracy. In view of this situation, an improved spatial and spectral constraint graph-based semi-supervised classification algorithm (SS-GSSC) is proposed. First of all, Euclidean distance combined with radial basis function (RBF) is used to construct the spatial similarity edge weight; Spectral correlation angle (SCA) is used to calculate spectral similarity weights; Then, the two kinds of weights are combined to the form of product to restrict the similarity measurement; Finally, the label propagation algorithm is used to predict the test data labels so as to obtain the classification results. Classification experiments on Indian Pines image and DC Sub image show that, compared with the previous classification algorithm, the algorithm designed by the authors can better eliminate the phenomenon of the existence of the same category map spot included in other categories of scattered points, and can achieve higher classification accuracy under the condition of less label points (25 per class).
Keywords:semi-supervised classification; graph; spatial-spectral; hyperspectral remote sensing
doi:10.6046/gtzyyg.2016.03.06
收稿日期:2015-03-23;
修訂日期:2015-05-18
基金項目:中國博士后科學基金面上項目“基于分形的玉米作物物候動態檢測算法研究”(編號: 2013M542086)和中央高校新青年教師科研啟動基金項目“基于結構推理的農作物多參量旱情監測方法研究”(編號: CUGL140834)共同資助。
中圖法分類號:TP 79
文獻標志碼:A
文章編號:1001-070X(2016)03-0031-06
第一作者簡介:何浩(1979-),男,博士研究生,講師,主要從事高光譜遙感數據處理方面的研究。Email: hehao_1216@126.com。
引用格式: 何浩,沈永林,劉修國,等.空間-光譜約束的圖半監督高光譜影像分類算法[J].國土資源遙感,2016,28(3):31-36.(He H,Shen Y L,Liu X G,et al.Spatial-spectral constrained graph-based semi-supervised classification for hyperspectral image[J].Remote Sensing for Land and Resources,2016,28(3):31-36.)