王婷 北方民族大學
基于隨機森林的高光譜遙感圖像分類
王婷 北方民族大學
針對高光譜遙感圖像分類精度較低的問題,本文提出了基于隨機森林的分類算法,首先采用主成分分析法對高光譜遙感數(shù)據(jù)進行降維,并在降維后形成的主成分空間中利用隨機森林分類器進行分類。為了反映該分類算法在高光譜遙感數(shù)據(jù)方面的優(yōu)越性,分別與支持向量機(SVM)、隨機森林(RF)進行對比分析。實驗結(jié)果表明,基于主成分空間的隨機森林分類模型對分類具有較高的準確率和較優(yōu)的效率。
高光譜遙感圖像 主成分分析 隨機森林 機器學習
由于高光譜圖像的波段數(shù)量較多且波段間相關性較高,圖像光譜信息所包含的高維特征集,反而可能會導致分類精度隨著特征維度的過分增長而呈現(xiàn)下降趨勢,因此一般會通過降維或特征波段選擇的方式選取有限的波段來參與分類識別。主成分分析(PCA)是通過數(shù)學變換將多波段的圖像信息壓縮到比原波段更有效的少數(shù)幾個轉(zhuǎn)換波段,降低特征的維數(shù),減少波段之間的冗余,以廣泛應用于高光譜圖像處理中。隨機森林(RF)是一個以決策樹為基礎分類器的集成分類器。其分類表現(xiàn)優(yōu)異,能提供在當前流行的同類算法中頂級的準確性,能在類大小分布不平衡的情況下保持分類誤差平衡,而且有非常快的運算速度。
2.1 主成分分析


2.2 隨機森林

圖1 肯尼迪航天中心數(shù)據(jù)集
RF是基于CART決策樹的組合分類器。首先,從給定的訓練集通過多次隨機的可重復的采樣得到多個bootstrap數(shù)據(jù)集并對每個數(shù)據(jù)集構造一棵決策樹。在每個葉節(jié)點處通過統(tǒng)計訓練集中達到此葉節(jié)點的分類標簽的直方圖經(jīng)驗的估計此葉節(jié)點上的類分布。一直迭代到用戶設定的最大樹深度或者直到不能通過繼續(xù)分割獲取更大的信息增益為止。在分類預測階段,對一個輸入樣本迭代地根據(jù)訓練得到的RF中的各個決策樹進行或左或右的分支,直到各決策樹的葉節(jié)點,各個葉節(jié)點的類分布就是這棵樹的分類結(jié)果。通過(3)式平均各棵樹的葉節(jié)點上的分類分布就得到了整個隨機森林的對此輸入樣本的分類結(jié)果。

其中T是森林中樹的數(shù)目,c是某一個特定的類,P是概率函數(shù)。
本文采用AVIRIS獲取的美國佛羅里達州肯尼亞中心實驗區(qū)高光譜遙感圖像。圖像大小為614*512像素,空間分辨率18m,如圖1所示。
本文步驟:對原始高光譜遙感圖像數(shù)據(jù)進行主成分分析,將原始數(shù)據(jù)投影到主成分方向上;在主成分空間中隨機選取70%訓練樣本訓練隨機森林分類器。其余30%作為測試樣本。通過實驗,對SVM、RF、PCA-RF三種算法進行對比分析,分類結(jié)果如表1所示:

表1 分類結(jié)果
從表1的結(jié)果中可得:RF分類精度明顯優(yōu)于SVM,但兩種算法運行時間相當。本文提出的算法分類精度優(yōu)于RF算法,提高了0.62個百分點;與此同時算法時間也比RF快3.25s。實驗結(jié)果表明本文算法能夠有效的提升高光譜遙感圖像分類的精度。
[1]張良培,張立福.高光譜遙感[M].北京:測繪出版社,2011
[2]Prasad S, Bruce L M. Limitations of principal components analysis for hyperspectral target recognition[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5( 4) : 625—629
[3]雷震,隨機森林及其在遙感影像處理中應用[D].上海交通大學,2012
[4]陳佩.主成分分析法研究及其在特征提取中的應用[D].陜西師范大學,2014
[5]王書民,張愛武,胡少興.基于隨機森林算法的航空高光譜數(shù)據(jù)分類方法研究[J].科學技術與工程,2016,21(6):83-87
[6]Pal, M. Random forests for land cover classification[J]. IEEE, 2003


王婷(1992—),女,漢族,甘肅慶陽人,工學碩士,單位:北方民族大學計算機學院軟件工程專業(yè),研究方向:遙感圖像處理。