(山東科技大學 計算機科學工程學院,山東 青島 266590)
近幾年來,由于遙感技術的快速發展,高光譜遙感影像的采集變得更加容易。隨著高光譜圖像光譜和空間分辨率的增加,影像所包含的地物信息越來越豐富,更加有利于地物的精細分類。為了提取有效的地物特征改善分類精度,多種特征提取方法已經被應用到高光譜圖像分類領域[1-3],例如主成分分析[4](principal components nalysis,PCA)、濾波方法以及形態學特征提取方法[5]等。形態學方法選用不同的結構元素去提取圖像中對應的結構形式的信息[6],通過改變結構元素的類型和比例來生成地物的不同特征圖像,特征圖像表達地物的不同信息。但該方法的結構元素種類眾多,從中恰當地選擇一個或幾個符合高光譜圖像特征的結構十分困難。
在高光譜圖像分類中,結合地物不同層次的特征可以更好地反映地物性質、區分不同地物,改善分類精度[7-8]。對于多波段、高維度的高光譜圖像來說,每一種特征提取方法均可以提取一定的地物特征,但是單獨的一種特征圖像通常無法覆蓋地物的所有特征,集成的概念由此出現[9],將多種不同的特征圖像組合,取長補短,進一步提升高光譜圖像的分類精度[10]。
本研究利用幾種新的特征提取方法,包括高斯濾波[11](Gaussian filtering, GF)和滾動引導濾波[12](rolling guidance filtering, RGF)。圖像是由不同尺度的對象所構成,不同尺度的結構傳遞著不同信息。大尺度結構或邊緣一般包含更多信息,而較小尺度的結構或邊緣包含較少信息并且可能包含噪聲數據。GF方法利用高斯核函數對圖像進行卷積,對圖像進行去噪。而RGF方法可以較好地保留圖像中重要的邊緣結構,防止信息丟失。
RGF方法具體的實現步驟如下:
1)圖像由GF進行處理,圖像中的小尺度結構將被完全去除,大尺度結構被模糊。濾波器為:
(1)

2)大尺度結構邊緣恢復。RGF方法通過迭代改變引導圖像,逐漸恢復模糊的邊緣結構。公式為:
(2)

為了避免形態學中結構元素種類不易選擇的問題,本研究提出一種基于多特征圖像集成的高光譜圖像分類方法。具體過程是:
1)生成多種特征圖像即構建多個基本核。通過PCA降低原始高光譜圖像的維數,然后利用GF和RGF進行特征提取,其中GF方法產生的特征圖像去除同一類別中的小尺度結構,RGF方法通過控制迭代次數來生成不同的特征圖像。為選擇合適的特征圖像,選擇Indian Pines、University of Pavia數據集進行實驗。圖1為Indian Pines數據集特征提取的結果,RGF方法迭代3次時,被模糊的大尺度邊緣基本恢復。圖2是Pavia大學數據集對應的特征提取結果,同樣在迭代3次時,形成了邊緣清晰、內部均勻的特征圖像。

圖1 Indian Pines圖像不同的特征圖像

圖2 University of Pavia圖像不同的特征圖像
2)采用支持向量機(support vector machine, SVM)[13-15]分類方法得到每種特征圖像對應的分類結果, 選擇最優的分類結果作為最終組合的基本核之一,然后采用自適應增強的方式[16]進行學習,獲得多個基本核。集成學習(ensemble learning, EL)方法可以將多個分類器結合,得到更加準確、穩定的結果。采用集成學習將多種特征圖像的分類結果結合,以進一步提高分類精度。

圖3 使用不同特征圖像對精度的影響
由圖1和圖2可看到,當迭代3次時,特征圖像的特征邊緣已變得清晰穩定。圖3展示了兩個數據集下的分類精度,每個類別隨機選擇50個訓練樣本,其余作為測試樣本。實驗結果用總體精度(overall accuracy,OA)進行評估。由圖3可以看出,當使用迭代3次的濾波圖像時,分類精度已達到最高值,在后續實驗中,選擇原圖、GF、迭代3次的RGF作為基本特征圖像。
基于多特征圖像的集成學習(MFI-EL)分類方法思路如下:①將構建的特征圖像利用SVM進行分類,選擇最優的分類結果作為最終集成的分類結果之一;然后采用自適應增強方式不斷的訓練獲得多個最優結果。自適應增強的方式就是在整個實驗期間賦予每個訓練樣本權重值(在實驗開始時,所有訓練樣本的權重值相等),在第t次被錯誤分類的訓練樣本在第t+1次增加樣本的權重值,那么分類器將集中在這些訓練樣本上,這些訓練樣本將會被正確分類,最終得到較優的分類結果。②將多個分類結果組合,根據分類結果的誤差率來確定其在最終結合核中的權重系數。
本研究得到的MFI-EL分類方法流程如圖4,具體過程為:

圖4 MFI-EL分類方法過程

氣則是構成具體事物的材質,具體物皆氣造而成,但氣的造物必有理為其依據。理是一類事物的形式,氣是構成事物的質料。理氣無時間上的先后,但有邏輯上的先后,因為理是超時空的永恒存在者,氣是時空中的變化者。太極中有動靜之理,氣因此理而有實際的動靜。此氣中之理,就是此事物的性。不唯人有性,物亦有性,“天下無性外之物”(《朱子語類》卷四)。
然后,利用SVM對不同的特征圖像進行分類得到對應的分類結果Ik(k=1,2,…C),C表示特征圖像的個數,并計算每個特征圖像下的分類錯誤率errk,如式(3)。根據公式(4)挑選出錯誤率最低的結果(用errt表示)作為最終集成的基本核,ft表示第t次獲得的基本核,并計算相應的結合權重αt如式(5)。
(3)
k*=argmmerrk,k=1,2,…,c;(ft,errt)=(Ik*,errk*)
(4)
(5)
其中Wt是第t次時樣本權重向量。通過該過程,獲得了一個基本核。
其次,如式(6)更新樣本權重,將分類器集中在被錯誤分類的樣本上,再次訓練得到新的樣本子集下對應的基本核。
(6)
其中,Zt是規范化參數。
最后,重復以上過程,獲得滿足條件的T個基本分類器結果,并將得到的多個分類結果根據權重系數αt進行集成,如式(7)得到最終的分類結果:
(7)
首先,利用PCA對原始圖像降維,保留25個波段。其次,通過特征提取方法得到特征圖像。實驗選用原始圖像、高斯圖像、迭代三次的RGF圖像。在所有的實驗中,訓練樣本集是在標記樣本中每個類別隨機選擇50個訓練樣本,剩余的作為測試樣本集。為了消除實驗隨機性引起的偏差,進行了10次重復實驗,每次實驗的訓練樣本集和測試樣本集均是隨機產生的,將10次結果的均值作為最后的分類精度。實驗精度表格中“±”左側的數據代表10次重復實驗分類結果的平均值,右側表示的是10次實驗結果的標準差,且最高精度以粗體突出顯示。為了驗證提出方法的有效性,與標準的SVM、表示多核學習(representation multiple kernel learning, RMKL)、樣本篩選多核學習(sample screening multiple kernel learning, S2MKL)方法進行對比。最終的分類性能利用總體精度(OA)、平均精度(average accuracy, AA)和Kappa系數進行評估,其中OA是正確分類像素的百分比,AA是每個類的正確分類像素的百分比的平均值,Kappa系數是綜合考慮用戶精度和制圖精度的一個質量指數。
首先,利用Indian Pines數據集驗證提出方法的分類性能。實驗中將12個類別中具有很少標記樣本的4個類別去掉,表1顯示剩下的八個類別通過不同方法獲得的分類結果及其相應的OA、AA和kappa系數值。由表1可見,相比于標準的SVM方法,本方法的精度提升了17.63%,證明集成方法的作用。與RMKL和S2MKL方法相比,本方法的OA分別提升了約6.88%、1.6%。本方法在一些復雜類別如Grass_M,Grass_T和Wheat中表現突出,對應的分類圖如圖5所示。訓練樣本數量對分類性能的影響如圖6所示,每個類別的訓練樣本數量從20到50,可見所提出方法的分類性能在不同數量訓練樣本下均優于其他方法,特別是在小樣本的情況下,所提出的算法顯示出良好的分類性能。

表1 Indian Pines圖像下不同方法的分類精度對比

圖5 Indian Pines圖像下的不同方法的分類圖

圖6 Indian Pines圖像下的不同數量訓練樣本下的分類結果
為驗證所提方法的泛化性能,在Salinas數據集上進行實驗。分類結果如表2所示,可見本方法的分類精度高于SVM方法約8.67%,分別高于RMKL、S2MKL方法大約5.27%和2.43%。尤其在Grapes、Corn、Lettuce_4和Vinyard_U類別上分類性能提升顯著,分別高于S2MKL方法約3.32%、4.45%、4.86%和9.52%,體現了本特征提取方法的作用。不同方法的分類圖像如圖7所示,可以看到本方法在類別Corn 和Vinyard_U上的分類圖清晰規整。不同數量的訓練樣本下訓練得到模型的性能差異實驗結果如圖8所示,進一步表明所提方法的性能顯著優于其他算法。

表2 Salinas圖像下不同方法分類精度對比

續表2

圖7 Salinas圖像不同方法的分類圖像

圖8 Salinas圖像下的不同數量訓練樣本下的分類結果
為進一步驗證提出方法的普適性,選擇Pavia大學數據集進行實驗。表3展示了分類精度結果,對應的分類圖如圖9所示,可見,相比于其他幾種分類方法,本方法的分類精度有顯著提升:OA分別比RMKL和S2MKL方法高大約1.81%和0.38%。不同數量的訓練樣本下的精度結果如圖10所示,證明了本研究提出方法的優越性。

表3 University of Pavia圖像下不同方法分類精度對比

圖9 University of Pavia圖像不同方法的分類圖像

圖10 University of Pavia圖像下的不同數量訓練樣本下的分類結果
提出一種基于多特征圖像的集成學習方法MFI-EL,使用PCA將高光譜圖像的主要信息集中在前幾個波段,然后使用GF和RGF來獲得特征圖像。為了保持原始光譜信息,將原始圖像也作為特征圖像。其次,通過自適應增強的方法得到多個不同的基本核,并根據每個基本分類器的分類精度確定組合權重將其集成。實驗執行在三幅真實的高光譜圖像數據上,通過與其他三種方法進行對比,驗證了所提出方法能夠提高高光譜圖像的分類精度。