楊素妨,曾紅春
(百色學院,廣西 百色 533000)
近年來,隨著空間技術的發展,影像空間分辨率不斷提高,影像數據量呈現爆發式增長,為國家數字城市規劃、地理國情監測、智慧城市建設等提供數據保障。僅利用影像的光譜特征進行影像分類,未能充分挖掘影像的多種特征信息,因此影像的分類精度難以滿足要求。而將影像的多種特征與高性能的機器學習分類器結合的方法,已逐漸成為目前主流趨勢。
常用的分類器有決策樹、支撐向量機(support vector matchine,SVM)、隨機深林(random forest,RF)、極限學習機(extreme learning machine,ELM)等[1-3]。極限學習機具有訓練簡便、結構簡單,不需要調整隱含層參數信息,僅通過控制最小化訓練誤差和輸出權重實現極限學習機分類器的生成,克服了傳統神經網絡的容易陷入局部最小、訓練速度慢的問題。楚恒等[4]提出多特征多核的ELM分類方法,該方法將影像對象的光譜、空間特征通過簡單多種核加權組合的方式進行融合,未能充分體現出不同特征在不同影像對象上的表達優勢。王明常等[5]提出利用極限學習機對高分二號遙感影像進行分類,通過多種分類器分類結果的對比,分析極限學習機在高分二號遙感影像上的準確性能,結果表明該方法運行時間快、分類準確率高。Huang等[6]通過類比支持向量機的映射函數與極限學習機隱含層的特征映射,提出改進的核極限學習機分類器,為后續集成算法與極限學習機模型的結合提供一種思路。付瓊瑩等[7]提出一種選擇性極限學習機集成算法,提高了遙感影像的分類精度。韓敏等[8]提出基于互信息選擇集成的核極限學習機分類方法,但該方法僅利用影像的光譜信息進行分類,缺少多紋理信息的考慮。
鑒于此,為了充分挖掘影像的多特征信息,提高影像分類結果準確性與差異性平衡問題,本文提出融合多特征與互信息選擇集成多核極限學習機的影像分類方法。通過提取影像的光譜特征與局部紋理特征作為訓練簡單、泛化能力強的核極限學習機的輸入,同時通過最大相關與最小冗余互信息準則對核極限學習機選擇性集成,確保最終集成的核極限學習機的輸出結果與真實分類結果的整體準確性,較好地平衡類間差異性。
由于高分辨遙感影像波段間存在大量的冗余信息,采用最小噪聲分離(minimum noise fraction,MNF)重新分配數據中存在的信息與噪聲,通過數據變換的方式將有效信息集中少量波段數據中。MNF變換的本質是通過2次主成分分析(principal component analysis,PCA)[9]的疊加。為了進一步進行波譜處理,通過檢查最終特征值和相關圖像來判定數據的內在維數。通過MNF影像變換處理,數據空間被分為二類:一部分是與較大特征值和相對應的特征影像,其余部分是與近似相同的特征值相對應以及噪聲占主導地位的影像。與PCA變換獲得的影像相比,MNF變換獲得的特征影像能有效地保留影像的特征信息,避免因信、噪分離對特征影像質量的影響。
由于影像分辨率的提高,影像上的相鄰不同地物邊界清晰。文獻[10]研究發現,采用LBP紋理特征能夠有效地表達地物邊界信息。因此,本文采用LBP特征來表達影像的局部紋理信息。LBP特征通過計算影像局部區域強度信息與中心點影像強度關系來表示該區域的局部紋理信息。由式(1)、式(2)計算LBP紋理特征。
(1)
其中

(2)
式中:gc為影像中心像素強度值;S(x)為關于x的分段函數。本文在提取LBP紋理特征時采用3×3的局部鄰域,gp為gc相鄰的8個方向的像素強度值。
極限學習機由輸入層、隱含層以及輸出層3部分組成。對于給定的訓練樣本,通過不斷地優化連接輸入層與隱含層間的輸入權重與偏置值,并在訓練過程中保持不變。假定給定{xi,ci},i=1,2,…,N的訓練樣本集,其中,xi為訓練樣本的輸入值,ci為對應的輸出值。設極限學習機存在h個隱含層節點,網絡輸出為f,g(*)為激活函數,則極限學習機的輸入輸出模型可以表示為式(3)。
(3)
式中:輸入節點的輸出權值與第i個隱含層節點用βi表示;第i個隱含節點的輸入權值與輸入節點用ωi表示;第i個隱含節點的偏置值用bi表示。
(4)
輸出權值即可以表示為式(5)。
(5)
式中:H*為矩陣H的逆。
將支持向量機中的核函數映射的思路替換極限學習機中的隱含層[11],則核極限學習機可以表示為式(6)。

(6)
因此,核極限學習機的輸入輸出模型為式(7)。
(7)
定義極端學習機核矩陣為式(8)。
ΩELM=HHT
ΩELMi,j=h(xi)·h(xj)=K(xi,xj)
(8)
對應的輸入輸出模型可以表示為式(9)。
(9)
隱含層的特征映射h(x)在核極限學習機中是未知的,但通常采用核K(μ,ν)(如K(μ,ν)=exp(-γ‖μ-ν‖2))進行計算,減少了因設置隱層節點數(特征空間的維數)不合理帶來分類結果較差的影響。
因此,核極限學習機具有極限學習機與支持向量機有效分類的優點。
在影像匹配、影像分類中,可以利用互信息衡量2個向量間的相關性。
文獻[12]提出利用互信息引導輸入變量與極限學習機模型,通過最大相關最小冗余信息原則[13]的方法優化學習算法,然后對優化的核極限學習機進行多核的選擇性集成。
本文提出融合多特征與互信息選擇集成多核極限學習機的影像分類方法,具體步驟如下。
步驟1:選取影像上的測試樣本數據,提取影像的光譜特征與LBP紋理特征。為了保證像元的差異性,分別對光譜特征與LBP紋理特征進行歸一化處理,構成影像的光譜-紋理復合特征。利用Bootstrap算法將用于訓練的樣本數據隨機分成n組樣本量為L的訓練樣本子集。S={xi,k,yi,k},xi,k∈Rd,yi,k∈R,i=1,2,…,n,k=1,2,…,L。
步驟2:利用訓練樣本數據集S,確定核函數以及對應的初始化參數,獲得極限學習機核矩陣。
步驟3:通過核矩陣求解核極限學習機。
步驟4:迭代計算步驟2、步驟3,獲得m個核極限學習機分類模型。
步驟5:利用m個核極限學習機分類模型,在檢驗樣本數據上預測類別輸出。
步驟6:根據實際樣本值與m個核極限學習機分類模型,預測輸出值,并計算二者間的最大相關最小冗余信息。
步驟7:依據每個弱分類器的最大相關最小冗余信息進行m個子核極限學習機排序。
步驟8:不斷增加集成數量,對前m個子核極限學習機進行集成,通過投票算法獲得最終的影像分類結果。
通過引入互信息的最大相關最小冗余準則進行多核極限學習機影像分類,可以增加影像分類結果與真實結果間的相關性,同時減弱多個弱分類器間的冗余信息,達到充分利用各個分類器間的差異。采用最大相關最小冗余信息準則使得影像分類結果與真實結果間的相關性最大而冗余性最小,即獲得預測準確性高而相互間差異性較大的多核極限學習機,集成解決分類結果類間差異與分類精度不平衡問題,通過多種特征的融合充分挖掘影像的多種影像信息,提高最終的影像分類精度。
本文采用武漢大學計算視覺與攝影測量研究組發布的高分遙感影像數據集(GaoFen image dataset,GID),該數據集收集60多個不同城市的150幅高質量的高分二號衛星影像,覆蓋面積超過50 000 km2。隨機選取1組樣本數據進行訓練與分類。將訓練好的模型在2018年6月18日高分二號衛星獲取的某地遙感影像數據上進行驗證測試(圖1)。該數據包含空間分辨率為1 m的全色影像數據與空間分辨率為4 m的多光譜影像數據。

圖1 高分二號影像
為驗證本文提出算法的有效性,將本文算法與支撐向量回歸(support vector regression,SVR)、極限學習機、核極限學習機(kernel extreme learning machine,KELM)的分類結果進行比較,對比不同算法的分類精度與Kappa系數。
在實際核極限學習機訓練過程中,在GID數據集中進行樣本數據的隨機選取。選用核寬為10、正則化參數為10的高斯核為核極限學習機的核函數。訓練樣本的70%用于訓練模型,剩下的30%作為檢驗樣本,用于確定集成的核極限學習機個數。每次生成20個基核極限學習機進行選擇性集成。
圖2為核極限學習機在GID數據集的集成個數與分類精度的關系曲線。從圖2可以看出,本文提出的融合多特征與互信息選擇集成多核極限學習機的遙感影像分類方法對多個弱分類器進行排序,通過測試集成個數與分類精度的變化趨勢可知:分類精度隨著集成個數的增加先急速上升再緩慢下降最后趨于穩定,在個數為7時分類精度最高的為94.16%;由于前期參與集成的弱分類器與真實分類結果存在較大的相關性且不同弱分類器間的冗余性相對較小,所以分類精度呈急速上升趨勢;隨著集成弱分類器數目的增加,引起分類結果惡化現象,說明引入互信息選擇集成多核極限學習機的優越性。通過與SVR、ELM、KELM算法對比,驗證本文方法整體RMSE值較小,預測分類結果最好。集成個數在m=7時獲得預測分類結果最好,因此本文集成個數設置為7,對高分二號數據進行分類,驗證模型的準確性。

圖2 不同算法在GID數據集的集成個數與分類精度關系
為了進一步驗證所提算法的優越性,將所提算法應用于某地拍攝的高分二號數據進行分類實驗。分類結果見圖3,每種地物的分類結果精度統計見表1。

圖3 高分二號分類結果

表1 融合多特征與互信息選擇集成多核極限學習機分類精度 %
由表1可知,本文提出的分類模型對不同地物的分類精度較高。另外,將SVR、ELM、KELM算法以及采用單一光譜特征方法進行對比實驗,如表2所示。

表2 高分二號測試數據不同分類方法精度對比
由表2可以得出如下結論。
1)本文采用融合多種影像特征作為分類器的輸入進行影像分類相比于單一光譜特征作為分類器的輸入數據具有更高的分類精度。將光譜特征作為SVR、ELM分類器的輸入進行分類,其中分類精度較高的SVR分類器的精度為88.75%、Kappa系數為0.84,本文分類方法比SVR高3.28%,Kappa系數高0.06,這是由于本文融合了光譜特征與局部紋理特征,在特征提取階段充分利用影像分辨率高能夠表現局部信息特點,通過引入LBP局部紋理信息能較好地表達相鄰地物邊界信息及區分不同地物邊界,影像分類精度會有所提高。本文方法體現了多特征融合能充分挖掘遙感影像信息在分類應用上的優勢。
2)從不同特征表現來看,采用單一的LBP特征進行分類的精度比采用經過MNF變換提取光譜特征的分類精度低2.34%、Kappa系數低0.03,僅使用LBP紋理特征時分類表現不好。就信息表達而言,局部紋理特征在處理邊緣細節信息時效果較好,通過在光譜特征中引入局部紋理特征,分類精度明顯較使用單一的光譜特征或單一紋理特征的效果好。從圖3分類結果圖可以看出,地物的邊緣細節得到了有效區分。
3)本文互信息選擇集成多核極限學習機分類模型,與KELM相比,分類精度高1.47%,Kappa系數高0.02;由于KELM缺少對多個弱分類器分類結果相關性的考慮,簡單的將多個弱分類器進行組合,分類結果較差,而引入互信息的最大相關最小冗余準則可以增加影像分類結果與真實結果間的相關性,同時減弱多個弱分類器間的冗余信息,達到充分利用各個分類器間的差異解決分類結果類間差異與精度不平衡的問題,從而提高影像分類結果的正確率。
針對遙感影像分類結果存在類間差異與分類精度不平衡問題,提出融合多特征與互信息選擇集成多核極限學習機分類方法。該方法能夠克服單一影像特征在高分二號影像上的分類局限性,充分利用LBP紋理特征區分不同地物邊界;結合信息論中的最大相關最小冗余策略,獲取與分類輸出結果最相關而相互之間冗余度最小的多核極限學習機,采用平均方法進行選擇性集成,科學地融合多個弱分類器的分類結果,提高影像的分類精度。但該方法缺少極限學習機不同核函數選擇對分類精度影響的考慮,這也是下一步的研究方向。