張立民,劉 峰,,張瑞峰
(1.海軍航空工程學院,山東煙臺264001;2.中國人民解放軍92785部隊,河北秦皇島066200)
遙感影像分類作為遙感影像處理過程中的重要步驟,已經遠遠超出了人的分析和解譯能力,為了達到理想的分類效果,提取深層次空間結構信息的需求越來越強烈,受到廣大科研人員的重視。由于遙感影像具有數據量大、維數高和不確定性等特點,應用支持向量機對其進行分類是目前主要發展的一個方向[1,2],可以解決傳統空間特征提取模型處理高維數據存在的難以收斂、計算復雜和結果難以解釋等問題[3-5]。對于基于支持向量機的遙感影像分類問題,一般情況下,都是直接使用樣本自身數據進行分類,沒有提取樣本特征,忽略了樣本數據中隱含的空間信息,Randen T等人在提取紋理結構信息時驗證這些隱含的空間信息對于分類來說是有幫助的[6],因此本文提出一種新的自相關函數特征提取方法,將其應用于遙感影像空間特征提取,最后基于支持向量機方法,將提取的自相關函數特征與樣本數據組合成新的樣本,對新的樣本數據進行訓練與分類性能研究。
支持向量機是統計學習理論結構風險最小化SRM原則的實現方法[7]。它是從線性可分情況下的最優分類面發展而來的,基本思想可用圖1來說明。圖中,實心點和空心點代表2類樣本,H為分類線,H1和H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔(margin)。所謂最優分類線就是要求分類線不但能使2類正確分開(訓練錯誤率為0,而且使分類間隔最大。對分類線方程(w·x)+b=0進行標準化處理,使得對線性可分的樣本集:

滿足 yi((w·x)+b)≥1,i=1,…,l,此時分類間隔等于2/‖w‖,使間隔最大等價于使‖w‖/2最小,訓練樣本正確可分,且使‖w‖/2最小的分類面就是最優分類面,位于H1和H2的訓練樣本點稱作支持向量。

圖1 2類線性分類的最優分類面
在實際應用中,大多數情況下都是非線性問題,因此需要引入懲罰系數C,來控制特殊樣本的分類,另外需要通過非線性變換將輸入變量x轉化到某個高維空間中,然后在變換空間求最優分類面。應用標準的Lagrange乘子法解算,根據KKT定理,構建最優分類面的問題可轉化為下面的對偶二次規劃問題:

最終的分類函數為:

由于上面的對偶問題只涉及訓練樣本之間的內積運算,即在高維空間只需要進行內積運算,根據泛函的有關理論,只要1種核函數K(xi,xj),滿足Mercer條件[8],它就對應某一變換空間中的內積,可以用K(xi,xj)間接地計算特征空間中輸入向量的像之間的內積,從而可以避免維數災難問題。
在隨機過程理論中,樣本的自相關函數,在一定程度上能夠反映樣本的空間結構信息。通常1個樣本都是由多個特征值組成的,將樣本特征值映射為1個數值序列:

式中,li為樣本第i個特征的值;N為樣本的特征數。數值序列的自相關函數定義為:

由上式可以看出,根據m取值的不同,會產生m個自相關函數值。
大多數情況下,訓練樣本并不充分,或者某一類樣本過少,導致基于這些樣本的分類精度較低,對樣本的自相關函數特征進行加權可以改善分類效果,通過樣本的均值、方差和樣本數構造1種新的加權系數。設第c類樣本數為Mc,樣本用S表示,則第c類樣本的均值和方差為:

由于均值和方差能夠反映樣本的分布特性,按照樣本不充分情況下加權系數應與均值方差之積成反比的原則,構造第c類樣本加權系數Wc為:

然后對自相關函數值加權,將樣本特征值與這m個自相關函數值相結合,組成樣本新的特征向量,可表示為:

式中,m取值必須小于N,因此就需要討論m取多少時得到的分類精度最優,本文將針對遙感影像數據對m取值不同情況下的分類精度進行討論。
實驗數據庫采用UCI機器學習數據庫的遙感影像數據庫,此數據庫的每個樣本由4個波段3*3圖像區域的遙感數據組成,樣本的類別由位于區域中心的像素確定,樣本的類別用數字表示。此數據庫共有4 435個訓練樣本和2 000個測試樣本,每個樣本具有36個特征屬性,分別為這9個像素在4個波段的遙感數據,支持向量機采用林智仁教授開發的LIBSVM軟件包對樣本數據進行訓練與分類。表1為數據庫各類別樣本個數。

表1 數據庫各類別樣本個數
由于每個樣本是1個4波段3*3區域的遙感數據,因此每個樣本每個波段共9個遙感數據,可以將樣本每個波段的遙感數據按照從左至右、由上至下的順序排成1個共9個元素的序列,每個樣本共4個這樣的序列,假設這4個序列分別為{Si,i=1,2,3,4},每個序列中的元素為{lj,j=1,2,…,9},根據上述構造加權系數算法提取特征值,由表1可以看出,每類樣本添加自相關函數特征后樣本的特征為:

為了驗證本文自相關函數特征對遙感影像分類的有效性和可行性,本次實驗分2步進行,第1步用支持向量機對未添加自相關函數特征的訓練樣本進行學習,然后對測試樣本進行分類,記錄分類精度;第2步用支持向量機對添加自相關函數特征的訓練樣本進行學習,并分別對m取值不同情況下(即添加的自相關函數特征數目不同)的樣本進行訓練,然后分別對測試樣本進行分類,并記錄m取值不同情況下的分類精度,與第1步實驗結果進行比較與討論。
本次實驗選用徑向基核函數,由于此數據庫說明文檔中注明不要使用交叉驗證方法來獲取最優C值、最優g值和最優分類精度,可能會因為內存不足等原因而導致失敗,訓練樣本和測試樣本只能用來分類和預測,因此在選擇懲罰系數C時,只選用了3個特殊的值,g取默認值1。首先對訓練樣本和測試樣本進行歸一化處理,然后用支持向量機進行訓練和分類,分類結果如表2所示。

表2 懲罰系數C取值不同時的分類精度
為了討論m取值不同情況下對分類性能的影響,必須將C值和g值固定,為方便起見,本次實驗選用C取值為10,g取默認值1。這樣,根據表2可知此時總分類精度為83%,在此情況下,樣本各類別分類精度Q如表3所示。

表3 數據庫各類別樣本個數
根據上述討論,支持向量機選用徑向基核函數,選定了參數C值和g值,在此基礎上,根據自相關函數特征提取方法,分別對m從1到8取值進行計算,將其特征值添加到樣本數據中形成新的樣本數據,然后用支持向量機對其進行訓練與分類,僅取其中m值為偶數列于表中,其分類結果如表4所示。

表4 基于支持向量機的遙感影像分類結果
從表3和表4可以看出:① 添加構造加權系數自相關函數特征后,樣本的總分類精度得到了不同程度的提高,在m取值為4時,樣本的分類精度提高了大約3個百分點,說明此算法能夠改善樣本的分類精度,對于遙感影像分類是有效和可行的;②在支持向量機初始參數選定的情況下,m取值不同總分類精度也不同,在一定程度上影響了分類結果,在對具體問題進行分類時需要具體分析,例如有些樣本空間結構較粗,在樣本區域的選擇上需要探討和優化;③樣本中類別4的分類精度較其他類別的分類精度低很多,我們認為是由于它和類別6在數據上非常相似,兩者難以區分,造成分類誤差較大,這個問題有待進一步研究;④ 當m>4時,樣本的總分類精度基本保持在85.50%附近,類別1和6的分類精度幾乎沒變,其他各類的分類精度有1%左右的變化,我們認為這與各類樣本的支持向量有關,因為支持向量的個數與學習機器的復雜性有關,隨著樣本特征數目的變化而導致學習機器分類精度的變化。
本文從自相關函數特征提取算法的角度出發,提出了一種構造加權系數的算法。分別對原始樣本和添加了構造加權系數自相關函數特征的樣本進行訓練與分類,實驗結果表明此算法能夠提高樣本的分類精度,驗證了此算法的有效性與可行性,但此算法僅涉及樣本的均值和方差,還有許多樣本分布參數可以選擇,對于如何選擇最優的分布參數將為本文今后的研究方向。
[1]楊志民,劉廣利.不確定性支持向量機原理及應用[M].北京:科學出版社,2007:35-40.
[2]VAPNIK V.The Nature of Statistical Learning Theory[M].New York:Springer,1995:43 -49.
[3]BURGES C J C.A Tutorial on Support Vector Machines for Pattern Recognition[J].Data Mining and Knowledge Discovery,1998,2(1):121 -167.
[4]MARTIN B,LEWIS H G,GUNN S R.Support Vector Machines For Spectral Unmixing[C]∥IGRASS’99,1999,2:1363-1365.
[5]HERMES L,FRIEAUFF D,PUZICHA Jan,et al.Support Vector Machines for Land Usage Classification in Landsat TM Imagery[C]∥Proc.of the IEEE International Geoscienceand Remote Sensing Symposium,1999,1:348-350.
[6]RANDEN T,JOHN H H.Filtering for Texture Classification:A Comparative Study[C]∥IEEE Trans.on Pattern Analysis and Machine Intelligence,1999,21(4):291-311.
[7]鄧乃揚,田英杰.數據挖掘中的新方法:支持向量機[M].北京:科學出版社,2004,6:42 -45.
[8]BURGES C J C.A Tutorial on Support Vector Machines for Pattern Recognition[J].Data Mining and Dnowledge Discover,1998,2(2):106-112.