陳賽英,何建農
(福州大學 數學與計算機科學學院,福建 福州350108)
遙感圖像分類是模式識別技術在遙感技術領域的一個具體應用,是對遙感圖像信息進行屬性的分類,達到識別圖像信息所對應的實際地物,最后提取所需地物信息的目的.支持向量域描述(SVDD)算法具有復雜程度低、擴充性強,以及對訓練樣本數據規模上要求不高等優點,已經廣泛應用于故障診斷、異常檢測、語音識別等多種領域[1-4].SVDD算法的核心部分是核函數的選擇,傳統SVDD算法通常是以徑向基核函數為核函數,但徑向基核函數存在計算量大、泛化性能較弱等缺點[5].基于此,本文分別將K型核函數和指數徑向基核函數與徑向基核函數組合成多核函數,構造SVDD的改進算法,并應用于遙感圖像分類.
SVDD算法是基于貝葉斯最優決策理論的,其基本思想是通過非線性變換將數據點映射到高維特征空間,然后找到包含大部分映射到特征空間數據點的最小超球體(圖1).令{xi}?X是數據空間X?Rn的一個給定訓練數據集,用一個非線性變換Φ把X映射到某個高維特征空間,然后找到半徑為R的最小封閉超球體,可描述為下列最優化問題,即


圖1 二維空間最優超球體示意圖Fig.1 Optinal sphere schematic diagram of two-dimensional space
式(1)中:C<1是懲罰因子,調節超球體,控制誤差;a是球心;ξj是松弛變量.為了解決這個問題,引進拉格朗日算式

令?L/?R=0和?L/?a=0,可分別得到和最后將式(1)的問題轉化為如下對偶問題,即

式(3)中:K(xi,xj)=Φ(xi)·Φ(xj)是核函數.只有滿足0<βj<C的點在超球體邊界,稱為支持向量(support vectors,SVs).訓練高斯核支持函數是用Φ(x)到球心的平方徑向距離來定義的,有

式(4)中:{x∶f(x)=R2}為支持向量.
K型核函數具有泛化能力強的優點,避免了徑向基核函數復雜的指數運算,同時具有多項式核函數計算量少和徑向基核函數逼近精度高的優點,性能更加優越[7].K型核函數的公式為

式(5)中:x=(x1,…,xn′);y=(y1,…,yn)′;k>0反映K型核函數的寬度.
徑向基核函數具有的優勢,指數徑向基核函數也具有,同時還具有計算量比徑向基核函數少的特點.指數徑向基核函數[8-9]的公式為

式(6)中:σ是核函數參數.
為了權衡各種特征向量的差異,在單核函數的基礎上,綜合考慮引入多核函數.多核函數1,多核函數1的公式分別為

式(7)中:α1,α2∈[0,1]是多核函數參數;是徑向基核函數.
由文獻[10]可知,上述多核函數是合理的核函數.徑向基核函數、K型核函數和指數徑向基核函數具有各自的優勢,將徑向基核函數分別與K型核函數、指數徑向基核函數組合得到多核函數可以將兩者的優勢互補.利用多核函數,可以構造出性能更加優越的SVDD算法.
算法的基本思想是,利用光譜特征組合的特征向量,采用基于多核函數1和多核函數2的SVDD改進算法對遙感圖像進行分類.分類的實現主要分如下3個主要階段:1)把訓練樣本輸入SVDD進行訓練;2)用訓練好的SVDD對測試樣本和待分類圖像進行分類;3)對結果進行評價分析.
算法的實現步驟:設標記樣本集為訓練集{(xi,yi)}Ni=1?X×Y,xi∈X表示一個輸入模式,yi∈Y={ω1,…,ωc}表示對應的輸出類.用SVDD算法進行多類分類的中心思想,是利用由SVDD得到的領域描述信息來估計每個類的分布,然后通過貝葉斯決策規則對數據點分類[6].
算法的訓練階段有如下3個具體步驟.
步驟1數據預處理及模型參數初始化.將提取各波段遙感圖像的光譜特征組合成的特征向量作為訓練集,初始化懲罰因子C=0.1,徑向基核函數和指數徑向基核函數的參數σ=3,K型核函數的參數k=0.001和多核函數參數α=0.01,分別在(0,1),[3,25],(0,1)和[0,1]內取C,σ,k和α,步長分別為0.1,1,0.001和0.01,使用網格搜索法[11]找到最優參數組合使得分類精度最高.
步驟2數據分區.根據輸出類把給定的訓練集分成c個不相交的子集{Dk}ck=1.例如,第k類數據集Dk,包含Nk個元素,即Dk={(xi1,ωk),…,(xiNk,ωk)},其中xi是第k類遙感圖像的特征向量,ωk是對應的類別標簽.
步驟3對每類數據集做SVDD.對每類數據集Dk,通過SVDD建立一個訓練高斯核支持函數.具體是解式(3)的對偶問題,記解為,l=1,…,Nk,Jk?{1,…,Nk}是非零ˉβil的指標集合.每類數據集Dk的訓練高斯核支持函數由下式給出

算法的測試階段有2個具體步驟.
步驟1為每個類構造偽密度函數.即為每個類k(k=1,…,c)構造偽密度函數對任意fk(·)的支持向量xsk,rk=R2(xsk).
步驟2用估計偽后驗概率分布函數進行分類.即對每個類k(k=1,…,c)估計偽后驗概率分布函數為

首先對美國Lanier lake湖區Landsat E TM+遙感圖像選取波段3,4,5組合成多波段圖像作為原始的遙感圖像(圖2(a));然后,對合成圖進行降噪等預處理,并選擇大小為200px×200px的圖像作為待分類圖像(圖2(b)),再次分別提取第3,4,5波段遙感圖像(圖2(c,d,e))的光譜特征組合成特征向量;最后用特征向量進行訓練和測試分類效果.

圖2 美國Lanier lake湖區遙感圖像Fig.2 Remote sensing image of American Lanier lake
參照土地利用圖,采用目視解譯,確定該地區地面覆蓋類型為水域(W)、草地(G)、落葉林(D)、針葉林(P)、耕地(A)、居民區(U)和裸地(B).對以上每類各選取200個樣本,并將其中的100個樣本作為訓練樣本,剩余100個樣本作為測試分類樣本.
為了驗證算法的有效性,在環境為Matlab R2010b,機器配置為Pentium(R)Dual-Core cpu T4400 2.20GHz,內存為1.93GB的計算機上進行仿真實驗.利用實驗得到的訓練模型對分類圖像進行分類,結果如圖3所示.
分類精度(P)是遙感圖像中正確分類的百分比,而Kappa系數(K)是用來評價分類精度的多元統計方法[12],在遙感圖像處理中主要用于精確性評價和圖像的一致性判斷.分類精度、Kappa系數越大,分類結果越可靠,其表達式分別為

式(10),(11)中:ai,i代表分類混淆矩陣A的對角元素;N為各樣本總數;Ti·和T·i分別表示A的第i行之和以及第i列之和.
從待分類圖像中7類地物的每一類中分別選取100個樣本點進行仿真,計算各個樣本所屬類別,并將每類樣本分類結果數據看作矩陣,計算分類總精度(Ptot)及Kappa系數.然后,將3次實驗所得的分類混淆矩陣中的總體分類精度,Kappa系數和訓練時間(t)作為評價標準,結果如表1所示.
從表1可知:基于多核函數1的SVDD算法具有學習能力強、泛化能力強和計算量小的優勢;基于多核函數2的SVDD算法具有學習能力強和計算量小的優勢.從表1還可以看出:和基于徑向基核函數的SVDD算法相比,基于多核函數1和多核函數2的SVDD算法分類精度得到提高,訓練時間也減少了.其中,基于多核函數2的SVDD算法所用時間最短.
文中首次將K型核函數和指數徑向基核函數應用于SVDD算法中,并將構造的多核函數SVDD算法應用于遙感圖像分類.通過對遙感圖像的分類,驗證了基于核函數改進的SVDD算法縮短了分類過程的訓練時間,提高了分類精度,具有較強的現實意義.
[1]TAX D M J,DUIN R P W.Support vector data description[J].Machine Learning,2004,54(1):45-66.
[2]李衛鵬,李凌均,孔維峰,等.正交小波變換支持向量數據描述在故障診斷中的應用[J].機械科學與技術,2011,30(3):466-470.
[3]成寶芝,趙春暉,王玉磊.結合光譜解混的高光譜圖像異常目標檢測SVDD算法[J].應用科學學報,2012,30(1):82-88.
[4]王震宇.基于支持向量數據描述的說話人識別研究[D].杭州:浙江工業大學,2011:13-50.
[5]汪廷華,趙東巖,張瓊.多類核極化及其在多寬度RBF核參數選擇中的應用[J].北京大學學報:自然科學版,2012,48(5):727-731.
[6]LEE D,LEE J.Domain described support vector classifier for multi-classification problems[J].Pattern Recognition,2007,40(1):41-51(doi:10.1016/j.patcog.2006.06.008).
[7]孫翠娟.基于K型核函數的支持向量機[J].淮海工學院學報:自然科學版,2006,15(2):4-7.
[8]王春燕,夏樂天,孫毓蔓.基于不同核函數的SVM用于徑流預報的比較[J].人民黃河,2010,32(9):35-36.
[9]LIMA C A M,COELHO A L V,CHAGAS S.Automatic EEG signal classification for epilepsy diagnosis with relevance vector machines[J]Expert Systems with Applications,2009,36(6):10054-10059.
[10]杜培軍,譚琨,夏俊士.高光譜遙感影像分類與支持向量機應用研究[M].北京:科學出版社,2012:117-118.
[11]王興玲,李占斌.基于網格搜索的支持向量機核函數參數的確定[J].中國海洋大學學報,2005,35(5):859-862.
[12]LAM K W K,LAU W L,LI Zhi-lin.The effects on image classification using image compression technique[J].International Archives of Photogrammertry and Remote Sensing,2000,33(B7):744-750.