摘 要:提出了一種用支持向量機(SVM)權(quán)重向量解決高維對象分類的方法,并結(jié)合云理論建立了基于SVM權(quán)重向量的云分類器。采用云模型建立訓練集的各屬性模型,分類模型由屬性模型集成得到,屬性權(quán)重根據(jù)SVM權(quán)重向量得到,屬性權(quán)重越大,其對分類的貢獻越大;反之,越小。將新分類器與云模型分類器對積雨云、卷云和卷層云進行分類模擬實驗,新分類器的分類準確度比后者總體提升了, 經(jīng)過交叉驗證, 結(jié)果表明新分類器性能穩(wěn)定。
關(guān)鍵詞:支持向量機;云模型;云分類器;交叉驗證
中圖分類號:TP181文獻標志碼:A
文章編號:1001-3695(2009)06-2098-03
doi:10.3969/j.issn.1001-3695.2009.06.029
New cloud classifier based on SVM weight vector
ZHU Jie1,QIN Liang-xi1,LONG Wei-zhe1,SU Yong-xiu2
(1.School of Computer, Electronics Information, Guangxi University, Nanning 530004, China;2.Guangxi Institute of Meteorological Disaster Mitigation, Nanning 530022, China)
Abstract:This paper presented a method of support vector machine weight vector to solve the problem of high-dimensional objects classification, and built cloud classifier based on the cloud theory and the SVM weight vector.Set up the attribute model of training by cloud model.Integrated classification model by every attribute model, and attributed weight came from the SVM weight vector. The larger the weight of an attribute was, the more it would make the contribution to classification. On the contrary, it would reduce the effect of classification. The new classification algorithm and the cloud classifier were applied to classify the radiance profiles as cumulonimbus, cirrus clouds, or cirrostratus clouds. The experimental results show that it must can improve the classification accuracy of spatial data in the overall performance than the latter.This cross validation to prove that the performance of the new classifier is pretty steady.
Key words:support vector machine; cloud model; cloud classifier; cross validation
0 引言
對衛(wèi)星云圖進行定量分析已成為研究的熱點,而云分類更是衛(wèi)星云圖分析與應(yīng)用的難點。早期用于分析衛(wèi)星云資料的方法是閾值法。閾值法原理簡單、計算方便,但閾值法缺乏定量統(tǒng)一的描述。因此,大量學者采用圖像處理與統(tǒng)計分析相結(jié)合的方法對云圖進行自動識別。傳統(tǒng)的統(tǒng)計方法主要有判別分析和聚類分析,現(xiàn)代云分類產(chǎn)品很多都是利用聚類分析的方法,如風云-2C云產(chǎn)品是采用多通道衛(wèi)星探測數(shù)據(jù)進行聚類分析,歸納出各種云的類別。近年來智能分類方法也顯示出優(yōu)勢,如統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡(luò)方法等,這些智能分類方法在云分類上的應(yīng)用也取得了一定的成功。但是由于這些分類方法難以處理空間數(shù)據(jù)模糊邊界的不確定性和不精確性,而李德毅等人提出了云理論和基于云模型的分類方法[1~3],云理論可以建立起定性描述的概念和定量表示的數(shù)值之間的轉(zhuǎn)換關(guān)系。將訓練數(shù)據(jù)集的類別定義為定性概念, 用云模型表達定性概念與樣本屬于類別中心的隸屬度之間的轉(zhuǎn)換關(guān)系, 從而將待分類樣本劃分到不同的類別中。云模型劃分的邊界模糊且不確定, 比起其他的硬分類技術(shù)更符合實際的數(shù)據(jù)分布和人的思維方式。目前用云理論進行云分類的研究很少,本文將結(jié)合支持向量機和云理論在分類問題上的優(yōu)勢,提出把SVM的權(quán)重向量與云分類器相結(jié)合,目的在于提高空間數(shù)據(jù)模糊邊界的分類精度。
1 云模型算法和支持向量機
1.1 云模型
云模型的表達式為[4]
σi=NORM(En,He)(1)
μ=exp[-1/2×(xi-Ex)2/2σ2i](2)
其中:xi是論域內(nèi)的任一數(shù)值;Ex是論域的中心值;En為論域范圍概念的一個熵;NOERM(En,He)表示En以為期望值;He為方差的一個正態(tài)隨機數(shù)。
期望值Ex是概念在論域中的中心值,它是最能代表定性概念的值,隸屬于定性概念的程度為100%。熵En是定性概念模糊程度的度量,反映概念在論域中邊界波動。超熵He是熵En的熵,反映論域中數(shù)值對定性概念的隸屬度的隨機性。
云模型的三個數(shù)字特征值[5],即期望值Ex、熵En和超熵He把模糊性(概念接受的數(shù)值范圍波動越大, 概念越模糊)和隨機性(隸屬度的隨機性, 反映為云有一定的厚度)完全集成到一起, 構(gòu)成定性(論域中的概念)和定量(論域中屬性值的隸屬度)相互間的映射, 作為知識表示的基礎(chǔ)。
1.2 支持向量機
支持向量分類器[6]是基于二類分類的分類器。其核心思想就是去尋找一個把二類集合正確地劃分并且與二類集合間隔最大的超平面,就是所謂的最優(yōu)超平面。解決非線性問題,SVM采用核函數(shù)把輸入向量映射到高維特征空間,在高維特征空間中,原來的非線性問題變得線性可分了。對于多類分類問題,SVM把多類問題轉(zhuǎn)換成多個二類分類問題解決。
算法(最大間隔法)[7]:
a)設(shè)已知訓練集
T={(x1,y1),…,(xl,yl)}∈(X×Y)l
其中:xi∈X=Rn;yi∈Y={1,-1},i=1,…,l。
b)構(gòu)造并求解對變量w和b的最優(yōu)化問題
minω,b1/2‖w‖2+Cli=1ξi
s.t. yi((w×xi)+b)≥1-ξi;i=1,…,l
ξi≥0;i=1,…,l
求得最優(yōu)解w、b。
c)構(gòu)造劃分超平面(w×x)+b=0,由此求得決策函數(shù)f(x)=sgn((w×x)+b)。
2 基于SVM權(quán)重向量的云分類器
本文提出了一種基于SVM和云模型的新分類方法。在云模型分類中,每一維屬性被平等計算,但是不同的屬性對分類的貢獻不同,有些屬性的存在甚至會降低分類精度。面對高維的空間數(shù)據(jù),必須付出大量的人工分析去驗證哪維屬性是目標類的特征屬性。本文提出的方法就是為了解決這個問題。從SVM分類器中提取權(quán)重向量,然后把每一維的權(quán)重引到云分類器的計算中,使得云分類器對每一維屬性對分類的重要性產(chǎn)生偏置,以達到較高的分類精度。分類問題的訓練樣本集是從整個數(shù)據(jù)集中隨機抽取出的一部分。建立分類器需要解決的問題:一是類別邊界的不確定性; 二是定義各屬性在分類中的作用, 確定屬性權(quán)重。
基于SVM權(quán)重向量的云分類算法如下:設(shè)總樣本為X={X1,X2,…,Xp},|X|表示總樣本所含元素個數(shù),類別i的樣本集用集合Xi={x1,x2,…,xn}表示,它的第j個屬性集用集合Xij表示,集合Xij的期望值為EXij,熵為EnXij,超熵為HeXij(i=1,2,…,p;j=1,2,…,D)。
σ=NORM(EnXij,HeXij)
a)計算每個屬性j的權(quán)wj(j=1,2,…,D)
SVM的決策函數(shù)f(x)=sgn((w×x)+b)中權(quán)重向量為w=Dj=1yjajxj=(w1,…,wn)。它代表了每一維屬性與特定的目標類的相關(guān)程度,其證明可以參看文獻[8]。
b)各類別的分類模型
Aweighti=Dj=1w(j)exp(xSj-EXij)2/(2σ2ij)
i=1,2,…,p;0≤S≤|X|
如果樣本xS在模型i中獲得最大輸出,則樣本屬于類別i。
3 實驗及其討論
《風云二號》C星(簡稱FY-2C)主要有效負載為紅外和可見光自旋掃描輻射器VISSR。FY-2C衛(wèi)星云分類產(chǎn)品是利用衛(wèi)星遙感技術(shù),采用多通道衛(wèi)星探測數(shù)據(jù)進行聚類分析,歸納出各種云的類別,分別代表地面、中低云、高層云、卷層云、密卷云、積雨云等。由于目前探測能力的限制,對于中低云很難作出準備分類。對于高云可以準確地分出積雨云、密卷云、卷層云、高層云或雨層云等類別。本章選用較為準確可信的積雨云、卷云、卷層云樣本作為實驗數(shù)據(jù),用實驗證明本文的新分類方法也是一個有效的云分類方法,并且更加智能。數(shù)據(jù)說明:從NSMC的官方網(wǎng)下載到2008年5月26日的云分類產(chǎn)品,從云產(chǎn)品中提取像元的云類標簽(15表示積雨云、14表示卷云、13表示卷層云),然后提取對應(yīng)于云標簽的每個像元的兩個紅外通道、一個水氣通道、一個中波紅外和一個可見光通道數(shù)據(jù)作為此類云的目標特征。
3.1 實驗設(shè)計一
從遙感數(shù)據(jù)中選取各云類型300個點作為訓練樣本,總訓練樣本900個,隨機抽取測試樣本2 515個。本文選用C-SVM與RBF(徑向基)核函數(shù),C=2,云模型的超熵He=0。把權(quán)重映射到0~100,最不重要的屬性權(quán)重為0,最重要的屬性權(quán)重為100。圖1顯示了實驗的整個流程。
對比表1和2可以看出,加權(quán)云模型分類器的分類精度比不加權(quán)的云模型分類器有所提高,特別是對卷層云的分類精度提高最快。卷層云與積雨云基本上能完全分離,卷層云錯分成卷云也減少66個。但是卷云被誤分卷層云的數(shù)目增加了9個,被誤分為積雨云的增加了11個,積雨云被誤分為卷云也多了4個,這是因為加權(quán)(表3)后,權(quán)重因子改變了實際波譜特征而造成的,但是對于整體精度,特別是積雨云與卷層云的識別基本上能非常準確,誤分情況極少。由實驗一可以證明本文提出來的加權(quán)云模型分類器有效地改進了不加權(quán)的云模型分類器的分類精度,實驗二將證明本文提出的分類器是穩(wěn)定的。
實驗采用了交叉驗證的方法,每種云類型各選取1 000個點,共3 000個數(shù)據(jù)樣本點。每次將3 000個樣本隨機平均分成10份,用其中9份做訓練樣本,剩余的一份做測試樣本。實驗結(jié)果如表4所示。權(quán)重云模型分類器分類精度大部分高于云模型分類器,而且正確率穩(wěn)定在79%以上,且波動振幅小于云模型分類器,如圖2所示,分類正確率最高達到91.5%,最低為79%,十次分類有三次的正確率達到90%以上。
4 結(jié)束語
本文提出了結(jié)合SVM權(quán)重與云理論為一體的分類器,并把它應(yīng)用于空間遙感數(shù)據(jù)的云分類中。第三章用兩個實驗證明了: a)基于SVM權(quán)重的云模型分類器在分類精度上比云模型分類器有所提高,總體精度提高了1.56%,卷層云與積雨云基本上能完全分離,卷層云與卷云的識別也大大改善;b)本文提出的新分類器較穩(wěn)定。由于SVM的權(quán)重向量的引入,使得云模型分類器對各維屬性有了偏置,對類別邊界變得非常敏感,分類精度提高。從實驗可以看出本文提出的基于SVM權(quán)重的云模型分類器是一個有應(yīng)用前景的分類方法。
參考文獻:
[1]宋遠駿,李德毅,楊孝宗.電子產(chǎn)品可靠性云模型評價方法[J].電子學報,2000,28(12):74-76.
[2]楊朝輝,李德毅.二維云模型及其在預測中的應(yīng)用[J].計算機學報,1998,21(11):962-968.
[3]邸凱昌,李德毅,李德仁.云理論及其在空間數(shù)據(jù)發(fā)掘和知識發(fā)現(xiàn)中的應(yīng)用[J].中國圖象圖形學報,1999,4(11):930-935.
[4]李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:科學出版社,2006.
[5]劉桂花,宋承祥,劉弘.云發(fā)生器的軟件實現(xiàn)[J].計算機應(yīng)用研究,2007,24(1):46-48.
[6]VAPNIK V.Statistical learning theory[M].New York:Wiley,1998.
[7]鄧乃揚,天英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學出版社,2005.
[8]CHUNG Y Y,CHOI L E H C,IU Li-wei,et al.A new hybrid audio classification algorithm based on SVM weight factor and Euclidean distance[C]//Proc of Annual Conference on International Computer Engineering and Applications.USA:WSEAS,2007:152-157.