999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ν-最大間隔超球體支持向量機(jī)的非平衡數(shù)據(jù)分類

2012-09-18 02:20:08李秋林
關(guān)鍵詞:分類

李秋林

(西南大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400715)

經(jīng)典的支持向量機(jī)(SVM)[1]通過(guò)構(gòu)造最優(yōu)超平面來(lái)分隔兩類樣本,由于其簡(jiǎn)單和良好的泛化能力使得其在眾多領(lǐng)域得到廣泛應(yīng)用[2-8]。Tax和 Duin[9-10]受支持向量機(jī)的啟發(fā),提出了超球體支持向量機(jī)(HSSVM),用于支持向量數(shù)據(jù)描述分類,其主要思想是建立包含樣本的最小超球體。HSSVM已廣泛應(yīng)用于人臉識(shí)別、預(yù)警技術(shù)、故障檢測(cè)等方面。在此基礎(chǔ)上,有學(xué)者相繼提出了最大間隔最小體積球形支持向量機(jī)[11]、不等距超球體支持向量機(jī)[12]、最大邊界模糊核超球分類方法[13]等。

非平衡數(shù)據(jù)集是指數(shù)據(jù)集中某些類的樣本數(shù)量比其他類的樣本數(shù)量大很多,其中樣本少的類為少數(shù)類(稱為正類),樣本多的類為多數(shù)類(稱為負(fù)類)。非平衡數(shù)據(jù)集普遍存在于機(jī)器學(xué)習(xí)的許多實(shí)際應(yīng)用領(lǐng)域中。利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法分類,對(duì)于正類來(lái)說(shuō)分類精度很低,而對(duì)于負(fù)類則相對(duì)較高。若少數(shù)類別的數(shù)據(jù)有很大的分類代價(jià),少數(shù)類樣本被錯(cuò)誤分類所帶來(lái)的危害要比多數(shù)類樣本被錯(cuò)誤分類大得多。如何有效地提高分類器對(duì)非平衡數(shù)據(jù)集的分類性能是目前機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的一個(gè)熱點(diǎn)研究問(wèn)題。本文通過(guò)直接采用最大化間隔,并引入?yún)?shù)ν來(lái)建立一種新的模型,稱之為ν-最大間隔超球體支持向量機(jī)(ν-MMHSSVM),即構(gòu)造2個(gè)同心超球,并使其間隔最大,小超球?qū)⒄惏渲校蟪驅(qū)⒇?fù)類樣本排除在外。實(shí)驗(yàn)仿真結(jié)果表明,該算法對(duì)非平衡數(shù)據(jù)集的分類效果明顯好于傳統(tǒng)的算法。

1 超球體支持向量機(jī)

對(duì)于超球體支持向量機(jī)(HSSVM),以a為中心、R為半徑的圓可以包含所有的樣本點(diǎn),并且要求這個(gè)圓盡可能地小。不失一般性,超球體算法為了解決非線性問(wèn)題,通過(guò)核函數(shù)把訓(xùn)練樣本映射到高維特征空間。設(shè)初始訓(xùn)練樣本集合X={xi|xi∈RN,i=1,…,l},則原始優(yōu)化問(wèn)題為:

其中 K(xi,xj)=(Φ(xi),Φ(xj))。通過(guò)求解對(duì)偶問(wèn)題(2),最終可以得到判決函數(shù)為

其中x為支持向量。

2 ν-最大間隔超球體支持向量機(jī)

2.1 ν-最大間隔超球體支持向量機(jī)

HSSVM是通過(guò)構(gòu)造最小超球半徑為目標(biāo)進(jìn)行分類,因此,在處理非平衡數(shù)據(jù)集時(shí)容易降低正類分類準(zhǔn)確率,從而導(dǎo)致其泛化能力有限,所以,本文以最大化間隔、最小化超球半徑為目標(biāo)來(lái)建立一種新的超球體SVM算法,并引入?yún)?shù)ν,用于調(diào)節(jié)間隔和超球半徑,得到ν-最大間隔超球體支持向量機(jī)(ν-MMHSSVM)。如圖1所示,記“+”正類樣本為,記“-”負(fù)類樣本為,正負(fù)類間間隔為ρ,得到2個(gè)同心超球S1和S2,其中:S1半徑為R;S2半徑為R+ρ。

圖1 ν-最大間隔超球體支持向量機(jī)

建立的數(shù)學(xué)優(yōu)化模型為:

下面求解原始問(wèn)題(4)的對(duì)偶問(wèn)題,其Lagrange函數(shù)為:

其中α≥0,β≥0,為 Lagrange乘子向量。由 KKT條件可得:

通過(guò)求解式(12),得到最優(yōu)解α,代入式(8)可得超球球心。

由KKT條件得:

引入核函數(shù),令 K(xi·xj)=(φ(xi)·φ(xj)),其間隔為ρ=‖φ()-a‖-‖φ()-a‖,并記,則原問(wèn)題的判決規(guī)則為:對(duì)于測(cè)試樣本 x,若‖x -a‖≤R1,記

則判定其為正類,反之判定其為負(fù)類。決策函數(shù)為

2.2 算法復(fù)雜度分析

算法復(fù)雜度由規(guī)劃中變量和約束方程的個(gè)數(shù)決定。SVM、HSSVM、ν-MMHSSVM求解的都是凸二次規(guī)劃問(wèn)題。用Q(d,s)表示一個(gè)凸二次規(guī)劃問(wèn)題,CQ(d,s)表示對(duì)應(yīng)的復(fù)雜度,其中d為變量個(gè)數(shù),s為約束方程的個(gè)數(shù)。若訓(xùn)練樣本數(shù)為n,則SVM、HSSVM、ν-MMHSSVM 算法的復(fù)雜度分別表示為 CQ(n,2n+1)、CQ(n,2n+1)、CQ(n,2n+2)。SVM在時(shí)間和空間上的復(fù)雜度為O(n2)[14],即

令式(14)中的n取值n+1,則有

顯然式(16)成立。

由式(14)~(16)可得 CQ(n,2n+2)=O(n2),故各個(gè)算法復(fù)雜度同級(jí)。

3 實(shí)驗(yàn)仿真

3.1 人工數(shù)據(jù)集

先通過(guò)人造數(shù)據(jù)集來(lái)驗(yàn)證ν-MMHSSVM的有效性。隨機(jī)產(chǎn)生容量為100的訓(xùn)練集,其中正類點(diǎn)5個(gè),負(fù)類點(diǎn)各95個(gè),這樣就構(gòu)造出了一組人工非平衡數(shù)據(jù)集。用ν-MMHSSVM進(jìn)行訓(xùn)練,并調(diào)節(jié)參數(shù)ν來(lái)調(diào)節(jié)超球分割,分類結(jié)果見(jiàn)圖2、3。

若正負(fù)類超球線性可分,從圖2、3可知:參數(shù)ν越小,則包裹正類的超球半徑就越大;參數(shù)ν越大,則包裹正類的超球半徑就越小。故通過(guò)調(diào)節(jié)參數(shù)ν,就可以提高正類的分類準(zhǔn)確率。

圖2 ν=0.5時(shí)最大間隔超球體支持向量機(jī)

圖3 ν=5時(shí)最大間隔超球體支持向量機(jī)

若正負(fù)類超球線性不可分,通過(guò)核函數(shù)映射到高維空間超球可分,其參數(shù)ν的變化、超球分割面變化的情況與線性情形下類似,結(jié)果如圖4、5所示。

圖4 ν=0.5,σ=0.5時(shí)最大間隔超球體支持向量機(jī)

圖5 ν=5,σ=0.5時(shí)最大間隔超球體支持向量機(jī)

從上面的模擬可知,隨著參數(shù)ν的變化,ν-MMHSSVM對(duì)線性和非線性情況都進(jìn)行了正確分類。

3.2 真實(shí)數(shù)據(jù)集

從UCI公共數(shù)據(jù)庫(kù)中選取了5組數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。表1中列出了本次實(shí)驗(yàn)所用的數(shù)據(jù)。為了方便,這里的實(shí)驗(yàn)數(shù)據(jù)都是正樣本數(shù)相對(duì)于負(fù)樣本數(shù)極其稀少的情況。表1中對(duì)正負(fù)類的情況進(jìn)行了標(biāo)號(hào),并給出了正負(fù)類各占整個(gè)數(shù)據(jù)集的比例情況,然后通過(guò)徑向基核函數(shù)映射后,并采用HSSVM、MMHSSVM進(jìn)行訓(xùn)練,最后給出訓(xùn)練對(duì)比的結(jié)果。

表1 實(shí)驗(yàn)中使用的數(shù)據(jù)集

3.2.1 評(píng)價(jià)標(biāo)準(zhǔn)

類準(zhǔn)確率是評(píng)價(jià)模型分類器最常用的標(biāo)準(zhǔn),它可以反映分類器對(duì)于數(shù)據(jù)集的整體分類性能。但是,它不能正確評(píng)價(jià)非均衡數(shù)據(jù)集的分類結(jié)果。例如,100個(gè)樣本中,正類樣本數(shù)為5,負(fù)類樣本數(shù)為95。如果將所有樣本分為負(fù)類樣本,分類的正確度仍為95%,這個(gè)評(píng)價(jià)結(jié)果顯然是不合理的,若此時(shí)正類分類代價(jià)較高,誤判帶來(lái)結(jié)果就比較嚴(yán)重。因此,對(duì)于非均衡數(shù)據(jù)集分類需要一個(gè)合理的評(píng)價(jià)標(biāo)準(zhǔn)。

對(duì)于本次實(shí)驗(yàn),采用文獻(xiàn)[16]中正負(fù)查全率(Recall)和g均值方法來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果:

其中:TP、TN表示正確分類的正類和負(fù)類;FN、FP錯(cuò)誤分類的正類和負(fù)類;Recall+、Recall-表示2個(gè)類的查全率。

表2是不同算法對(duì)各個(gè)數(shù)據(jù)集的正負(fù)查全率,表3為不同算法對(duì)各個(gè)數(shù)據(jù)集的g均值及平均值。

表2 不同算法的分類精度

表3 不同數(shù)據(jù)集的g均值及平均值

從表2可以看出,HSSVM有較高的負(fù)查全率,且遠(yuǎn)高于正查全率,但正查全率較低。而ν-M MHSSVM不但有較高的正查全率,而且還有較高的負(fù)查全率。通過(guò)表3可以看出,ν-MMHSSVM的各個(gè)數(shù)據(jù)集上的g均值均高于HSSVM在各個(gè)數(shù)據(jù)集上的g均值,ν-MMHSSVM的g均值平均值也明顯高于HSSVM的g均值平均值。

4 結(jié)束語(yǔ)

基于ν-MMHSSVM的非平衡數(shù)據(jù)分類既能提高正類的聚類性,也能保證正負(fù)類類間間隔的距離最大,進(jìn)而提高了模型分類器的性能,且模型的算法復(fù)雜度與其他算法是同級(jí)的。通過(guò)上面的實(shí)驗(yàn)仿真可以得出結(jié)論:與傳統(tǒng)的HSSVM算法相比,本文提出的ν-MMHSSVM分類算法大大提高了對(duì)正類的查全率,從而有效地提高了對(duì)非平衡數(shù)據(jù)集的分類性能。

[1]Vapnik V N.The Nature of Statistical Learning Theory[M].London,UK:Springer-Verlag,1995.

[2]鄔嘯,魏延,吳瑕.基于混合核函數(shù)的支持向量機(jī)[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011(10):66-70.

[3]余珺,鄭先斌,張小海.基于多核優(yōu)選的裝備費(fèi)用支持向量機(jī)預(yù)測(cè)法[J].四川兵工學(xué)報(bào),2011(6):118-119.

[4]萬(wàn)輝.一種基于最小二乘支持向量機(jī)的圖像增強(qiáng)算法[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011(6):53-57.

[5]羅沛清,梁青陽(yáng),江欽龍,等.基于分層聚類的支持向量機(jī)模擬電路故障診斷[J].四川兵工學(xué)報(bào),2011(9):92 -95..

[6]崔建國(guó),李明,陳希成.基于支持向量機(jī)的飛行器健康診斷方法[J].壓電與聲光,2009(2):266-269.

[7]張宏蕾,張立亭,羅亦泳,等.基于支持向量機(jī)的土地利用預(yù)警研究[J].安徽農(nóng)業(yè)科學(xué),2010(35):20503-20504.

[8]唐曉芬,趙秉新.基于支持向量機(jī)的農(nóng)村勞動(dòng)力轉(zhuǎn)移預(yù)測(cè)[J].安徽農(nóng)業(yè)科學(xué),2011(11):6837-6838.

[9]Tax D,Duin R.Support vector domain description[J].Pattern Recognition Letters,2003,20:11 -13.

[10]Tax D,Duin R.Support vector domain description[J].Machine Leaning,2004(1):45 -66.

[11]文傳軍,詹永照,陳長(zhǎng)軍.最大間隔最小體積球形支持向量機(jī)[J].控制與決策,2010,25(1):79 -83.

[12]張慧敏,柴毅.不等距超球體支持向量機(jī)[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(11):19 -22.

[13]王娟,胡文軍,王士同.最大邊界模糊核超球分類方法[J].計(jì)算機(jī)應(yīng)用 2011,31(9):2542 -2545.

[14]Collobert R,Bengio S.SVMTorch:Support vector machine for large-scale regression problems[J].J of Machine Learning Research,2001,1(2):143 - 160.

[15]Frank A.Asuncion A UCI repository of machine learning databases[EB/OL].[2012 - 06 - 18].http://archive.ics.uci.edu/ml.

[16]Joshi M V.On Evaluating Performance of Classifiers for Rare Classes[C]//Proc of the 2nd IEEE International Conference on Data Mining.Maebishi,Japan:[s.n.],2002:641-644.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準(zhǔn)備好了嗎
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
按需分類
教你一招:數(shù)的分類
主站蜘蛛池模板: 亚洲成人高清无码| 在线观看亚洲精品福利片| 91福利国产成人精品导航| 欧美日韩北条麻妃一区二区| 黄色网页在线播放| 日韩不卡高清视频| 亚洲精品视频免费| 欧美日韩另类在线| 免费毛片视频| 国产成本人片免费a∨短片| 久久77777| 青青青国产在线播放| 日韩成人在线视频| 国产资源免费观看| 亚洲综合在线最大成人| 99热这里只有精品2| 少妇精品网站| 91午夜福利在线观看| 精品国产香蕉在线播出| 久久人人97超碰人人澡爱香蕉| 色婷婷啪啪| 激情在线网| 久久久久无码国产精品不卡| 亚洲精品欧美日本中文字幕| 黄色网在线| 无码 在线 在线| 免费A∨中文乱码专区| 中字无码av在线电影| 久久香蕉国产线看观| 亚洲经典在线中文字幕| 免费a在线观看播放| 一本色道久久88| 日本成人精品视频| 国产乱子伦视频在线播放| 人妻中文久热无码丝袜| 99热这里只有精品5| 久久久久夜色精品波多野结衣| 国产亚洲视频播放9000| 欧美精品成人一区二区视频一| 浮力影院国产第一页| 亚洲精品无码不卡在线播放| 日韩国产 在线| 丁香婷婷激情网| 亚洲a级在线观看| 午夜天堂视频| 无码人妻免费| 亚洲手机在线| 国产微拍一区二区三区四区| 91亚洲影院| 国产97视频在线观看| 夜夜拍夜夜爽| 国产成人欧美| 欧美啪啪一区| 天天综合网在线| 伊人色综合久久天天| 亚洲三级a| 国产黄色片在线看| 99久视频| 青青青视频91在线 | 国产日本一线在线观看免费| 亚洲久悠悠色悠在线播放| 精品小视频在线观看| 欧美综合区自拍亚洲综合绿色| 57pao国产成视频免费播放| 国产精品大尺度尺度视频| 在线观看视频99| 亚洲一区网站| 日本a∨在线观看| 亚洲成人在线网| 亚洲国产成人精品青青草原| 欧美国产日韩在线观看| 精品国产一区二区三区在线观看| 亚洲日本www| 免费激情网址| 丁香亚洲综合五月天婷婷| 精品91视频| 2022精品国偷自产免费观看| 日本国产精品| 91精品国产自产在线老师啪l| 国产色婷婷| 99热亚洲精品6码| 欧美日韩成人|