孫雪蓮,姜志俠,姜文翰
(長(zhǎng)春理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)春 130022)
支持向量機(jī)(Support Vector Machine,SVM)是一種具有統(tǒng)計(jì)學(xué)與最優(yōu)化理論支撐的經(jīng)典機(jī)器學(xué)習(xí)方法,在處理小規(guī)模非線性數(shù)據(jù)上具有明顯優(yōu)勢(shì),因而被廣泛使用到手寫(xiě)體識(shí)別、圖像處理、文本識(shí)別等領(lǐng)域[1]。
1999 年,Suykens J 等人[2]提出了帶有Hinge損失的支持向量機(jī),該模型能夠抓住關(guān)鍵樣本,剔除冗余樣本,保證了分類(lèi)的準(zhǔn)確性和泛化性能。但對(duì)錯(cuò)誤分類(lèi)和正確分類(lèi)的樣本施加相同程度的懲罰,使得模型對(duì)噪聲數(shù)據(jù)敏感,降低模型分類(lèi)的準(zhǔn)確性。Huang 等人[3]將Hinge 損失替換為Pinball 損失,提出Pin-SVM。該模型將分位數(shù)距離作為目標(biāo)函數(shù),降低對(duì)正確分類(lèi)的懲罰,導(dǎo)致支持向量機(jī)對(duì)噪聲數(shù)據(jù)敏感性降低,提高了模型的魯棒性。2015 年Huang 等人[4]利用SMO算法尋找Pin-SVM 及稀疏的Pin-SVM 全局最優(yōu)解,令Pin-SVM 能夠在現(xiàn)實(shí)情況下應(yīng)用。2016 年Gong 等人[5]基于TSVH 和Pin-SVM 提出了TPSVH分類(lèi)器,提高了分類(lèi)性能,具有更高的穩(wěn)定性。Shen 等人[6]在2017 年提出截?cái)郟in-SVM 模型,該模型結(jié)合了Pin-SVM 和C-SVM 的優(yōu)勢(shì),對(duì)噪聲數(shù)據(jù)不敏感同時(shí)具有稀疏性。同年Xu 等人[7]提出帶有Pinball 損失的孿生支持向量機(jī)。2020 年Liu 等人[8]提出了SpinNSVM 模型,該模型具有一個(gè)平滑的Pinball 損失函數(shù),能夠更好地?cái)M合樣本。2021 年Anand 等人[9]將特權(quán)信息加入Pin-SVM 模型中,提出了基于特權(quán)信息的雙彈球支持向量機(jī)分類(lèi)器(Pin-TWSVMPI),能夠在相對(duì)較少的時(shí)間內(nèi)提升模型的精度。
考慮到Pin-SVM 損失函數(shù)的參數(shù)取值范圍,在Pin-SVM 的基礎(chǔ)上提出了基于指數(shù)的損失函數(shù),得到參數(shù)取值范圍更廣泛的Epin-SVM 模型,來(lái)提高模型分類(lèi)的精度。并通過(guò)拉格朗日對(duì)偶等方法求解Epin-SVM 的目標(biāo)函數(shù)與劃分超平面。利用UCI 數(shù)據(jù)集進(jìn)行算法性能測(cè)試,并在UCI 數(shù)據(jù)集加入5%和10%的噪聲進(jìn)行算法精度測(cè)試,實(shí)驗(yàn)結(jié)果表明Epin-SVM 算法在一定程度上能夠提升算法分類(lèi)精度。
支持向量機(jī)(SVM)算法是在樣本空間中尋找支持向量,根據(jù)支持向量確定最優(yōu)劃分超平面,使不同類(lèi)別樣本之間間隔距離最大。在非線性的樣本中,可以利用核技巧將樣本特征映射到高維空間上,對(duì)非線性樣本進(jìn)行分類(lèi)[10]。考慮二分類(lèi)問(wèn)題,樣本集Z={xi,yi},i= 1,2,…,k,其中xi∈Rn為特征向量,yi∈{1,- 1}為分類(lèi)標(biāo)簽,SVM 模型如下:
其中,C為懲罰參數(shù);ξi為松弛變量。
由于支持向量機(jī)對(duì)噪聲數(shù)據(jù)極其敏感,分類(lèi)精度會(huì)因噪聲數(shù)據(jù)下降,為提升模型預(yù)測(cè)精度,利用帶有Pinball 損失的支持向量分類(lèi)器,其分位數(shù)距離來(lái)度量邊緣,最大化兩類(lèi)樣本的分位數(shù)距離,降低支持向量機(jī)對(duì)噪聲數(shù)據(jù)的敏感性[11]。Pinball 損失為l1損失函數(shù),形式如下:
其中,u=yi(ω·xi+b);-τ≤τ≤1。
使用Pinball 損失函數(shù)的思想得到支持向量機(jī)模型如下:
當(dāng)τ= 0 時(shí),第二個(gè)約束變?yōu)棣蝘≥0,上式簡(jiǎn)化為支持向量機(jī)。
本研究基于Pinball 損失函數(shù)提出Epinball 損失函數(shù)(仍記為L(zhǎng)τ(u)):
其中,u=yi(ω·xi+b);-1 ≤τ≤1。
使用Epinball 損失函數(shù)建立Epin-SVM 模型:
引入Lagrange 函數(shù):
αi和βi為L(zhǎng)agrange 乘子,αi≥0,βi≥0,由拉格朗日函數(shù)對(duì)ω,b,ξi的導(dǎo)數(shù)為0,得到:
因而得到模型(5)的對(duì)偶問(wèn)題:
引入核函數(shù)K(xi,xj) =φ(xi)Tφ(xj)[12],令υi=αi-βi,得到:
令υi*和βi*為對(duì)偶問(wèn)題(9)的解,那么可得到模型(5)的解:
最終模型的決策函數(shù)為:
首先定義在X×Y上的概率測(cè)度為ρ,其中X∈Rn為輸入空間,樣本標(biāo)簽集合Y= {-1,1}。因而產(chǎn)生一個(gè)分類(lèi)器C,使得X→Y的誤差盡可能小:
其中,I為指標(biāo)函數(shù);ρX為ρ在X上的邊際分布;ρ(y|x)為ρ在X處的條件分布;ρ(y|x)由P(y= -1|x)和P(y= 1|x)給出。貝葉斯分類(lèi)器定義為:
為使:
設(shè)函數(shù)sgn(f):X→R誘導(dǎo)了一個(gè)二元分類(lèi)器,那么誤分類(lèi)的誤差表示如下:
其中,Lmis(μ)為誤分類(lèi)損失,定義為:
對(duì)于任何損失L,可測(cè)函數(shù)f的預(yù)期風(fēng)險(xiǎn)定義為:
使預(yù)期風(fēng)險(xiǎn)最小化[12],對(duì)于?x∈X得到函數(shù):
下面說(shuō)明式(4)損失函數(shù)Lτ誘導(dǎo)了貝葉斯分類(lèi)器。
定理:對(duì)于損失函數(shù)Lτ,使預(yù)期風(fēng)險(xiǎn)最小的可測(cè)函數(shù)fLτ,ρ等于貝葉斯分類(lèi)器,即:
證明:當(dāng)-1 ≤τ≤1 時(shí)有:
因此,當(dāng)p(y= 1|x) <p(y= -1|x) 時(shí),預(yù)期風(fēng)險(xiǎn)的最小值為2p(y= 1|x),此時(shí)t= -1。
當(dāng)p(y= 1|x) =p(y= -1|x) 時(shí),最小值為1,此時(shí)t為(-1,1)的任意值。
當(dāng)p(y= 1|x) >p(y= -1|x) 時(shí),最小值為2p(y= -1|x),此時(shí)t= 1。
因此得到:
即fLτ,ρ(x) =fC(x),?x∈X。
為驗(yàn)證Epin-SVM 算法的性能,利用8 個(gè)UCI數(shù)據(jù)集進(jìn)行算法性能驗(yàn)證,數(shù)據(jù)集相關(guān)信息如表1 所示。利用網(wǎng)格搜索求得最佳模型參數(shù)C,模型采用高斯核函數(shù)和線性核函數(shù)。

表1 數(shù)據(jù)集相關(guān)信息
本文采用的評(píng)價(jià)標(biāo)準(zhǔn)有準(zhǔn)確率和F1 值。混淆矩陣[15]如表2 所示。

表2 混淆矩陣
評(píng)價(jià)指標(biāo)定義為:
實(shí)驗(yàn)開(kāi)始前,先對(duì)數(shù)據(jù)進(jìn)行歸一化,并在{2-7,2-6,…,2-6,27}中尋找參數(shù)C的最優(yōu)值,并使用線性核函數(shù)與高斯核函數(shù)進(jìn)行實(shí)驗(yàn)。此外實(shí)驗(yàn)隨機(jī)分配測(cè)試集和訓(xùn)練集,兩者所占比重為80%和20%。實(shí)驗(yàn)加入比例為5%和10%的噪聲后的分類(lèi)結(jié)果如表3 所示。

表3 基于線性核函數(shù)的不同SVM 分類(lèi)準(zhǔn)確率及F1 值
表3 中數(shù)據(jù)集分類(lèi)精度對(duì)比顯示,相較于傳統(tǒng)支持向量機(jī)與Pin-SVM,當(dāng)噪聲比為0 時(shí),Epin-SVM 在4 個(gè)數(shù)據(jù)集上精度有所提高,其他數(shù)據(jù)集上與Pin-SVM 分類(lèi)精度持平,噪聲比在5%時(shí),Epin-SVM 在5 個(gè)數(shù)據(jù)集上精度提高1%左右,而噪聲比在10%時(shí),Epin-SVM 在2 個(gè)數(shù)據(jù)集精度有所提高,但WDBC 數(shù)據(jù)集上,相較于Pin-SVM 精度下降。本文猜想與數(shù)據(jù)集本身的分布有關(guān)。對(duì)不同算法進(jìn)行了F1 值計(jì)算,Epin-SVM 在大部分?jǐn)?shù)據(jù)集上F1 值較高,此外在噪聲比為10%的Monks3 數(shù)據(jù)集上,相較于Pin-SVM 模型Epin-SVM 模型F1 值高,說(shuō)明Epin-SVM 算法更優(yōu)。而在表4 中顯示,在高斯核函數(shù)下,Epin-SVM 在大部分UCI 數(shù)據(jù)集精度及F1 值與Pin-SVM 持平。在Monks3 和Cloud 數(shù)據(jù)集上,較Pin-SVM 精度有所提高。

表4 基于高斯核函數(shù)的不同SVM 分類(lèi)準(zhǔn)確率及F1 值
圖1 顯示Epin-SVM 在τ∈[-1,1]時(shí),UCI 數(shù)據(jù)集達(dá)到較高的分類(lèi)精度。對(duì)于同一數(shù)據(jù),Epin-SVM 在τ<0 區(qū)間內(nèi)的可能得到更高的分類(lèi)精度,相較于Pin-SVM 中τ值的范圍進(jìn)一步擴(kuò)大,并使模型擁有更高的精度。

圖1 不同τ 值下算法精度
本文提出了Epin-SVM 模型,給出Epin-SVM模型的改進(jìn)的合理性。在UCI 數(shù)據(jù)集上對(duì)模型分類(lèi)精度進(jìn)行驗(yàn)證,發(fā)現(xiàn)改進(jìn)后的模型分類(lèi)精度提高。在實(shí)驗(yàn)中發(fā)現(xiàn)Epin-SVM 在大數(shù)據(jù)集上運(yùn)行時(shí)間有待提高,這將會(huì)是未來(lái)的研究方向。