李 凱,李潔
(河北大學(xué)網(wǎng)絡(luò)空間安全與計算機(jī)學(xué)院,河北保定 071002)
支持向量機(jī)(Support Vector Machine,SVM)是由Vapnik等[1]提出的一種機(jī)器學(xué)習(xí)方法,其目標(biāo)是根據(jù)輸入樣本集求解一個二次規(guī)劃問題,從而獲得所需的最優(yōu)分類超平面。為了解決SVM 計算復(fù)雜度高的問題,Jayadeva 等[2]提出了孿生支持向量機(jī)(Twin Support Vector Machine,TWSVM),該方法通過求解兩個較小的二次規(guī)劃問題,確定兩個非平行的超平面,使得每個超平面更接近其中的一個類而遠(yuǎn)離另一個類,該模型較好地提高了計算速度。此后,在TWSVM 的基礎(chǔ)上,研究者們提出了多種孿生支持向量機(jī)算法[3-4],如基于pinball 損失的孿生支持向量機(jī)[5-7]、模糊孿生支持向量機(jī)[8]和結(jié)構(gòu)型孿生支持向量機(jī)[9-10]等,并將其應(yīng)用于實(shí)際問題[11]。
可以看到,上述算法均適用于二分類問題,然而,在實(shí)際應(yīng)用中多分類問題更加常見,因此對多分類問題的研究是十分必要的。目前,人們基于孿生支持向量機(jī)對多分類問題[12]進(jìn)行了研究,主要分為三種類型:
1)第一類是基于二分類的多分類策略。該策略主要包括一對一和一對多兩種:一對一策略是在任意兩類之間構(gòu)造一個二分類器,對待分類樣本使用投票法進(jìn)行分類。例如Shao等[13]提出了一對一孿生支持向量機(jī)(One-Versus-One TWSVM,OVO-TWSVM)。該方法的缺點(diǎn)是當(dāng)數(shù)據(jù)類別較多時,需構(gòu)造的分類器數(shù)量過多,且存在數(shù)據(jù)不可分區(qū)域;而一對多策略[14]是在k個類中任意挑選一類作為正類,其余k-1類作為負(fù)類,并構(gòu)造k個二分類器進(jìn)行分類,缺點(diǎn)是每個分類器的訓(xùn)練集高度不平衡;有向無環(huán)圖支持向量機(jī)(Directed Acyclic Graph TWSVM,DAG-TWSVM)[15]可視為OVOTWSVM方法的一種變形,其訓(xùn)練過程與OVO-TWSVM 相似,在測試時使用有向無環(huán)圖對分類樣本進(jìn)行分類,有效減少了投票輪數(shù),然而當(dāng)數(shù)據(jù)類別較多時仍需構(gòu)造大量的分類器,且在判決過程中存在誤差累積的現(xiàn)象。Don 等[16]提出了一種分而治之支持向量機(jī)(Divide and Conquer SVM,DCSVM),它將OVO-TWSVM 方法的簡潔性與DAG-TWSVM 的分類速度相結(jié)合,克服了分類器過多的缺點(diǎn),但分類過程仍存在誤差累積問題。除此之外,研究人員在這些算法的基礎(chǔ)上提出了多種改進(jìn)算法,Liu 等[17]提出了一種基于OVO 策略和SVM 算法的改進(jìn)多分類算法,使用K近鄰法為分類器設(shè)置權(quán)重,提高分類準(zhǔn)確率;Yang 等[18]將多重遞歸投影孿生支持向量機(jī)、最小二乘法應(yīng)用到OVA-TWSVM(One-Versus-All TWSVM)算法中,提出最小二乘遞歸投影孿生支持向量機(jī)等。
2)第二類是基于二分類方法演變的其他解決方法,包括一對一對多孿生支持向量機(jī)Twin-KSVC(TwinK-class Support Vector Classification)[19]和多生支持向量機(jī)(Multiple Birth SVM,MBSVM)[20]。一對一對多孿生支持向量機(jī)較好地解決了OVO-TWSVM 中存在的隨機(jī)投票現(xiàn)象,但其子分類器復(fù)雜,時間復(fù)雜度過高;而多生支持向量機(jī)極大減少了約束條件,使得時間復(fù)雜度低,計算速度顯著提高,但該算法容易陷入局部最優(yōu);之后,研究人員針對這些方法提出了許多改進(jìn)算法[21-24]。
3)第三類是直接構(gòu)造解決多分類問題的方法。該方法針對所有樣本直接構(gòu)造一個單一優(yōu)化問題,并確定所有類的決策函數(shù),該方法有效解決了其他方法中存在不可分區(qū)域等問題。例如:Guo 等[25]為解決SVM 不適用于未標(biāo)記的數(shù)據(jù)的問題,提出了一種基于主動學(xué)習(xí)和SVM 多分類模型用于處理未標(biāo)記的數(shù)據(jù)。Weston 等[26]提出了多分類支持向量機(jī)(Multi-Class SVM,MSVM),但其存在二次規(guī)劃問題過大與計算時間長等缺陷。Crammer 等[27]通過引入克羅內(nèi)克函數(shù),使得約束更加緊湊,但其計算量依然較大。Wang等[28]通過引入新的寬松邊界條件,提出了簡化的多分類支持向量機(jī)(Simplified Multi-Class SVM,SimMSVM)算法,較好地提高了計算速度,如圖1(a)所示。然而,由于該方法使用鉸鏈損失,很容易導(dǎo)致算法具有噪聲敏感性和重采樣不穩(wěn)定性;此外,在一些應(yīng)用中,例如在推薦系統(tǒng)中,較新產(chǎn)品的重要性程度應(yīng)高于舊產(chǎn)品,同樣地,不同樣本對支持向量機(jī)的作用可能不同;最后,樣本間存在潛在的結(jié)構(gòu)信息,這些信息可能包含一些重要的先驗(yàn)知識來訓(xùn)練分類器,該方法未考慮到這幾點(diǎn),使得該方法對噪聲或異常點(diǎn)仍具有較大的敏感性和較低的泛化性能,分類結(jié)果較差。

圖1 兩種算法的分類示意圖Fig.1 Classification schematic diagram of two algorithms
為了進(jìn)一步解決上述問題,將pinball損失函數(shù)、樣本模糊隸屬度和樣本結(jié)構(gòu)信息等引入到SimMSVM 算法中,本文提出了一種基于pinball 損失的結(jié)構(gòu)模糊多分類支持向量機(jī)算法Pin-SFSimMSVM。如圖1(b)所示,該方法使用pinball 損失函數(shù)對分類錯誤的樣本進(jìn)行懲罰,同時對分類正確的樣本給出一個額外懲罰,該函數(shù)使用分位數(shù)距離,使其對噪聲不敏感,數(shù)據(jù)重采樣更穩(wěn)定;為樣本添加模糊隸屬度,使得屬于一個類的樣本在分類時扮演更重要的角色;最后,將數(shù)據(jù)的先驗(yàn)結(jié)構(gòu)信息應(yīng)用到算法中,進(jìn)一步提高了支持向量機(jī)的分類性能。
對SimMSVM 算法的數(shù)學(xué)模型、算法中用到的鉸鏈損失函數(shù)以及本文所提出的Pin-SFSimMSVM 算法所用到的pinball損失函數(shù)進(jìn)行介紹。
為了解決多分類問題,Wang等[28]提出了一種新的支持向量機(jī)算法,通過最大化每類到其余類的余量來區(qū)分出所有類,并且可一次性確定所有類的決策函數(shù),解決了存在不可分區(qū)域的問題,且和同類方法相比在速度上也有較大的提升。給定l個樣本的k類數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xl,yl)},其中xi∈Rn為訓(xùn)練數(shù)據(jù)樣本,yi∈{1,2,…,k}為類標(biāo)簽,其優(yōu)化問題如下:

其中:C為懲罰參數(shù);wm為第m類的分類決策向量;H為適當(dāng)維度的特征空間。通過求解式(1)可以得到所有k個類的分類決策向量。對于待分類樣本x,利用式(2)確定其類別:

對于支持向量機(jī)與孿生支持向量機(jī)以及相關(guān)算法,在建立相應(yīng)模型時,主要使用了鉸鏈損失函數(shù),即:
Lhinge(u)=max{0,u}
在算法中,常見的使用形式為:
Lhinge(x,y,f(x))=max(0,1-yf(x))
其中:y和f(x)分別為理想值和預(yù)測值。由于鉸鏈損失函數(shù)使用了最短距離,因此,它易導(dǎo)致噪聲敏感性和重采樣的不穩(wěn)定性。為此,人們對不同損失函數(shù)的SVM 及TWSVM 進(jìn)行研究,其中pinball 損失函數(shù)研究較為廣泛。pinball 損失函數(shù)定義如下:

在本文中,使用的pinball損失函數(shù)為:

其中τ∈[0,1]。可以看到,pinball損失函數(shù)不僅對分類錯誤的樣本進(jìn)行懲罰,而且對分類正確的樣本給出一個額外懲罰;另外,由于該函數(shù)使用了分位數(shù)距離,因此,它對噪聲不敏感,數(shù)據(jù)重采樣更穩(wěn)定,且不會增加計算成本。當(dāng)pinball 損失的參數(shù)趨于零時,損失函數(shù)成為鉸鏈損失。
在本章中,將pinball損失函數(shù)、樣本權(quán)重和樣本的結(jié)構(gòu)信息引入到SimMSVM 中,提出了一種新的多分類支持向量機(jī)算法Pin-SFSimMSVM。使用pinball 損失函數(shù)能較好地解決鉸鏈損失函數(shù)所帶來的噪聲敏感和重采樣不穩(wěn)定性等問題,通過引入模糊隸屬度對樣本賦予不同權(quán)重,并充分挖掘樣本中潛在的結(jié)構(gòu)信息,數(shù)據(jù)中可能包含用于訓(xùn)練分類器的重要先驗(yàn)知識,進(jìn)一步提高了算法的噪聲不敏感性和算法的性能。該方法不僅保留了SimMSVM 中一次性解決所有樣本的分類問題、避免產(chǎn)生數(shù)據(jù)不可分區(qū)域和計算速度快等優(yōu)點(diǎn),且提高了算法的抗噪性和分類準(zhǔn)確率。下面將從線性和非線性兩種情況對算法進(jìn)行介紹。
給定一個含有l(wèi)個樣本的k類訓(xùn)練數(shù)據(jù)集T={(xi,yi,Si)|i=1,2,…,l},其中xi∈Rn為訓(xùn)練樣本,yi∈{1,2,…,k}為樣本類標(biāo)簽。將pinball 損失函數(shù)、樣本模糊隸屬度和樣本結(jié)構(gòu)信息引入到SimMSVM 中,從而得到線性Pin-SFSimMSVM的優(yōu)化問題:

其中:wm為第m類樣本的分類決策向量;C1和C2分別是平衡因子且C1>0,C2>0;Si為樣本模糊隸屬度;ξi為松弛變量;Σm為第m類樣本的結(jié)構(gòu)信息;τ∈[0,1]為pinball損失參數(shù)。為了解決式(3),構(gòu)造拉格朗日函數(shù)如下:

其中α和β是由拉格朗日乘子構(gòu)成的向量,且α≥0,β≥0。
將拉格朗日函數(shù)對變量求偏導(dǎo)并令其等于0,得:


由式(7)和式(9)可得約束條件為:

將式(6)和式(8)代入到式(4)中,從而得到式(3)的對偶問題如下:

其中:γ=(α-β);S為由樣本模糊隸屬度構(gòu)成的向量;G為一個l×l維的矩陣。G的矩陣元素為:

其中I為適當(dāng)維度的單位矩陣。
通過求解對偶問題式(11),從而得到γ,進(jìn)一步可以求得wm,即每類樣本的分類決策向量。因此,獲得的決策函數(shù)為:

當(dāng)對待分類樣本x進(jìn)行分類時,其最終所屬類別的求解方法如下:

在這一節(jié)中,將線性情況推廣到非線性情況中。通過核矩陣將輸入樣本映射到高維特征空間,使其在高維空間中也能實(shí)現(xiàn)線性可分。設(shè)φ是一個從輸入空間Rn到特征空間Z的映射,則非線性Pin-SFSimMSVM算法的優(yōu)化問題為:

其中:um為第m類樣本的分類決策向量:C3、C4是平衡因子且C3>0,C4>0;ξi、Si和Σm分別為松弛變量、樣本模糊隸屬度和第m類樣本的結(jié)構(gòu)信息,τ∈[0,1]為pinball損失參數(shù)。其拉格朗日函數(shù)為:

其中α≥0,β≥0為拉格朗日乘子。
將式(16)對變量求偏導(dǎo)并令其等于0得:

由式(19)和式(21)可得約束條件為:

將式(18)、(20)代入式(16),從而得到式(15)的對偶問題為:

其中:γ=(α-β);S為由樣本模糊隸屬度構(gòu)成的向量;G為一個l×l維的矩陣。G的元素為:

其中I為適當(dāng)維度的單位矩陣。
通過對其對偶問題進(jìn)行求解,求得um的值,進(jìn)而得到如下決策函數(shù):

其中K(xi,x)=φ(xi)Tφ(x)。
對于待分類樣本x,利用決策函數(shù)可確定樣本x所屬類別,即:


對Pin-SFSimMSVM 算法的時間復(fù)雜度進(jìn)行分析,該方法針對所有樣本直接構(gòu)造一個單一優(yōu)化問題,一次性確定所有類的決策函數(shù),并采用了較為簡單的損失函數(shù),因此時間復(fù)雜度為O(l3),其中l(wèi)為問題的規(guī)模。
首先,對樣本模糊隸屬度以及樣本結(jié)構(gòu)信息的獲取方法進(jìn)行介紹,實(shí)驗(yàn)中采用類中心距離法、模糊C 均值法和S 型方法獲取樣本模糊隸屬度,并分別使用基于距離和基于聚類的方法獲取樣本結(jié)構(gòu)信息。接著,對提出的Pin-SFSimMSVM 算法的性能進(jìn)行評估,從線性和非線性兩種情況對算法進(jìn)行實(shí)驗(yàn)比較。將SimMSVM[28]、OVO-TWSVM[13]、OVA-TWSVM[14]、Twin-KSVC[19]以及MBSVM[20]等多種多分類算法與所提出的Pin-SFSimMSVM 算法在UCI 數(shù)據(jù)庫[29]中的8 個標(biāo)準(zhǔn)數(shù)據(jù)集和4 個人工生成的數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn)。此外,在標(biāo)準(zhǔn)數(shù)據(jù)集中分別加入5%和10%的特征噪聲并比較其準(zhǔn)確率,以檢驗(yàn)算法對噪聲的敏感性。結(jié)果表明,Pin-SFSimMSVM 算法在標(biāo)準(zhǔn)數(shù)據(jù)集和人工生成的數(shù)據(jù)集中都有很好的抗噪性。
為了研究不同樣本賦予不同權(quán)重時對分類結(jié)果的影響,本文將對使用類中心距離法、模糊C 均值法和S 型三種不同方法賦予權(quán)重值時的測試結(jié)果進(jìn)行比較。
1)類中心距離法。該方法根據(jù)每類中的樣本距離該類中心的距離遠(yuǎn)近來定義其權(quán)重,距離類中心點(diǎn)越近的樣本權(quán)重越大,距離越遠(yuǎn)權(quán)重越小。計算k類中的任意一類中的樣本權(quán)重Si的方法如下:

其中:di表示該樣本到該類類中心的距離;ri表示該類的半徑,即距離類中心最遠(yuǎn)的樣本到中心的距離。
2)模糊C 均值法。該方法將每類樣本分為C個簇并使每個樣本到C個聚類中心的距離最小,即為每一個樣本賦予一個權(quán)重,該權(quán)重的值表示樣本隸屬于某一簇的重要程度。任意一類的優(yōu)化問題如下:

其中:vj為聚類中心;sij為第i個樣本在第j個簇中的權(quán)重;V和S分別由vj和sij組成;m為模糊加權(quán)指數(shù)。通過拉格朗日求解該優(yōu)化問題得到vj和sij的計算式,再通過求解公式迭代更新矩陣S和集合V:

3)S 型方法。與類中心距離法相似,根據(jù)樣本點(diǎn)距離該類中心的距離遠(yuǎn)近來確定權(quán)重,不同的是,該方法將類中心距離法中的線性函數(shù)用如下非線性函數(shù)替換:

其中:a、b、n均為定義好的參數(shù)并滿足b=(a+n)/2,且當(dāng)di=b時,Si=0.5。
同樣在算法中加入樣本的結(jié)構(gòu)信息可以更好地利用數(shù)據(jù)樣本中潛在的分布信息,本文主要使用以下兩種方法來獲取結(jié)構(gòu)細(xì)信息。
1)類內(nèi)離散度法求結(jié)構(gòu)信息:用于描述每個類內(nèi)部的結(jié)構(gòu)信息。設(shè)μm為第m類樣本的均值向量,nm表示第m類樣本的個數(shù),則結(jié)構(gòu)信息可表示為:

2)基于聚類方法求結(jié)構(gòu)信息:該方法通過對每類樣本進(jìn)行聚類,將其劃分成不同的簇,計算出每個簇的聚類信息再求和得到該類的聚類信息。本文中主要使用到的聚類技術(shù)有模糊C 均值聚類、層次聚類和C 均值聚類。假設(shè)將其中第m類樣本聚類成c個簇,則第i個聚類簇和第m類的結(jié)構(gòu)信息可分別表示為:

實(shí)驗(yàn)選取Ripley 綜合數(shù)據(jù)集[30]、人工生成的3 個數(shù)據(jù)集和UCI 標(biāo)準(zhǔn)數(shù)據(jù)庫中的8 個數(shù)據(jù)集對Pin-SFSimMSVM 算法進(jìn)行驗(yàn)證。其中Ripley 為二類數(shù)據(jù)集,共包含250 個訓(xùn)練樣本和1000個測試樣本,人工數(shù)據(jù)集中的數(shù)據(jù)為正態(tài)分布下隨機(jī)生成得到,將其分別命名為Data1、Data2 和Data3。其中,Data1每個類數(shù)據(jù)按照均值[-5,5]、[5,5]、[-5,-5]和[5,-5],方差[0.40;03]生成。Data2 中共三個類:第一類包含3 個簇,每個聚類簇按照均值[2,-2]、[0,2]和[-4,5],方差[0.70;00.7]生成;第二類包含2 個簇,每個聚類簇按照均值[-5,1]和[-1,0],方差[0.40;03]生成;第三類包含3 個簇,每個聚類簇按照均值[-5,-4]、[-2,-4]和[1,-4],方差[1.50;00.7]生成。Data3每個類數(shù)據(jù)則按照均值[-4,4,2]、[4,4,2]、[-4,-4,2]、[4,-4,2]和[0,0,2],方差[200;020;003]生成。數(shù)據(jù)集中的樣本數(shù)、特征個數(shù)、分類數(shù)目和每類樣本所包含的簇數(shù)如表1所示。

表1 人工數(shù)據(jù)集特征Tab.1 Synthetic dataset characteristics
選用UCI 數(shù)據(jù)庫中的8 個標(biāo)準(zhǔn)數(shù)據(jù)集對算法進(jìn)行驗(yàn)證,它們分別為Iris、Zoo、Glass、Seeds、Ecoli、Balance、Soybean 和CMC,表2中描述了數(shù)據(jù)集的詳細(xì)特征。

表2 UCI數(shù)據(jù)集特征Tab.2 UCI dataset characteristics
另外,在分類問題中,分類器的性能評價指標(biāo)也是選擇最優(yōu)分類器的重要依據(jù)。本文中選取的評價指標(biāo)為分類準(zhǔn)確率和標(biāo)準(zhǔn)差,準(zhǔn)確率為分類正確的樣本與總樣本的比,標(biāo)準(zhǔn)差則是算法在數(shù)據(jù)集上進(jìn)行10 次分類結(jié)果平均值方差的平方根。
將所提出的算法Pin-SFSimMSVM在人工數(shù)據(jù)集和UCI標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與SimMSVM、OVO-TWSVM、OVATWSVM、Twin-KSVC 以及MBSVM 這幾種常用的多分類算法進(jìn)行對比。下面介紹實(shí)驗(yàn)中用到的參數(shù)及參數(shù)的選擇。懲罰參數(shù)C1和C2為平衡因子且大于0,C1值較大時對誤分類的懲罰增大,C2值較大時則結(jié)構(gòu)信息所起作用增大;反之亦然。在非線性情況下,使用高斯核函數(shù)k(x,y)=作為核函數(shù)。當(dāng)pinball 損失參數(shù)τ為0 時,損失函數(shù)為鉸鏈損失,因此參數(shù)τ在(0,1]取值。為使實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu),C1,C2和p在2-4~210進(jìn)行取值,首先取80%的樣本為訓(xùn)練數(shù)據(jù)集,使用網(wǎng)格搜索和十重交叉驗(yàn)證的方法對4 個參數(shù)進(jìn)行篩選,得到實(shí)驗(yàn)結(jié)果最優(yōu)時的各項(xiàng)參數(shù)值;并使用得到的最優(yōu)參數(shù)對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到?jīng)Q策函數(shù),對測試樣本進(jìn)行分類得到最終的分類準(zhǔn)確率。實(shí)驗(yàn)中對每種算法均采用10 次測試的平均值和標(biāo)準(zhǔn)差作為最終的評價指標(biāo)。
為驗(yàn)證所提出算法的分類性能,在表3和表4中分別給出了線性及非線性情況下,已有的5 種用于多分類的算法和本文所提出的Pin-SFSimMSVM 算法在幾個人工數(shù)據(jù)集上的分類準(zhǔn)確率和標(biāo)準(zhǔn)差。其中Pin-SFSimMSVM算法使用模糊C均值法獲取樣本模糊隸屬度,并分別使用層次聚類和C 均值聚類方法獲取樣本的結(jié)構(gòu)信息。
根據(jù)表3和表4可以看出,Pin-SFSimMSVM算法在線性和非線性情況中均表現(xiàn)出比SimMSVM 算法更好的性能,且在Ripley、Data1和Data2這3個數(shù)據(jù)集中均優(yōu)于其余幾種多分類算法。SimMSVM 和Pin-SFSimMSVM 這兩種算法對Ripley 數(shù)據(jù)集和Data1數(shù)據(jù)集的一次分類結(jié)果如圖2~3所示,在圖中對分類錯誤的樣本點(diǎn)進(jìn)行了標(biāo)記。

圖2 Ripley數(shù)據(jù)集及使用不同算法在其上的分類結(jié)果Fig.2 Ripley dataset and classification results of different algorithms on it

表3 線性情況下不同算法準(zhǔn)確率和標(biāo)準(zhǔn)差對比 單位:%Tab.3 Comparison of accuracy and standard deviation of different algorithms in linear condition unit:%

表4 非線性情況下不同算法準(zhǔn)確率和標(biāo)準(zhǔn)差比較 單位:%Tab.4 Comparison of accuracy and standard deviation of algorithms in nonlinear condition unit:%
在UCI 數(shù)據(jù)集上的部分實(shí)驗(yàn)結(jié)果如表5~6 所示,對每個數(shù)據(jù)集中實(shí)驗(yàn)結(jié)果最好的算法進(jìn)行了標(biāo)記,其中Pin-SimMSVM 算法為僅使用pinball 損失替換原算法中的鉸鏈損失而不作其他改變得到的算法,和原算法進(jìn)行對比可以更好地觀察不同損失函數(shù)對算法分類結(jié)果的影響。可以看出,大多數(shù)數(shù)據(jù)集在使用pinball 損失和模糊隸屬度后,準(zhǔn)確率已有了一定的提升,為了研究pinball 損失參數(shù)τ 的變化對分類結(jié)果的影響,使用非線性情況下的Pin-SimMSVM 算法對其進(jìn)行測試,在圖4 中給出了在UCI 數(shù)據(jù)集上Pin-SimMSVM 算法的精度隨pinball 損失參數(shù)τ 變化的規(guī)律,可以看出,隨著τ 值的變化,數(shù)據(jù)集的準(zhǔn)確率十分穩(wěn)定,表明了Pin-SimMSVM 算法的性能是穩(wěn)定的。

圖4 UCI數(shù)據(jù)集上Pin-SimMSVM算法的精度隨τ值變化曲線Fig.4 Accuracy curve of Pin-SimMSVM algorithm varying with τ on UCI datasets

表5 不同算法求取模糊隸屬度在UCI數(shù)據(jù)集上的準(zhǔn)確率和標(biāo)準(zhǔn)差對比(線性) 單位:%Tab.5 Comparison of accuracy and standard deviation of different algorithms in solving fuzzy membership degree on UCI datasets(linear)unit:%

表6 不同算法求取模糊隸屬度在UCI數(shù)據(jù)集上的準(zhǔn)確率和標(biāo)準(zhǔn)差對比(非線性) 單位:%Tab.6 Comparison of accuracy and standard deviation of different algorithms in solving fuzzy membership degree on UCI datasets(nonlinear)unit:%

圖3 Data1數(shù)據(jù)集及使用不同算法在其上的分類結(jié)果Fig.3 Data1 dataset and classification results of different algorithms on it
為驗(yàn)證不同獲取樣本模糊隸屬度的方法對實(shí)驗(yàn)結(jié)果的影響,使用在Pin-SimMSVM 算法的基礎(chǔ)上引入樣本模糊隸屬度得到的Pin-FSimMSVM 算法進(jìn)行實(shí)驗(yàn),分別使用類中心距離、模糊C 均值和S型三種方法獲取樣本模糊隸屬度,根據(jù)表5~6的實(shí)驗(yàn)結(jié)果可以看出,使用模糊C 均值方法獲取模糊隸屬度的算法在大部分?jǐn)?shù)據(jù)集中具有較好的性能:線性情況下在Ecoli、Balance和CMC三個數(shù)據(jù)集中略低于其他獲取模糊隸屬度的方法,但相較于SimMSVM算法依然具有優(yōu)勢;非線性情況下,模糊C均值方法和S型方法均具有較好的性能。因此,在后續(xù)實(shí)驗(yàn)中均選取模糊C均值方法獲取樣本模糊隸屬度。
除此之外,針對選取的UCI 數(shù)據(jù)集,表7~8 中給出了線性及非線性情況下,使用四種不同獲取樣本結(jié)構(gòu)信息的算法準(zhǔn)確率,根據(jù)結(jié)果可知,與基于距離的方法比較,基于聚類的方法具有一定的優(yōu)勢,特別是層次聚類其優(yōu)勢較為明顯。

表7 不同算法求取結(jié)構(gòu)信息在UCI數(shù)據(jù)集上的準(zhǔn)確率和標(biāo)準(zhǔn)差對比(線性) 單位:%Tab.7 Comparison of accuracy and standard deviation of different algorithms in solving structural information on UCI datasets(linear)unit:%

表8 不同算法求取結(jié)構(gòu)信息在UCI數(shù)據(jù)集上的準(zhǔn)確率和標(biāo)準(zhǔn)差對比(非線性) 單位:%Tab.8 Comparison of accuracy and standard deviation of different algorithms in solving structural information on UCI datasets(nonlinear)unit:%
為了驗(yàn)證所提出的Pin-SFSimMSVM 算法的有效性,在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并選取SimMSVM、OVO-TWSVM、OVATWSVM、Twin-KSVC 與MBSVM 算法進(jìn)行比較;同時,為了檢驗(yàn)算法的抗噪性能,在8 個標(biāo)準(zhǔn)數(shù)據(jù)集中分別加入了5%和10%的噪聲數(shù)據(jù)進(jìn)行對比實(shí)驗(yàn),噪聲數(shù)據(jù)服從均值為0、方差為1 的高斯分布,實(shí)驗(yàn)結(jié)果見表9,其中r表示所含噪聲比例,結(jié)構(gòu)信息的獲取分別使用層次聚類和C均值聚類方法。

表9 不同算法在UCI數(shù)據(jù)集上添加噪聲的準(zhǔn)確率和標(biāo)準(zhǔn)差對比(非線性) 單位:%Tab.9 Comparison of accuracy and standard deviation of different algorithms on UCI datasets with adding noise(nonlinear) unit:%
實(shí)驗(yàn)結(jié)果表明,在選取的8 個UCI 標(biāo)準(zhǔn)數(shù)據(jù)集中,Pin-SFSimMSVM 算法在7 個數(shù)據(jù)集中均表現(xiàn)出優(yōu)異的性能,尤其是在加入噪聲數(shù)據(jù)后,準(zhǔn)確率均高于其他算法,而在Balance數(shù)據(jù)集中,盡管本文所提出的算法低于OVO-TWSVM 等算法,但仍優(yōu)于SimMSVM 算法,且在加入噪聲后得到的實(shí)驗(yàn)結(jié)果仍有明顯提高,這也表明了所提出的算法對噪聲和重采樣數(shù)據(jù)不具有敏感性。
此外,根據(jù)表9的實(shí)驗(yàn)結(jié)果,將Pin-SFSimMSVM 算法的實(shí)驗(yàn)結(jié)果與其他五種多分類算法的實(shí)驗(yàn)結(jié)果在8 個標(biāo)準(zhǔn)數(shù)據(jù)集中進(jìn)行比較,如表10所示。其含義為將Pin-SFSimMSVM 算法與其他五種不同算法在UCI 標(biāo)準(zhǔn)數(shù)據(jù)集上的輸局/平局/贏局個數(shù),例如Pin-SFSimMSVM 算法與SimMSVM 算法在沒有添加噪聲情況下相比較的結(jié)果為1/1/6,則表明所提出的算法僅1次準(zhǔn)確率低于原算法,1次準(zhǔn)確率與原算法相等,6次結(jié)果優(yōu)于原算法。

表10 Pin-SFSimMSVM算法與其他算法在UCI標(biāo)準(zhǔn)數(shù)據(jù)集上的贏局/平局/輸局對比Tab.10 Comparison of Pin-SFSimMSVM algorithm with other different algorithms for win/draw/loss on UCI standard datasets
可以發(fā)現(xiàn),本文所提出的算法的性能僅在一個數(shù)據(jù)集上差于改進(jìn)前的SimMSVM 算法,但在噪聲數(shù)據(jù)集上優(yōu)于SimMSVM 算法,與其他算法相比,所提出的算法也具有很高的精度,表明Pin-SFSimMSVM具有更好的噪聲不敏感性。
本文提出了一種新的用于多分類的支持向量機(jī)算法Pin-SFSimMSVM,該算法在SimMSVM 的基礎(chǔ)上,基于pinball 損失函數(shù),通過引入樣本的模糊隸屬度和結(jié)構(gòu)信息,較好地解決了多分類方法存在不可分區(qū)域,以及對數(shù)據(jù)中的噪聲和重采樣數(shù)據(jù)敏感等問題,并且在準(zhǔn)確率上有很大提升。通過在人工數(shù)據(jù)集和UCI 標(biāo)準(zhǔn)數(shù)據(jù)集上對SimMSVM、OVO-TWSVM、OVA-TWSVM、Twin-KSVC 以及MBSVM 等多分類算法的對比實(shí)驗(yàn),驗(yàn)證了所提出算法的有效性。