沈 洋,戴月明
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,無錫 214122)
隨著人工智能技術(shù)的興起,各個(gè)領(lǐng)域都開始加入到利用智能技術(shù)改善生產(chǎn)、生活的潮流中來,比如通過智能監(jiān)控系統(tǒng)可以自主監(jiān)控各個(gè)交通路口的路況,通過人臉識(shí)別系統(tǒng)可以更高效的進(jìn)行身份鑒別等等。而作為人工智能領(lǐng)域的核心算法,支持向量機(jī)自然也受到了廣泛的關(guān)注與研究。
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,它主要利用一個(gè)超平面將特征空間中兩個(gè)類別的樣本區(qū)分開。從性質(zhì)上,它主要分為線性可分支持向量機(jī)、線性支持向量機(jī)以及非線性支持向量機(jī)。線性可分支持向量機(jī)指的是假設(shè)空間中的樣本是線性可分的兩類數(shù)據(jù),通過一個(gè)平面就可以進(jìn)行區(qū)分。線性支持向量機(jī)指的是空間中的樣本是近似線性可分的,即有個(gè)別樣本難以區(qū)分,這時(shí)通過引入懲罰系數(shù)可以將問題轉(zhuǎn)化為線性可分的。而非線性支持向量機(jī)是指線性完全不可分,必須引入核函數(shù)將空間轉(zhuǎn)換才行。

圖1 支持向量機(jī)原理圖
支持向量機(jī)多分類算法[1]一般分為四種:一對(duì)多多分類、一對(duì)一多分類、有向無環(huán)圖多分類、二叉樹多分類,詳細(xì)介紹如下所示。
一對(duì)一多分類算法是指將所有類別兩兩配對(duì)訓(xùn)練一個(gè)分類器,因此,針對(duì)于一個(gè)k類別的多分類問題,一般要訓(xùn)練k(k-1)/2個(gè)分類器。一對(duì)一方法相較于其它多分類方法的優(yōu)點(diǎn)是,思路非常簡單,而且易于操作。每個(gè)二類分類器的學(xué)習(xí)只需要正負(fù)兩個(gè)類的樣本,訓(xùn)練量不大。而且由于每次訓(xùn)練的正負(fù)樣本是兩個(gè)類別,樣本數(shù)量大致相等,所以避免了由于訓(xùn)練樣本的不均衡對(duì)于分類準(zhǔn)確率的影響。缺點(diǎn)是每次訓(xùn)練需要訓(xùn)練k(k-1)/2個(gè)分類器,所以當(dāng)數(shù)據(jù)集的類別很多時(shí),要構(gòu)造的二分類器數(shù)目會(huì)成幾何倍增長,這會(huì)給最終的訓(xùn)練時(shí)間造成很大的負(fù)擔(dān)。而且由于最終類別的選取采用的是投票機(jī)制,會(huì)出現(xiàn)多個(gè)類別的票數(shù)相等而無法區(qū)分的情況。
一對(duì)多多分類算法是指將每個(gè)類別作為正類別,其它類別作為負(fù)類別訓(xùn)練分類器,因此針對(duì)一個(gè)k類別問題,一般需要訓(xùn)練k個(gè)分類器。一對(duì)多算法由于每次分類只需要經(jīng)過k個(gè)分類器,因此,分類的速度相對(duì)較快。但是,它訓(xùn)練每個(gè)二類分類器時(shí),都要用到數(shù)據(jù)集中所有的樣本,因此計(jì)算量比較大,導(dǎo)致最后的訓(xùn)練時(shí)間遠(yuǎn)超其他多分類方法。另外,它采用其中一個(gè)類別的樣本作為正樣本,剩下所有類別的樣本作為負(fù)樣本就使得正負(fù)樣本的數(shù)據(jù)量相差比較大,極其容易因?yàn)殡p方樣本的不均衡造成最終分類準(zhǔn)確率的下降,尤其是當(dāng)類別的總數(shù)很多時(shí)。而且一對(duì)其余多分類方法有著和一對(duì)一多分類方法同樣的一個(gè)問題—據(jù)分。
有向無環(huán)圖多分類算法是指將有向無環(huán)圖結(jié)構(gòu)與二分類器結(jié)合起來,利用層次結(jié)構(gòu)的便捷性大大縮短分類的時(shí)間。相比于上述的一對(duì)一與一對(duì)多,該算法由于采用了層次結(jié)構(gòu),所以克服了支持向量機(jī)多分類器存在的不可分的問題,因?yàn)樗罱K總會(huì)走到一個(gè)葉結(jié)點(diǎn)。另外,由于訓(xùn)練階段采用了與一對(duì)一相同的訓(xùn)練方式,不會(huì)出現(xiàn)大量的樣本不均衡的問題,使得它的準(zhǔn)確率得到了保障,而且相比于上述兩種結(jié)構(gòu),它每次分類只需要使用k-1個(gè)分類器,大大縮短了訓(xùn)練與分類的時(shí)間。但是,該算法存在兩個(gè)比較大的問題,一是每次多分類器訓(xùn)練要訓(xùn)練k(k-1)/2個(gè)二分類器,當(dāng)數(shù)據(jù)集的類別比較多時(shí),這會(huì)耗費(fèi)大量的訓(xùn)練時(shí)間。二是該算法存在的誤差累積的問題,由于采用了層次結(jié)構(gòu),使得處于根節(jié)點(diǎn)附近的二類分類器相比于距離根節(jié)點(diǎn)較遠(yuǎn)的分類器產(chǎn)生更大的影響,它們一旦分類錯(cuò)誤,那么下面一切的工作都是徒勞。另外,相同的訓(xùn)練數(shù)據(jù)集,采用不同的節(jié)點(diǎn)排列方式,最終分類器的準(zhǔn)確率也會(huì)有較大的不同,這說明有向無環(huán)圖算法的穩(wěn)定性還有待加強(qiáng)。
二叉樹[2]多分類算法是指將二類分類器放置到樹結(jié)構(gòu)中,組成多分類算法。它的優(yōu)點(diǎn)是通過層次結(jié)構(gòu)大大縮短了分類的時(shí)間,而且解決了不可分的問題。缺點(diǎn)是準(zhǔn)確率較低,尤其是當(dāng)層次結(jié)構(gòu)的層數(shù)較高時(shí),另外還存在一定的誤差累計(jì)問題。一對(duì)一與一對(duì)多分類方法思路簡單,常用于類別不是特別多的簡單分類問題;而有向無環(huán)圖[3]與二叉樹結(jié)構(gòu)適用于類別數(shù)目適中的問題,檔類別數(shù)目較多時(shí),由于層次結(jié)構(gòu)可能會(huì)出現(xiàn)誤差累積的問題。
本文對(duì)于支持向量機(jī)的原理進(jìn)行了闡述,而且對(duì)于常用的幾種多分類算法進(jìn)行了簡要的介紹,分析了它們的優(yōu)點(diǎn)與缺點(diǎn),并總結(jié)了它們的使用場景,對(duì)于人們對(duì)人工智能技術(shù)的了解有一定的幫助。
實(shí)驗(yàn)現(xiàn)象:在pH4.4的酸雨侵襲下,洋蔥鱗片葉外表皮細(xì)胞紫色迅速褪去,用紅墨水染色后,細(xì)胞核著上紅色。在pH5.0的酸雨侵襲下,洋蔥鱗片葉外表皮細(xì)胞紫色緩慢褪去,用紅墨水染色后,細(xì)胞核未著上紅色。