孫萌月 張奧麗 曾進(jìn)成
【摘 要】支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論發(fā)展起來(lái)的一種新的機(jī)器學(xué)習(xí)方法,應(yīng)用于解決各種小樣本分類(lèi)問(wèn)題。經(jīng)文獻(xiàn)報(bào)道,鳶尾花自身的固有屬性可以作為輸入指標(biāo)用來(lái)預(yù)測(cè)鳶尾花的種類(lèi)。本文以鳶尾花的屬性數(shù)據(jù)建立分類(lèi)模型,結(jié)果表明支持向量機(jī)分類(lèi)方法具有很好的泛化性能,為自動(dòng)判定鳶尾花種類(lèi)提供了一種有效的方法。
【關(guān)鍵詞】支持向量機(jī);分類(lèi)問(wèn)題;核函數(shù)
鳶尾花屬于鳶尾科,是一類(lèi)具有較高觀賞價(jià)值的草本植物,其萼片是絢麗多彩的,和向上的花瓣不同,花萼是下垂的。通過(guò)鳶尾花的屬性來(lái)判斷鳶尾花的種類(lèi),可以更高效率的培育出相應(yīng)需要的鳶尾花,來(lái)滿足現(xiàn)實(shí)需求量。
人工智能的快速發(fā)展帶動(dòng)了基于數(shù)據(jù)挖掘的人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)智能分類(lèi)方法。人工神經(jīng)網(wǎng)絡(luò)具有非線性、自學(xué)習(xí)、自適應(yīng),能夠大規(guī)模并行處理等特征,同時(shí)內(nèi)部訓(xùn)練過(guò)程是在黑箱中進(jìn)行的,只要直接輸入數(shù)據(jù)即可得出結(jié)果[1]。但缺點(diǎn)也很明顯,神經(jīng)網(wǎng)絡(luò)中參數(shù)無(wú)法解釋?zhuān)瑫r(shí)訓(xùn)練過(guò)程在黑箱中進(jìn)行,具有一定的盲目性,由于它是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,容易出現(xiàn)“過(guò)擬合”現(xiàn)象,即有可能出現(xiàn)陷入局部最優(yōu)解而無(wú)法得到全局最優(yōu)解的現(xiàn)象。而支持向量機(jī)(SVM)借助最優(yōu)化方法來(lái)解決機(jī)器學(xué)習(xí)問(wèn)題[2],依賴(lài)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,針對(duì)小樣本得到全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極值問(wèn)題。
因此,本文將目標(biāo)數(shù)據(jù)集的三種鳶尾花的花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度四個(gè)屬性用來(lái)做樣本的定量分析,建立模型,通過(guò)SVM分類(lèi)的方法,根據(jù)給定的訓(xùn)練集,通過(guò)大量的訓(xùn)練點(diǎn),尋找實(shí)值函數(shù),由此得到?jīng)Q策函數(shù),以便用決策函數(shù)推斷任意模式(輸入指標(biāo)向量或稱(chēng)輸入)相對(duì)應(yīng)的輸出指標(biāo)。
一、基于支持向量機(jī)的鳶尾花類(lèi)別預(yù)測(cè)
1.支持向量機(jī)
支持向量機(jī)分類(lèi)方法是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原理,針對(duì)一個(gè)給定的有限數(shù)量訓(xùn)練集樣本的學(xué)習(xí)任務(wù),通過(guò)在原空間或經(jīng)投影后的高維空間中構(gòu)造最佳分類(lèi)超平面作為決策面。從線性可分模式來(lái)看,該決策面不但能夠?qū)⑺杏?xùn)練樣本正確分類(lèi),而且使訓(xùn)練樣本中離分類(lèi)面最近的點(diǎn)到分類(lèi)面的距離最大[3]。訓(xùn)練樣本為非線性時(shí),通過(guò)非線性函數(shù)φ( x) 將樣本 x 映射到一個(gè)高維線性特征空間,在這個(gè)維數(shù)可能為無(wú)窮大的線形空間中構(gòu)造最優(yōu)分類(lèi)超平面,并得到分類(lèi)器的判別函數(shù)。再根據(jù)最大間隔思想[4],引入懲罰項(xiàng) CΣ§i,建立原始最優(yōu)化問(wèn)題, 通過(guò)強(qiáng)對(duì)偶定理對(duì)原問(wèn)題進(jìn)行求解,利用核函數(shù)提高樣本的線性可分性,將線性分類(lèi)學(xué)習(xí)機(jī)算法推廣到非線性的情況。
2.K重交叉驗(yàn)證
K重交叉驗(yàn)證是常用的精度測(cè)試方法[5]。驗(yàn)證方法是將數(shù)據(jù)集分成 K份,輪流將其中K-1份做訓(xùn)練,1份做測(cè)試,K次結(jié)果的最佳值作為對(duì)算法精度的估計(jì)。本文算法中采用K重交叉驗(yàn)證方法來(lái)計(jì)算準(zhǔn)確率,進(jìn)而確定合適的懲罰參數(shù)C及核函數(shù)。
3.數(shù)據(jù)
在UCI數(shù)據(jù)庫(kù),下載得到初始的Iris樣本數(shù)據(jù)集共計(jì)150條。統(tǒng)計(jì)各個(gè)選項(xiàng)在不同決定指標(biāo)所占比例對(duì)比分析,從而得到合適的指標(biāo),這里主要參考各指標(biāo)的選項(xiàng)在輸出指標(biāo)鳶尾花類(lèi)別中所占的比例。經(jīng)預(yù)處理,分別得到三類(lèi)鳶尾花的四個(gè)屬性的平均值數(shù)據(jù),
二、建模
鳶尾花的種類(lèi)有很多,這里我們選取山鳶尾、變色鳶尾、維吉尼亞鳶尾三種比較有名的鳶尾花類(lèi)別,而鳶尾花類(lèi)別受其自生屬性影響,經(jīng)文獻(xiàn)查閱,最終選取較為典型的4個(gè)指標(biāo)作為輸入,以鳶尾花類(lèi)別作為輸出建立模型。該模型為多類(lèi)分類(lèi)問(wèn)題,以鳶尾花類(lèi)別作為輸出指標(biāo),分為山鳶尾、變色鳶尾、維吉尼亞鳶尾三種。而輸入指標(biāo)有花萼長(zhǎng)度、花萼寬度、花瓣長(zhǎng)度、花瓣寬度。
重要指標(biāo)進(jìn)行分析:
(1)TP Rate: 簡(jiǎn)稱(chēng)TPR(真正率),即被模型預(yù)測(cè)為正的正樣本比率。TPR = TP /(TP + FN) 正樣本預(yù)測(cè)結(jié)果數(shù) / 正樣本實(shí)際數(shù)。以第一條數(shù)據(jù)為例,TPR=28/30= 0.933。
(2)FP Rate:簡(jiǎn)稱(chēng)FPR(假正率),即被模型預(yù)測(cè)為正的負(fù)樣本比率。FPR = FP /(FP + TN)?被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù) /負(fù)樣本實(shí)際數(shù)。以第一條數(shù)據(jù)為例,F(xiàn)PR=2/120= 0.017。
(3) MCC:即Matthews 相關(guān)系數(shù)。MCC=(TP*TN-FP*TN+FP)*(TN+FN)]^0.FN)/[(TP+FP)*(TP+FN)*(5,同時(shí)考慮了 FP和 FN,并適用于不平衡問(wèn)題(兩個(gè)類(lèi)的比例相差很大)。取值在[-1,1]之間,1 代表完美的預(yù)測(cè),0 代表與隨機(jī)分類(lèi)器效果一樣,-1 代表預(yù)測(cè)結(jié)果與實(shí)際結(jié)果完全不一致。
可知,通過(guò)對(duì)該訓(xùn)練模型的訓(xùn)練與測(cè)試,分類(lèi)準(zhǔn)確率可達(dá)到95.3%,能夠?qū)ⅧS尾花的三種類(lèi)別比較好的分開(kāi),具有較高的泛化能力,且MCC均趨近于1,說(shuō)明該訓(xùn)練模型的穩(wěn)定性很好。
三、結(jié)論
本文通過(guò)實(shí)例驗(yàn)證可以看出鳶尾花的種類(lèi)受其屬性的影響,根據(jù)鳶尾花的屬性及種類(lèi)分別作為輸入、輸出指標(biāo)建立模型,應(yīng)用支持向量機(jī)分類(lèi)的方法進(jìn)行研究,得到合適的決策函數(shù),可以對(duì)已知相關(guān)屬性的鳶尾花做出較為準(zhǔn)確的分類(lèi)。為預(yù)測(cè)鳶尾花種類(lèi)提供了一種有效的方法,也為鳶尾花種植者選擇種類(lèi)提升了效率,帶來(lái)了方便,同時(shí)也通過(guò)此實(shí)例體現(xiàn)了支持向量機(jī)分類(lèi)應(yīng)用于解決小樣本分類(lèi)問(wèn)題的優(yōu)越性。
【參考文獻(xiàn)】
[1]蔣林利. 基于支持向量機(jī)的電子商務(wù)模式下的信用評(píng)價(jià)模型[J].現(xiàn)代計(jì)算機(jī)學(xué)報(bào),2012.
[2]鄧乃揚(yáng),田英杰. 數(shù)據(jù)挖掘中的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004,49-77,164-223.