孫萌月 張奧麗 曾進成
【摘 要】支持向量機是基于統計學習理論發展起來的一種新的機器學習方法,應用于解決各種小樣本分類問題。經文獻報道,鳶尾花自身的固有屬性可以作為輸入指標用來預測鳶尾花的種類。本文以鳶尾花的屬性數據建立分類模型,結果表明支持向量機分類方法具有很好的泛化性能,為自動判定鳶尾花種類提供了一種有效的方法。
【關鍵詞】支持向量機;分類問題;核函數
鳶尾花屬于鳶尾科,是一類具有較高觀賞價值的草本植物,其萼片是絢麗多彩的,和向上的花瓣不同,花萼是下垂的。通過鳶尾花的屬性來判斷鳶尾花的種類,可以更高效率的培育出相應需要的鳶尾花,來滿足現實需求量。
人工智能的快速發展帶動了基于數據挖掘的人工神經網絡和支持向量機智能分類方法。人工神經網絡具有非線性、自學習、自適應,能夠大規模并行處理等特征,同時內部訓練過程是在黑箱中進行的,只要直接輸入數據即可得出結果[1]。但缺點也很明顯,神經網絡中參數無法解釋,同時訓練過程在黑箱中進行,具有一定的盲目性,由于它是基于經驗風險最小化原則,容易出現“過擬合”現象,即有可能出現陷入局部最優解而無法得到全局最優解的現象。而支持向量機(SVM)借助最優化方法來解決機器學習問題[2],依賴結構風險最小化原則,針對小樣本得到全局最優解,解決了在神經網絡方法中無法避免的局部極值問題。
因此,本文將目標數據集的三種鳶尾花的花萼長度、花萼寬度、花瓣長度、花瓣寬度四個屬性用來做樣本的定量分析,建立模型,通過SVM分類的方法,根據給定的訓練集,通過大量的訓練點,尋找實值函數,由此得到決策函數,以便用決策函數推斷任意模式(輸入指標向量或稱輸入)相對應的輸出指標。
一、基于支持向量機的鳶尾花類別預測
1.支持向量機
支持向量機分類方法是一種基于結構風險最小化的原理,針對一個給定的有限數量訓練集樣本的學習任務,通過在原空間或經投影后的高維空間中構造最佳分類超平面作為決策面。從線性可分模式來看,該決策面不但能夠將所有訓練樣本正確分類,而且使訓練樣本中離分類面最近的點到分類面的距離最大[3]。訓練樣本為非線性時,通過非線性函數φ( x) 將樣本 x 映射到一個高維線性特征空間,在這個維數可能為無窮大的線形空間中構造最優分類超平面,并得到分類器的判別函數。再根據最大間隔思想[4],引入懲罰項 CΣ§i,建立原始最優化問題, 通過強對偶定理對原問題進行求解,利用核函數提高樣本的線性可分性,將線性分類學習機算法推廣到非線性的情況。
2.K重交叉驗證
K重交叉驗證是常用的精度測試方法[5]。驗證方法是將數據集分成 K份,輪流將其中K-1份做訓練,1份做測試,K次結果的最佳值作為對算法精度的估計。本文算法中采用K重交叉驗證方法來計算準確率,進而確定合適的懲罰參數C及核函數。
3.數據
在UCI數據庫,下載得到初始的Iris樣本數據集共計150條。統計各個選項在不同決定指標所占比例對比分析,從而得到合適的指標,這里主要參考各指標的選項在輸出指標鳶尾花類別中所占的比例。經預處理,分別得到三類鳶尾花的四個屬性的平均值數據,
二、建模
鳶尾花的種類有很多,這里我們選取山鳶尾、變色鳶尾、維吉尼亞鳶尾三種比較有名的鳶尾花類別,而鳶尾花類別受其自生屬性影響,經文獻查閱,最終選取較為典型的4個指標作為輸入,以鳶尾花類別作為輸出建立模型。該模型為多類分類問題,以鳶尾花類別作為輸出指標,分為山鳶尾、變色鳶尾、維吉尼亞鳶尾三種。而輸入指標有花萼長度、花萼寬度、花瓣長度、花瓣寬度。
重要指標進行分析:
(1)TP Rate: 簡稱TPR(真正率),即被模型預測為正的正樣本比率。TPR = TP /(TP + FN) 正樣本預測結果數 / 正樣本實際數。以第一條數據為例,TPR=28/30= 0.933。
(2)FP Rate:簡稱FPR(假正率),即被模型預測為正的負樣本比率。FPR = FP /(FP + TN)?被預測為正的負樣本結果數 /負樣本實際數。以第一條數據為例,FPR=2/120= 0.017。
(3) MCC:即Matthews 相關系數。MCC=(TP*TN-FP*TN+FP)*(TN+FN)]^0.FN)/[(TP+FP)*(TP+FN)*(5,同時考慮了 FP和 FN,并適用于不平衡問題(兩個類的比例相差很大)。取值在[-1,1]之間,1 代表完美的預測,0 代表與隨機分類器效果一樣,-1 代表預測結果與實際結果完全不一致。
可知,通過對該訓練模型的訓練與測試,分類準確率可達到95.3%,能夠將鳶尾花的三種類別比較好的分開,具有較高的泛化能力,且MCC均趨近于1,說明該訓練模型的穩定性很好。
三、結論
本文通過實例驗證可以看出鳶尾花的種類受其屬性的影響,根據鳶尾花的屬性及種類分別作為輸入、輸出指標建立模型,應用支持向量機分類的方法進行研究,得到合適的決策函數,可以對已知相關屬性的鳶尾花做出較為準確的分類。為預測鳶尾花種類提供了一種有效的方法,也為鳶尾花種植者選擇種類提升了效率,帶來了方便,同時也通過此實例體現了支持向量機分類應用于解決小樣本分類問題的優越性。
【參考文獻】
[1]蔣林利. 基于支持向量機的電子商務模式下的信用評價模型[J].現代計算機學報,2012.
[2]鄧乃揚,田英杰. 數據挖掘中的新方法——支持向量機[M].北京:科學出版社,2004,49-77,164-223.