摘要:提出一種新型的基于光滑Ramp損失函數的健壯支持向量機,能夠有效抑制孤立點對泛化性能的影響,并采用CCCP將它的非凸優化目標函數轉換成連續、二次可微的凸優化。在此基礎上,給出訓練健壯支持向量機的一種Newton型算法并且分析了算法的收斂性質。實驗結果表明,提出的健壯支持向量機對孤立點不敏感,在各種數據集上均獲得了比傳統的SVMlight算法和Newton-Primal算法更優的泛化能力。
關鍵詞:支持向量機; 光滑Ramp損失函數; 原始空間; 凹凸過程
中圖分類號:TP18文獻標志碼:A
文章編號:1001-3695(2008)06-1676-03
支持向量機是現代機器學習理論的最新研究進展之一,具有泛化能力強、維數不敏感等特點,已經在模式識別和回歸分析等領域表現出優異的性能[1]。迄今為止,理論界已經針對SVMs的對偶優化和原始優化問題提出了多種有效的求解方法,如SVMlight算法[2]和Newton-Primal算法[3]等。然而,軟間隔SVMs對訓練樣本中的孤立點非常敏感,本質原因是采用L1損失函數時孤立點所產生的間隔損失最大,從而在確定SVMs的決策超平面位置時所起到的作用也最大。因此,SVMs的泛化性能必然受到它們的影響而降低。近年來,更為健壯的Ramp損失函數受到了廣泛的研究[4,5]。該函數明確限制孤立點所能造成的最大損失,直接抑制它們對決策超平面的影響。但是,Ramp損失函數同時也導致了優化目標的非凸性,使得大多數傳統的凸優化方法不能直接用于求解SVMs[6]。
1健壯支持向量機
實際上,上述UCI數據集中由于普遍存在類別重疊,因而固有地包含一些誤分類樣本(圖1中的z≤1的樣本),任何分類算法都不能將它們完全正確地分類。鑒于許多誤分類樣本存在于圖1中的B3區域,它們對決策超平面具有同孤立點類似的負面影響。這樣,由于Hinge損失對孤立點敏感,使得Newton-Primal和SVMlight算法的泛化誤差率較高。相反,本文提出的健壯支持向量機方法采用了不敏感的光滑Ramp損失函數,能夠抑制孤立點對決策超平面的影響,因而獲得了更低的泛化誤差率。
4結束語
本文提出一種光滑Ramp損失函數,并將其應用到SVMs的原始優化問題,得到了新型的對孤立點樣本的不敏感的健壯支持向量機;通過CCCP過程[7]克服新優化目標的非凸性,獲得它的連續、二次可微的凸優化形式;給出一種Newton型算法對其進行求解并且分析了算法的收斂性質?;诙鄠€數據集的實驗結果表明,提出的健壯支持向量機方法對孤立點樣本不敏感并且獲得了更優的泛化性能。
參考文獻:
[1] VAPNIK V N. 統計學習理論的本質[M]. 張學工,譯.北京:清華大學出版社,2000.
[2]JOACHIMS T. Making large-scale SVM learning practical[C]//SCHOLKOPF B,BURGES C,SMOLA A.Advances in Kernel Methods:Support Vector Learning. Cambridge: MIT Press,1999:169-184.
[3]CHAPELLE A. Training a support vector machine in the primal,TR-147[R].[S.l.]:Max Planck Institute, 2006.
[4]KRAUSE N, SINGER Y. Leveraging the margin more carefully[C]//Proc of the 21st International Conference on Machine Lear-ning. New York: ACM Press, 2004.
[5]MASON L, BARTLETT P L, BAXTER J. Improved generalization through explicit optimization of margins[J]. Machine Learning, 2000,38(3):243-255.
[6]XU L, CRAMMER K, SCHUURMANS D. Robust support vector machine training via convex outlier ablation[C]//Proc of the 21st National Conference on Artificial Intelligence. Boston:[s.n.],2006.
[7]YUILLE A L, RANGARAJAN A. The concave-convex procedure (CCCP)[J].Neural Computation,2003,15(4):915-936.
[8]KIMELDORF G S, WAHBA A. A correspondence between Bayesian estimation on stochastic processes and smoothing by splines[J]. Annals of Mathematical Statistics,1970,41(5):495-502.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文