趙劍




摘要:支持向量機是近年來比較流行的一種機器學習方法,以其出色的學習性能在模式識別等領域得到廣泛應用。核函數是支持向量機的核心部分,對其工作性能起到重要作用,其中核參數直接決定分類器識別率的高低。現有的核參數選擇方法計算復雜度很高,因此本文介紹了一種新的跟蹤核參數路徑的算法,該方法從核參數的學習出發,為支持向量機解決模型選擇問題,記錄選用各個核參數得到的最優解,而不是反復訓練多個支持向量機,在一定程度上降低了計算復雜度,提高了學習效率。
關鍵詞:支持向量機;核函數;核路徑算法
1 引言
支持向量機(Support Vector Machine,SVM)是近年來在模式識別與機器學習領域中出現的新工具,SVM以統計學習理論為基礎,基于結構風險最小化原則之上,有效地避免了經典學習方法中過學習、維數災難、局部極小等傳統學習存在的問題,在小樣本條件下仍然具有良好的泛化能力。目前支持向量機在文本分類、手寫體識別、圖像分類、生物信息學等領域獲得了較好的應用。
支持向量機的基本思想是:通過非線性映射
將輸入空間變換到一個高維特征空間,在這個高維空間中尋找輸入變量和輸出變量之間的一種非線性關系(如圖1所示)。在訓練中該算法僅使用到高維空間中的內積,通過引入核函數
,高維空間的內積運算就可用原空間中的函數來實現,甚至沒有必要知道
的形式。通過采用適當的核函數就可實現某一非線性變換后的線性分類,而計算復雜度卻沒有增加,從而在一定程度上避免了維數災難問題。
由以上可以看出,核函數是支持向量機的關鍵部分,它決定了支持向量機中非線性的原始數據空間到高維特征空間的映射關系。目前較為常用的核函數主要有以下三種:
核函數的形式和參數的變化會隱式地改變從輸入空間到特征空間的映射,進而對特征空間的性質產生影響,最終改變各種核函數方法的性能。
從形式上核函數主要分為全局核函數和局部核函數兩種,其中全局核函數的典型代表是多項式核函數,而局部核函數以徑向基核函數最為常用。一般來說局部核函數的學習能力優于全局核函數,而推廣能力卻不及全局核函數。
另外,在SVM 的實際應用中涉及到核函數參數確定的問題。核函數參數的確定直接關系到分類器識別率的高低,因此選擇合適的核函數參數非常重要,這也是本文討論的重點。目前解決這一問題最常用的方法為交叉驗證法,該方法的原理是選定的一組核參數,構成與此對應的SVM模型,將訓練樣本分成容量相同的k個子集,并對模型訓練k次,在第i(i=1,…,k)次訓練時,要用除第i個子集的所有子集訓練模型,再用得到的模型對第i個子集計算誤差,以k次誤差的平均數值作為模型推廣能力的近似值,這樣反復訓練最后選擇一組核參數使得模型推廣能力最好。另外還有基于網格搜索的支持向量機參數確定法[5]、基于Gram矩陣的支持向量機參數確定法以及貝葉斯法等。雖然這些方法都能在一定程度上提高分類正確率,但都需要反復訓練多個支持向量機,造成了較大的計算復雜度,同時也不一定能找到最優解。
針對此問題,本文介紹了一種跟蹤核參數路徑的算法,該方法從核參數的學習出發,為SVM解決模型選擇問題,記錄選用各個核參數得到的最優解,而不是反復訓練多個SVM。該算法基本思想可以概括為:給定一組核參數訓練得到最優解,那么該核參數鄰域的某一個取值所對應的最優解就可以從前一組結果精確推導出。這種記錄最優解的方法不可避免分段線性化以至非線性,因此實際迭代中存在斷點。在訓練過程中,應近似估計斷點從而繼續下一個范圍的迭代。
總結
本文介紹了一種新的跟蹤核參數路徑的算法,該方法從核參數的學習出發,為支持向量機解決模型選擇問題,記錄選用各個核參數得到的最優解,而不是反復訓練多個支持向量機,在一定程度上降低了計算復雜度,提高了學習效率。
在支持向量機的訓練中,正則化參數的選擇也很關鍵,因為不僅關系模型的分類性能,而且決定著運算迭代的次數,影響核路徑的運算效率,在假設核參數固定的情況下,經過適當參數代換,也可以采用本文介紹的方法確定。目前,有關專家提出了在二維平面內同時跟蹤正則化參數和核參數以尋求最優解的方法,它不同于基于網格的核參數確定方法,在運算效率和精度方面應優于后者,成為解決核參數選擇問題的一個重要研究方向。
參考文獻:
[1]張學工.關于統計學習理論與支持向量機.自動化學報,2000,26(1):32-33.
[2]楊斌,路游.基于統計學習理論的支持向量機分類方法.計算機技術與發展,2006,16(11).
[3]Zhonghui Hu,Yunze Cai,Ye Li.Support Vector Machine Based Ensemble Classifier.2005 American Control Conference.June 8-10,2005.
[4]王華忠,俞金壽.核函數方法及其模型選擇.江南大學學報,2006,5(4).
[5]王興玲,李占斌.基于網格搜索的支持向量機核函數參數的確定.中國海洋大學學報,2005,35(5):859-862.
[6]李曉宇,張新峰.一種確定徑向基核函數參數的方法.電子學報,2005,33(12).
[7]Gang Wang,Dit-Yan Yeung,Frederick H.Lochovsky.A Kernel Path Algorith for Support Vector Machine.Proceedings of the 24th International Conference on Machine Learning,Corvalis,OR,2007.