劉高輝,楊 星
(西安理工大學 自動化與信息工程學院,陜西 西安 710048)
?
一種混合核函數的支持向量機
劉高輝,楊 星
(西安理工大學 自動化與信息工程學院,陜西 西安 710048)
為了提高支持向量機分類效果、學習能力和外推能力,分析了兩種支持向量機的核函數:K型核函數和logistic核函數,構造出一種新的混合核函數的支持向量機,并且對其性能進行了理論分析。把構造出的混合核函數支持向量機與常用核函數構造的向量機應用到二維數據分類與圖片分類中進行實驗對比。二維數據點和圖片分類的實驗結果表明,混合核函數的支持向量機的分類效果、學習能力和外推能力,明顯優于常用核函數構造的支持向量機。
K型核函數;logistic型核函數;混合核函數
伴隨著科學技術的飛速發展以及網絡的快速普及,科學發展和生活中出現了許多高維復雜的數據。怎么才能在這些高維復雜的數據中找出其內在特有的規律,以便能夠利用這些規律,更好地為人們的生活服務,這對統計學的理論而言成為重中之重。
支持向量機(Support Vector Machines,SVM)是1995年由Vapnik等人提出的一種基于統計學習理論的機器學習方法[1-2]。它通過尋找結構風險最小化來提高機器學習外推能力,從而使得在測試樣本量比較小的情況下也能得到較好的統計分類規律[3]。它非常適合解決高維、非線性和小樣本的模式識別檢測問題,并在一定程度上克服了“過學習”和“維數災難”等問題。支持向量機分類效果、學習能力、外推能力性能的優劣主要取決于核函數的選擇及其參數,尤其是核函數的選擇。
因為支持向量機的分類效果、學習能力和外推能力等許多特性是由本身的核函數來決定的,而且每一種核函數都有自己的優點和缺點,所以支持向量機因核函數的不同而表現出的分類效果、學習能力、外推能力有很大的差異。為了同時提高支持向量機分類效果、學習能力和外推能力,本文提出一種混合核函數的支持向量機。
就目前來說常用的核函數有以下幾種:
(1)線性核函數
K(xi,xj)=(xi·xj)
(1)
(2)多項式核函數
K(xi,xj)=(γxi·xj+r0)p,γ>0
(2)
(3)徑向基核函數(RBF)
(3)
總體來說支持向量機的核函數主要分為:全局核函數和局部核函數。全局性核函數的支持向量機外推能力強、學習能力較弱;而局部性核函數的支持向量機學習能力強、泛化能力較弱。在以上列舉的常用核函數中線性核函數和多項式核函數屬于全局核函數,徑向基核函數屬于局部核函數。
K型函數的表達式如式(4)所示[4]:

(4)
式(4)中,k>0,且m∈N。
通過觀察K型函數與徑向基函數的表達式可知:K型函數與徑向基函數相比沒有費時的指數運算,所以運算速度更快。
K型核函數的表達式如式(5)所示:

(5)
文獻[4]已經證明了K型核函數可以作為支持向量機的核函數。
圖1為K型核函數與徑向基核函數的對比圖,其中K取1,m取1,σ取1,測試點為0。由圖1可以看出:K型核函數與徑向基核函數都是只有在測試點附近的數據才會對核函數的值產生很大影響,而離測試點很遠的數據對核函數的值影響很小,所以K型核函數和徑向基核函數屬于局部核函數。不同的是K型核函數與徑向基核函數相比尖端更尖,兩端收斂也更緩慢,正是這種特性使得K型核函數比高斯核函數具有更好的外推能力。

圖1 K型核函數與徑向基核函數對比圖
logistic函數表達式為:

(6)
如果一個函數可以當作支持向量機的核函數那它只要滿足Mercer條件即可。

(7)
則K(x,x′)可作為支持向量機的核函數。
如果K(x,x′)=K(x-x′),則K(x,x′)稱為轉移不變核函數。轉移不變核函數要證明滿足Mercer條件,是十分困難的,而下面的引理1很好地解決了這個問題。
引理1轉移不變核函數K(x,x′)是一個支持向量機的核函數的充分必要條件為,當且僅當k(x)的傅里葉變化滿足:
(8)
logistic型核函數的表達式為:

(9)
由(7)式可以看出logistic型核函數滿足K(x,x′)=K(x-x′)。
logistic型核函數的傅里葉變化為:

(10)
因為式(10)中exp(-jwx)>0,1+exp(-ax2)>0,所以F[k(x)]≥0滿足式(10)。
故logistic型核函數可以作為支持向量機的核函數。
當參數a的值分別取0.07、0.05、0.04、0.03,測試點為0時,logistic核函數圖像如圖2所示。從圖2可以看出離測試點1越遠的數據點受到的影響越大。從而說明了logistic核是一個全局性核函數,具有較好的外推能力,而且外推能力隨參數a變化而變化。

圖2 logistic型核函數曲線圖
國內外對支持向量機的核函數研究顯示,任何支持向量機的核函數在某些方面都有它們的優點,也有各自的缺點與不足。不同核函數的支持向量機所表現出的學習能力、外推能力等差異性很大。總體而言,局部核函數的支持向量機因為相互之間距離較近的數據點對核函數的值產生影響比較大,所以容易產生過學習,而外推能力卻不佳。全局核函數的支持向量機離測試點較遠的數據對核函數的值影響較大,所以容易產生欠學習,但外推能力卻比較好。鑒于這種情況,為了使支持向量機的學習能力和外推能力都比較好,所以選擇用全局核函數和局部核函數來構造一種混合核函數的支持向量機,使之兼有局部核函數支持向量機學習能力強、全局核函數支持向量機外推能力強的優點。
通過對前面K型核函數和logistic核函數性質的分析,得到結論:K型核函數是一個局部核函數而且性能比傳統的徑向基核函數更好。logistic核函數是一個性能很好的全局函數。因此,受到啟發,為得到性能較好的新的混合函數,將K型核函數與logistic核函數進行組合,構成一種新的混合核函數[6]。
引理2設K1和K2是在X×X上的核函數,X∈Rn,常數a≥0。則下面的函數仍是核函數[7]:
K(x,y)=K1(x,y)+K2(x,y)
(11)
K(x,y)=a×K1(x,y)
(12)
根據引理2,如果把兩個性能不同的核函數進行線性組合,可以構造出新的核函數,如下所示,其中0≤n≤1。
K(x,y)=n×Ka(x,y)+(1-n)Kb(x,y)
(13)
所以構成新的混合核函數的表達式為:
K混合核=n×Klogistic核+(1-n)×KK型核
(14)
在圖3中n分別取0.7、0.75、0.8、0.85,測試點為1,K型核函數中的K取1、m取1。從混合核函數的圖中可以得出結論:新構造的混合核函數不僅具有K型核函數的特性而且還具有logistic型核函數的特性,測試點附近的數據以及離測試點較遠的數據都對核函數的值產生很大的影響,所以由K型核函數和logistic型核函數構成的新的混合核函數的支持向量機的學習能力和外推能力都比傳統核函數構成的支持向量機要優秀。

圖3 混合核函數的曲線圖
輸入兩組數據,每組為50個。第一組數據點M是均值點為(0,0)、方差為1、標準差為1的正態分布的隨機點。第二組數據點N是均值點為(2,2)、方差為1、標準差為1的正態分布的隨機點。圖4~圖6分別為采用不同核函數支持向量機對兩組數據的分類結果。

圖4 多項式核函數的數據分類結果

圖5 高斯核函數的數據分類結果

圖6 混合核函數的數據分類結果
理論上M、N兩組數據點的分類線為y=-x+2(圖中虛線),觀察圖4~圖6可得:用傳統的多項式核函數(全局核函數)和高斯核函數(局部核函數)的支持向量機,雖然能夠將M、N兩組數據點分類開,但其分類線與理論上的分類線相差甚遠,這樣當測試的數據點比較多時就會產生許多數據點分類錯誤,其精確性和泛化能力都不好。而采用K型核函數與logistic型核函數的混合核函數的支持向量機,其分類效果很好,基本接近理論分類線,其學習能力以及泛化能力都很優秀。
將一組30張的汽車圖片和一組26張的貓圖片轉換成256維的HSV數據。使用不同核函數的支持向量機對數據進行訓練。將56張有汽車圖片和貓圖片轉換成256維的HSV數據用作測試,如果是汽車圖片則標記為1,如果是貓圖片則標記為-1。如圖7、圖8所示。

圖7 訓練圖片

圖8 測試圖片
測試結果:測試圖片為30張汽車圖片和26張貓圖片,多項式核分類錯了4張車圖片和6張貓圖片,準確率為82%;徑向基核分類錯了6張汽車圖片和7張貓圖片,準確率為76%;而K型核函數和logistic核函數的混合核函數分類錯了3張汽車圖片和3張貓圖片,準確率為89%。圖片分類結果表明,K型核函數和logistic型核函數的混合核函數的支持向量機圖片分類準確率明顯高于常用核函數的支持向量機。
本文提出了一種新型的支持向量機的核函數——K型核函數和logistic型核函數的混合核函數。分別分析了K型核函數和logistic型核函數的性能及其特點,將兩者混合起來構造出新的核函數。從二維數據實驗和圖片分類結果上證明了新的混合核函數的支持向量機在分類效果、學習能力和外推能力方面均優于傳統的多項式核函數和徑向基核函數的支持向量機,具有良好的理論價值和應用價值。
[1] 丁世飛,齊丙娟.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011,40(1):2-10.
[2] VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer-Verlag,1995.
[3] SAINI L M, AGGARWAL S K. Parameter optimization using genetic algorithm for support vector machine based price-forecasting model in national electricity market[J]. Genetation, Transmission&Distribution,IET,2010,4(1): 36-49.
[4] 孫翠娟.基于K型核函數的支持向量機[J].淮海工學院學報, 2006,15(4):4-7.
[5] HAMIDI S, RAZZAZI F, GHAEMMAGHAMI M P. Automatic meter classifycation in Persian popetries using support vector machine[C]. IEEE International Symposium on Signal Processing and Information Technology(ISSPIT).Ajman:2009, 563-567.
[6] 顏根廷,馬廣富,肖余之.一種混合核函數支持向量機算法[J].哈爾濱工業大學學報,2007,39(11):1704-1706.
[7] 徐立祥,李旭,呂皖麗,等.組合核支持向量機的模式分析新方法[J].計算機工程與應用,2013,49(24):112-115.
A kind of support vector machine based on hybrid kernel function
Liu Gaohui, Yang Xing
(School of Automation and Information Engineering, Xi’an University of Technology, Xi’an 710048, China)
In order to improve classification effect, learning ability and extrapolation ability of support vector machine, two kinds of kernel functions of support vector machine have been analyzed: K-type kernel function and logistic kernel function. A new support kernel machine with hybrid kernel function was constructed, and the performance of the new support kernel machine was analyzed in theory. The constructed support vector machines based on hybrid kernel function and the common kernel function were applied to handle the two-dimension data classification and images classification. Experimental results of two-dimension data points and image classification show that classification effect, learning ability and extrapolation ability of support vector machine based on hybrid kernel function are obviously superior to the support vector machine constructed by common kernel function.
K-type kernel function; logistic kernel function; hybrid kernel function
TP181
A
10.19358/j.issn.1674- 7720.2017.11.006
劉高輝,楊星.一種混合核函數的支持向量機[J].微型機與應用,2017,36(11):19-22.
2017-01-15)
劉高輝(1968- ),男,博士,副教授,主要研究方向:信號處理。
楊星(1991-), 男,碩士研究生,主要研究方向:機器學習。