劉銘 吳朝霞


【摘 要】支持向量機(support vector machine,SVM)是基于統(tǒng)計學(xué)理論的一種典型的機器學(xué)習(xí)方法,具有堅實的理論基礎(chǔ),較強的推廣能力,在解決小樣本、非線性、高維度的問題上SVM表現(xiàn)出較好的學(xué)習(xí)性能。隨著研究的深入,SVM被廣泛應(yīng)用于各個領(lǐng)域,本文介紹了統(tǒng)計學(xué)和支持向量機的基本理論,支持向量機的相關(guān)應(yīng)用研究及未來研究方向和發(fā)展前景。
【關(guān)鍵詞】支持向量機;統(tǒng)計學(xué)習(xí)理論;應(yīng)用
中圖分類號: TP18 文獻標(biāo)識碼: A 文章編號: 2095-2457(2018)23-0068-002
DOI:10.19694/j.cnki.issn2095-2457.2018.23.027
【Abstract】Support vector machine(SVM)is a typical machine learning method based on statistical theory,It has a solid theoretical foundation and strong promotion ability.SVM Shows excellent performance on small sample,nonlinear and high dimensional problems.With the deepening of the research,SVM is widely used in various fields.This paper introduces the basic theory of statistics and SVM,the related application research of SVM and future research directions and development prospects.
【Key words】Support vector machine(SVM);Statistical learning theory(SLT);Application
0 概述
支持向量機(support vector machine,SVM)[1] 由Vapnik等提出,以統(tǒng)計學(xué)理論和結(jié)構(gòu)風(fēng)險最小化原理為基礎(chǔ)的通用有效的機器學(xué)習(xí)方法,具有簡潔的數(shù)學(xué)形式、標(biāo)準(zhǔn)快捷的訓(xùn)練方法,被廣泛應(yīng)用于模式識別、函數(shù)估計、時間序列預(yù)測等領(lǐng)域。
SVM在解決小樣本、非線性、高維度的問題上較其它算法表示出優(yōu)異性,國內(nèi)外學(xué)者對SVM進行了大量深入的研究,并對一些算法進行了改進和優(yōu)化,使支持向量機的性能不斷得到改進,如針對訓(xùn)練時間長,占用內(nèi)存大的缺點相繼提出了快算法、分解算法、序列最小優(yōu)化算法(SMO)、最小二乘SVM等快速算法。支持向量機最早被應(yīng)用于模式識別中,隨著SVM相關(guān)理論的不斷完善,之后被廣泛應(yīng)用于工作生活中的各個領(lǐng)域。
1 SVM理論
1.1 統(tǒng)計學(xué)習(xí)理論
統(tǒng)計學(xué)習(xí)理論[2]是一種專門研究小樣本的學(xué)習(xí)理論,通過一定的學(xué)習(xí)方法,找到數(shù)據(jù)的內(nèi)在依賴關(guān)系,從而對數(shù)據(jù)進行相關(guān)的預(yù)測。在統(tǒng)計學(xué)習(xí)理論中VC維表示機器學(xué)習(xí)的復(fù)雜性。對VC維一個直觀的定義:假設(shè)一個有h個樣本的樣本集,它能夠被一個函數(shù)集中的函數(shù)按照所有可能的2h種組合分開,則此函數(shù)集能將該樣本集打散。函數(shù)集能夠打散的最大樣本數(shù)目h就表示函數(shù)集的VC維。VC維越大表示機器學(xué)習(xí)能力越強。
統(tǒng)計學(xué)習(xí)理論系統(tǒng)地研究了對于各種類型的函數(shù)集、經(jīng)驗風(fēng)險和期望風(fēng)險之間的關(guān)系,即推廣性的界[3]。對于兩類的分類問題,函數(shù)集中所有函數(shù)、經(jīng)驗風(fēng)險Remp(w)和期望風(fēng)險R(w)之間的關(guān)系可簡化表示為:
2 支持向量機應(yīng)用
SVM具有良好的泛化能力,較強的理論作支撐,國內(nèi)外學(xué)者對支持向量機算法做了大量深入的研究,并在此基礎(chǔ)上對算法進行了優(yōu)化,使支持向量機的性能不斷得到改進。支持向量機被廣泛地應(yīng)用于各個領(lǐng)域,如模式識別方面的人臉識別、圖像分類、筆記鑒別、語音識別等和病毒檢測、垃圾郵件過濾、網(wǎng)絡(luò)入侵檢測等諸多數(shù)據(jù)分析領(lǐng)域。
2.1 人臉識別
人臉識別的核心思想是用知識的或統(tǒng)計的方法對人臉建模,在復(fù)雜的背景中比較可能的待檢區(qū)域和人臉模型的匹配度,判斷是否存在人面像并分離。
目前人臉識別檢測技術(shù)已經(jīng)較成熟并應(yīng)用到各個領(lǐng)域,Osuna最早提出將SVM方法用于人臉識別技術(shù)中,通過訓(xùn)練非線性SVM分類器對人臉和非人臉進行檢測分類。文獻[5]中提出基PCA+LDA+SVM的人臉識別改進框架,文獻[6]利用粒子群優(yōu)化算法對SVM兩個重要餐宿懲罰參數(shù)和核函數(shù)進行全局優(yōu)化得到最優(yōu)解,用于訓(xùn)練最終的分類器進行人臉識別,得到更高的識別準(zhǔn)確率。
2.2 圖像分類
圖像在人們的生活和工作中已經(jīng)成為傳遞和獲取信息的一種重要手段,快速定位圖像,合理分類圖像對提高基于內(nèi)容的圖像檢索準(zhǔn)確性非常重要。文獻[7]提出基于SVM的簡單圖像和復(fù)雜圖像分類方法,文獻[8]將半監(jiān)督學(xué)習(xí)的思想和支持向量機有效的結(jié)合,提出基于均值漂移的標(biāo)簽均值半監(jiān)督SVM的圖小分類方法,算法參數(shù)的取值方法通過均值漂移結(jié)果進行改進,使圖像分類結(jié)果得到較高的分類正確率和時間效率。
2.3 網(wǎng)絡(luò)入侵檢測
入侵檢測技術(shù)通過在計算機網(wǎng)絡(luò)系統(tǒng)的關(guān)鍵節(jié)點上收集信息并進行分析,對系統(tǒng)中違反安全策略的行為及時作出響應(yīng)。網(wǎng)絡(luò)入侵檢測中的數(shù)據(jù)非常龐大復(fù)雜,具有高維、小樣本、線性不可分的特性。SVM作為一種在小樣本機器學(xué)習(xí)的基礎(chǔ)上發(fā)展起來的方法,通過風(fēng)險最小化原理來解決小樣本、非線性、高維度等問題,并且能夠在先驗知識不足的情況下仍然保持較高的分類準(zhǔn)確率,非常適合應(yīng)用于網(wǎng)絡(luò)入侵檢測系統(tǒng)。
3 總結(jié)與展望
支持向量機以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),有完備的理論依據(jù),SVM被應(yīng)用于很多領(lǐng)域并取得良好效果。但傳統(tǒng)支持向量機學(xué)習(xí)算法的研究側(cè)重對方法的探索而對數(shù)據(jù)集本身特點關(guān)注不夠,算法學(xué)習(xí)效率與數(shù)據(jù)規(guī)模有關(guān),處理這類問題有可能導(dǎo)致算法運行較慢無法求解,在實際應(yīng)用中沒有價值。因此,如何從實際問題出發(fā)探索支持向量機算法的建模和改進是一個值得深入研究的問題。
【參考文獻】
[1]CRISTIANINI N,TAYLOR J S.支持向量機導(dǎo)論[M].李國正,王猛,曾華軍,譯.北京:電子工業(yè)出版社,2004.
[2]Vapnik V.The nature of statistical learning theory[M]. Springer Science & Business Media,2013.
[3]mola A J,Williamson R C,Sch?觟lkopf B.Generalization bounds for convex combinations of kernel functions[J].1998.
[4]馬蕾,汪西莉.基于支持向量機協(xié)同訓(xùn)練的半監(jiān)督回歸[J].計算機工程與應(yīng)用,2011,47(3):177-180.
[5]袁程波,基于PCA和SVM的人臉識別關(guān)鍵技術(shù)研究與實現(xiàn)[D].成都:電子科技大學(xué),2017.
[6]廖周宇,王鈺婷,謝曉蘭,劉建明基于粒子群優(yōu)化的支持向量機人臉識別[J].計算機工程,2017,43(12),248-254.
[7]田云.基于二次分割的多特征圖像分類方法研究[D].太原,山西大學(xué),2011.
[8]王朔琛.基于半監(jiān)督支持向量機的圖像分類方法研究[D].西安:陜西師范大學(xué),2015.