劉夢綺
摘要:統計學習理論建立在結構風險最小化原則基礎上,專門針對小樣本下的機器學習問題而建立的一套新的學習理論體系。基于統計學習理論的算法具有理論完整、全局優化、適應性強、推廣能力好等優點,是機器學習研究的新熱點。本文首先研究了支持向量機的基本理論,接著對支持向量機算法和神經網絡算法進行了全面性能比較。最后對文章整體做出總結,并寫出了自己的感悟。
引言
分類一直是數據挖掘、機器學習[1] 和模式識別中一個重要的研究領域。隨著計算能力、存儲、網絡的高速發展,更需要發現更深層次的規律,對決策,商務應用提供更加有效的支持。為了滿足這種需求,數據挖掘技術得到了長足的發展,而分類在數據挖掘中是一項非常重要的任務。分類算法歷來受到許多領域研究者的關注。
傳統的機器學習分類算法,如支持向量機等,慢慢不像十多年前那么火熱。但在進行小數據樣本處理時,支持向量機算法展現出基于大數據樣本的深度學習無法取代的優勢。因此對支持向量機和用于深度學習的神經網絡算法的對比分析就顯得尤為重要。
1 ?概述
1.1背景
統計模式識別、線性或非線性回歸以及人工神經網絡等方法是數據挖掘的有效工具,但多年來我們也受制于一個難題:作為深度學習的燃料,在實際的問題中并非一定會有海量級別、帶有標注的數據。傳統的模式識別或人工神經網絡方法都需要較多的訓練樣本,而許多實際課題中,已知樣本較少,對于小樣本集,訓練結果最好不一定是預報能力最好的模型。[3] 而SVM 只需要很小的數據就能找到數據之間分類的超平面,得到很不錯的分類結果。
1.2現狀
數據是機器學習的燃料,包括模式識別、神經網絡等在內的現有機器學習方法重要的基礎是傳統的統計學,基于傳統統計學研究的是樣本數目趨于無窮大事的漸進理論,當樣本有限的時候,難以達到想要的效果。統計學習理論(Statistical Learning Theory,SLT)則著重提出了小樣本情況下的統計規律和學習方法性質,發展出一種新的通用學習方法--支持向量機(Support vector machine,SVM)。當前關于支持向量機研究的熱點主要是對支持向量機中算法的優化,包括解決SVM中二次規劃求解問題,對大規模SVM的求解問題;另外就是如何提高SVM的歸納能力和分類速度以及根據具體問題確定核函數等。
2 支持向量機
支持向量機是一種基于統計學習理論的模式識別方法,主要應用于模式識別領域。20世紀末,由于研究不夠完善,在解決模式識別問題中往往趨于保守,且數學知識匱乏,導致這些研究沒有得到充分重視。直至統計學習理論(Statistical Learning Theory,SLT)的實現以及新興機器學習方法如神經網絡等研究遇到瓶頸,使得SVM迅速發展。
2.1 SVM基于統計學理論的基礎
(1)對實際輸入的結果輸出標簽時,風險可以用錯誤率進行表示。
(2)VC維理論:一個假設空間的VC維,是該假設空間中可以解決分類問題的方程數目的度量。
(3)SVM算法要求的樣本相對比較少。
2.2 支持向量機算法的基本原理
SVM以結構風險最小化為理論基礎,以尋找最優分割超平面進行建模,引入松弛變量和錯誤代價系數處理數據不可分和存在噪聲的情況。這使其在訓練樣本有限的情況下能夠有效避免過擬合問題,從而提高算法的泛化性能。
2.3 最優分類超平面
支持向量機中最簡單也是最早提出的模型是最大間隔分類器。最初僅用于處理兩類分類問題,核函數的引入使其具有構建非線性分類邊界的能力。通過尋找一個分類超平面,能夠使支持向量和超平面最小距離的最大。支持向量機通過對分類間隔最大化來控制泛化能力,將二維空間推廣到高維空間,最優分割線就成為最優分類面,即最優超平面。
2.4 核函數及其特征空間
支持向量機中研究的兩個關鍵因素分別是數學規劃及核函數問題。通過引用核函數,將當前維度下線性不可分的訓練數據映射到更高維度的特征空間,將問題轉化為高維空間中線性可分問題,然后構建相應的分類超平面。
核函數的選擇一般考慮使用徑向基函數。其關系到支持向量機的性能,只要參數選擇合適,支持向量機可以對任意具有這一性質的數據集進行分類。
3 SVM和神經網絡對比分析
3.1 非線性學習能力
隨著理論的逐步發展,由于核函數的引入,支持向量機通過變換將非線性輸入映射到高維特征空間,然后再進行最優化求解,使其有效的處理非線性學習問題。
神經網絡由大量神經元組成,自身是非線性的。并且非線性是一種分布于整個網絡中的特殊性質。正是由于神經網絡的這種非線性性質,使得它表現出復雜的智能處理能力和非線性處理能力,并成功應用于多個領域。
3.2 模型結構
神經網絡是一種層次網絡結構,可分為輸入層、卷積層、池化層、全連接層及輸出層等部分。
支持向量機的模型結構與神經網絡的模型結構相類似,它相當于一個隱層的三層BP網絡,在支持向量機中的支持向量對應于神經網絡中的隱含層。
3.3 神經網絡的特點
神經網絡在生物神經學研究基礎上提出,是對人腦神經組織結構和行為的模擬。神經網絡通過使用計算單元間的相互連接來獲得好的學習結果。其計算能力有以下特點:大規模并行分布式結構;具有自適應性和容錯能力,可以實現聯想記憶以及聚類等自組織學習;理論上神經網絡可以逼近任何的連續函數,若神經元足夠多,還可以逼近任何具有有限斷點的非連續函數;一般在小樣本情況下,經驗風險與實際風險的差異比較明顯,學習效果不佳。
3.4 支持向量機的特點
系統結構簡單,無需過多的先驗知識;SVM以統計學中結構風險最小化為理論基礎,以尋找最優分割面進行建模,通過引入松弛變量和的撒四家系數避免出現過擬合的問題;支持向量機通過最優超平面進行學習,具有全局最優性。
4 總結
本文的主要內容包括:關于深度學習的神經網絡以及傳統機器學習算法支持向量機的發展現狀;對支持向量機中的發展、算法理論以及重要部分作出分析研究;分析比較支持向量機以及神經網絡這兩種應用廣泛的學習機器進行全面的性能比較,并深入分析了支持向量機的良好學習性能和具有的諸多優勢。
參考文獻:
[1] 張學工譯.統計學理論的本質.北京:清華大學出版社,2000,1-226
[2] 曾志華,張銀奎譯.機器學習.北京:計協工業出版社,2003,1-13
[3] 范勝龍,茹凱麗,陳巧燕.清華大學資源與環境學院,基于BP神經網絡和支持向量機的農用地分等方法研究
[4] 郭月,基于SVM的高分圖像自動分類算法研究與系統實現
[5] VAPNIK V N. 統計學習理論的本質[M],張學工,譯. 北 京:清華大學出版社,2000:2 -6.
[6] 宋杰,唐煥文. 基于線性規劃的支持向量機分類器,大連理工大學學報,2005,45
[7] 閻威武,支持向量機理論、方法與應用研究[上海交通大學博士學位論文],上海:上海交通大學電子信息與電氣工程學院,2003,89,106
[8] 張小云,劉允才,高斯核支撐向量機的性能分析,計算機工程,2010,29(8)22-25
(作者單位:鄭州大學軟件與應用科技學院)