王 玚
(哈爾濱師范大學附屬中學,黑龍江 哈爾濱 150004)
?
基于SVM的小樣本數據分析
王玚
(哈爾濱師范大學附屬中學,黑龍江 哈爾濱150004)
摘要:可靠性工程中,樣本數據越多,其分析、計算結果越可靠。而對于某些樣本容量較小的小樣本數據,如何有效利用小樣本數據的潛在信息進行分析,并保證分析結果的有效性就尤為重要。采用基于統計學習理論的機器學習算法——支持向量機(Support Vector Machine,簡稱SVM),根據有限的樣本信息,在最小化樣本點誤差的同時,提高模型的泛化能力,從而得到可靠的小樣本數據的分析結果。
關鍵詞:小樣本數據;SVM;數據分析
1引言
可靠性工程中,樣本數據越多,其分析、計算結果越可靠。而在不同的物理背景下,由于影響因素眾多或科學量測手段有限等原因,造成采集到的數據樣本容量較少。依據統計理論,這種小樣本數據由于數量少,反映出的信息量不足,不能明確其分布規律,無法判斷是否存在數據異常情況,若直接按傳統方法進行分析計算,其結果的可靠性難以保證,可能存在較大的統計誤差。
目前,對于小樣本數據的處理,一般有兩種思路。一種是提高小樣本數據的精度。常用的有Bayes方法,雖然該方法可以根據小樣本的先驗信息得到較好的數據概率估值,但在缺少先驗信息或數據可靠度不高等特殊情況下,其分析結果將出現較大的偏差。另一種是擴大小樣本數據的容量。常用的有Bootstrap方法。但該方法由于過分依賴原始樣本,將容易產生參數偏移,進而影響參數估計的穩健性。因此,為了彌補上述這些不足,本文采用的是同樣屬于擴大小樣本容量的SVM方法,這是針對小樣本數據進行統計分析和預測的一個可行的方法。
2SVM原理
傳統統計學是樣本數目趨于無窮大時的漸近理論,而實際上這是滿足不了的,因為樣本數目往往是有限的。因此,現代智能應用技術中出現了一種基于機器學習的方法,其主要研究如何從一些樣本出發得出目前不能通過原理分析得到的規律,利用這些規律去分析客觀對象,進而對未來數據或無法觀測的數據進行預測。
統計學習理論(Statistic Learning Theory:SLT)是一種專門研究小樣本情況下機器學習規律的基本理論和數學構架,也是小樣本統計估計和預測學習的最佳理論。
SVM法就是基于統計學習理論的機器學習算法——支持向量機(Support Vector Machine)的簡稱。
SVM最初是在研究線性可分問題時提出的。其基本思路是:假設大小為l的訓練樣本集{(x,y),i=1,2,…,l}由兩個類別組成。若xi屬于第一類,則記yi=1;若xi屬于第二類,則yi=-1記。如圖1所示。

圖1 線性可分示意圖

圖2 分類超平面優劣示意圖
若存在一分類超平面(wx+b=0), 能夠將樣本正確地劃分成兩類,即相同類別的樣本落在分類超平面的同一側,則稱該樣本集是線性可分的,即滿足方程(1)。
(1)
此時,所有樣本點到該分類超平面的幾何間隔距離就組成了間隔距離集合,此集合中存在一個樣本點,其到分類超平面的幾何間隔距離最短。這個最小間隔距離,影響著樣本分類的結果。根據統計理論,此過程中樣本的誤分次數N與該最小間隔距離δ 之間的關系滿足方程(2),為反比關系,即距離越大,樣本誤分次數越小。
(2)
式中:N為樣本的誤分次數;R為樣本集中向量長度最長的值,R=max││xi││,i=1,2,…,l;δ為樣本集中與分類超平面最近的樣本點的幾何間隔距離。
由公式(2)可知,誤分次數N的上界由δ決定。因此,在樣本分類過程中,滿足方程(1)的分類超平面是任意的,則對于同一批數據樣本,可以有無數個分類超平面,也就有無數個最小間隔距離。因此,能夠在無數個分類超平面中找到一個最優分類面,使得此時對應的最小間隔距離是其它情況中最大的,其誤分次數是最小的。例如,有一組數據由星形和圓形組成,其分布如圖3所示,圖中有三個分類超平面A、B、C,若選擇能更好區分兩種數據類別的超平面,則B要優于A、C。
一般,如果一組數據中的絕大多數樣本是線性可分的,僅有少數幾個樣本(可能是異常數據)可能出現尋找不到最優分類平面的情況,此時,可以引入松弛變量(又稱懲罰函數)來實現分類。
若對于非線性問題,則不能直接應用線性可分的SVM,需要將樣本數據進行非線性映射,通過使用非線性映射將低維輸入空間的樣本映射到高維特征空間使其變為線性情況(這個過程將應用到核函數),再在高維特征空間中尋找使訓練樣本誤差最小的最優分類超平面。這個最優分類面的數學函數即SVM訓練模型。
對于小樣本數據,若進行回歸擬合分析時,則此時SVM的基本思想不再是尋找一個最優分類面使得兩類樣本分開,而是尋找一個最優分類面,使得所有訓練樣本離該最優分類面的誤差最小。
SVM的求解問題最終將轉化為一個帶約束的二次規劃問題,這樣就得到了有限樣本情況下的全局最優解(模型)。又由于SVM分析是基于統計學習理論中結構風險最小化原則,即由有限的訓練樣本得到的小的誤差能夠保證使獨立的測試集仍保持小的誤差,這就使這個全局最優解(模型)具有良好的泛化能力。
3SVM應用步驟
SVM中機器學習的過程可以這樣理解:存在一個未知的系統S(因為小樣本數據量小,信息不足,故小樣本內部的規律認為是未知的。)給定的輸入樣本空間X和這些輸入樣本通過S處理后的輸出Y。利用機器學習的方法,根據給定和(利用前述尋找最優分類面的方法)得到一個學習機(即模型),學習機(模型)在接受訓練、測試樣本X以外的樣本X′后得到的輸出Y′可以被認為是未知系統S針對X′輸入所得到的輸出的近似,這個過程就可以增加小樣本數據的容量。故這個學習機(模型)可以認為是對S的內在規律的近似,尋找這個學習機(模型)的過程就變成了從這個函數集合中找出能最佳逼近輸入樣本的函數的過程。
針對研究問題,利用SVM建立模型并對模型的性能進行評價,大體上可以分為四個步驟,如圖3所示。

圖3 模型建立步驟
(1)產生訓練集/測試集
將樣本分成兩類,一類是訓練集,一類是測試集。在產生訓練集及測試集時,要求所產生的樣本數不宜太小,且應具有代表性。
(2)創建/訓練SVM模型
根據訓練集樣本進行訓練,得到SVM訓練模型。創建模型之前,如若需要,還應對數據進行歸一化,并需要確定核函數類型及選擇較好的參數。
(3)仿真測試
將測試樣本輸入SVM訓練模型,得到模型預測值及相對應的評判參數值。一般回歸模型將得到測試集中的均方誤差和決定系數。
(4)性能評價
若模型的性能沒有達到預期,則需要通過重新選擇訓練集、修改模型參數或核函數類型等方法重新建立模型,重復(3)、(4)步驟,直至滿足預期要求。
4結語
本文分析了小樣本數據的特點,揭示了目前小樣本數據常用分析方法中存在的不足,并較為詳盡的介紹了SVM的原理及分析思路,給出了基于SVM的小樣本數據分析方法的應用步驟,為相關從業人員進行小樣本數據的分析研究提供了一種行之有效的方法。
參考文獻:
[1]瓦普尼克.統計學習理論的本質[M].北京:清華大學出版社,2000.
[2]Vapnik VN. The Nature of Statistical Learning Theory[M]. NewYork: Springer-Verlag, 1995.
[3]鄧乃揚,田英杰.支持向量機[M].北京:科學出版社,2009.
收稿日期:2016-02-15
作者簡介:王玚(1998-),女,哈爾濱師范大學附屬中學學生。
中圖分類號:U415.1
文獻標識碼:C
文章編號:1008-3383(2016)04-0149-02