999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

第二十六講 支持向量機(SVM)簡介及DPS應用操作

2018-09-01 06:20:16徐靜安
關鍵詞:分類

徐靜安 吳 芳

2014年11月上?;ぱ芯吭夯瘷C所組織學術報告會,在彭東輝副總征集的論文集初稿中讀到“難過濾物料過濾過程的理論研究與實踐”。在實驗數據處理部分采用比較前沿的數據驅動算法之一的支持向量機(SVM)算法對實驗數據進行非線性求解,預測一定過濾條件下的濾餅過濾性能。

筆者曾帶教2009級學術碩士陳玉巖,該同學學習能力較強,探索應用人工神經網絡及遺傳算法技術,“倒逼”導師學習,教學相長。由此我惡補了幾本書,其中人工神經網絡著作的部分內容涉及SVM算法,所以看到上?;ぱ芯吭喉椖繎肧VM的信息,盡管“小荷才露尖尖角”,也是倍感興奮的。

兩年前吳芳碩士從天津大學畢業來上?;ぱ芯吭汗ぷ?,我曾調閱她的碩士論文《橡膠混煉過程在線質量監控技術的應用研究》,了解到她有應用數學基礎。我就主動聯系,希望我們把SVM算法靜下來再學習,加深理解,以利于推廣應用,以免“以其昏昏,使人昭昭”。

為此,她先后幫我下載了兩本專著:鄧乃揚、田英杰著《數據挖掘中的新方法——支持向量機》(科學出版社,2004年出版);李國正、王猛、曾華軍譯《支持向量機導論》(電子工業出版社,2004年出版)等。我推薦她閱讀《DPS數據處理系統——實驗設計、統計分析及數據挖掘》第43章“神經網絡和支持向量機”,以及周春光、梁艷春編著的《計算智能——人工神經網絡、模糊系統、進化計算》(吉林大學出版社,2009年)等。我們還多次討論了SVM算法原理、應用案例、不同計算方法的比較分析。

自2014年12月至今,在我工作摘記中有記載的討論共有13次,所以我們共同完成本講座的講義編寫。

一 支持向量機的概念和原理

計算智能(Computational Intelligence,CI)通俗來講是指:不依賴于專業知識或經驗,不需要事先知曉系統或過程的精確數學模型,而是從數據的角度出發對系統或過程進行分析的技術。

SVM(Support Vector Machine)是計算智能范疇中一種較常用的算法,由Corinna Cortes和Vapnik等在20世紀90年代提出。SVM基于統計學習理論,其基本思想是利用有限的數據,在模型的復雜性(回歸問題中指方程的顯著性)和預測能力(回歸問題中指方程的預測精度)之間尋求最佳折衷,目的是使模型具有最好的泛化推廣能力。實現方法是尋找一個滿足分類要求的最優分類超平面,使得該超平面在保證分類精度的同時,能夠使其兩側的空白區域最大化。SVM在解決小樣本、多因素、非線性問題中表現出特有的優勢,是一種數據驅動算法。SVM常用于模式分類(支持向量分類Support Vector Classification,SVC)和非線性回歸(支持向量回歸Support Vector Regression,SVR),本文重點討論SVM用于SVR。

1SVM的由來——解決線性分類問題

SVM是從線性可分情況下的最優分類面(在二分類問題中即為分類線)發展而來的,基本思想見圖1。以二分類為例,要求分類線不但能將兩類正確分開(分類錯誤率為0),而且保證兩類之間的分類間隔最大,該分類方法稱為最大間隔分類法。其中H為分類線,H1,H2分別為過各類中離分類線最近的樣本且平行于分類線的線,同時要保證分類線H離H1,H2是等距的,它們之間的距離叫做分類間隔(margin)。推廣到多類分類問題中,就是尋找最優分類面或分類超平面。

圖1 SVM算法的最優分類平面

設訓練集{xi,yi},xi是特征變量,yi是樣本對應的類別標簽:當樣本xi屬于第一類時,yi為+1;當xi屬于第二類時,yi為-1。將最優分類面方程定義為w·x+b=0,其中w是法向量(亦可稱為權重向量),b是截距(亦可稱為偏置),則有:

分類面H滿足其到H1和H2之間的間隔相等且最大的條件,根據距離公式得到分類間隔H1與H2之間的距離為2/||w||,將目標函數定為:求2/||w||的最大值,即等價于求min||w||2的最小值,那么分類問題可以表達成:

其中||w||為二階范數,表示向量w的長度。

采用拉格朗日方法求解上述不等式,由于直接處理不等式約束比較困難,通常將拉格朗日原始問題進行對偶處理(對偶方法可以減少未知量個數,保證數據總以成對的內積形式出現,為后面核函數的引入提供可能),并求解得到:

可以看出w,b(分類平面)僅僅依賴于拉格朗日乘子αi不為零的輸入點,因此將αi≠0對應的輸入xi稱作支持向量。由圖1可以直觀地看出,在輸入樣本中,僅有部分輸入xi為支持向量(加黑的點)對算法作出貢獻,具有稀疏性。支持向量這個特性的物理意義就是遠離分類平面的數據點將不影響分類結果,所以可用于小樣本問題。至此分類平面已求出,即建立了二分類的線性分類器,三類及以上分類問題的求解同上述方法一致。

2SVM推廣到非線性分類——引入核函數(Kernel Function)

實際上,大多數據之間都存在非線性關系,如圖2(a)所示,二維空間中的兩類非線性相關的數據無法用任意方向的一條直線區分開來。這種情況下,采用支持向量機進行分類需要引入核函數。

Φ為非線性映射函數:x→Φ(x∈X為原始低維空間,Φ∈F為高維空間),如果輸入空間中的函數K(xi,xj)等于變換后的特征空間中的內積,即滿足K(xi,xj)=〈Φ(xi),Φ(xj)〉,則為核函數。

也就是核函數K(xi,xj)可以實現將低維輸入空間中的非線性問題轉換為高維特征空間中的線性問題來求解,如圖2(b)所示,二維數據映射到三維空間后,可以通過一個分離超平面實現類別劃分。接下來只需要在高維特征空間中利用類似線性求解分類平面的方法進行求解,即可以解決該非線性分類問題。

圖2 非線性問題到線性問題的轉換

核函數將高維空間的內積運算轉化為低維輸入空間的核函數計算,那么計算時只需要確定核函數K(xi,xj),而不需要知道映射函數Φ(x),從而巧妙地避免了在高維特征空間中容易產生的“維數災難”等問題。

常用核函數有以下幾種:

多項式核函數K(xi,xj)=[(xi,xj)+c]d,d=1為線性核函數,d>1為多項式核函數

高斯核函數K(xi,xj)=exp[-(||xi,xj||2)/2σ2],又叫徑向基函數(Radial Basis Function,RBF)。

Sigmoid核函數K(xi,xj)=tanh(p<xi,xj>+c),S曲線函數。

σ,c都是核函數的參數,簡稱核參數,主要影響樣本數據在高維特征空間中分布的復雜程度,從而決定置信范圍,最終影響結構風險范圍。核參數的取值通常根據經驗而定,對RBF核函數,σ取值在0.5~2之間。

選擇一個恰當的內積核,SVM就可以自動計算所有重要的網絡參數,如選RBF核函數,那么SVM的體系結構——網絡中RBF函數的數目和它們的中心、線性權值和偏置水平都自動計算生成。

為了直觀地理解SVM的體系結構,引用Simon Haykin著,葉世文、史忠植譯《神經網絡原理》,體系結構圖示見圖3。

圖3 支持向量機的體系結構圖

3SVM求解近似線性可分問題——引入松弛變量

對于近似線性可分的問題(包括線性問題或通過核函數將非線性問題映射到高維空間中的線性問題),由于各種原因,數據存在離群點或壞點,導致任何劃分超平面都不能達到正確分類。如圖4所示,框和圈是不同的兩類,在H1面右上方的一個框偏離了自己原本所應該在的半個空間,如果直接忽略,H可以認為是分類平面,那么該分類問題可以很容易地得到解決,但是由于該壞點的出現無法構造分類超平面。而且在計算的時候,數學方法無法辨認出壞點或離群點,此時分類問題容易受極少數點的干擾。解決方法是允許一些點到分類平面的距離不滿足原先的要求,在約束條件中引入容錯性,給閾值加一個松弛變量,即允許y[i(wx)i+b]≥1-ζi,ζi>0。松弛變量的值表示允許對應的點離群有多遠,值越大,表示離群越遠。同時松弛變量 ζ=(ζ1,ζ2,...,ζ)iT的引入體現了訓練集允許被錯分的情況,放棄了對離群點的精確分類。采用 ξi作為度量,描述訓練集被錯分的程度,那么錯分程度 ξi最小化也應該是目標函數之一,近似線性可分問題變為:

圖4 近似線性可分問題

C為懲罰參數,是用戶事先給定的值,它決定了離群點帶來的損失,是間隔的最大化與分類誤差之間的折衷,可以理解為權重。C值定得越大,表示越不想放棄離群點,最極端的情況是把C定為無限大,這樣只要有一個離群點,目標函數的值馬上變成無窮大,問題就無解了,C值的選取在后面有介紹。

近似線性可分問題的優化式與線性可分問題的形式相近,同樣采用拉格朗日法進行求解。

4SVM解決回歸問題——ε不敏感損失函數的引入

回歸問題中訓練集 {xi,yi},xi為輸入或影響因素,yi為輸出或指標,求解回歸問題就是尋找一個實值函數f(x)來表示x與y之間的對應關系。實際上回歸問題是分類問題的延伸,不同的是,回歸問題中yi并不限定取1或者-1,而是實際測量或記錄的目標函數值。

在SVM的回歸問題中,輸出是實值,輸出值與實測值之間的偏差不再是離散的,需要定義一個損失函數,這個損失函數可以忽略真實值上下一定范圍內的誤差。最常采用的是ε不敏感損失函數,該函數認為在ε不敏感區內的訓練點誤差為0,這個概念和經典的基于最小二乘法的回歸處理是截然不同的。以一般線性回歸問題為例,如圖5所示,在ε不敏感帶內的樣本點(xi,yi)不會影響決策函數f(x)。ε不敏感損失函數的范圍為|y-f(x)ε|=max{0,|y-f(x)|-ε}。

圖5 ε不敏感帶

由于最小二乘估計算法對離群點非常敏感,SVR求解非線性回歸的魯棒性——穩健性算法是利用絕對誤差作為被最小化的量,構成損失函數。

對于非線性回歸問題,同非線性分類問題一樣,采用核函數將低維輸入空間中的非線性問題映射到高維空間中,使之成為線性問題,再采用求解線性回歸問題的方法進行求解即可。

5SVM的特點

相比其他統計學習方法,SVM有其獨特之處,具體表現如下:

(1)SVM建立在結構風險最小化原則的基礎上,其他統計學方法,如神經網絡的優化目標是基于經驗風險(學習誤差)最小化,容易陷入局部最優,訓練結果不穩定,需要大量樣本才能得到較好的統計效果。結構風險最小化包括兩方面:一是經驗風險(學習誤差)最小化,SVM尋找最優分類超平面滿足分類精度,使經驗風險最??;二是置信范圍最小化(學習機器的復雜性),采用支持向量作為分類的依

應用處理線性可分問題的最大間隔法構造回歸問題中的超平面,成為最大間隔回歸法,經過推導,求回歸問題轉化為如下最優化問題:據,滿足學習機器簡單。因此計算不會陷入局部極值,避免了過學習和欠學習問題,且推廣能力好。

(2)SVM適用于求解全局最優化問題,算法求解的是一個凸優化問題,局部最優解一定是全局最優解。

(3)核函數的引入,將低維空間中的非線性數據映射到高維空間,解決了非線性不可求解的問題,且不增加可調參數的個數;同時只需要確定輸入空間的核函數,計算速度不受維數大小的影響,避免了在高維特征空間中計算的“維數災難”問題;根據選取核函數形式的不同,可以有效地解決線性和非線性回歸和分類問題。

(4)適用于求解小樣本問題:SVM基于結構風險最小化原則,泛化能力強,算法具有全局最優性,是針對小樣本統計的理論。

(5)SVM可用于解決缺失數據問題:在工程實際中,由于各因素的影響,如測量難度大、成本高、人為因素等都可能會導致數據缺失,一般的回歸算法都不能直接處理數據缺失問題,SVM可以用于缺失問題的求解。

(6)當然,SVM算法也有其局限性,具體表現在兩方面:核函數和核參數的選取在更大程度上依賴于對計算結果的分析和經驗;求解二次規劃涉及N階矩陣的計算(N為樣本個數),當N數目很大時,N階矩陣的存儲和計算將耗費大量的機器內存和運算時間。因此樣本量較大時,SVM算法計算速度較慢。

二 DPS數據處理系統中SVR操作界面

在DPS電子表格中,SVR分析數據的格式為數據按一行一個樣本、一列一個變量的格式依次輸入,最右邊一列為輸出指標(因變量),并選中數據,以便分析。對于待判別樣本,可按下Ctrl鍵的同時,選中第2個數據塊。然后在菜單下選擇“多元分析”-“支持向量機(SVM)”-“SVM回歸”,這時系統會出現圖6所示用戶界面。

1SVR 的類型

SVM回歸常用ε-SVR回歸和ν-SVR回歸,兩種回歸算法的概念、原理相同,ν-SVR是ε-SVR的一種變形,差異是:在ε-SVR回歸中,通過設置ε-數據不敏感波動帶影響決策函數;在ν-SVR回歸中,通過控制支持向量數量(支持向量個數占訓練樣本的百分比)來影響決策函數。在DPS系統中默認ε-SVR回歸。

2核函數類型

引入核函數把低維空間中的非線性問題轉化為高維空間中的線性問題,不同的核函數就有不同的映射、不同的內積,及最終不同的計算結果。DPS系統默認的是RBF核函數。如果在RBF函數應用效果不佳時,再試用Sigmoid核函數等。

3 計算參數

(1)degree,只有選擇核函數為多項式時,此值起作用,設置默認為3,表示多項式的階數或次方數,即三次多項式的處理精度已經足夠;(2)Gamma,核函數選為RBF時,本文高斯函數與DPS系統中的計算參數關系γ=,σ 取值 0.5~2,設置默認為 γ=0.5;(3)coef0,核函數為多項式時,計算參數c=0為齊次多項式,c>0為非齊次多項式;核函數為 Sigmoid 時,c>0,默認為 0.001;(4)cost,支持向量ε-SVR回歸和ν-SVR回歸中的懲罰系數C取值范圍為(0,100],取值大小決定離群點對決策函數的影響:對社會統計性數據,通常取0.5~1,默認為1;對誤差相對可控的實驗數據可取較大值,僅有限的小樣本,生成更多的支持向量,擬合預報更穩定;(5)nu,ν-SVR回歸中的參數,控制支持向量數量,取值范圍為(0,1],默認為0.5,表示支持向量達到樣本量的50%。其它省缺值大都和計算內存、計算迭代精度及輸出有關,按DPS系統默認值選用。其中shrinking指是否使用啟發式,即SVM有啟發式選擇算法,能提高優化目標函數時迭代的收斂速度,默認為1,意為使用啟發式算法的功能。

三 計算實例——橡膠質量參數的預測

案例數據選自吳芳(天津大學)碩士學位論文“橡膠混煉過程在線質量監控技術的應用研究(2013)”中的部分數據。

門尼黏度是橡膠質量檢測的關鍵參數,它是衡量膠料黏度特性、可加工特性和壓延特性等多方面性能的綜合物性指標。門尼黏度的測量十分復雜,且存在嚴重的測量滯后,不能有效地指導實際生產。流變參數作為混煉膠的另一個重要性能參數可以由在線流變儀測量得到(約2 min之內準確測得),用于制造半鋼子午線輪胎的橡膠流變參數主要包括5個,具體參數含義由表1所示。

表1 混煉膠流變參數含義表

考慮到門尼儀和流變儀工作原理的相似性,門尼黏度與流變參數之間必然存在著很強的相關性。因此可以采用數學方法建立門尼黏度和流變參數之間的回歸模型或方程,用可以在線獲得的參數對難測量參數進行預測,減輕繁重的測試工作量、節約生產成本。

在化工科研、生產中存在難測量參數、測量周期長、結果滯后、破壞性檢測、測量成本高等現象,根據不同專業建立間接測量方法是共性的需求。

表2為混煉膠的20組實測數據,其中5個流變參數作為因素,門尼黏度作為考核指標。分別采用二次多項式逐步回歸算法和SVM對前16組數據進行回歸模型建立,用后4組數據對模型精度進行測試。

1 二次多項式逐步回歸算法計算結果

DPS數據處理系統中進行二次多項式逐步回歸計算的步驟如下:

(1)打開DPS數據處理系統。

(2)將20組數據輸入工作窗口中的電子表格,鼠標左鍵框選前16組數據。

(3)點擊菜單欄“多元分析”-“回歸分析”-“二次多項式逐步回歸”,出現如圖7中的子選擇窗口。

表2 混煉膠質量參數數據表

(4)如果因子的p<0.05,則引入變量,選擇Yes,否則選No,直至選擇完畢,點OK。最終計算結果在新生成的一頁表格中顯示出來,如圖8所示。

圖7 因子選擇窗口

計算得到回歸方程:

Y=7.196 400 96+1.601 129 519 2×X4+

方差分析結果(見表3)。

回歸系數顯著性檢驗結果(見表4)。

回歸方程顯著性檢驗結果(見表5)。

回歸方程對17~20組數據的預測結果見表6。

表3 方差分析表

表4 回歸系數顯著性檢驗表

表5 回歸方程顯著性檢驗表

表6 回歸方程對17~20組數據的預測結果

2 SVR預測結果

DPS數據處理系統中進行SVR計算步驟如下:

(1)打開DPS數據處理系統。

(2)選中訓練和測試樣本:鼠標左鍵選中前16組數據作為訓練樣本,按Ctrl繼續選中后4組數據的輸入參數作為測試樣本。

(3)在菜單欄點擊“多元分析”-“支持向量機(SVM)”-“SVM回歸”,出現SVR參數設置窗口,如圖9所示。

SVM TYPE默認ε-SVR回歸,核類型默認RBF核函數,此時需要設置的參數為Gamma和Cost,取Gamma=0.3(σ=1.3),Cost=20,點“確定”進行計算,在新生成一頁電子表格中顯示SVR回歸計算結果。

相關系數R=0.980 2,決定系數R2=0.960 8。

(4)SVR對17~20組數據的預測結果見表7。

圖9 SVR參數設置窗口

表7 SVR對17~20組數據的預測結果

3 預測結果對比

將上述二次多項式逐步回歸和SVR方法對17~20組橡膠混煉數據的門尼黏度預測結果進行對比,結果如表8所示。

表8 17~20組橡膠混煉數據的門尼黏度預測結果對比

根據經驗規則,對沒有試驗設計為基礎的隨機樣本進行回歸統計建模時,要求樣本量N≥5 m(m為變量個數)。本例中的橡膠混煉數據包含5個因素,訓練樣本為16組數據,因此可認為是小樣本數據。從計算對比結果可以看出,針對這組數據,用SVR算法的R值及預測結果驗證S值明顯優于二次多項式逐步回歸算法。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 欧美特级AAAAAA视频免费观看| 国产精品一区在线观看你懂的| 久久香蕉国产线看观看亚洲片| 国产白浆在线观看| 国产在线日本| 92午夜福利影院一区二区三区| 无码AV高清毛片中国一级毛片| 国产真实乱子伦视频播放| 亚洲成人精品久久| 中文一区二区视频| 国产三级毛片| 91视频99| 免费又黄又爽又猛大片午夜| 四虎国产成人免费观看| 中文字幕乱码中文乱码51精品| 国产在线小视频| 91视频国产高清| 成人亚洲天堂| 欧美中文字幕无线码视频| 美女高潮全身流白浆福利区| 四虎精品黑人视频| 久久亚洲国产一区二区| 第九色区aⅴ天堂久久香| 亚洲区一区| 国产成人狂喷潮在线观看2345| 中字无码精油按摩中出视频| 国产毛片一区| 曰韩免费无码AV一区二区| 国产麻豆aⅴ精品无码| 久久永久视频| jizz国产在线| 久久综合九九亚洲一区| 欧美不卡二区| 国产精品成人久久| 亚洲欧美另类日本| 亚洲h视频在线| 扒开粉嫩的小缝隙喷白浆视频| 国产区免费精品视频| 91年精品国产福利线观看久久| 欧美色图第一页| 无码aaa视频| 成人永久免费A∨一级在线播放| 久久先锋资源| 久久国产亚洲欧美日韩精品| 亚洲第一福利视频导航| 久久精品欧美一区二区| 亚洲自拍另类| 日韩成人免费网站| 真人高潮娇喘嗯啊在线观看 | 日本欧美成人免费| 日日拍夜夜操| 高清色本在线www| 亚洲一区二区三区麻豆| 中文字幕有乳无码| 亚洲第一黄色网| 在线日本国产成人免费的| 992Tv视频国产精品| 国产亚洲欧美在线中文bt天堂| 成年A级毛片| 欧美成人国产| 色天天综合久久久久综合片| 99这里只有精品免费视频| 国产成人三级| 久久99国产乱子伦精品免| 日韩福利在线观看| 91精品aⅴ无码中文字字幕蜜桃 | 在线观看热码亚洲av每日更新| 青青草a国产免费观看| 国产成人1024精品| 成人午夜久久| 欧美另类一区| 精品91自产拍在线| 国产成人1024精品| 四虎永久免费地址| 国产亚洲精| 日韩欧美中文在线| 国产欧美日韩专区发布| 国产毛片高清一级国语 | 亚洲中文字幕在线观看| 日韩AV无码一区| 亚洲精品免费网站| 亚洲国产精品一区二区第一页免 |