王閃
[摘 要] 支持向量機是借助于最優(yōu)化方法解決機器學習問題的新工具,它最初于20世紀90年代所提出,近年來在其理論研究和算法實現(xiàn)方面都取得了突破性進展,開始成為克服“維數(shù)災(zāi)難”和“過學習”的有力手段。文章基于對支持向量機的理解,整理了在SAS軟件中支持向量機的不同應(yīng)用的研究文獻,以期對信息管理方法研究提供參考。
[關(guān)鍵詞] SAS 支持向量機 核函數(shù) 信息管理 管理科學
中圖分類號:TP391.42 文獻標志碼:A
隨著科學技術(shù)的發(fā)展,人們的學習與生活方式發(fā)生了很大變化。如何將數(shù)以萬計的數(shù)據(jù)轉(zhuǎn)換為有價值的信息,正逐漸受到各個行業(yè)研究者的重視。那么怎樣從大量的數(shù)據(jù)中挖掘到有用的信息,則成為巨大的挑戰(zhàn)。在數(shù)據(jù)統(tǒng)計分析的方法中,支持向量機已經(jīng)被應(yīng)用到多個領(lǐng)域,支持向量機在解決高維及非線性模式問題中有著顯著的優(yōu)點,而SAS系統(tǒng)具有完備的數(shù)據(jù)處理、分析、呈現(xiàn)及開發(fā)功能,能夠進行市場調(diào)查、統(tǒng)計分析、預(yù)測和質(zhì)量控制。
一、相關(guān)知識
(一)SAS系統(tǒng)簡介
SAS系統(tǒng)(Statistics Analysis System)是大型的集成化信息系統(tǒng),產(chǎn)生于1976年。發(fā)展至今,SAS的功能漸進完善并被大家所認同,使用領(lǐng)域遍及醫(yī)療、工業(yè)、運輸、教育科研等。SAS由多個功能模塊構(gòu)成,最基本的模塊是BASE SAS模塊。SAS可以繪作統(tǒng)計圖,進行統(tǒng)計分析,提供各種統(tǒng)計函數(shù),用戶也可以根據(jù)需求進行數(shù)據(jù)的處理和統(tǒng)計研究。
(二)支持向量機簡介
支持向量機(Support Vector Machine, SVM)是一種在最小化原則上建立起來的機器學習方法。它能夠在復(fù)雜性模型和學習能力之間找到最優(yōu)解,避免陷入局部最優(yōu)解的問題中,也能防止出現(xiàn)神經(jīng)網(wǎng)絡(luò)算法的“過學習”狀況。支持向量機有一個主要的函數(shù)-核函數(shù),它實現(xiàn)了將非線性轉(zhuǎn)換成線性的功能,所以它能夠有效地處理線性和非線性的回歸問題。目前,應(yīng)用最多的有人臉識別、文本分類、計算機視覺及石油化工等領(lǐng)域。圖1為支持向量機的實施步驟。
二、實際案例中支持向量機與SAS的結(jié)合應(yīng)用
支持向量機與SAS的結(jié)合使用是一種新的綜合方法,但可以參考的文獻較少,本節(jié)對已有的文獻進行簡單闡述,以期為之后的研究學習提供理論基礎(chǔ)。
(一)交通行業(yè)交通流預(yù)測——基于SARIMA和SVM模型的短時交通流預(yù)測
支持向量機將完備的學習能力和SAS的統(tǒng)計分析進行結(jié)合,對交通流進行了預(yù)測。交通流具有周期性和隨機性,選用了SARIMA模型進行建模,對構(gòu)建模型過程中的模型識別、參數(shù)估計、診斷檢驗、模型優(yōu)化等步驟分別進行闡述,并使用SAS軟件編程實現(xiàn)了預(yù)測。
本研究一開始就對時間序列分析之前的兩種檢驗(平穩(wěn)性檢驗、隨機性檢驗)、序列非正態(tài)性及殘差異方差性進行了介紹,之后選用了SARIMA模型進行建模,對構(gòu)建模型過程中的模型識別、參數(shù)估計、診斷檢驗、模型優(yōu)化等步驟分別進行了闡述,最后將支持向量機與SAS進行了結(jié)合使用,實現(xiàn)對短時交通流的預(yù)測分析[1]。
(二)工業(yè)工程領(lǐng)域——結(jié)合回歸分析與改進GASAR的風機噪聲預(yù)測
SAS有著強大的數(shù)據(jù)處理和分析能力,利用SAS可以計算出條件指數(shù)和方差膨脹因子,對樣本進行統(tǒng)計分析,可找到數(shù)據(jù)的異常點,提高預(yù)測的精度。之后與支持向量機回歸進行了結(jié)合使用,判斷共線性問題,保證了數(shù)據(jù)的精準性和有效性。本研究應(yīng)用線性回歸(SAS)和遺傳算法(支持向量機回歸)相結(jié)合的方法對風機的噪聲進行了預(yù)測[2]。
此外,本研究針對傳統(tǒng)的GA-SAR模型進行改進,選用回歸分析,并且對樣本數(shù)據(jù)實現(xiàn)了降維處理,建立了預(yù)測分析模型。
(三)醫(yī)學研究領(lǐng)域——基于支持向量機模型預(yù)測結(jié)直腸癌根治術(shù)預(yù)后風險
本研究運用SAS對樣本進行統(tǒng)計分析,對數(shù)據(jù)進行了描述;使用卡方檢驗方法對數(shù)據(jù)的分化程度、類型、分期、是否化療/放療進行了差異性分析,把差異性因素做了回歸logistic處理。
支持向量機預(yù)測模型的基本原理是先對于多分類的問題設(shè)置訓(xùn)練個數(shù),且SVM要找到一個最優(yōu)的分類平面,將兩類樣本分成兩個平面。但一般情況下,數(shù)據(jù)有所重疊,這時需要運用支持向量機的核函數(shù),核函數(shù)可以將樣本點映射到高維空間,實現(xiàn)數(shù)據(jù)的分離,最后得到兩個完全的分類平面[3]。
(四)用戶行為偏好——基于支持向量機的移動互聯(lián)網(wǎng)用戶行為偏好研究
本研究對數(shù)據(jù)進行了統(tǒng)計分析,采用離散選擇模型分析了變量之間的關(guān)系,對有顯著影響的用戶行為因素進行了解釋,之后運用支持向量機模型對用戶行為的偏好進行了分類處理,尋找出最優(yōu)的參數(shù)組合,對比不同核函數(shù)和參數(shù)分類的效用。
本研究運用SAS系統(tǒng)進行了預(yù)測分析,采用Fisher評分優(yōu)化法,得到一個二元模型,從而可以得到用戶行為的偏好。SAS系統(tǒng)還可以生成最大似然估計值分析表、優(yōu)比估計值表、預(yù)測概率和觀測響應(yīng)的關(guān)聯(lián)表,得出相關(guān)的研究結(jié)論[4]。
(五)醫(yī)學統(tǒng)計研究應(yīng)用——核主成分回歸方法在特征提取和預(yù)測方面的研究及其在醫(yī)學中的應(yīng)用
本研究運用支持向量機的核函數(shù)進行了數(shù)據(jù)的主成分分析,對復(fù)雜的樣本數(shù)據(jù)進行了特征提取,并運用混沌時間序列對非線性數(shù)據(jù)進行了回歸分析,由線性擴展到了非線性。本研究使用SAS、MATLAB和LIBSVM等軟件分析了醫(yī)學案例,對比其他提取特征值的預(yù)測方法,最后將核函數(shù)的主成分分析方法應(yīng)用至醫(yī)學研究中,為醫(yī)學的統(tǒng)計研究找到了新的研究思路[5]。
(六)圖像信號應(yīng)用——統(tǒng)計方法在由心電圖判別疾病中的應(yīng)用
本研究主要探討統(tǒng)計方法在心電圖疾病判別中的應(yīng)用。首先對數(shù)據(jù)進行預(yù)處理,通過WFDB軟件檢測波QRS的邊界,使用SAS系 統(tǒng)軟件截取心拍數(shù)據(jù)進行相關(guān)特征的計算。分類方法涉及三類:支持向量機、馬氏距離判別分析及邏輯回歸。
在實際應(yīng)用中,可以使用SAS系統(tǒng)進行數(shù)據(jù)的判別分析和方差檢測,從而根據(jù)檢測結(jié)果選擇廣義的距離公式。選用逐步判別方法的基本思想和理論方法,對有顯著識別能力的特征變量進行識別[6]。
(七)預(yù)警技術(shù)應(yīng)用中——浙江省流感預(yù)警技術(shù)研究
本研究整理了流感的相關(guān)疾病信息和各類氣象信息,對兩者進行關(guān)聯(lián)分析,找到發(fā)生流感的關(guān)聯(lián)因素,使用多元線性回歸模型和支持向量機算法建立流感預(yù)警模型,之后通過歷史流感數(shù)據(jù)對新模型進行驗證分析。本研究采用Excel對數(shù)據(jù)進行了整理,采用SAS系統(tǒng)進行相關(guān)分析和多元線性分析,采用Matlab軟件進行支持向量機預(yù)測模型的建立[7]。
三、結(jié)語
SAS系統(tǒng)對初學者來說是一款容易上手的統(tǒng)計軟件,是國際上標準的統(tǒng)計分析軟件,編程代碼簡單,功能健全強大,堪稱統(tǒng)計分析、數(shù)據(jù)挖掘方面的巨無霸軟件。而支持向量機有很強的機器學習能力,能夠有效避免出現(xiàn)局部最優(yōu)解和過度學習的狀況。支持向量機與SAS系統(tǒng)的結(jié)合使用,可更高效地對數(shù)據(jù)進行統(tǒng)計分析,這兩種方法正逐漸被更多的研究者認可,可為今后在實際案例中的研究學習提供新的研究思路。
參考文獻:
[1]陸海亭.基于SAR IMA和SVM模型的短時交通流預(yù)測[D].南京:東南大學,2010.
[2]余金,何山,程靜,等.結(jié)合回歸分析與改進GA- SAR的風機噪聲預(yù)測[J].中國科技論文,2015(23):2805- 2809.
[3]杜成風,胡敏,何晶晶,等.基于支持向量機模型預(yù)測結(jié)直腸癌根治術(shù)預(yù)后風險[J].重慶醫(yī)科大學學報,2016(25):14- 15.
[4]董正浩.基于支持向量機的移動互聯(lián)網(wǎng)用戶行為偏好研究[D].北京:北京郵電大學,2014.
[5]李立科.核主成分回歸方法在特征提取和預(yù)測方面的研究及其在醫(yī)學中的應(yīng)用[D].太原:山西醫(yī)科大學,2010.
[6]黃榮.統(tǒng)計方法在由心電圖判別疾病中的應(yīng)用[D].上海:華東師范大學,2014.
[7]盧漢體.浙江省流感預(yù)警技術(shù)研究[D].杭州:浙江大學,2015.