摘要:文章討論了基于分類的SVM非線性回歸算法及其在時(shí)間序列預(yù)測(cè)中的應(yīng)用。與傳統(tǒng)SVM回歸算法相比,本算法有更強(qiáng)的不敏感性和健壯性、參數(shù)值可設(shè)定性并可避免過擬合現(xiàn)象。文中提出了一種計(jì)算預(yù)測(cè)模型初始參數(shù)值的方法,可以高效地找到較好的模型參數(shù),并通過實(shí)驗(yàn)對(duì)方法的有效性和可行性進(jìn)行了驗(yàn)證。
關(guān)鍵詞:SVR(支持向量回歸);時(shí)間序列;回歸算法;訓(xùn)練算法;核函數(shù)
一、 引言
預(yù)測(cè)是作為決策、規(guī)劃之前的必不可少的重要環(huán)節(jié),是科學(xué)決策、規(guī)劃的重要前提。時(shí)間序列預(yù)測(cè)是預(yù)測(cè)領(lǐng)域內(nèi)的一個(gè)重要研究方向,在過去的半個(gè)多世紀(jì)里得到了迅速的發(fā)展,特別是對(duì)線性時(shí)間序列分析的研究,已取得了系統(tǒng)和豐富的成果。但是,對(duì)于非線性時(shí)間序列分析的研究,僅在近二十年里才逐漸被重視起來。綜觀國(guó)內(nèi)外在這一方向上的研究概況,前期工作大多局限于對(duì)幾類典型非線性時(shí)間序列模型的參數(shù)辨識(shí)算法和建模方法等進(jìn)行研究,然而,由于現(xiàn)實(shí)系統(tǒng)的復(fù)雜性,人們?cè)陬A(yù)測(cè)時(shí)存在著正確選擇模型的困難,便利這些方法的應(yīng)用受到很大的限制。于是,人們把目光轉(zhuǎn)向了近年來興起的人工神經(jīng)網(wǎng)絡(luò)模型。傳統(tǒng)的時(shí)間序列預(yù)測(cè)采用的是統(tǒng)計(jì)和神經(jīng)網(wǎng)絡(luò)等方法,如YiMin Xiong,Di-Yan Yeung的文章Time series clustering with ARMA mixtures中用的ARMA方法和Ildar Batyrshin, Raul Herrera-Avelar等的文章 Association Network in Time Series Data Mining中使用的一種關(guān)聯(lián)網(wǎng)絡(luò)方法。統(tǒng)計(jì)建模方法要求時(shí)間序列具有平穩(wěn)性、正態(tài)性、獨(dú)立性,這個(gè)方法不適用于復(fù)雜時(shí)間序列。SVM具有很好的非線性逼近能力,但它存在模型結(jié)構(gòu)難以確定,易出現(xiàn)過度訓(xùn)練或訓(xùn)練不足,陷入局部最小且對(duì)連接權(quán)初值敏感,并過度依賴設(shè)計(jì)技巧。目前國(guó)外已有將支持向量機(jī)用于時(shí)間序列預(yù)測(cè)的研究,如Sayan Mukherjee, Edgar Osuna和 Federico Girosi的 Nonlinear Prediction of Chaotic Time Series Using Support Vector Machines就是這一方法的研究。但這些基于SVM的時(shí)間序列研究多是針對(duì)理想數(shù)據(jù),如人工混沌序列數(shù)據(jù)等,因此支持向量機(jī)在回歸中的研究還有許多不盡如人意的地方,有很大的研究余地,本文對(duì)此作了較為系統(tǒng)深入的研究。另外,對(duì)于現(xiàn)實(shí)世界中常表現(xiàn)出非線性時(shí)間序列,人們?cè)噲D用支持向量機(jī)進(jìn)行預(yù)測(cè),但相關(guān)理論成果零星分散,且存在許多不足,本文對(duì)此進(jìn)行了較深入的研究。
本文安排如下:第二節(jié)介紹了基于SVM的時(shí)間序列預(yù)測(cè)模型;第三節(jié)闡述了基于分類SVM的網(wǎng)絡(luò)訓(xùn)練算法和回歸算法,并將其與傳統(tǒng)的預(yù)測(cè)模型結(jié)合;在第四節(jié)描述了一個(gè)使用這一預(yù)測(cè)方法的實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)來源:personal in come and its disposition of USA: billions of dollars;SAAR(quarterly);最后在第五節(jié)分析了實(shí)驗(yàn)結(jié)果并對(duì)其進(jìn)行了總結(jié)。
二、 基于SVM的回歸與預(yù)測(cè)
SVM進(jìn)行回歸與預(yù)測(cè)的一般思想是用一個(gè)非線性映射 將數(shù)據(jù) 映射到一個(gè)高維特征空間F上,并在此空間進(jìn)行線性回歸,通過此種方法,實(shí)現(xiàn)將低維特征空間的非線性問題轉(zhuǎn)化為高維特征空間線性回歸問題解決。由統(tǒng)計(jì)學(xué)習(xí)理論可以得到回歸函數(shù)如下:
4. 算法中ε值和σ初始值的計(jì)算方法。
(1)不敏感損失函數(shù)ε的引入,把SVM推廣到非線性系統(tǒng)的回歸估計(jì),并展現(xiàn)了極好的學(xué)習(xí)性能。基于SVM方法的回歸估計(jì)以可控制的精度逼近任意非線性函數(shù),同時(shí)具有全局最優(yōu)、良好的泛化能力等優(yōu)越性能。SVM通過參數(shù)控制回歸估計(jì)的精度,但ε取多少才能達(dá)到所期望的估計(jì)精度是不明確的。
在本文中,我們通過實(shí)驗(yàn)得出了一個(gè)比較有效地確定 ε初始值的簡(jiǎn)單方法,可以通過(d′*d″)/sprt(d)=2ε來計(jì)算,其中d是原始樣本數(shù)據(jù)的平均值,d″是原始數(shù)據(jù)各點(diǎn)的二階導(dǎo)數(shù)的平均值。這種方法給定的ε初始值不是最優(yōu),只是一個(gè)大概的值,但它離最優(yōu)值很接近。我們通過經(jīng)驗(yàn)調(diào)節(jié)得到的最優(yōu)值往往都在這一初始值周圍。這樣我們?cè)陬A(yù)測(cè)時(shí)可以在這一初始值的附近調(diào)整即可得到比較滿意的 ε值。
(2)預(yù)測(cè)曲線性能的優(yōu)劣主要取決于核函數(shù),當(dāng)選定核函數(shù)后,σ值的選擇對(duì)于曲線的預(yù)測(cè)效果也有著至關(guān)重要的影響。本例中而言,選擇的核函數(shù)是Gauss核函數(shù),若使用的核寬度相對(duì)來說比較大,會(huì)得到較為平緩的預(yù)測(cè)函數(shù),這樣得到的擬合效果不好,對(duì)應(yīng)的泛化能力必然很差。相反,若使用的核寬度過小,會(huì)得到較為尖銳的高斯函數(shù)曲線,使得每個(gè)樣本點(diǎn)都成為高斯函數(shù)的峰值,對(duì)應(yīng)的泛化能力也很差。因此,應(yīng)根據(jù)不同問題,針對(duì)性地選擇合適的核函數(shù)形式及其參數(shù)。
盡管如此,我們通過多次實(shí)驗(yàn),仍然找到了一種確定 σ初始值的方法,可以通過lgσ/lgd′=5來計(jì)算,其中d′是原始數(shù)據(jù)各點(diǎn)的一階導(dǎo)數(shù)的平均值。這種方法給定的σ值的不是最優(yōu),只是一個(gè)大概的值,但它離最優(yōu)值很接近。在多次實(shí)驗(yàn)中我們通過經(jīng)驗(yàn)調(diào)節(jié)得到的最優(yōu)值總是在這一初始值的周圍。這樣我們?cè)陬A(yù)測(cè)時(shí)可以在這一初始值的附近調(diào)整即可得到比較滿意的σ值。
四、 實(shí)驗(yàn)
實(shí)驗(yàn)使用美國(guó)個(gè)人收入時(shí)間序列數(shù)據(jù)(Personal income:Personal Income and Its Disposition:Billions of dollars;SAAR(quarterly))。從1947年~2005年,每季度一個(gè)數(shù)據(jù)。將1947年一季度~2000年四季度的數(shù)據(jù)作為訓(xùn)練樣本,2001年一季度~2005年四季度的20個(gè)數(shù)據(jù)作為檢驗(yàn)樣本。原始數(shù)據(jù)點(diǎn)圖中“.”所示(為表示方便,我們把從1947年~2005年各季度值用從0到23.5表示。每點(diǎn)間隔為0.1表示一個(gè)季度。):
圖1σ=6.0*109,ε=102.15的結(jié)果
實(shí)驗(yàn)使用Gauss核函數(shù),選擇錯(cuò)分樣本懲罰參數(shù)C=einsensitive,σ=6.0*109,ε=102.15,實(shí)驗(yàn)結(jié)果如圖1所示,圖中“*”表示預(yù)測(cè)數(shù)據(jù)。從中不難看出其預(yù)測(cè)效果,不論是趨勢(shì)上還是數(shù)值上都與真實(shí)值接近。
這里要指出的是:(1)錯(cuò)分樣本懲罰參數(shù)C值的確定一般是人為給定的,很難知道所取C值的好壞性。如何選擇一個(gè)最佳的C值,目前在理論上尚未解決。(2)預(yù)測(cè)曲線性能的優(yōu)劣主要取決于核函數(shù)。目前常用的幾種核函數(shù)及其函數(shù)參數(shù)的選擇都是人為的,根據(jù)經(jīng)驗(yàn)來選取的,帶有一定的隨意性,因此具有局限性。在不同的問題領(lǐng)域,核函數(shù)應(yīng)當(dāng)具有不同的形式和參數(shù),應(yīng)引入領(lǐng)域知識(shí),從數(shù)據(jù)依賴的角度選擇核函數(shù),這還需要進(jìn)一步的研究。
五、 結(jié)論
在應(yīng)用于回歸問題時(shí),支持SVR綜合考慮了曲線平滑與誤差程度,從而提高了泛化能力。本文使用了基于分類的SVR算法對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測(cè)。與普通的SVR方法相比,基于分類的SVR算法可以在模型事先未知的條件下對(duì)其進(jìn)行回歸,并且由于是SVR方法,執(zhí)行效率從理論上可以保證。進(jìn)一步的研究包括:多維時(shí)間序列數(shù)據(jù)的預(yù)測(cè)、并嘗試使用計(jì)量經(jīng)濟(jì)學(xué)模型解決多維時(shí)間序列的回歸問題。
參考文獻(xiàn):
1.YiMin Xiong,Di—Yan Yeung.Time series clustering with ARMA mixtures.Pattern Recognition,2004,(37):1675-1689.
2.Ildar Batyrshin,Raul Herrera-Avelar,et al.,Association Network in Time Series Data Mining,NAFIPS 2005-2005 Annual Meeting of the North American Fuzzy Information Processing Society.
3.高雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例.北京:機(jī)械工業(yè)出版社,2003.
4.Ye Ning,Liang Zuopeng,Dong Yisheng,Wang Huoli.SVM Nonlinear Regression Algorithm.Computer Engineering,October 2005.
基金項(xiàng)目:本文受安徽省自然科學(xué)基金資助,項(xiàng)目號(hào)070416251。
作者簡(jiǎn)介:毛雪岷,博士,合肥工業(yè)大學(xué)管理學(xué)院副教授;楊杰,合肥工業(yè)大學(xué)管理學(xué)院碩士生。
收稿日期:2007-07-13。
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。”