摘要:神經網絡和支持向量機都能有效地預測時間序列數據,但各自結構特點不同,導致其預測性能有差別。文章從理論和實踐上比較了支持向量機與神經網絡的優缺點。
關鍵詞:支持向量;神經網絡;時間序列;預測
時間序列數據具有躁聲、不穩定、隨機性、非線性等特點[1,2],而神經網絡在非線性建模中具有優勢,它不必建立復雜的數學模型即可完成預測。目前已有很多工作者研究神經網絡,并將其應用到時間序列數據預測中去,取得了不錯的效果。但由于神經網絡算法采用的是經驗風險最小化原則,容易陷入局部極小點,收斂速度慢等缺點,這些不足極大地限制這些方法在實際中的應用。支持向量機(Support Vector Machines,SVM)采用的結構風險最小化原則,整個求解過程轉化一個凸二次規劃問題,解是全局最優的和唯一的。由于很好地克服了神經網絡的一些不足,而在實際應用中取得了很好的性能表現。
一、 支持向量機理論
支持向量機是基于統計學習理論(Statistical Learning Theory,SLT)發展起來的。傳統的統計學所研究的主要是漸近理論,即當樣本趨向于無窮多時的統計性質。在現實問題中,給出的樣本數目通常是有限的,但傳統上仍以樣本數目無窮多為假設來推導各種算法,并期望算法在樣本較少時也能有較好的(至少是可接受的)表現。不過情況往往相反,其中,神經網絡過學習問題就是一個典型的代表:當樣本數有限時,本來很不錯的一個學習機器卻可能表現出很差的推廣能力。人們對于解決此類問題的努力實際上一直在進行。但是,其中多數工作集中在對已有(基于傳統統計學原則的)方法的改進和修正,或者利用啟發式方法設計某些巧妙的算法。而統計學習理論則系統地研究了機器學習的問題,尤其是有限樣本情況下的統計學習問題。統計學習理論是目前針對小樣本統計估計和預測學習的最佳理論,它從理論上系統地研究了經驗風險最小化原則成立的條件、有限樣本下經驗風險與期望風險的關系及如何利用這些理論找到新的學習原則和方法等問題,統計學習理論因為對有限樣本情況下模式識別、函數逼近中的一些根本性問題進行了系統的理論研究,在很大程度上解決了模型選擇與過學習問題、非線性和維數災難問題、局部極小點問題等,因此成為研究的熱點。
20世紀90年代中期,在這一理論框架下產生出了支持向量機這一新的機器學習方法,或者說支持向量機是統計學習理論實現的具體表現。
或許是由于統計學習理論為人們系統研究有限樣本情況下機器學習問題提供了有力的理論基礎,或許更是因為在這一基礎上的支持向量機方法所表現出的令人向往的優良特性,人們開始迅速重視起該學術方向。現在,越來越多的學者認為,關于統計學習理論和支持向量機的研究,將很快出現象在80年代后期人工神經網絡研究那樣的飛速發展階段。與傳統神經網絡所不同的是,統計學習理論有完備的理論基礎和嚴格的理論體系(相比之下神經網絡有更多的啟發式成分),而且其出發點是更符合實際情況的有限樣本假設,具有更強的科學性。
Vapnik博士就是統計學習理論的創立者之一,也是支持向量機方法的主要發明者。該理論方法最早是由Vapnik領導的ATTBell實驗室研究小組提出,最初用來解決模式識別的,其第一個應用是Vapnik等人在美國ATT實驗室做的手寫數字識別,他們利用美國國家郵政總局數據庫提供的7 300個訓練樣本和2 000個測試數據設計了多項式、徑向基函數、二層神經網絡等不同形式的支持向量機,樣本的分辨率為16×16象素,系統維數為256,實驗表明3種結果SVM得到的支持向量數目接近(274、291、254),其中共同的支持向量數目約為80%,識別率要好于神經網絡。
后來支持向量機擴展應用到函數逼近、回歸估計等問題。無論是模式識別還是函數逼近,支持向量機都將求解問題最終歸結為一個線性約束的凸二次規劃(QP)問題,求出的解是全局最優的和唯一的。
二、 徑向基神經網絡理論
1988年Broomhead和Lowe提出了一種多變量函數迭代和自適應網絡,稱為徑向基函數網絡(Radial Basis Function Network,簡稱RBFN)。這種結構近似于多層前向神經網絡。徑向基函數網絡由輸入層、隱藏層和輸出層組成的三層結構,由于這種網絡結構簡單,學習速度快,引起了人們的廣泛關注。D. S. Broomhead,J. Moody,S. Chen等人分別提出了一種徑向基函數網絡的快速學習算法,把徑向基函數網絡的學習過程分成兩個獨立的過程,這種算法稱為兩步算法(Two—Step Algorithm)。第一步確定隱藏層參數;第二步基于最小均方差標準學習確定輸出層參數。
具體算法中隱藏層采用高斯函數:
其中Ti為高斯函數的中心,而為高斯函數的寬度, C為隱藏層的神經元數。算法步驟設計如下:第一步,利用k-mean分類法確定RBF函數的中心和寬度,第二步,確定隱藏層到輸出層的權值。
兩步法學習徑向基函數網絡計算量小、速度快,而且具有良好的推廣能力,是目前使用比較廣泛的一種RBF神經網絡學習算法。
三、 SVM與神經網絡學習結構比較
統計學習理論系統地研究了各種類型函數集的經驗風險和實際風險之間的關系,即推廣性的界。即給出經驗風險
上式右邊包含了兩項,第一項是經驗風險,第二項是置信范圍,這樣要最小化風險,有兩種方法:第一種方法是保持置信范圍不變,最小化經驗風險,這就是神經網絡方法。這意味著神經網絡先要確定網絡結構,然后按照經驗風險最小化原則訓練,確定了結構就等于確定了機器學習的置信范圍,為達到經驗風險最小,其VC維往往很大而造成過學習的現象。第二種方法則是保持經驗風險不變(比如等于零),最小化置信范圍,這就是支持向量機方法。支持向量機選擇的是經驗風險和置信范圍的最佳組合,可以防止欠學習與過學習現象。
通過支持向量機與神經網絡的比較分析,可以歸納出支持向量機有如下三個主要特點:(1)于結構風險最小化原則,給出實際風險的上界,保證學習機器具有良好的泛化能力。(2)算法最終轉化為一個線性約束的凸優化問題,保證了算法的全局最優性和解的唯一性。(3)應用核技術,將輸入空間中的線性不可分問題轉化為特征空間的線性可分問題。
相對支持向量機,神經網絡存在以下不足:(1)網絡結構需要事先指定或應用啟發式算法在訓練過程中修正,這些啟發式算法難以保證網絡結構的最優化。對于多層網絡,這是一個很復雜的組合問題。(2)網絡權系數的調整方法存在局限性。具體表現在訓練可能過早結束而產生權值衰退。(3)神經網絡容易陷入局部最優,有些訓練算法甚至無法得到最優解。(4)過分依賴學習樣本,即模型性能的優劣過分依賴于模型訓練過程中樣本數據的數量和質量。大多數情況下,樣本數據是有限的。另外,許多實際問題中的輸入空間是高維的,樣本數據僅是輸入空間中的稀疏分布,即使能得到高質量的訓練數據,數據量也必然很大。大量的樣本數據勢必會大大增加算法的訓練時間。(5)目前尚無一種理論能定量地分析神經網絡的訓練過程的收斂速度,以及收斂速度的決定條件,并對其加以控制。(6)神經網絡方法的優化目標是基于經驗的風險最小化(ERM,Empirical Risk Minimization),這只能保證學習樣本點的估計(分類)誤差最小,實際上,該誤差應對所有可能的點都達到最小,即泛化性能最好。神經網絡方法回避了經驗風險能否收斂于實際風險以及收斂條件等重要問題。
盡管存在上述問題,神經網絡在原有框架內仍然取得了很多成功應用。其原因就在于這些應用的設計者,在設計神經網絡過程中,有效利用了自己的經驗和先驗知識。因此,神經網絡系統的優劣是因人而異的。而支持向量機具有嚴格的理論和數學基礎,可以有效克服神經網絡的不足問題。
四、實證分析
我們采用2002年1月4日~2004年4月13日的上證180指數和深圳成指各543個數據點,采用相空間重構技術,通過某日前一段時間收盤價的歷史數據來預測某日的收盤價格,也就是估計下面的動態系統:xt=f(xt-1,xt-2,…,xt-k),其中xt為在時間t的證券指數收盤價,k為滯后時間值,這樣系統的輸入就是時間t前k個歷史數據,而輸出則是時間t時的值。本文中我們取k=5,與每周的開市天數一樣。記xt=(xt-1,xt-2,L,xt-5),yt=xt,則訓練樣本數據可表示為:
(T為重構后樣本數),經過相空間重構后樣本數由原來543個變為538個。
文中采用 作評測標準,其中ai,pi分別表示實際值和預測值。數據模擬前先對數據預處理,歸一化后的數據分為兩部分,第一部分為訓練數據,第二部分為測試數據,訓練數據為前500個,而測試數據為后38個。
表1中MSE為測試誤差,TR_MSE為訓練誤差,第二欄為標準支持向量機預測誤差,第三欄為采用兩步法的10個神經元RBFN預測誤差,第四欄為采用兩步法的20個神經元RBFN預測誤差。
表中數據表明支持向量機的預測誤差比神經網絡小。
參考文獻:
1.段虎,沈菲.證券市場的混沌研究及相空間預測.數量經濟技術經濟研究,2002,(7):111-114.
2.呂金虎等.混沌時間序列分析及其應用.武漢:武漢大學出版社,2001.
3.L.J.Cao,Q.M.Gu.Dynamic support vector machines for non—stationary time series forecasting.Intelligent Data Analysis,2002,6(1):1-16.
作者簡介:奉國和,博士,華南師范大學經濟管理學院講師。
收稿日期:2006-08-03。
(本文中所涉及到的圖表、注解、公式內等請以PDF格式閱讀原文)