劉遵雄,周天清
(華東交通大學信息工程學院,江西南昌 330013)
在過去幾十年里,各種線性與非線性的時間序列建模預測方法被提出,包括自回歸移動平均(ARMA)、求和自回歸移動平均(ARIMA)、自回歸條件異方差(ARCH)、人工神經網絡(ANN)[1]、遺傳算法(GA)[2]、支持向量機(SVM)[3]、門限自回歸(TAR)、自適應回歸(AAR)和泛函數自回歸(FAR)等,其中許多方法已成功地應用到金融時間序列分析中,并且獲得了較為理想的結果。然而,其中有些方法須以在一定假設條件(如線性、平穩性、標準性假設等)為前提,而另一些方法則無法直接適用于高維、高噪聲數據的建模。奇異譜分析(singular spectrum analysis,SSA)技術的提出是時間序列分析研究的重大變革,它結合典型時間序列分析、多元統計、多元幾何、動態系統、信號處理及奇異值分解(SVD)等技術[4],破除了許多傳統方法的假設前提,是一類元參數、獨立于模型的時間序列分析技術[5]。
奇異譜分析通過將原始序列延時地排列成一矩陣形式,然后應用奇異值分解將原始序列分解成少數可解釋、獨立的成份之和,如緩慢變化趨勢、擺動成份和隨機噪聲[6]。奇異譜分析技術主要用于解決趨勢或準周期成分的檢測與提取、降噪、預測、異常點檢測等問題,廣泛應用于氣候、環境、地理、社會科學及金融等多方領域。
常見的奇異譜分析預測技術通常以傳統神經網絡或線性遞歸公式(linear recurrent formula,LRF)[7]為模型進行預測,但是基于奇異譜分析的傳統神經網絡模型訓練速度緩慢,而基于奇異譜分析的線性遞歸預測效果有待改進?;诖?,本文將廣義回歸神經網絡(general regression neural network,GRNN)與奇異譜分析技術相結合形成基于奇異譜分析的廣義回歸神經網絡預測模型,以同方股份收盤價格為測試對象驗證其預測效果。
奇異譜分析算法包含分解與重構兩個階段。前者將原始序列延時地排列成一矩陣形式,進行奇異值分解;后者利用求得的主成份進行分組并對組成份所形成的矩陣對角平均化。




廣義回歸神經網絡[8-9]是徑向前饋神經網絡RBF的一個分支,它以數理統計為基礎進行非線性(核)回歸分析。GRNN與傳統的神經網絡一樣,具有很強的非線性建模能力、較高的容錯性及魯棒性,其逼近能力和學習速度較傳統的RBF網絡有著較強的優勢,且當樣本數據較少時,預測效果不受影響。

對應網絡p維輸入向量X={},x2,…,xp,其輸出為Y={y1,y2,…,yp},網絡結構如圖1。
如果GRNN神經網絡的隱含層的傳遞函數以高斯函數為概率密度函數,那么網絡的輸出為


以同方股份1997年6月至1998年5月收盤價格共204個數據作為測試數據。根據奇異譜分析的步驟,首先將序列以80為窗口長度(一般小于等于序列長度的一半)組織成一延時矩陣,然后采用SVD對延時矩陣進行分解,得80個特征值(按非增序排列)。首5個特征值的貢獻率分別為98.765 66%,0.411 16%,0.363 15%,0.252 86%,0.005 481%,其中98.765 66%的特征值對應的重構序列代表原始序列的趨勢,見圖2,后四項則指示著序列的波動情況,見圖3。特征值中最后75項由于貢獻率極小,可被視為序列噪聲數據。最后由前5個成份重構成降噪后的序列,見圖4,該序列將用于預測。
圖2中,原始序列呈現出較為復雜的波動變化,而由貢獻率98.765 66%的特征向量重構序列擬合曲線近似于一上升直線。可以發現,由首個成份形成的重構序列能夠較好地捕捉原始序列的趨勢。
圖3中,由前2-5個成份形成的重構序列擬合曲線波動變化比較平緩,沒有出現銳角變化情況,而且基本上反映了原始序列的波動變化。由于金融時間序列中普遍存在噪聲,噪聲點通常呈現出較大的波動變化(表現為較為尖銳的齒狀),因此,可將由前2-5個成份形成的重構序列近似地看成原始序列的波動成份,其很好刻畫了原始序列的波動變化。
圖4中,由前5個成份形成的重構序列擬合曲線波動變化相對于原始序列較平緩,其較好地過濾了噪聲數據,實現了對原始序列的逼近。該文用該5個成份形成的降噪重構序列作為廣義神經網絡預測模型的輸入。
該文提出了一種基于奇異譜分析的廣義神經網絡預測方法,其基本工作原理:首先對原始序列進行奇異譜分析得到降噪后的重構序列,然后將廣義神經網絡應用于該重構序列。相比傳統的奇異譜分析預測(如caterpillar SSA3.3[10])主要采用線性遞歸函數為預測模型。
對于廣義神經網絡的預測方法,最為關鍵的參數為前面所提的平滑因子σ,考慮到廣義神經網絡是一類訓練速度快,非線性映射能力強,能以任意速度逼近任意連續函數的網絡模型。該文通過考慮預測誤差(絕對值形式)試探性地在[ ]0.01,0.5間選擇平滑因子σ。
對原始序列和重構序列進行廣義回歸神經網絡預測的平滑因子與預測誤差的關系見圖5。從圖中可知,兩曲線均呈現出先減后增的趨勢,其中前者在平滑因子為0.12時取得最小誤差均值0.005 004,后者在平滑因子為0.07時取得最小誤差均值0.002 877。故對于原始序列應用GRNN時,平滑因子取0.12;對于重構序列則取0.07。


由于影響股票價格難以進行長期預測,往往只能進行短期的預測。該文使用GRNN,LRF+SSA和GRNN+SSA三種方法對同方股份的收盤價格進行未來一天的預測。GRNN直接將原始數據為其輸入進行預測;LRF+SSA先利用SSA獲得降噪成份,后以LRF為模型進行預測;GRNN+SSA同樣先利用SSA獲取降噪成份,再使用GRNN進行預測。各類方法的預測值及其預測誤差見表1,從表中可以發現,采用LRF+SSA方法進行預測的誤差值最大,GRNN次之,而GRNN+SSA預測誤差最小,原因在于GRNN+SSA方法既能有效利用SSA技術降噪能力,又能攝取GRNN強大的非線性映射能力及任意逼近能力,從而使其達到了較兩者更優的預測效果。

表1 各類預測值及誤差Tab.1 Various predicted values and error
提出了基于奇異譜分析的廣義神經網絡預測方法GRNN+SSA,并將其應用于同方股份收盤價格的短期預測,實驗結果表明,GRNN+SSA預測效果明顯好于傳統的LRF+SSA及GRNN方法,原因在于,GRNN+SSA方法同時兼有SSA和GRNN方法的優點,即集成了SSA降噪能力及GRNN的強大非線性映射與任意逼近能力。因此,可試將其推廣用于回歸復雜多噪聲時間序列的分析建模。
[1]BODYANSKIYY,POPOV S.Neural network approach to forecasting of quasiperiodic financial time series[J].European Journal of Operational Research,2006,175(3):1357-1366.
[2]MAHFOUD S,MANI G.Financial forecasting using genetic algorithms[J].Applied Artificial Intelligence,1996,10(6):543-565.
[3]KIM K.Financial time series forecasting using support vector machines[J].Neurocomputing,2003,55(1/2):307-319.
[4]HASSANI H,HERAVI S,ZHIGLJAVSKY A.Forecasting European industrial production with singular spectrum analysis[J].International Journal of Forecasting,2008,25(1):103-118.
[5]GOLYANDINA V N A Z.Analysis of Time Series Structure:SSA and Related Techniques[M].London:Chapman&CRC ,2001.
[6]HASSANI H.Singular spectrum analysis based on the minimum variance estimator[J].Nonlinear Analysis:Real World Applications,2010,11(3):2065-2077.
[7]HASSANI H,SOOFI A S,ZHIGLJAVSKY AA.Predicting daily exchange rate with singular spectrum analysis[J].Nonlinear Analysis:Real WorldApplications.2010,11(3):2023-2034.
[8]梁鳳國,李帥瑩,于淼,等.基于GRNN神經網絡的參考作物騰發量預測[J].人民長江,2009,40(05):58-59.
[9]馮志鵬,宋希庚,薛冬新,等.基于廣義回歸神經網絡的時間序列預測研究[J].振動、測試與診斷,2003,23(2):105-109.