徐衛澤


摘 要:預測時間序列數據是經濟學、商業和金融學中的一個重要主題。ARIMA模型在預測下一個時間序列滯后的精度和準確性方面表現出色。隨著計算機計算能力的發展,產生了基于深度學習的新算法來預測時間序列數據,如長短期記憶(LSTM)。通過實證研究,基于深度學習的算法(如LSTM)優于傳統算法,與ARIMA相比,LSTM獲得的錯誤率平均降低在84%~87%之間,表明了LSTM對ARIMA的優越性。
關鍵詞:時間序列數據;深度學習;長短期記憶(LSTM);自回歸綜合移動平均線(ARIMA)
文章編號:1004-7026(2020)03-0036-02 ? ? ? ? 中國圖書分類號:O211 ? ? ? ?文獻標志碼:A
1 ?研究背景
經濟和金融時間序列數據在數據化時代越來越受重視,然而由于經濟趨勢和條件的變化、信息不完整、市場波動給經濟和金融時間序列預測帶來了嚴重問題。最著名的預測方法是單變量“自回歸移動平均(ARMA)”,其組合了自回歸(AR)和移動平均(MA)模型。單變量“自回歸整合移動平均線(ARIMA)”是一種特殊類型的ARMA,多變量ARIMA模型和向量自回歸(VAR)模型,通過允許多個不斷變化的變量來推廣單變量ARIMA模型和單變量自回歸(AR)模型[1]。
基于機器學習的技術,如遞歸神經網絡(RNN)和長期短期記憶(LSTM),多年來在包括金融在內的許多學科都有應用。深度學習方法能夠識別數據的結構和模式,例如時間序列預測中的非線性和復雜性。特別是,LSTM已被用于許多應用領域,如自然語言處理(Tarwani和Edem,2017)、手寫識別(Gravesetal,2009)、語音識別(Robinson,2002;Eyben,2009;格雷夫斯等,2013;Sak等,2014)、時間序列預測(Hochreiter和Schmidhuber,1997)及在經濟和金融數據中的應用,例如預測標準普爾500指數的波動性(Xiong,2015)[2]。
與基于深度學習的預測算法相比,傳統預測技術的準確性和精確性是一個重要的研究問題。
本文比較了ARIMA和LSTM模型在降低預測錯誤率方面的表現。作為傳統預測建模的代表,由于數據的非平穩特性,選擇ARIMA模型處理時間序列經濟變量。作為基于深度學習的算法的代表,使用LSTM方法是因為其用于在更長時間段內保存數據的特征。用一組經濟和金融時間序列數據,區別ARIMA和LSTM模型進行數據處理和訓練,特別是比較不同數據集中的損失率表現。對文獻的貢獻是使用ARIMA和LSTM模型預測各種經濟和金融時間序列。研究目的:①進行實證研究和分析,調查傳統預測技術和基于深度學習的算法性能。②比較LSTM和ARIMA在預測誤差率中實現的最小化方面的性能。
2 ?時間序列預測
時間序列分析的目的是研究時間序列的路徑觀察,并建立一個模型來描述數據結構并預測時間序列的未來值,在商業、經濟、金融和計算機科學中有大量的應用。時間序列預測傳統上是使用ARIMA模型在計量經濟學中進行的。盡管ARIMA模型在經濟和金融時間序列建模方面非常普遍。但實際上,在簡單的ARIMA模型中,很難對變量之間的非線性關系進行建模[3]。
LSTM(長短期記憶)是回歸神經網絡(RNN)方法的一個特例,Lee和Yoo介紹了一種基于RNN的方法來預測股票收益。比較了ARIMA模型與LSTM模型在經濟學和金融時間序列預測中的表現,以便在典型的預測模型中對所涉及變量的最優質量進行評估。
3 ?模型背景
自回歸集成移動平均(ARIMA)和基于深度學習的技術,長短期記憶(LSTM)的背景知識[4]。
ARIMA(Pesaran,2015)是自回歸滑動平均(ARMA)的廣義模型,結合了自回歸(AR)過程和移動平均(MA)過程,并構建了時間序列的復合模型。
可以將AR和MA過程組合在一起,組成一個ARMA模型(p,q):
其中:c是常數項;?著i被假設為平均數等于0,標準差等于?滓的隨機誤差值;?滓被假設為對于任何的t都不變;?滋是常數項;Xt均值為0。
參數p和q分別稱為AR和MA過程。ARIMA模型的一般形式表示為ARIMA(p,d,q)。季節性ARIMA模型的一般形式表示為ARIMA(p,d,q)·(P,D,Q)S。其中p 是非季節性AR順序,d是非季節性差分,q是非季節性MA順序,P是季節性AR順序,D是季節性差異,Q是季節性MA順序,S是分別重復季節性模式的時間跨度。
ARIMA預測,將非平穩問題,通過多次差分,轉化為平穩問題,因此對數據有一定要求,并且由于差分過程的存在,時間數據的離散程度變大,ARIMA模型的擬合度往往不高。
4 ?長短期記憶(LSTM)
基于LSTM神經網絡的模型建立長短期記憶網絡,由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出并加以完善與普及。LSTM神經網絡是基于循環神經網絡(Recurrent Neural Networks,RNN)改進的一種算法[5-6]。
LSTM是一種特殊的RNN,具有記憶數據序列的附加功能。RNN存在的問題在于,當時間間隔不斷增大時,RNN會喪失學習過去較久遠信息的能力,即梯度消失。
LSTM通過設定一組單元,訓練存儲數據流。每個LSTM涉及3種類型的門,目的是控制每個單元的狀態:①遺忘門輸出0~1之間的數字。②存儲器門選擇需要在單元中存儲哪些新數據。③輸出門決定每個單元的輸出量。產生的值將基于單元狀態以及過濾和新添加的數據。
5 ?ARIMA與LSTM比較
為了比較ARIMA和LSTM的性能,對一些選定的經濟和金融時間序列數據進行了一系列實驗。通過這項工作調查的主要研究問題如下:①哪種算法ARIMA或LSTM能夠更準確地預測時間序列數據?②數據量和數據的性質對模型的影響有多大?
5.1 ?數據來源
準備兩組不同的數據,對兩組人為設定數據,分別是線性和非線性周期數據。兩組自然數據,分別是較小數據量和較大數據量的時間序列數據,并且根據數據的不同,將其分為數據1~數據4。數據3和數據4是來自美國電力能源消耗的實際數據,本數據在真實數據的基礎上,將原來每小時采集的數據整合為每月,選取不同數據量。
5.2 ?結果展示
通過均方根誤差(RMSE)來評估模型獲得的預測精度的度量。表1是經過ARIMA和LSTM訓練之后獲得的結果參數。
6 ?結果分析
通過修正LSTM的訓練次數,經多次迭代,發現模型在經過多次訓練之后,損失率穩定在固定值范圍內,即0.064。結果報告在表1中。處理時間序列相關的數據顯示,使用ARIMA和LSTM模型的平均均方根誤差(RMSE)分別為511.481和64.213,平均減少87.445。LSTM實現的擬合度更高[7-8]。經濟相關數據顯示RMSE減少了84.394,其中ARIMA和LSTM的平均RMSE值分別計算為5.999和0.936。RMSE值清楚地表明基于LSTM的模型優于基于ARIMA的模型,具有高擬合度(即錯誤率降低84%~87%)。
7 ?結束語
比較了ARIMA和LSTM的準確性,作為預測時間序列數據的代表性技術,這兩種技術并應用于時間序列數據,與ARIMA相比,基于LSTM的算法平均將預測提高了85%。此外,LSTM最為強大的地方在于,此模型在應用于處理多元回歸時,對變量之間的相關性、共線性、變量的非線性等方面有著強大的適應力。
參考文獻:
[1]Ayodele Ariyo Adebiyi,Aderemi Oluyinka Adewumi,Charles Korede Ayo.Stock price prediction using the ARIMA model[C].//2014 UKSim-AMSS 16th International Conference on Computer Modelling and Simulation,2014.
[2]A.Fernández-Manso,C.Quintano,O.Fernández-Manso.Forecast of NDVI in coniferous areas using temporal ARIMA analysis and climatic data at a regional scale[J].International Journal of Remote Sensing, 2011,32(6):1595-1617.
[3]王成國,鄧仲元,陳海文,等.基于ARIMA模型的金融品種走勢預測技術[J].計算機技術與發展,2015(7):11-14.
[4]陳瑤,余信豐,黃宏.基于ARIMA模型的金融專業人才需求預測[J].商場現代化,2009(14):297-298.
[5]于連敏.ARIMA模型在我國GDP預測中的應用[J].時代金融,2017(21):180.
[6]肖曼君,夏榮堯.中國的通貨膨脹預測:基于ARIMA模型的實證分析[J].上海金融,2008(8):38-42.
[7]張蜀林,趙雄飛.LSTM模型在中國A股市場的應用[J].全國流通經濟,2018(35):94-95.
[8]于水玲.基于深度學習的金融市場波動率預測和風險值計算[D].長春:長春理工大學,2018.