











摘" 要:對金融時間序列數(shù)據(jù)的研究一直廣受關(guān)注,特別是股票的價格研究。文章以上證指數(shù)的開盤價為研究對象,運用ARIMA模型、ARIMA-LSTM模型以及ARIMA和ARIMA-LSTM組合模型對股票開盤價進(jìn)行10天、50天、116天預(yù)測,計算每個模型的擬合優(yōu)度R2,平均絕對誤差MAE和均方根誤差RMSE。通過比較三個模型的三個統(tǒng)計指標(biāo),最后得到在10天預(yù)測值時,ARIMA模型預(yù)測較好,當(dāng)預(yù)測時間加長時ARIMA-LSTM模型以及ARIMA和ARIMA-LSTM組合模型表現(xiàn)比ARIMA模型好。
關(guān)鍵詞:預(yù)測;ARIMA模型;ARIMA-LSTM模型;ARIMA和ARIMA-LSTM組合模型
中圖分類號:TP18" " 文獻(xiàn)標(biāo)識碼:A" 文章編號:2096-4706(2024)21-0041-05
Stock Analysis Based on ARIMA and LSTM Models
HE Jie1, LI Suping2, HE Yingying1, SUN Ya'nan1, QIN Xiaojiang1
(1.Chongqing College of Humanities, Science and Technology, Chongqing" 401524, China;
2.Chongqing Institute of Engineering, Chongqing" 400056, China)
Abstract: The research on financial time series data has always received widespread attention, especially in the research on stock prices. Taking the opening price of the Shanghai Securities Composite Index as the research object, this paper uses ARIMA model, ARIMA-LSTM model, and ARIMA and ARIMA-LSTM combination model to predict the opening price for 10 days, 50 days and 116 days, and calculates the R2, MAE and RMSE for each model. By comparing the three statistical indicators of the three models, it is found that the ARIMA model predicts better at 10 days. When the prediction time is extended, the ARIMA-LSTM model and the ARIMA and ARIMA-LSTM combination model performs better than the ARIMA model.
Keywords: prediction; ARIMA model; ARIMA-LSTM model; ARIMA and ARIMA-LSTM combination model
0" 引" 言
目前越來越多的人選擇投資股票以獲得經(jīng)濟(jì)利益,為獲得豐厚的經(jīng)濟(jì)利益,投資者在作出決策之前都會對選取的股票進(jìn)行研究或者預(yù)測其走勢。而股票價格數(shù)據(jù)是比較典型的金融時間序列,使用股票的歷史價格數(shù)據(jù)建立預(yù)測模型,對未來股票價格進(jìn)行預(yù)測[1]。對金融時間序列的研究出現(xiàn)了很多相關(guān)的模型和方法,并得到一些可靠的結(jié)論,為投資者做選擇提供了參考。
王瑩[2]以中國銀行股票為例,運用ARMA模型對股票開盤價進(jìn)行了短期分析和預(yù)測,并得出預(yù)測值與實際值相近,誤差較小。劉潔[3]用ARMA模型對格力電器的股票價格進(jìn)行預(yù)測,該模型在短期預(yù)測中效果較好。吳玉霞[4]等人基于ARIMA模型對“華泰證劵”的收盤價進(jìn)行了短期預(yù)測,認(rèn)為ARIMA模型短期動態(tài)、靜態(tài)預(yù)測較好。有學(xué)者在ARIMA模型基礎(chǔ)上衍生了其他模型,如熊政[5]構(gòu)造了ARIMA-GARCH-M模型,在股票短期預(yù)測中有著良好的效果。方燕[6]等人用ARIMA-GARCH模型對傳媒板塊指數(shù)進(jìn)行預(yù)測,認(rèn)為ARIMA-GARCH模型可用于具有“尖峰厚尾”分布特征的股票進(jìn)行預(yù)測。以上的研究都是基于ARIMA模型或ARIMA模型的組合模型對股票進(jìn)行短期的預(yù)測,達(dá)到的效果都較好。基于金融時間序列,徐衛(wèi)澤[7]比較了ARIMA模型和LSTM模型,并得出結(jié)論LSTM模型的準(zhǔn)確性優(yōu)于ARIMA模型。因此,很多學(xué)者將ARIMA模型和LSTM模型組合在一起運用,得到的預(yù)測比單一模型更好[8]。次必聰[9]等人,用ARIMA模型、線性ARIMA-LSTM模型和非線性ARIMA-LSTM模型,對道瓊斯工業(yè)指數(shù)做了短期、中期和長期的預(yù)測,并得到非線性組合模型得到的預(yù)測優(yōu)于單一模型。
基于以上學(xué)者的研究,在ARIMA模型和線性ARIMA-LSTM模型的基礎(chǔ)上構(gòu)造一種新的線性模型,即ARIMA和ARIMA-LSTM組合模型。用ARIMA模型和線性ARIMA-LSTM模型構(gòu)造的組合模型分別預(yù)測上證指數(shù)的開盤價,得到各個模型的擬合優(yōu)度(R2)、MAE、RMAE,比較統(tǒng)計指標(biāo),選取最優(yōu)模型。
1" 模型簡介
1.1" ARIMA模型
ARIMA模型稱為求和自回歸移動平均模型(記ARIMA(p,d,q)),ARIMA模型是在ARMA模型的基礎(chǔ)上產(chǎn)生的。分析平穩(wěn)時間序列用ARMA模型,非平穩(wěn)時間序列若經(jīng)過差分后平穩(wěn)可以用ARIMA模型。
p為自回歸模型的階數(shù),q為移動平均模型階數(shù),d為ARMA模型差分的階數(shù),模型為:
(1)
其中為當(dāng)期隨機(jī)干擾;B為延遲算子;;xs為過去的序列值。
為p階自回歸系數(shù)多項式;為q階移動平滑系數(shù)多項式。
ARIMA模型建模步驟:第一步,檢驗時間序列數(shù)據(jù)的平穩(wěn)性和純隨機(jī)性,若時間序列數(shù)據(jù)是平穩(wěn)非白噪聲序列則可擬合ARIMA模型;若時間序列數(shù)據(jù)是非平穩(wěn)數(shù)據(jù),可對數(shù)據(jù)進(jìn)行差分運算,再進(jìn)行平穩(wěn)性和純隨機(jī)性檢驗,檢驗通過后則可擬合ARIMA模型。第二步,繪制自相關(guān)圖和偏自相關(guān)圖,根據(jù)自相關(guān)圖和偏自相關(guān)圖的特點對模型進(jìn)行定階,識別模型,可以識別多個合理的模型。第三步,對識別的模型進(jìn)行檢驗(包括殘差序列的純隨機(jī)性檢驗和參數(shù)及模型的顯著性檢驗)。第四步,優(yōu)化模型,根據(jù)AIC和BIC值選取最優(yōu)模型。第五步,利用選取的模型進(jìn)行預(yù)測。流程圖如圖1所示。
1.2" ARIMA-LSTM模型
將時間序列數(shù)據(jù)分為線性和非線性兩個部分,用ARIMA模型分析線性部分得Lt,用LSTM模型分析非線性部分得Nt,則得到時間序列預(yù)測表達(dá)式[10]:
(2)
其中xt為時間序列,Lt為時間序列的線性部分的分量,Nt為時間序列的非線性部分的分量。
預(yù)測步驟如下:用ARIMA模型對原始數(shù)據(jù)進(jìn)行擬合得到預(yù)測值,再用真實值xt減預(yù)測值得到殘差序列,利用LSTM模型對殘差序列進(jìn)行預(yù)測得到 ,即:
(3)
其中為ARIMA-LSTM模型的預(yù)測值。
1.3" ARIMA和ARIMA-LSTM組合模型
基于ARIMA和ARIMA-LSTM兩種模型,現(xiàn)構(gòu)造一種ARIMA和ARIMA-LSTM組合模型,ARIMA模型擬合時間序列并得到時間序列的預(yù)測值,
可得到ARIMA模型擬合優(yōu)度,ARIMA-LSTM模型擬合時間序列并得到時間序列的預(yù)測值,可得到模型擬合優(yōu)度,即組合模型為:
(4)
其中為組合模型的預(yù)測值,ARIMA weight為ARIMA的權(quán)重值,ARIMA-LSTMweight為ARIMA-LSTM的權(quán)重值即:,。
1.4" 預(yù)測結(jié)果評價標(biāo)準(zhǔn)
為有效地評價模型,選取平均絕對誤差、均方根誤差及決定系數(shù)(擬合優(yōu)度)三個指標(biāo)對模型進(jìn)行評價,如下所示。
平均絕對誤差:
(5)
均方根誤差:
(6)
決定系數(shù)(擬合優(yōu)度):
(7)
其中N為時間序列長度,xi為真實值,為預(yù)測值,為真實值的平均值。平均絕對誤差和均方根誤差的值越小越好,決定系數(shù)(擬合優(yōu)度)的值越接近1數(shù)據(jù)越真實。
2" 實證分析
2.1" 數(shù)據(jù)及軟件的選取
本文選取上證指數(shù)2021年1月4日到2024年3月27日的股票數(shù)據(jù),運用的R軟件和SPSS對上證指數(shù)的開盤價進(jìn)行分析和預(yù)測。利用2021年1月4日到2023年9月28日上證指數(shù)的開盤價作為試驗數(shù)據(jù)建立模型,對2023年10月9日到2024年3月27日上證指數(shù)開盤價進(jìn)行預(yù)測。
2.2" ARIMA模型
2.2.1" 平穩(wěn)性和純隨機(jī)性檢驗
在建立模型之前,應(yīng)對股票開盤價進(jìn)行平穩(wěn)性檢驗,畫出時序圖根據(jù)時序圖的波動判斷序列數(shù)據(jù)的平穩(wěn)性,如圖2所示。
圖2顯示,原始數(shù)據(jù)的波動較大,即不是平穩(wěn)序列,要對原始數(shù)據(jù)進(jìn)行差分處理。經(jīng)過一階差分后得到圖3,圖3可以看出,原始數(shù)據(jù)一階差分后的值圍繞0值上下波動,即認(rèn)為一階差分后的數(shù)據(jù)是平穩(wěn)的。再對差分后的數(shù)據(jù)進(jìn)行白噪聲檢驗,得到p值為0.001 624小于0.05,故差分后的股票數(shù)據(jù)是非白噪聲數(shù)據(jù),能進(jìn)行ARIMA建模。
圖3" 一階差分后開盤價時序圖
2.2.2" 自相關(guān)圖、偏自相關(guān)圖及模型定階
用差分后的股票數(shù)據(jù),繪制自相關(guān)圖和偏自相關(guān)圖如圖4所示。根據(jù)自相關(guān)圖和偏自相關(guān)圖,確定了模型ARIMA(1,1,1)和ARIMA(0,1,1),如圖5所示。
2.2.3" 模型檢驗
確定模型后,對兩個模型進(jìn)行檢驗,首先由圖5中的各個估計參數(shù)除以其標(biāo)準(zhǔn)差的絕對值都大于1.96,故認(rèn)為兩個模型系數(shù)是顯著的;再對殘差進(jìn)行純隨機(jī)性檢驗,如圖6所示,ARIMA(1,1,1)殘差檢驗的p值為0.28大于0.05,故認(rèn)為殘差序列為白噪聲序列,殘差之間不存在序列相關(guān)性,該模型較好。ARIMA(0,1,1)殘差檢驗的p值為0.02小于0.05,殘差序列存在序列相關(guān)性,認(rèn)為該模型提取信息不夠完整,需要進(jìn)一步處理。
2.2.4" 優(yōu)化模型
對模型進(jìn)行檢驗后,在兩個模型中要選擇最優(yōu)模型,計算兩個模型的AIC和BIC值,其值越小越好,如表1所示。ARIMA(1,1,1)模型的AIC和BIC值分別為6 533.274和6 546.774,都比ARIMA(0,1,1)AIC和BIC值小,進(jìn)一步驗證選取模型ARIMA(1,1,1)。
2.2.5" 模型擬合
通過以上檢驗及分析,最后選取的模型為ARIMA(1,1,1),用SPSS軟件,運用該模型模擬上證指數(shù)2021年1月4日到2023年9月28日的開盤價,通過分析得到表2及圖7。如表2所示,擬合模型的R2為0.97且顯著性的概率為0.61(p值大于0.05,表示模型擬合合理)。如圖7所示,股票開盤價的真實數(shù)據(jù)和擬合數(shù)據(jù)幾乎重合且都在95%的置信區(qū)間內(nèi),故認(rèn)為模型擬合較好。
2.3" ARIMA-LSTM模型
用R軟件,使用ARIMA-LSTM模型模擬上證指數(shù)2021年1月4日到2023年9月28日的開盤價。計算得到擬合模型的R2為0.96,R2較大且接近1,并得到股票開盤價的真實數(shù)據(jù)和擬合數(shù)據(jù)的折線圖,如圖8所示,開盤價和擬合值幾乎重合,故該模型擬合較好。
2.4" ARIMA和ARIMA-LSTM組合模型
利用ARIMA模型對原始數(shù)據(jù)進(jìn)行擬合得擬合值,ARIMA-LSTM模型對原始數(shù)據(jù)進(jìn)行擬合得擬合值,根據(jù)式(4)計算得到ARIMA和ARIMA-LSTM組合模型的擬合值,計算得到組合模型的R2為0.97。得到真實數(shù)據(jù)和擬合數(shù)據(jù)的折線圖,如圖9所示,由圖顯示真實開盤價和擬合開盤價波動幾乎相同。
2.5" 預(yù)測結(jié)果
基于以上三種模型預(yù)測了上證指數(shù)10天、50天、116天的開盤價,并計算三種模型不同預(yù)測天數(shù)的MAE、RMSE值,如表3所示。
由表3可知,同一個模型,當(dāng)預(yù)測的時間增加時,預(yù)測的準(zhǔn)確度下降,MAE和RMSE值幾乎都相應(yīng)增大。預(yù)測天數(shù)為10天時,ARIMA模型和組合模型預(yù)測效果較好,MAE和RMSE值都相對較小,在10天的預(yù)測中效果最好的是ARIMA模型。在50天的預(yù)測中,與10天預(yù)測相比預(yù)測精度下降,但ARIMA-LSTM模型的MAE和RMSE值與10天預(yù)測相比之下變小,總體來說,與ARIMA模型相比,ARIMA-LSTM模型和組合模型預(yù)測較好。當(dāng)預(yù)測天數(shù)增加到116天數(shù)時,所有模型的MAE和RMSE值都較大,相對比較組合模型的MAE和RMSE值較小,故對于長期預(yù)測更偏向選取組合模型。
3" 結(jié)" 論
上述分別用三個模型對上證指數(shù)2021年1月4日到2023年9月28日的股票開盤價進(jìn)行了模擬和分析,并對以后10天、50天、116天的開盤價進(jìn)行預(yù)測。在短期的預(yù)測中,使用ARIMA模型進(jìn)行預(yù)測較好;在中期的預(yù)測中,可以使用ARIMA-LSTM模型或者組合模型;在長期預(yù)測中,所有模型的預(yù)測精度都下降,但組合模型的預(yù)測相對較好,對上證指數(shù)收盤價的預(yù)測有一定的指導(dǎo)性。
本文運用了ARIMA模型、ARIMA-LSTM模型、ARIMA和ARIMA-LSTM組合模型,利用三個模型對上證指數(shù)的開盤價進(jìn)行分析和預(yù)測,并得到相應(yīng)的結(jié)論。在考慮組合模型時,以ARIMA模型和ARIMA-LSTM模型的R2算比重作為系數(shù),用線性組合的形式得到組合模型。在以往學(xué)者的研究中顯示非線性組合模型的預(yù)測比線性組合模型的預(yù)測效果好,因此在以后的研究中可以考慮ARIMA和ARIMA-LSTM組合非線性的組合模型。
參考文獻(xiàn):
[1] HE Y,LI J M,RUAN S M,et al. A Hybrid Model for Financial Time Series Forecasting—Integration of EWT, ARIMA with the Improved ABC Optimized ELM [J].IEEE Access,2020,8:84501-84518.
[2] 王瑩.基于ARMA模型的股票價格的分析及預(yù)測 [J].生產(chǎn)力研究,2021(9):124-127.
[3] 劉潔.ARMA模型在股票價格預(yù)測中的應(yīng)用——以格力電器為例 [J].中國管理信息化,2021,24(11):153-155.
[4] 吳玉霞,溫欣.基于ARIMA模型的短期股票價格預(yù)測 [J].統(tǒng)計與決策,2016(23):83-86.
[5] 熊政,車文剛.ARIMA-GARCH-M模型在短期股票預(yù)測中的應(yīng)用 [J].陜西理工大學(xué)學(xué)報:自然科學(xué)版,2022,38(4):69-74.
[6] 方燕,耿雪洋,秦珊珊.滬深兩市傳媒板塊指數(shù)價格預(yù)測研究——基于ARIMA—GARCH模型的分析 [J].價格理論與實踐,2018(1):102-105.
[7] 徐衛(wèi)澤.預(yù)測經(jīng)濟(jì)和金融時間序列:ARIMA與LSTM模型的比較 [J].山西農(nóng)經(jīng),2020(3):36-37.
[8] SUN Y,ZHAO Z J,MA X B,et al. Short-time Scale Gravitational Microlensing Events Prediction with ARIMA-LSTM and ARIMA-GRU Hybrid Model [C]//BigSDM: International Conference on Big Scientific Data Management.Beijing:Springer,2018:224-238.
[9] 次必聰,張品一.基于ARIMA-LSTM模型的金融時間序列預(yù)測 [J].統(tǒng)計與決策,2022,38(11):145-149.
[10] ZHANG G P. Time Series Forecasting Using a Hybrid ARIMA and Neural Network Model [J].Neurocomputing,2003,50:159-175.
作者簡介:何杰(1993—),女,漢族,重慶大足人,講師,碩士,研究方向:應(yīng)用統(tǒng)計;李素平(1993—),男,漢族,重慶云陽人,講師,碩士,研究方向:應(yīng)用統(tǒng)計;何盈盈(1994—),女,漢族,重慶涪陵人,講師,碩士,研究方向:大數(shù)據(jù);孫亞南(1992—),男,漢族,河南清豐人,講師,碩士,研究方向:大數(shù)據(jù);秦曉江(1982—),女,漢族,重慶人,副教授,碩士,研究方向:無線定位。
基金項目:重慶人文科技學(xué)院科學(xué)研究項目(JSJGC202205);重慶人文科技學(xué)院科學(xué)研究項目(JSJGC202201);重慶人文科技學(xué)院科學(xué)研究項目(JSJGC202202)