李海洋



摘要:為提高CPI建模精度,本文使用SARIMA、SARIMA-LSTM、LSTM三個(gè)模型對(duì)河南省月度CPI進(jìn)行建模預(yù)測(cè)。研究發(fā)現(xiàn)SARIMA-LSTM模型效果最優(yōu),可以反映河南省居民消費(fèi)價(jià)格指數(shù)的真實(shí)狀況,用于CPI實(shí)際預(yù)測(cè)。
關(guān)鍵詞:SARIMA;SARIMA-LSTM;LSTM
中圖分類號(hào):F23文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.16723198.2020.25.047
對(duì)于CPI,建立合適的模型,提高其預(yù)測(cè)精度,對(duì)政府制定宏觀經(jīng)濟(jì)政策具有極大現(xiàn)實(shí)意義。現(xiàn)在,對(duì)于CPI預(yù)測(cè),不同學(xué)者進(jìn)行了許多研究。研究方法主要分為兩種:
(1)單一模型法,如ARIMA、SARIMA、灰色模型法等。袁志強(qiáng)、陳銳使用ARIMA模型利用R軟件對(duì)國(guó)內(nèi)CPI進(jìn)行了短期預(yù)測(cè),倪穎、年靖宇對(duì)重慶市CPI進(jìn)行了預(yù)測(cè);張?zhí)鹑饘?duì)陜西省CPI建立了SARIMA模型;李志超、劉升對(duì)上海市CPI建模,發(fā)現(xiàn)ARIMA和灰色模型效果相當(dāng),回歸模型較差。
(2)組合模型法,如ARIMA-SVM、ARIMA-BP等。梁曉瑩基于ARIMA和SVM根據(jù)整體誤差最小化原則對(duì)鄭州市CPI進(jìn)行組合預(yù)測(cè),比單一模型效果好。吳曉峰、楊穎梅和陳垚彤利用BP擬合ARIMA殘差,整體效果較優(yōu)。
深度學(xué)習(xí)中長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),對(duì)于非線性數(shù)據(jù)擬合較好,并且在金融、醫(yī)學(xué)、水文等時(shí)間序列預(yù)測(cè)領(lǐng)域已取得不少進(jìn)展。歐陽(yáng)紅兵、黃亢和閆洪舉使用LSTM對(duì)道瓊斯工業(yè)指數(shù)日收盤(pán)價(jià)進(jìn)行預(yù)測(cè),發(fā)現(xiàn)LSTM能捕獲序列的短期和長(zhǎng)期態(tài)勢(shì),效果較優(yōu)。李琳等將LSTM用于新疆地區(qū)慢性阻塞性肺病的月門(mén)診量進(jìn)行預(yù)測(cè),并與ARIMA比較,發(fā)現(xiàn)LSTM精度較高。胡慶芳等將LSTM用于漢江上游安康站日徑流預(yù)測(cè),發(fā)現(xiàn)多因素條件下效果較好。
綜上所述,關(guān)于CPI預(yù)測(cè)并未有統(tǒng)一的方法。并且,較少有學(xué)者結(jié)合SARIMA對(duì)線性擬合和LSTM對(duì)非線性擬合的優(yōu)勢(shì)對(duì)CPI進(jìn)行建模預(yù)測(cè)。本文以河南省月度同比CPI為研究對(duì)象,嘗試使用SARIMA-LSTM對(duì)其建模,以探究其在CPI預(yù)測(cè)中的效果。
1模型簡(jiǎn)介
1.1SARIMA模型
對(duì)于隨機(jī)時(shí)間序列yt,季節(jié)性移動(dòng)平均差分自回歸SARIMA(p,d,q)(P,D,Q)s,公式如下:
ΦpLAPLs(ΔdΔDsyt)=ΘqLBQLsvt(1)
其中,Δd表示非季節(jié)性差分算子,Δd=1-Ld;ΔDs表示季節(jié)性差分算子,ΔDs=1-LDs;Φp(L)為非季節(jié)性自回歸算子,Φp(L)=1-φ1L-φ2L2-…-φpLp;APLs為季節(jié)性自回歸算子,APLs=1-α1Ls-α2L2s-…-αPLPs;ΘqL為非季節(jié)性移動(dòng)平均算子,ΘqL=1+θ1L+θ2L2+…+θqLq;BQLs為季節(jié)性移動(dòng)平均算子,BQLs=1+β1Ls+β2L2s+…+βQLQs;vt為白噪聲。
1.2LSTM
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM),解決了計(jì)算過(guò)程中梯度消失的問(wèn)題。對(duì)于輸入xt,LSTM隱層輸出表示為ht,具體計(jì)算過(guò)程如下:
it=σWiht-1,xt+bi(2)
ft=σWfht-1,xt+bf(3)
c~t=tanhWcht-1,xt+bc(4)
ct=ft⊙ct-1+it⊙ct(5)
ot=σWoht-1,xt+bo(6)
ht=ot⊙tanhct(7)
其中,W為權(quán)重矩陣,b為偏移列向量。LSTM將信息存放在門(mén)控單元中,f是遺忘門(mén),表示對(duì)于當(dāng)前時(shí)刻的輸入xt,決定了從上一時(shí)刻傳來(lái)的信息要丟棄的部分。i表示輸入門(mén),決定在t時(shí)刻應(yīng)該更新哪些值,c~是一個(gè)候選值的向量,將i和c~組合起來(lái)得到c對(duì)神經(jīng)元狀態(tài)進(jìn)行更新。o是輸出層,決定神經(jīng)元狀態(tài)需要輸出的部分。h是網(wǎng)絡(luò)的輸出。
2實(shí)證分析
2.1數(shù)據(jù)來(lái)源
本研究以河南省為研究對(duì)象,選取其1995年1月-2020年4月月度同比CPI數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)來(lái)源于瑞思數(shù)據(jù)庫(kù)。CPI走勢(shì)如圖1,從中可以看出,2004年、2008年CPI較高,2012年之后較為平穩(wěn)。近來(lái),受豬肉價(jià)格影響,CPI較高。
2.2SARIMA模型構(gòu)建
(1)平穩(wěn)性檢驗(yàn)。使用R軟件中adf.test函數(shù)進(jìn)行單位根檢驗(yàn),結(jié)果如下:
Augmented Dickey-Fuller Test
data:CPI
Dickey-Fuller = -4.164, Lag order = 6, p-value = 0.01
alternative hypothesis: stationary
p值為0.01,在5%的顯著性水平下拒絕原假設(shè)“序列不平穩(wěn)”,由此可知,數(shù)據(jù)平穩(wěn)。
(2)模型識(shí)別。加載R語(yǔ)言forecast包,使用函數(shù)auto.arima根據(jù)AICc最小準(zhǔn)則對(duì)1995年1月-2020年4月CPI進(jìn)行模型構(gòu)建,模型為SARIMA(2,0,1)(1,0,0)12,系數(shù)估計(jì)見(jiàn)表1。其中,殘差方差估計(jì)值為0.4822,對(duì)數(shù)似然估計(jì)值為-322.05,赤池信息準(zhǔn)則AIC為656.11,AICc為656.39,貝葉斯信息準(zhǔn)則BIC為678.41。
使用confint函數(shù)對(duì)模型系數(shù)進(jìn)行檢驗(yàn),結(jié)果見(jiàn)表2。由表2可知,在95%的置信區(qū)間下,參數(shù)取值范圍均不含0,即系數(shù)顯著。
(3)模型診斷。使用Box.test函數(shù)對(duì)殘差進(jìn)行檢驗(yàn),得
X-squared = 7.6586, df = 6, p-value = 0.2642
從Box檢驗(yàn)得知?dú)埐罘险龖B(tài)性假設(shè)且不相關(guān),認(rèn)為模型擬合比較充分。
對(duì)2019年11月-2020年4月CPI進(jìn)行預(yù)測(cè),結(jié)果見(jiàn)表3。其均方根誤差為0.8227,建模精度較高,基本可以描述2019年11月到2020年4月CPI月度同比數(shù)據(jù)。
2.3SARIMA-LSTM模型構(gòu)建
針對(duì)SARIMA模型對(duì)非線性數(shù)據(jù)擬合不好的問(wèn)題,本文使用LSTM對(duì)其殘差進(jìn)行建模。使用1995年1月-2019年10月的殘差進(jìn)行訓(xùn)練模型,對(duì)2019年11月-2020年4月的殘差進(jìn)行測(cè)試。經(jīng)對(duì)比,數(shù)據(jù)平滑期設(shè)置為8,隱藏層節(jié)點(diǎn)數(shù)為100,訓(xùn)練次數(shù)為150。測(cè)試集的均方根誤差為0.6316,相比SARIMA模型減少了23%。殘差預(yù)測(cè)值加上SARIMA模型預(yù)測(cè)值即為SARIMA-LSTM預(yù)測(cè)值,結(jié)果見(jiàn)表3。
2.4LSTM模型構(gòu)建
本文同時(shí)使用LSTM模型對(duì)1995年1月-2019年10月CPI數(shù)據(jù)直接建模,并對(duì)2019年11月-2020年4月數(shù)據(jù)預(yù)測(cè),預(yù)測(cè)均方根誤差為1.0651,比SARIMA、SARIMA-LSTM均要高。CPI預(yù)測(cè)值見(jiàn)表3。
3結(jié)語(yǔ)
本文利用模型SARIMA、SARIMA-LSTM、LSTM對(duì)河南省1995年1月-2020年4月月度同比CPI進(jìn)行對(duì)比建模,SARIMA-LSTM建模精度最高,SARIMA次之,LSTM效果最差。由此可知,模型SARIMA-LSTM可以較好地對(duì)河南省CPI進(jìn)行建模,以預(yù)測(cè)河南省CPI的狀況。對(duì)于本文數(shù)據(jù),LSTM效果較差,其它數(shù)據(jù)中LSTM效果可能更優(yōu),針對(duì)不同數(shù)據(jù),需做具體分析。下一步研究可以使用更多因素利用LSTM對(duì)CPI進(jìn)行對(duì)比建模,以提高預(yù)測(cè)準(zhǔn)確度。
參考文獻(xiàn)
[1]袁志強(qiáng),陳銳.基于ARMA模型的CPI短期預(yù)測(cè)研究[J].中國(guó)集體經(jīng)濟(jì),2018,(03):6465.
[2]倪穎,年靖宇.基于ARIMA模型的居民消費(fèi)價(jià)格指數(shù)走勢(shì)實(shí)證分析與預(yù)測(cè)——以重慶市為例[J].貴州商學(xué)院學(xué)報(bào),2018,(02):1423.
[3]張?zhí)鹑?陜西省居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)[J].合作經(jīng)濟(jì)與科技,2020,(07):6769.
[4]李志超,劉升.基于ARIMA模型、灰色模型和回歸模型的預(yù)測(cè)比較[J].統(tǒng)計(jì)與決策,2019,(23):3841.
[5]梁曉瑩.基于ARIMA-SVM模型的鄭州市CPI預(yù)測(cè)研究[J].洛陽(yáng)理工學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2019,(04):2631.
[6]吳曉峰,楊穎梅,陳垚彤,等.基于BP神經(jīng)網(wǎng)絡(luò)誤差校正的ARIMA組合預(yù)測(cè)模型[J].統(tǒng)計(jì)與決策,2019,(15):6568.
[7]歐陽(yáng)紅兵,黃亢,閆洪舉,等.基于LSTM神經(jīng)網(wǎng)絡(luò)的金融時(shí)間序列預(yù)測(cè)[J].中國(guó)管理科學(xué),2020,(04):2735.
[8]李琳,王哲,張學(xué)良,等.基于LSTM深度神經(jīng)網(wǎng)絡(luò)的月門(mén)診量預(yù)測(cè)精度研究[J].中國(guó)數(shù)字醫(yī)學(xué),2019,(01):1417.
[9]胡慶芳,曹士圯,楊輝斌,等.漢江流域安康站日徑流預(yù)測(cè)的LSTM模型初步研究[J].地理科學(xué)進(jìn)展,2020,(04):636642.
[10]HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,(8):17351780.