許金煒(上海大學理學院,上海200444)
基于虛擬變量回歸與SARIMA組合模型的GDP預測
許金煒
(上海大學理學院,上海200444)
文章根據我國1992年至2015年的GDP季度數據,建立了虛擬變量回歸(DVR)模型、SARIMA模型及其組合(DVR-SARIMA)模型,并進行了比較與分析,結果發現組合(DVR-SARIMA)模型的擬合效果最好,預測性能亦是最好,且利用組合(DVR-SARIMA)模型對我國未來的季度GDP進行了預測,以期對我國未來的總體經濟增長情況做出合理的分析與判斷。
虛擬變量回歸模型;SARIMA模型;組合模型;GDP;預測
國內生產總值(Gross Domestic Product),簡稱GDP,是指按市場價格計算的一個國家(或地區)所有常住單位在一定時期內生產勞動的最終成果。GDP不僅能夠在總體上度量國民產出和收入規模,也能夠在整體上度量經濟波動和經濟周期狀態,因此GDP被認為是衡量一個國家(或地區)經濟狀況的最重要的指標之一,同時也是政府制定經濟發展戰略和經濟政策的重要依據。
目前,國內已經有很多學者嘗試使用各種預測模型,包括時間序列分解法、線性回歸模型、指數平滑法、趨勢外推法、灰色預測以及時間序列模型等方法,對我國GDP進行建模分析預測,但預測精度并不算高,依舊有待改善。本文通過將虛擬回歸(DVR)模型與SARIMA模型進行組合,從而更加精確地擬合了我國季度GDP數據,并且有效降低了預測誤差,對我國未來的GDP數據也進行了更加精確地預測。
1.1 虛擬變量回歸模型
在回歸分析中,因變量不僅受到定量變量(如收入、產出、價格、成本、身高、溫度等)的影響,還會受到定性變量的影響,如季節、文化程度、性別、種族、宗教和地區等因素,這些因素在某些情況下是因變量的重要影響因素,建立模型時不能忽略。量化這些因素的途徑之一,就是構造一個取值為0或1的人工變量,取1表示這種因素起影響作用,取0表示這種因素不起影響作用。假定這種取值為0或1的變量被稱為虛擬變量(Dummy Variable)。這種變量實質上就是一個將數據區分為相互排斥類別(如男性或女性)的工具。
引入虛擬變量后,回歸方程中同時含有一般解釋變量和虛擬變量,這種結構的模型便被稱為虛擬變量回歸模型(Dummy Variable Regression Model),在本文中簡稱為DVR模型。此外,需注意虛擬變量的設置原則:若定性變量有m個類別,則回歸方程中只需引入m-1個虛擬變量,否則就會陷入“虛擬變量陷阱”,即多重共線性。
由于許多基于季度或月度數據的經濟時間序列都表現出季節特征(規則地擺動),因此在建立模型時,需要考慮季節因素變動的影響,而虛擬變量法便是其中一種研究方法,本文在應用DVR模型研究我國季度GDP時間序列時,根據虛擬變量設置原則,需引入如下三個虛擬變量:

則可建立如下DVR模型:

1.2 SARIMA模型
ARMA模型是一種常用的隨機時序模型,是時間序列模型中的經典模型,由美國統計學家Box和英國統計學家Jenkins創立,亦稱B-J方法。ARMA模型共有三種基本類型:自回歸模型、移動平均模型以及自回歸移動平均模型,這三種模型都是平穩隨機過程,如果對于一個時間序列,經過差分之后可以變換成一個平穩的ARMA過程,那么該過程則稱為單整自回歸移動平均過程。
(1)自回歸(AR)模型
如果時間序列{Yt}是它的前期值和隨機項的線性函數,則可表示為:

稱該時間序列{Yt}為自回歸序列,式(2)為p階自回歸模型,記為AR(p)。c為常數項,實參數θ1,θ2,…,θp稱為自回歸系數,是AR(p)模型的待估參數;隨機項εt是相互獨立的白噪聲序列,且服從正態分布N(0,σε2),且隨機項εt與滯后變量yt-1,yt-2,…,yt-p不相關。
記Bk為k步滯后算子,即Bkyt=yt-k,則式(2)可表示為:

令θ(B)=1-θ1B-θ2B2-…θpBp,則式(2)可簡寫為:θ(B)yt=c+εt。
(2)移動平均(MA)模型
如果時間序列{Yt}是它的當前和前期的隨機誤差項的線性函數,則可表示為:

稱該時間序列{Yt}為移動平均序列,式(3)為q階移動平均模型,記為MA(q)。c為常數項,實參數?1,?2,…,?q稱為移動平均系數,是MA(q)模型的待估參數。
引入滯后算子,并令?(B)=1-?1B-?2B2-…?qBq,則式(3)可簡寫為:yt=c+?(B)εt。
(3)自回歸移動平均(ARMA)模型
如果時間序列{Yt}是它的當前和前期的隨機誤差項以及前期值的線性函數,則可表示為:

稱該時間序列{Yt}為自回歸移動平均序列,式(4)為(p,q)階的自回歸移動平均模型,記為ARMA(p,q)。c為常數項,實參數θ1,θ2,…,θp稱為自回歸系數,?1,?2,…,?q稱為移動平均系數,都是ARMA(p,q)模型的待估參數。
引入滯后算子,則式(4)可簡記為:

(4)單整自回歸移動平均(ARIMA)模型
如果時間序列{Yt}的d階差分 Xt=(1-B)dYt是一個平穩的ARMA(p,q)過程,其中d≥1是整數,則有:

稱該時間序列{Yt}為單整自回歸移動平均序列,即式(5)為(p,d,q)階的單整自回歸移動平均模型,記為ARIMA(p,d,q)。
(5)季節單整自回歸移動平均(SARIMA)模型
在一些時間序列中,存在明顯的周期性變化,這種周期是由于季節性變化(包括季度、月度等變化)或者其他一些固有因素引起的,這類序列就稱為季節性時間序列,季節時間序列模型(Seasonal ARIMA Model),或者稱為乘積季節模型(Multiplicative Seasonal Model),便是處理這類時間序列的模型之一,記為SARIMA。
設季節序列的變化周期為s,則一次季節差分可以表示為:(1 -Bs)yt=yt-yt-s。對于非平穩時間序列,有時需要進行D階季節差分之后才能轉換為平穩序列。記P表示季節自回歸最大滯后期,Q表示季節移動平均最大滯后期,于是SARIMA模型的一般表達式可定義如下:

稱式(6)為(p,d,q)×(P,D,Q)階的季節時間序列模型或者乘積季節模型。如果含有時間趨勢項,則可以定義如下模型:

1.3 組合模型
結合模型式(1)與模型式(7),則可定義DVR-SARIMA組合模型,其一般表達式如下:

稱式(8)為(p,d,q)×(P,D,Q)階的虛擬變量季節時間序列組合模型或者虛擬變量乘積季節組合模型。
1.4 ADF單位根檢驗
考慮如下回歸方程:

其中,εt為純粹的白噪聲誤差項,Δyt=yt-yt-1,Δyt-1=yt-1-yt-2,以此類推。常數項c表示漂移項,t表示時間或趨勢變量。
ADF單位根檢驗的原假設(含有單位根)為H0:δ=0,備擇假設(不含單位根)為H1:δ<0。對于式(9),如果拒絕原假設,則認為原時間序列{Yt}具有平穩性或退勢平穩性;如果不能拒絕原假設,則依次剔除時間或趨勢變量項、漂移項繼續進行ADF單位根檢驗,直至拒絕原假設,若一直不能拒絕原假設,則說明原時間序列{Yt}是一個單位根序列,建立模型前還需做進一步的平穩性處理。
1.5 模型選擇準則
(1)R2準則
一個回歸模型擬合優度的度量指標之一就是R2,定義為:

其中,TSS表示離差平方和,反映因變量波動的大小;ESS表示回歸平方和,反映由模型解釋變量計算出來的擬合值的波動;RSS表示殘差平方和,反映因變量總的波動中不能通過回歸模型解釋的部分。
但是用R2作為衡量標準存在一個問題,即如果將某個對因變量影響非常小的變量添加到模型中后,R2并不會變小。如果僅僅依據R2增加就將這個變量包含于模型中,將是不合理的,因為新增變量降低了自由度。于是可用調整后的R2進行度量,記為Rˉ2,定義為:

其中,n表示樣本量,k表示解釋變量個數,這樣就可以在一定程度上避免將影響微弱的變量添加到模型中,顯然,
(2)赤池信息準則(AIC)
在AIC準則中,進一步對模型中增加自變量進行了懲罰,其定義為:

其中,2(k +1)/n為懲罰因子。
(3)施瓦茨信息準則(SC)
與AIC準則思想類似,SC準則的定義為:

在進行模型選擇時,通常Rˉ2的值越大越好,而AIC與SC的值則越小越好。
2.1 數據來源
本文所使用的我國1992年至2015年的GDP季度數據(單位:億元)均來自于國家統計局網站。
2.2 模型建立
2.2.1 ADF單位根檢驗
根據我國1992年至2015年的GDP季度數據,可以繪制原GDP季度序列折線圖以及取自然對數后的LOG(GDP)季度序列折線圖,分別如圖1和圖2所示:

圖1 GDP季度序列圖

圖2 LOG(GDP)季度序列圖
從圖1和圖2可以看出,無論是原GDP季度序列,還是LOG(GDP)季度序列,隨著時間的推移,它們均有明顯的上升趨勢,但LOG(GDP)季度序列與時間的線性關系更強。
下面分別對這兩個序列進行ADF單位根檢驗,其檢驗結果如表1所示:

表1 ADF單位根檢驗
從ADF單位根的檢驗結果可以看出,只有含漂移項與時間趨勢項的LOG(GDP)序列通過了ADF單位根檢驗,于是便可以根據LOG(GDP)序列建立帶有漂移項與時間趨勢項的模型。
2.2.2 模型的參數估計
記t=1表示1992年第一季度,t=2表示1992年第二季度,以此類推,t=94表示2015年第二季度,則根據式(1)、式(7)與式(8)模型的具體表達式,用EViews軟件對其進行參數估計,所得具體模型的表達式如下:
DVR模型:

SARIMA模型:

DVR-SARIMA模型:

2.3 模型分析
首先分析模型的基本統計性質,如表2所示:

表2 模型的基本統計性質
(2)根據模型選擇準則:AIC與SC準則,DVR-SARIMA模型的AIC與SC值明顯小于DVR模型和SARIMA模型的AIC與SC值;而且DVR-SARIMA模型的殘差平方和也是最小的。
(3)從模型的異方差性來看,根據White檢驗的P值可以看出SARIMA模型的隨機誤差項序列存在異方差,這將會影響模型的預測精度。而DVR模型與DVR-SARIMA模型均通過White檢驗,可認為隨機誤差項序列不存在異方差性。
再來分析模型的預測性能,如表3所示:均相對誤差均是最小的,而且DVR-SARIMA模型的Theil系數的值更接近于0,說明其單位均方根誤差最小,預測值更接近于實際值,模型的擬合效果最好。此外,偏差比率表示預測均值與實際均值的偏離程度,方差比率表示預測方差與實際方差的偏離程度,協方差比率衡量非系統誤差,三者和為1,根據表3分析比較,DVR-SARIMA模型的偏差比率與方差比率最小,協方差比率最大,說明DVR-SARIMA模型的預測值與實際值更接近,誤差更小。

表3 模型預測性能
2.4 模型預測
本文通過橫向比較各模型本身的預測性能,確定預測區間為2012年第三季度至2020年第四季度,這也避免了2008年金融危機對未來季度GDP預測序列的持續影響,同時樣本內預測區間共3年,12個季度,即2012年第三季度至2015年第二季度,可用于比較模型之間的預測誤差。上述3個模型的預測結果如表4所示:

表4 模型的預測結果
從DVR-SARIMA模型的預測結果來看,盡管我國近幾年經濟增速放緩,但在這樣一個全球化、信息化日益增強的大數據時代,隨著我國資源配置和經濟發展方式的轉變,我國的經濟在未來第十三個五年規劃中,將會得到進一步的提升,至2020年,我國GDP總量超過100萬億元將不再是夢想,此外,如果未來五年不發生經濟危機或者經濟振蕩,經濟能平穩發展,至2020年,我國GDP總量甚至有可能突破150萬億元。
本文主要對我國的季度GDP預測做了更精確地研究,從而為我國的經濟決策提供一定的參考價值。本文首先對實證分析所涉及的模型進行了概述,包括虛擬變量回歸(DVR)模型、季節單整自回歸移動平均(SARIMA)模型以及本文提出的虛擬變量季節時間序列組合(DVR-SARIMA)模型;然后根據我國實際GDP季度數據進行建模分析,并從模型的基本統計性質和模型的預測性能兩方面對上述三種模型進行了具體比較與分析,結果發現,無論是基于模型的基本統計性質,還是模型的預測性能,DVR-SARIMA模型都表現出了極強的優越性,最后,本文根據DVR-SARIMA模型對我國未來的GDP進行了預測,對我國未來的經濟增長形勢做了簡要分析:在我國第十三個五年規劃中,我國經濟將會持續增長,此外,隨著我國經濟轉型的成熟化,至2020年,我國GDP總量將會突破100萬億元,甚至會有更大的突破。
[1]徐國祥.統計預測與決策(第四版)[M].上海:上海財經大學出版社,2012.
[2]Gujarati D C.Basic Econometrics[M].New York:Irwin McGraw Hill,2008.
[3]高鐵梅.計量經濟分析方法與建模:EViews應用及實例(第二版)[M].北京:清華大學出版社,2009.
[4]張曉峒.EViews使用指南與案例[M].北京:機械工業出版社,2007.
[5]張曉峒.應用數量經濟學[M].北京:機械工業出版社,2009.
[6]范劍青,姚琦偉.非線性時間序列[M].北京:高等教育出版社,2005.
[7]趙喜倉,周作杰.基于SARIMA模型的我國季度GDP時間序列分析與預測[J].統計與決策,2010,(22).
[8]趙盈.我國GDP時間序列模型的建立與實證分析[J].西安財經學院學報,2006,19(3).
(責任編輯/易永生)
F224
A
1002-6487(2016)24-0038-04
許金煒(1991—),男,江蘇如皋人,碩士研究生,研究方向:統計學。