朱青 周石鵬



摘 要:傳統時間序列方法在預測模型中要求時序數據穩定,但對復雜的非線性系統擬合能力較差,但GDP增長的預測精度不夠準確。為了提高GDP增長的預測精度,首先利用機器學習算法Random Forest對影響GDP增長的變量進行重要性排序,選取重要變量,之后運用深度學習中的LSTM神經網絡對GDP增長進行預測分析,并將預測結果與傳統時序型ARIMA及GARCH模型進行比較。實驗結果表明,基于遞歸神經網絡的LSTM模型能較準確地反映我國GDP增長的變化規律。因此,LSTM模型在宏觀經濟預測中具有較高的應用價值。
關鍵詞:GDP增長預測;LSTM;特征選擇;隨機森林
中圖分類號:F12 ? ? ? ?文獻標志碼:A ? ? ?文章編號:1673-291X(2021)19-0005-05
引言
近幾年,全球經濟和貿易增長逐漸放緩。國際環境復雜多變,貿易壁壘不斷增加,世界經濟面臨增長乏力的局面。中國經濟正在由高速增長階段轉向高質量發展。受全球經濟放緩和中美貿易摩擦不確定的影響,經濟運行總體平穩,GDP增速放緩。GDP增速反映經濟發展趨勢,與人民的生活水平息息相關。中國國家統計局數據顯示,中國經濟經過多年的高速增長后,2015年GDP增速為6.9%,2016—2018年的增速分別為6.7%,6.8%和6.6%。2019年6.1%的GDP增速是近年來最大的一次經濟增速下降。能夠精準預測GDP增速,對宏觀經濟目標的可行性和有效性的分析具有重要影響。
隨著經濟學的發展,出現了大量的經濟預測方法,這些模型主要分為兩類:一類是基于時序的外推法,比如移動算數平均法,指數滑動平均法;第二類是基于變量因果關系的因果法,比如回歸分析法、計量經濟學方法。但總的來看,經濟預測工作進展并不順利,主要體現在預測精度不盡如人意,隨著機器學習和深度學習的發展,模型對復雜系統的擬合越來越好。
本文主要的嘗試是:提出一種基于隨機森林和LSTM的預測模型,構建多層神經網絡更好地擬合宏觀經濟中的非線性關系和時序關系。
一、相關研究綜述
目前,國內外對宏觀經濟預測的研究主要分為以下幾類:首先是基于傳統的時間序列預測模型。李瑞閣、黃佳艷(2018)利用ARIMA乘積模型對國民經濟GDP進行預測研究,表明所選模型能較準確地反映我國季度GDP的變化規律[1];李娜等(2013)利用選定的最優ARIMA模型對我國GDP的增長模型進行預測,并闡明了模型的優良性和穩定性,但由于傳統時間序列方法對復雜的非線性關系擬合性較差且無法添加與預測指標相關的變量,預測精度難以提高[2]。之后,學者們轉向對非線性系統擬合較好的機器學習算法進行宏觀經濟預測。Wang&Shang(2014)、Wang等(2016)將改進SVM模型應用于證券與股票指數預測中,證明了改進支持向量機模型預測的有效性[3~4]。然而在經濟領域數據之間普遍存在時序關系,機器學習算法不能較好地反映樣本間的時序關系。隨著機器學習領域中深度學習的研究和發展,其中的遞歸神經網絡(RNN)適用于處理序列數據。但是由于RNN存在長期依賴問題,Hochreiter和Schmidhuber(1997)提出RNN的改進模型LSTM神經網絡[5],并被Alex Graves等(2013)進行改良和推廣,使LSTM得到更廣泛的應用[6]。Fu等(2017)針對交通流的隨機性和非線性特征,使用LSTM和門控循環單位(GRU)神經網絡方法來預測短期交通流量,實驗證明基于遞歸神經網絡的LSTM和GRU模型表現優于ARIMA模型[7]。
根據以上分析,本文主要是利用LSTM模型對中國宏觀經濟變量GDP增速進行預測分析??紤]影響經濟的眾多可能因素,在此分析過程中利用機器學習Random Forest算法提取影響經濟發展的重要特征指標,通過LSTM算法對這些指標數據進行學習訓練,對宏觀經濟進行預測分析。最后與時間序列預測模型(AR,MA,ARIMA)結果進行對比,可以看出LSTM算法在預測時序問題中具有精確高效性。
二、隨機森林和LSTM預測模型
(一)隨機森林評估特征的重要性
隨機森林特征重要性評估能夠輔助我們對特征進行篩選,從而使模型的魯棒性更好。
特征重要性選擇的目的:尋找與響應變量高度相關的重要變量,便于變量選擇,使少數變量足以很好地預測響應變量[8]。
隨機森林進行特征重要性評估的思想為:通過袋外(out-of-bag,OOB)數據誤差增長百分率指標衡量特征重要性。
假設隨機森林有N棵樹,第K棵樹的誤差增長百分率如式(1):
其中,errOOBK1代表袋外數據誤差,errOOBK2是對袋外數據對應變量加入噪聲干擾或者改變樣本在特征變量x處的值,再次計算得到的袋外數據誤差。對于N棵決策樹,如果加入隨機干擾后,errOOBK2的值大幅上升,即誤差增長百分率大幅上升,說明特征的重要程度比較高[9]。
隨機森林根據特征重要性進行特征選擇的步驟如下:
第一步,估計和排序。一是對隨機森林的特征變量按照變量重要性(Variable Importance,VI)降序排序。二是確定刪除比例,從當前的特征變量中刪除相應比例不重要的指標,從而得到一個新的特征集。三是用新的特征集建立新的隨機森林,并計算特征集中每個特征的VI并排序。四是重復以上步驟,直到剩下m個特征。
第二步,根據第一步得到的每個特征集和建立的隨機森林,計算對應的袋外誤差率(OOBerr),將袋外誤差率最低的特征集作為最后選定的特征集。本文收集的原始數據集中共包含8個變量,1個因變量和7個自變量。根據隨機森林特征重要性排序,7個自變量的特征重要性排序如表1所示。從表1可以看出,第6、第7兩個變量即貨幣供應量和固定資產投資,特征重要性比較低,故本文選取前5個變量作為模型的自變量,即人口增長率,M2/GDP,外匯儲備,貨物進出口總額,財政收入[10]。