姜閃閃,夏 旻
(1.南開大學商學院,天津 300071;2.南京信息工程大學信息與控制學院,南京 210044)
經濟增長預測歷來都是經濟學領域研究的熱點,經濟預測支持著政府部門的戰略決策。利用模型對經濟問題進行分析研究是重要的分析手段之一。模型選擇對預測精度起著關鍵的作用,如果沒有合理的建模方法,預測精度會很低,給決策者以錯誤的導向。經濟時間序列預測一直是預測領域的研究熱點[1],針對經濟時間序列,國內外學者對其進行了大量的研究,形成了眾多的預測方法,主要有:簡單移動平均、自回歸滑動平均、線性回歸、Kalman濾波[2]和非參數回歸模型等。傳統的方法,如回歸分析,指數平滑法和自回歸移動整合(ARIMA),都是基于線性模型的[3]。所有這些方法都是假定預測變量是線性關系,很難把握宏觀經濟系統中的非線性現象。現代統計學習理論中神經網絡在非線性時間序列模中應用最為廣泛,該方法具有更好的預測性能和預測效果,能夠有效實現經濟數據的短期預測[4]。人工神經網絡以其良好的非線性品質、靈活而有效的自組織學習方法以及完全分布的存儲結構等特點[5,6]。許多文獻證實神經網絡方法在預測中的效果優于其它的傳統方法[7,8]。而在國內也有大量的文章證明了該人工智能算法既可以用于短期經濟預測,又可用于中長期經濟預測[9,10,11]。神經網絡相對于其他的學習模型具有更強的非線性化處理能力,更好的魯棒性及容錯性,但是神經網絡自身存在的一些缺點,具有學習速度較慢、過擬合、迭代次數過多、求解易于陷入局部極小等缺點。
極限學習機(Extreme Learning Machine,ELM)是最近提出來的一種新的神經網絡訓練方法。簡單地來說它是一種基于單層前饋神經網絡的神經網絡算法模型。ElM作為一種新的學習算法在保證網絡具有良好泛化性能的同時,極大的提高了網絡的學習速度,并且避免了基于梯度下降學習算法中許多問題,如局部最小、迭代次數多、性能指標以及學習率的確定等。然而,由于神經網絡對于模型建立缺乏解析式的建模,神經網絡可能遭受欠擬合或過度擬合,一種網絡過于復雜可能適合不僅信號而且噪音并導致過度擬合。為了解決這一問題,本文基于極限學習機,根據輸入數據的自適應度量提出了一種新穎的神經網絡模型,輸出數據是由一種混合機制進化而來。模型輸入的自適應度量可以適應局部變化的趨勢和振幅。輸入的網絡最接近歷史數據來避免由于訓練數據和輸入數據之間的大的差異導致預測誤差急劇增加。在使用所提出的混合輸出的機制預測結果的相對誤差可以調整,使預測結果更加準確。實驗結果表明,該模型優于其他傳統模型。
神經網絡相對于其他的學習模型具有更強的非線性化處理能力,更好的魯棒性及容錯性。針對神經網絡處理過程中遇到的收斂速度慢,容易陷入局部最優,初始參數對結果的影響較大等問題提出了極限學習網絡架構來實現經濟預測。ElM作為一種新的學習算法在保證網絡具有良好泛化性能的同時,極大的提高了網絡的學習速度,并且避免了基于梯度下降學習算法中許多問題,如局部最小、迭代次數多、性能指標以及學習率的確定等,其網絡結構如圖1所示。以下是ELM的實現過程:

圖1 神經網絡構造
對N個學習樣本(xi,yi),xi為輸入樣本,yi為輸出樣本,i=1,2,...,N ,其中,xi=[xi1,xi2,...,xin]∈ Rn,yi=[yi1,yi2,...,yim]∈Rm。如果隱層節點個數為,激活函數為g(x)可以表示為:



通過N個樣本的學習,上述方程可以表述為:

傳統神經網絡通常采用誤差反向傳播迭代調整權值。不同于傳統的學習方式,極限學習機的隱含層節點偏置值和輸入權值在網絡訓練時可隨機給定,那么矩陣H為常數矩陣,Hβ=Y就成為線性方程組,輸出權值可以通過最小二乘解的方式得到,即:

H+是矩陣H的Moore-Penrose廣義逆。通過極限學習的方式得到的網絡有一下一些特性:(1)網絡的最小訓練誤差可以直接得到;(2)可以獲得權值的最小范數并且得到最優的泛化性能;(3)權值的最小二乘解是唯一的,因此網絡不會出現局部最優解。由于極限學習機的權值是由Moore-Penrose廣義逆得到的,因此通常設置≤N。
由于神經網絡對于模型建立缺乏一個系統化的建模,神經網絡可能遭受欠擬合或過度擬合。過擬合是特別具誤導性的,因為它很容易導致預測遠遠超出了實際數據。為了減少這一缺點的影響,本文提出了一種基于K近鄰和ELM的混合方法進行經濟預測。在這個模型中,由于測試數據可能會遭受不確定性,使用k近鄰對輸入數據進行預處理,使輸入數據更加接近訓練樣本,使得網絡輸出更加可靠。首先,初始化測試數據Q=[q1,q2,…qn](qj,j=1,2,…,N 表示第j個測試數據),這時為網絡輸入源數據進行預處理。采用k近鄰方法將測試數據集Q=[q1,q2,…qn]與訓練模式進行對比。本文中采用歐式距離來定義測試數據和訓練數據之間的差異性:

基于這一策略選擇Q的k近鄰為 Xd1,Xd2,…Xdk,基于k近鄰預處理ELM的輸入數據,ELM網絡的輸入向量可以被定義為:

對于神經網絡來講,即使有相同的學習樣本,ELM每次學習的網絡權值都是不一樣的。因此,預測ELM的結果一定是不同的。因此,本文對每一次預測重復s次,然后取平均值,以獲得更高的預測精度,并具有更可靠的結果。所提出的方法的算法的步驟如下。
步驟2:基于方程(7)使用的歐氏空間距離比較測試數據集 Q=[q1,q2,…qn]與訓練數據。
步驟3:根據公式(8)選擇Q的k近鄰 Xd1,Xd2,…Xdk,初始化神經網絡的輸入數據。
步驟4:應用神經網絡得到初步預測結果。
步驟5:利用相同的數據重復步驟1和步驟4 s次,取s次預測的平均值作為最終的預測結果。
為了與其它方法做仿真比較,本文利用歸一化均方誤差(NMSE)和絕對平均百分比誤差(MAPE)來作為標準。對于一個時間序列,歸一化均方誤差的定義如下:

上式中,yi是真實數據,是預測數據,M 代表被預測數據的個數。σ2表示從源數據估計得來的方差。絕對平均百分比誤差被視為標準的統計性能指標之一,定義如下:

本文的所有測試數據來自國家統計局官網,這用改革開放以來1978~2012年的經濟數據來驗證本文所提方法的有效性。本文利用多個經濟指標進行研究,這些經濟指標包括:固定資產投入、財政收入、財政投入、國民收入指數、國民消費指數、進出口總額、居民消費價格指數、第一產業增加值指數、第二產業增加值指數、第三產業增加值指數、房地產產業增加指數、工業增加值指數、金融業增加值指數、批發和零售業增加值指數、商品零售價格指數等15個。這些經濟指標在預測經濟增長率的時候并不一定都是有效的,而且利用的經濟指標越多,模型越復雜,得到的結果也未必更精確。已有的一些研究主要利用人工經驗的方式選取其中的幾個指標來對經濟增長進行預測,這樣的方式往往不能選取有效的經濟指標,從而使得預測的準確度不高。為了有效的選擇合適的經濟指標,我們首先利用自回歸的方式選擇和經濟增長相關度高的經濟指標。在此基礎上然后利用神經網絡對經濟增長進行預測。
為了驗證本文方法的有效性,本文將1978~2007的數據作為訓練數據,2008~2012的數據作為驗證數據。由于2008以來發生全球經濟危機,經濟增長相比之前存在各種不確定性,因此2008年之后的經濟增長預測被研究人員認為是很困難的一個工作。為了尋找有效的經濟指標,本文首先利用自回歸(AR)模型來擬合經濟的增長率:

其中 y為經濟增長率,xi(i=1,2,...,15)為各種經濟指標。ai(i=0,1,2,...,15)為系數,ai的絕對值越大代表經濟指標xi對經濟增長的影響越大。自回歸模型擬合結果如圖2所示,可以看出自回歸模型可以很好的擬合各經濟指標和經濟增長的關系。自回歸得到的各個經濟指標對經濟增長的相關度結果如表1所示。從表1可以看出和經濟增長相關度高的經濟指標主要有:國民收入指數、消費價格指數、第一產業增加值指數、第二產業增加值指數、第三產業增加值指數、工業增加值指數和商品價格指數。這之前的很多文獻中使用的經濟指標不太一樣。比如,很多研究人員曾認為固定資產投入和經濟的相關度很高,但是數據表明并非如此。這是由于固定資產的投入主要由政府主導,而政府的主導的大力度的固定資產投入大部分是為了在經濟下滑時保住經濟的增長,大力度的固定資產投入很多是在經濟不景氣的情況下產生的,因此固定資產的投入和經濟增長存在弱的負相關。

表1 各經濟指標和經濟增長的相關度

圖2 回歸模型擬合各經濟指標和經濟增長的關系
基于國民收入指數、消費價格指數、第二產業增加值指數、第三產業增加值指數利用自適應極限學習機進行經濟增長的預測。AR模型,BP神經網絡模型,自組織模型是已有的經濟增長預測的常用模型,為了驗證本文方法的有效性,將預測結果和AR模型,BP神經網絡模型,自組織模型,和單一的極限學習機模型的預測結果進行對比。圖3給出了各種模型預測經濟增長的結果,從圖3中可以看出本文提出的方法可以很好的預測出經濟增長率。表2給出了各種模型的預測精度對比。從表2可以看出,AD-ELM方法的兩種誤差都優于其它三種方法,NMSE和MAPE分別只有0.0345和1.06%。從表2中可以得到,ELM網絡比傳統的BP神經網絡結果要好,這是由于ELM解決了BP網絡的迭代次數多、陷入局部最優等缺陷。另外,AD-ELM方法的預測精度比ELM高,表明本文的自適應學習機制通過對歷史樣本的有效利用,可以提高預測的精度。

表2 各種模型的預測精度對比

圖3 各種模型預測經濟增長的結果
如何利用各種經濟指標實現經濟增長的預測是經濟研究領域的一個重要課題,實現精確的經濟增長預測對政府的決策有重要的支持作用。傳統的經濟預測模型主要以線性模型為主,并且人為的選擇經濟指標來預測經濟的增長。而線性模型很難捕捉經濟過程中的非線性現象,并且人為選擇經濟指標并不科學。為了解決這些問題,本文首先利用自回歸的方法提取與經濟增長相關系數高的經濟指標,然后提出了一種基于極限學習機理論和k近鄰理論的自適應極限學習機模型用于經濟時間序列預測。本方法比傳統的神經網絡、自回歸模型、自組織模型、單一的極限學習機模型的精度更高,可以很好的預測經濟的增長。
[1]Franses P.H著.商業和經濟預測中的時間序列模型[M].北京:中國人民大學出版社,2002.
[2]Huang S C.Online Option Price Forecasting By Using Unscented Kalman Filters and Support Vector Machines[J].Expert Systems With Applications,2008,(34).
[3]Brooks C.Introductory Econometrics For Finance[M].Cambridge University Press,Cambridge,UK,2002.
[4]鄒曉玫,修春波.混沌算子網絡在經濟數據預測中的應用研究[J].廣西大學學報,2011,(5).
[5]Funahashi K.On The Approximate Realization of Continuous Mappings By Neural Networks[J].Neural Networks,1989,(2).
[6]Cybenko G.Approximation By Superpositions of A Sigmoidal Function[J].Mathematics of Control Signals and Systems,1989,(2).
[7]Wang T,Chien S.Forecasting Innovation Performance Via Neural Networks-A Case of Taiwanese Manufacturing Industry[J].Technovation,2006,(26).
[8]Sahoo G B,Ray C.Flow Forecasting for A Hawaii Stream Using Rating Curves and Neural Networks[J].Journal of Hydrology,2006,(317).
[9]郝香芝,李少穎.我國GDP時間序列的模型建立與預測[J].統計與決策,2007.
[10]劉全,劉汀.基于ARIMA的多元時間序列神經網絡預測模型研究[J].統計與決策,2009,(11).
[11]王鑫,肖枝洪.基于干預模型與BP神經網絡集成的GDP預測[J].統計與決策,2012,(20).