江艷婷
摘要:為了準確判斷我國的消費形勢,選取我國2000-2018年的經濟月度數據,首先基于機器學習的方法分別構建隨機森林、支持向量機和BP神經網絡三個單項預測評價模型對我國社會消費品零售總額進行預測,由于單項預測方法存在自身的優勢與限制條件,于是引入了基于誤差平方和最小的誘導有序加權算術平均(IOWA)組合預測模型,結果表明:組合預測模型各種預測誤差均小于單項預測模型,說明文中構建的IOWA組合預測模型預測性能優越,具有較好的運用前景。
Abstract: In order to well and truly estimate the consumption situation in China, the economic monthly data of China from 2000 to 2018 was selected. In the first place, based on machine learning methods, three separate forecasting evaluation models of random forest, support vector machine, and BP neural network were used to forecast the total retail sales of social consumer goods in China. Due to the advantages and limitations of the single prediction method, an induced ordered weighted arithmetic average (IOWA) combined prediction model based on the squared error and the smallest error is introduced. The results indicated that: the various prediction errors of the combined prediction model are all smaller than the single prediction model,indicating that the IOWA combined prediction model has predominant forecast performance and good application future that built in this paper.
關鍵詞:機器學習;IOWA算子;組合預測
0? 引言
隨著我國經濟逐漸進入高質量發展階段,消費需求已然成為經濟增長的強勁動力,由消費需求引發的實際購買行為稱之為消費力,消費力本質上是生產力的一種,沒有消費行為,生產也就無法實現,而社會消費品零售總額是國內消費需求的最直接體現,是反映經濟景氣程度的重要指標,如何基于現實發展的要求,高效準確的預測社會消費品零售總額,對于挖掘消費潛力并進一步加強對經濟增長的推動作用極具現實意義。
對于變量的單項預測方法較多,由于機器學習算法具有較強的學習能力,預測精度相對較高,因此文中的單項預測方法均運用機器學習去實現,機器學習源于McCulloch、pitts(1943)[1]開始研究的神經網絡模型,到1986年,Rumelhart等(1986)[2]提出的BP神經網絡成為了神經網絡的最基本算法,在二十世紀90年代后支持向量機(SVM)衍生出了一系列改進和擴展算法,并得到了迅速發展,隨后Leo Breiman(2001)[3]提出了隨機森林算法,之后在預測研究中得到廣泛運用。但每一種算法都有自身的優勢與不足,如BP神經網絡預測能夠提取合理的計算規則,深入解決內部機制復雜的問題,但同時很有可能因局部極值問題,使訓練失效;隨機森林運行非常穩定,泛化能力強,但有時在噪音較大的分類或回歸問題中上會出現過擬合現象;支持向量機小集群分類效率高,且可以通過核函數將線性不可分問題轉化為線性可分,但難以確定最優核函數,鑒于此,組合預測方法則成為了研究的新方向,因為其能夠結合單項預測方法的優勢并縮小劣勢,降低預測誤差。而基于誘導有序加權算術平均(IOWA)算子的組合預測方法正是其中一種,區別于傳統的組合預測方法,基于預測精度誘導的各單項預測方法在各時點的權重會發生變化[4-5-6],康義等(2016)[7]基于IOWA算子對我國省份的電力發展水平進行了一個綜合評價,驗證了該方法的有效性;孫麗、牟海波(2018)[8]構建IOWA算子的組合預測模型對我國高速鐵路的客運量進行預測研究,發現IOWA算子的組合預測模型能夠降低預測誤差,提高預測精度。由于學者們對于消費預測的研究較少,且存在可以深化的空間,因此本文分別建立隨機森林、支持向量機、BP神經網絡和基于IOWA算子的三者組合預測模型,來尋求對于社會消費品零售總額最合適、高效的預測方法。
1? 研究方法
1.1 隨機森林
隨機森林是由多顆決策樹組合而成的分類器,即由N顆決策樹構成,基于原始數據訓練完成再進行預測,其中X是研究對象的影響因素,即輸入變量,θk表示服從獨立同分布的隨機項,h(X,θk)為第K顆數的輸出值,決策樹可以用來分類和回歸,當進行分類時,隨機森林會基于投票制的原則,給予每顆決策樹投票權,然后采用投票最高的那一類作為最終結果;當進行回歸時,隨機森林回歸值為所有決策樹輸出值的平均值。
1.2 支持向量機
支持向量機是基于統計學習理論建立起的一種機器學習方法,其原理是將輸入樣本映射到一個高維空間,在此高維空間將復雜的非線性問題進行線性回歸或分類。設定樣本集,回歸方程如下:
1.3 BP神經網絡模型
BP神經網絡由輸入層、隱含層和輸出層組成,在進行訓練時,信號是從正向傳播的,而誤差是從反向傳播的,為了減少誤差,會由輸出層出發并向前修正,文中建立三層的BP神經網絡預測模型,輸入層為7個神經元,分別為居民消費價格指數(CPI)、貨幣供應量(M1)、消費者滿意指數、消費者預期指數、消費者信心指數、國家財政支出和貨運量這7個影響因素,隱含層用來進行信息的處理,隱含層設計的確定是根據經驗公式h=+a,其中h為隱含層神經元個數,m為輸入層神經元個數,n為輸出層神經元個數,a為調節參數,取值為[1,10]之間,文中隱含層神經元個數取值為[3.8,12.8]之間,文中設為10個神經元,輸出層為1個神經元,代表社會消費品零售總額。
1.4 IOWA算子
1.5 評價準則
由xt為t時刻的實際值,設為各預測模型的預測值,文中選擇平均相對誤差(MRE)和均方百分比誤差(MSPE)兩種誤差表現形式來評價各單項預測模型和組合預測模型,評價指標體系如下:
2? 變量的選取與數據來源
由于我國社會消費品零售總額受到多種因素的影響,本文基于理論與現實基礎,選取影響較大的七個影響因子,分別為居民消費價格指數(CPI)、貨幣供應量(M1/億元)、消費者滿意指數、消費者預期指數、消費者信心指數、國家財政支出(億元)和貨運量(億噸)。樣本區間為2000年1月至2018年12月,選取2000年1月至2017年12月總計216條數據為訓練樣本,分別建立隨機森林、支持向量機、BP神經網絡和組合預測模型,而2018年1月至2018年12月總計12條數據為測試集,用來驗證預測模型的精度。居民消費價格指數的原始數據是上年同月環比指數,將其轉化為以2000年為基期的定基指數。社會消費品零售總額共有228個月份數據,其中有10個月份數據缺失,于是基于原始數據采用指數平滑的方式進行預測。由于各變量量綱相差較大,為提高機器學習的收斂速度和精度,將數據進行歸一化,歸一至[0.1,1]區間內,歸一化公式如下:
3? 單項預測與組合預測結果比較
基于樣本數據分別建立隨機森林模型、支持向量機模型、BP神經網絡模型及基于誤差平方和最小的誘導有序加權算術平均(IOWA)組合預測模型,將測試集得出的預測值與實際值進行比較分析,并驗證模型精度如表1所示,樣本期誤差比較如表2所示。
首先由表1預測精度可知,在三種單項預測模型中,隨機森林的預測平均精度最高,為94.14%,其次是BP神經網絡模型,為92.65%,最后是支持向量機模型,僅有89.70%,說明在預測社會消費品零售總額方面,隨機森林算法預測穩定,擬合較好,具有較優的預測性能,BP神經網絡模型模型次于隨機森林,可能是由于BP神經網絡的結構選擇沒有統一、標準的理論支撐,文中BP神經網絡的結構選擇是由經驗確定的,結構選擇并沒有達到最優,所以預測精度不是很高,支持向量機預測精度最差,可能沒有確定最優的核函數。但總體來說,三種單項預測模型的預測性能還是較好的,最后,由三種單項預測模型構建的誘導有序加權算術平均(IOWA)組合預測模型在樣本期間內的平均精度達到了95.57%,且高于各種單項預測方法,說明組合預測模型預測最優。在誤差度量方面,我們選擇了平均相對誤差和均方百分比誤差這兩種誤差表現形式,由表2可知,在三種單項預測模型中支持向量機模型的誤差最高,次高是BP神經網絡模型,再是隨機森林模型,誤差最低的是組合預測模型,將各預測方法的誤差歸一化(各單項預測方法的預測誤差與最大預測誤差的占比),發現組合預測模型的平均相對誤差只相當于最大平均相對誤差的43.05%,均方百分比誤差只相當于最大均方百分比誤差的49.51%,說明文中的組合預測模型能夠有效降低預測誤差,體現了組合預測模型的優越性。
4? 總結
本文首先基于機器學習算法,分別構建了隨機森林、支持向量機和BP神經網絡三個單項預測評價模型,發現隨機森林預測性能最優,表明了隨機森林的學習效率高,可以被運用于日常的單項模型預測中,其次BP神經網絡模型的預測效果也較優,但我們要積極結合理論與實踐確定最優的網絡結構選擇。對于支持向量機預測模型,只有確定了最優的核函數,才能提高模型的預測精度。由于單一預測方法都有自身的優勢與不足,而且對數據信息掌握不夠透徹會影響預測結果,于是基于三種單項預測方法,構建了誘導有序加權算術平均(IOWA)組合預測模型,克服了單一預測方法的預測權重在時序上不變的限制,將三個預測模型的優勢結合起來,大幅度提高了預測精度,能夠有效的預測消費新變化,為社會消費品零售總額提供了一種預測新思路,對于正確把握宏觀經濟發展新形勢,推動經濟高質量增長極具現實意義。
參考文獻:
[1]McClloch W S, pitts W. A logical calculus of the ideas immanentin nervous activity [J]. The Bulletin of Mathematical Biophysics,1943, 5(4):115-133.
[2]Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation [J]. Nature, 1986,323(99):533-536.
[3]BREIMAN L. Random Forests[J]. Machine Learning, 2001,45(1):5-32.
[4]陳華友,李翔,金磊,等.基于相關系數及IOWA算子的區間組合預測方法[J].方法應用,2012,22(6):83-86.
[5]王曉,劉兮,陳華友,等.基于IOWA算子的區間組合預測方法[J].武漢理工大學學報(信息與管理過程版),2010,32(2):221-225.
[6]陳華友,陳啟明,李洪巖.一類基于0WA算子的組合預測模型及性質[J].運籌與管理,2006,15(6):34-39.
[7]康義,周一凡,邴煥帥,胡偉,郭健.基于IOWA算子的自主式電力發展水平綜合評價[J].中國電力,2016,49(08):110-115.
[8]孫麗,牟海波.基于IOWA組合模型的高速鐵路客運量預測研究[J].鐵道運輸與經濟,2018,40(09):74-79.