肖 進,孫海燕,劉敦虎,曹瀚文,汪壽陽
(1. 四川大學商學院,四川 成都 610064;2. 成都信息工程學院管理學院,四川 成都 610225;3. 中國科學院數學與系統科學研究院,北京 100190)
隨著改革開放的發展,我國的能源消費呈現出逐年增長的勢頭,1978年至2013年,我國的能源消費總量由57144萬噸標準煤增加至375000萬噸標準煤,增長了6.56倍,其中,石油的年均增長率為12.34%[1]。近二十年來,如何科學預測能源消費一直是各國學者研究的熱點問題[2]。能源是影響社會發展和國民經濟的重要因素,隨著我國工業化水平和城市化進程的進一步提高,能源將處于越來越重要的戰略地位[3]。因此,準確的預測能源消費對我國能源行業的發展以及國家能源戰略的制定有著重要的現實意義[4]。
20世紀70年代以來,國內外眾多學者對能源消費預測進行了深入的研究,提出了許多預測方法[5]。這些方法大致可以分為兩類:第一類,時間序列分析模型,包括自回歸求積移動平均(Autoregressive Integrated Moving Average,ARIMA)模型[6]和灰色預測模型[7, 8]等。例如,Erdogdu[9]利用ARIMA模型對電力需求進行了分析。第二類,非線性預測模型。時間序列模型大多基于線性假設,不能很好地刻畫原始數據中非線性的特征,在復雜度較高的非線性時間序列中預測效果不佳。常用的非線性模型有:1)人工神經網絡(Artificial Neural Network,ANN)模型[10],包括反向傳播(Back Propagation,BP)神經網絡[11]和徑向基函數(Radial Basis Function,RBF)神經網絡[12-14]。這類模型運用靈活,估計合理,預測精度較高,同時也能處理數據中的噪聲,因而得到廣泛應用。例如,胡雪棉和趙國浩[11]運用BP神經網絡預測煤炭需求;彭建良等[14]運用RBF神經網絡預測我國的能源消費量。人工神經網絡模型雖然有很好的范化能力,但是其包含許多參數,這些參數的最優取值往往很難確定。2)支持向量回歸(Support Vector Regression, SVR)模型[15-16],它通過非線性變換將低維非線性問題轉換到高維特征空間,然后在高維空間中構造線性決策函數實現線性回歸。如Kavaklioglu[17]利用SVR模型對土耳其的電力消費進行預測并取得了較好的預測效果。SVR模型巧妙地解決了維數問題,并保證了較好的推廣能力,但它的參數最優取值往往需要借助其他方法如遺傳算法進行優化[18],而遺傳算法又包含很多參數,因此增加了模型參數選擇的復雜度。3)遺傳規劃(Genetic Programming, GP)模型[19],它隨機產生一個適應于問題的初始群體,依據自然選擇原理,通過復制、交叉和變異實現群體進化,找到問題的最優解或近似最優解。Lee等[20]運用GP模型預測長期電力需求取得了較為滿意的預測結果。GP模型以生物進化為原型,具有強大的啟發式尋優能力,適用性強、魯棒性高,但仍然存在模型參數較多,計算量較大等不足。
由于經濟時間序列通常具有復雜性的特點,單一的線性或者非線性模型模型往往不能準確地對能源需求進行預測分析,因此,一些學者使用混合預測模型來解決這一問題,該類模型通常先將能源需求時間序列分解為若干線性或者非線性子序列,然后分別對它們進行建模預測,最后將這些子序列的預測結果進行綜合。例如Wang等[21]為了預測水電消耗量,提出了一種基于季節分解的集成預測模型,該模型首先使用季節分解方法將水電消耗量原始時間序列分解為周期趨勢、季節成分以及不規則部分三個子序列,然后分別使用線性最小二乘支持向量回歸模型來建模預測,最后將3個模型的預測結果進行整合。
上述研究都取得了比較滿意的效果,但仔細分析發現這些研究在對非線性子序列進行預測時,都使用的單一的預測模型。事實上,由于對非線性時間序列的預測難度較大,單一的模型往往很難取得令人滿意的預測性能。相反,如果能同時建立多個非線性預測模型,再將這些模型的預測結果進行組合,即組合預測,將可望提高預測性能。同時,參與組合的多個非線性基本預測模型的預測結果往往存在很高的多重共線性,如果將全部基本預測模型的預測結果進行組合,將可能產生重大的預測偏差。為了解決這一問題,數據分組處理(Group Method of Data Handling, GMDH)[22]技術無疑為我們提供了一種有力的工具。GMDH是自組織數據挖掘的核心技術,它能從一系列與對研究對象(因變量)可能存在影響的特征(自變量)中自組織地選擇一部分關鍵特征,并確定模型的結構和參數。因此,我們可以運用GMDH技術從多個非線性預測模型中選擇一部分進行組合,即選擇性組合預測,從而進一步提高模型的預測性能。
本研究將GMDH引入到能源消費預測中,構建了基于GMDH的混合預測模型(GMDH Based Hybrid Forecasting Model, GHFM)。該模型首先使用基于GMDH的自回歸(GMDH Based on Auto Regressive, GAR)模型來對原始能源消費序列建模預測,將原始序列分解為線性和非線性兩個子序列,同時得到線性子序列的預測結果,進一步,在非線性子序列上,分別建立BP模型、SVR模型、GP模型和RBF模型,在此基礎上建立基于GMDH的選擇性組合預測模型,得到非線性子序列的組合預測結果。最后,將兩部分的預測結果整合即可得到總的能源消費量預測值。實證分析結果表明,與已有的一些預測模型相比,GHFM模型能取得更好的預測效果。
GMDH神經網絡最早是由Ivakhnenko[22]于1971年提出的,它是自組織數據挖掘的核心技術,能夠自組織地確定進入模型的變量、結構和參數。近年來,GMDH神經網絡已經被廣泛應用于工程、科學以及經濟研究等多個領域[23-28]。
GMDH以參考函數的形式建立輸入輸出變量之間的一般關系。一般取K-G多項式的離散形式作為參考函數:
(1)
這里,輸出記為y,輸入向量記為X=(x1,x2,…),a是系數或權值向量。特別地,包含n個變量的一階線性K-G多項式的形式可以表示如下:
f(x1,x2,…,xn) =a1x1+a2x2+…+anxn
(2)
并以它的所有子項作為建模網絡結構中的n個初始模型:
v1=a1x1,v2=a2x2,…,vn=anxn.
(3)

w=f(vi,vj);i,j=1,2,...,n;i≠j
(4)

z=f(wi,wj);i,j=1,2,...,Q1;i≠j
(5)
如此不斷循環下去,依次可以得到3, 4, … ,L層的中間候選模型。終止運算的規則是由最優復雜度原理[29]給出的:隨著中間候選模型復雜度的增加,外準則值會呈現先減小后增大的變化趨勢,因此當外準則值達到最小時,相應的模型即為最優復雜度模型y*(見圖1)。

圖1 GMDH模型尋找最優復雜度模型y*的過程
前期我們將GMDH與傳統的自回歸模型相結合,構造了基于GMDH的自回歸模型( GMDH based on Auto-Regressive, GAR)[30]。作為一種計量經濟模型,ARIMA(p,d,q)模型在建模過程中需要對時間序列進行單位根檢驗,以便確定被檢驗序列是否穩定;同時,為了找到最優的自回歸滯后階數p和移動平均項滯后階數q的值,建模者需要反復嘗試。而GAR模型是在傳統的計量經濟學模型ARIMA的基礎上發展起來的,它在建模時不需要太多的先驗知識和理論假設。它能夠自組織地找到最優復雜度模型,自動確定進入模型的自回歸階數,并得到模型參數,大大降低了人為因素的干擾。
本文提出的基于GMDH的混合預測模型GFHM與其他模型比較存在兩點不同:第一,無須考慮能源需求的任何影響因素,模型的建立僅依賴于原始能源消費時間序列;第二,在對非線性時間序列進行選擇性組合預測時,利用GMDH的自動建模機制,能夠自組織地從參與組合的全部預測模型中選擇出一部分模型進行組合,并確定組合的權重,從而盡可能的避免了人為因素的干擾。

在實際系統建模時,會提出不同的要求,這些要求或者是建模的目的,或者是對系統先驗知識的認識。在自組織數據挖掘中,外準則是這些特定要求的數學描述,它能從簡單的候選模型類中選出“最優的”模型。GMDH有一個外準則體系[29],可以根據不同的建模目的從中選擇不同的外準則,還可以根據需要構造新的外準則。在本研究中,我們選擇非對稱最小偏差(Asymmetric and Minimum Error, AME)準則,其定義如下:
(6)


表1 非線性子序列時間序列轉換矩陣
本研究提出的混合預測模型GHFM的建模流程如圖2所示。具體包括以下三個建模步驟:
(1)建立GAR模型預測序列的線性趨勢

(2)產生非線性子序列并訓練基本預測模型

(3)使用GMDH對非線性子序列進行組合預測,進一步得到最終預測結果

②建立因變量(輸出)和自變量(輸入)之間的一般關系,作為“參考函數”:
(7)
并以它的所有子項作為建模網絡結構中的初始模型(見圖1(a)):
(8)
④選擇非對稱最小偏差(AME)準則作為非線性子序列預測模型的外準則,計算所有中間候選模型的外準則值;
⑤從第一層中間候選模型中選擇外準則值最小的4個中間候選模型進入下一層,作為GMDH網絡結構第二層的輸入變量;
⑥重復步驟c-e,可依次產生第2, 3, …, L層中間候選模型,最終根據最優復雜度原理找到最優復雜度組合預測模型y*,算法停止;

圖2 基于GMDH的混合模型GHFM建模流程圖
本研究將構建的基于GMDH的混合預測模型GHFM用于預測能源消費總量時間序列和石油消費量時間序列。并將預測結果與其他混合模型進行比較,最后在兩個時間序列上分別進行樣本外預測。
本研究建模所需數據來自《中國統計年年鑒2014能源統計數據》,數據樣本為1978年至2013年的能源消費總量和石油消費量各36年的年度數據,能源消費量的單位為萬噸標準煤。
選取1978-2008年的能源消費數據作為訓練集、2009-2013年的數據作為測試集。本文所涉及的各模型均在訓練集上訓練相應的模型,在測試集上評價各模型的性能。
對于用來預測能源消費時間序列線性趨勢的GAR模型,其可能包含的最大滯后(自回歸)階數k是一個重要參數。本研究通過實驗發現,k的取值并不是越大越好,當k=4時,GAR模型已經能達到比較滿意的性能,而當其值進一步增加時,模型的預測性能并未再有顯著性提高,因此,在后續的所有比較中,我們設定最大滯后階數k為4。
對于用來預測能源消費時間序列非線性子序列的各個預測模型,其參數設置如下:1)BP神經網絡模型,在構建模型來預測能源消費量時,其用于訓練模型的訓練集中包含的最大滯后(自回歸)階數k以及其隱層節點d個數是兩個非常重要的參數。在本研究中,通過反復實驗,我們發現在能源消費總量時間序列上當滯后階數k取1,而隱層節點d取3;在石油消費量時間序列上當滯后階數k取3,而隱層節點d取3時,BP神經網絡模型能夠得到比較滿意的預測效果。2)SVR模型,我們選用了faruto編寫的Matlab SVM算法工具箱,選取1978-2008年最大滯后k期的能源消費量時間序列作為輸入,對應的當期能源消費量作為輸出,經反復試算,確定當滯后階數k的取值分別為3和1時,能達到最理想的預測結果。3)GP模型,在GP的建模過程中,模型的各參數設置對模型性能的影響至關重要。經反復嘗試,在能源消費總量時間序列序列上,分別設置初始樹為50,交叉概率為0.8,擬合優度閾值為0.85,最大迭代次數為50;在石油消費量時間序列序列上,分別設置初始樹為50,交叉概率為0.8,擬合優度閾值為0.8,最大迭代次數為50時,GP模型可以分別取得最理想的預測效果。4)RBF神經網絡,徑向基函數擴展速度spread是一個很重要的參數,若spread過小,則需許多神經元來適應函數的緩慢變化,若spread過大,同樣也需許多神經元來適應函數的快速變化,這兩種情況都會導致設計網絡的性能不佳。另外,模型的滯后階數k也非常重要,在本實驗中,通過多次試算,得知在兩個時間序列上分別取spread為3、1.5,取k為1、5時,RBF模型的預測性能最佳。
對非線性子序列各模型進行組合的GMDH組合模型,將各單一非線性模型的預測結果作為組合模型的輸入,選出的基準模型和非線性的組合預測結果作為輸出,設置測試區間的長度為5.
對于用于比較的ARIMA模型,首先運用ADF單位根檢驗對序列的平穩性進行檢驗,ADF 檢驗結果表明原序列都在二階差分后平穩,即d= 2,然后使用Eviews8.0軟件對能源消費時間序列做自相關系數和偏自相關系數分析,得自回歸參數p1= 5、p2= 1移動平均參數q1= 2,q2= 6. ARIMA(5,2,2) 模型和ARIMA(1,2,6)模型的殘差序列是白噪聲序列,檢驗效果較好。
本文所涉及的各模型中,ARIMA模型的建模過程是使用Eviews8.0 軟件來實現的,而對于另外的幾種模型,我們都是在Matlab2011b平臺上編程實現,同時對于每一個實驗數據,都是重復運行10次,取10次實驗的平均值。
本研究共選用了三種不同的模型性能評價指標,即均方根誤差(RMSE)、絕對平均百分比誤差(MAPE)和相對平方根誤差(RRSE):
(9)
(10)
(11)

在本小節,我們構建了GAR模型對能源需求時間序列的線性部分進行預測。并將預測結果與常用的線性預測模型ARIMA進行比較,旨在找出兩者在挑選最優滯后階數上的不同之處,并對它們的預測效果進行分析比較。表2給出了GAR模型與ARIMA模型在測試集上預測誤差RMSE、MAPE和RRSE的比較結果。
由表2可知,在兩個時間序列上,GAR模型的三個評價指標均要優于ARIMA模型。因此,我們可以得出結論,與ARIMA模型相比,GAR模型對能源消費時間序列線性趨勢的預測效果更好。此外,表2中每個評價指標比較的第三列還給出了兩個模型預測誤差的差值,這個值說明了GAR與ARIMA模型在測試集上預測性能的差異程度,差值越大則GAR模型的性能較ARIMA模型越好。無論是模型評價指標的比較還是預測誤差差值的比較都說明GAR模型的預測性能明顯優于傳統的ARIMA模型。

表2 GAR模型與ARIMA模型預測誤差的比較
對于能源需求時間序列非線性子序列的預測,我們將基于GMDH的選擇性組合預測模型與其它四種單一的非線性模型進行比較。表3給出了各模型在非線性子序列上的預測誤差。表中加粗的數值對應為該行誤差最小的值。表中的平均排名是在每一個時間序列上,計算每一種模型三個評價指標上的排序的平均值得到的。排序越小,表示對應模型的預測性能越高。

表3 非線性子序列各模型預測誤差比較
由表3可知,在能源消費總量時間序列上,GMDH組合模型的三個誤差值均最小,表明基于GMDH的選擇性組合模型在能源消費總量的非線性時間序列上具有最好的預測性能。在石油消費總量的非線性子序列上,GMDH組合模型雖然只取得了最小的RRSE誤差值,但是它的預測誤差的平均排名是最小的,表明基于GMDH的選擇性組合模型仍然具有最好的預測性能。由此我們可以得出結論,基于GMDH的選擇性組合模型在非線性子序列上的整體預測性能要優于4種單一預測模型。
進一步分析發現,GMDH選擇性組合預測模型在能源消費總量時間序列上,選取了基準模型中的BP、SVR和RBF模型進行組合。而在石油消費總量時間序列上,只選取了SVR和GP模型進行組合。這也表明,GMDH選擇性組合預測模型通過自組織建模技術選出的關鍵模型既不僅僅是單個模型,也不是全部基準模型,從而可以有效的彌補單一模型信息不足和組合全部基本模型可能帶來信息冗余的缺點,從而提高模型的預測性能。
為了驗證GHFM混合預測模型的整體預測性能的好壞,本研究還比較了它與其他混合模型在測試集上的預測誤差,表4和表5給出了具體的比較。表中,第二列表示的是線性趨勢用GAR預測、非線性趨勢用GMDH選擇性組合預測的模型;第三至最后一列表示的是線性趨勢用GAR預測,非線性趨勢分別用BP、SVR、GP和RBF預測的混合模型。表中加粗的數值對應為該行誤差最小的值。
由表4和5的比較可得出以下幾個結論:1)表中三個最小的誤差值均由模型GHFM取得,表明該模型的性能明顯優于其它混合預測模型;2)由于其他混合模型同樣使用GAR模型來預測線性趨勢,說明模型GHFM最小預測誤差的取得得益于非線性部分的GMDH選擇性組合預測;3)使用GMDH對非線性子序列進行選擇性組合預測即能夠充分綜合各模型的優點又能有效避免多重共線性。

表4 GHFM模型與其他混合模型在能源消費總量時間序列上預測性能的比較

表5 GHFM模型與其他混合模型在石油消費量時間序列上預測性能的比較
基于以上分析和比較可知,GHFM模型能較準確的擬合數據間的關系及變化。表6是GHFM模型2014-2020年的樣本外預測結果。

表6 GHFM模型2015-2020年外推預測

圖3 能源消費量預測值趨勢以及與真實值的比較
由表6可知,2014-2020年我國的能源消費量會仍保持持續上漲的勢頭,至2020年能源消費總量和石油消費量將分別達到532078萬噸標準煤和102890萬噸標準煤。2014-2020年的能源消費總量年均增長率為5.01%,其中,石油的消費年均增長率為5.88%. 圖3描繪了能源消費量預測結果的趨勢以及與真實值的比較,紅色和粉色虛線分別表示GHFM模型估計出的能源消費總量和石油消費量,黑色和藍色實線表示實際能源消費總量和實際石油消費量,圖中1978-2013年的虛線與實線幾乎完全重合,2014年以后虛線保持著增長的趨勢,進一步說明了GHFM模型可以較好的擬合能源消費時間序列的發展。
本文利用GMDH技術研究了能源消費量預測的問題,提出了基于GMDH的混合預測模型GHFM,并利用2個能源消費時間序列進行實證。實證結果表明,基于GMDH的混合預測模型相比傳統的能源消費預測模型具有更好的預測效果。說明將GMDH方法應用于能源需求預測是可行且有效的。
雖然對能源消費量時間序列非線性趨勢的預測采用組合模型取得的預測效果要明顯優于單一模型,但每種模型都會存在不足之處。如果能采用集成預測,如Boosting方法來提升單一非線性模型的性能,將有望進一步提高模型的預測效果。因此,下一步研究將使用集成模型,構建基于GMDH的集成預測模型。
[1] Zhu Z X. China statistical yearbook[M]. Beijing: China Statistics Press,2013.
[2] Ahmad A, Hassan M Y, Abdullah M P, et al. A review on applications of ANN and SVM for building electrical energy consumption forecasting[J]. Renewable and Sustainable Energy Reviews, 2014, 33(5): 102-109.
[3] Yu Shiwei, Wei Yiming, Wang Ke. China’s primary energy demands in 2020: Predictions from an MPSO-RBF estimation model[J]. Energy Conversion and Management, 2012, 61: 59-66.
[4] 楊波, 郭劍川, 譚章祿. 基于國民生產總值增長率微調制的國家能源年度消費總量 Logistic 修正模型研究[J]. 中國管理科學, 2017,25(6): 32-38.
[5] Zeng Chunlei, Wu Changchun, Zuo Lili, et al., Predicting energy consumption of multiproduct pipeline using artificial neural networks[J]. Energy, 2014,66: 791-798.
[6] Pindyck R S, Rubinfeld D L. Econometric models and economic forecasts[M]. Boston: McGraw-Hill Boston, 1998.
[7] 曾波, 劉思峰, 曲學鑫. 一種強兼容性的灰色通用預測模型及其性質研究[J]. 中國管理科學, 2017, 25(5): 150-156.
[8] 楊保華, 趙金帥. 優化離散灰色冪模型及其應用[J]. 中國管理科學, 2016, 24(2): 162-168.
[9] Erdogdu E. Electricity demand analysis using cointegration and ARIMA modelling: A case study of Turkey[J]. Energy Policy, 2007, 35(2): 1129-1146.
[10] Nilsson N J. Principles of artificial intelligence[M]. San Francisceo:Morgan Kaufmann, 2014.
[11] 胡雪棉, 趙國浩. 基于 Matlab 的 BP 神經網絡煤炭需求預測模型[J]. 中國管理科學, 2008, 16(S1): 512-525.
[12] 衛敏, 余樂安. 具有最優學習率的 RBF 神經網絡及其應用[J]. 管理科學學報, 2012, 15(4): 50-57.
[13] 張冬青, 馬宏偉, 寧宣熙. 基于結構可變的 RBF 神經網絡的時間序列預測[J]. 中國管理科學, 2010, 18(3): 83-89.
[14] 彭建良, 李新建. 能源消費量模擬分析和預測的神經網絡方法[J]. 系統工程理論與實踐, 1998, 18(7): 76-83.
[15] Lu C J, Lee T S, Chiu C C. Financial time series forecasting using independent component analysis and support vector regression[J]. Decision Support Systems, 2009, 47(2): 115-125.
[16] Brereton R G,Lloyd G R. Support vector machines for classification and regression[J]. The Analyst,2009,135(3):230-287.
[17] Kavaklioglu K. Modeling and prediction of Turkey’s electricity consumption using support vector regression[J]. Applied Energy, 2011, 88(1): 368-375.
[18] 陳榮, 梁昌勇, 謝福偉,等. 基于自適應 GA-SVR 的旅游景區日客流量預測[J]. 中國管理科學, 2012,20(S1):61-66.
[20] Lee D G, Lee B W, Chang S H. Genetic programming model for long-term forecasting of electric power demand[J]. Electric Power SystemsResearch, 1997, 40(1): 17-22.
[21] Wang Shuai, Yu Lean, Tang Ling, et al. A novel seasonal decomposition based least squares support vector regression ensemble learning approach for hydropower consumption forecasting in China[J]. Energy, 2011, 36(11): 6542-6554.
[22] Ivakhnenko A G. Polynomial theory of complex systems[J]. IEEE transactions on Systems, Man and Cybernetics, 1971, 1(4): 364-378.
[23] Xiao Jin, Xie Ling,He Changzheng,et al. Dynamic classifier ensemble model for customer classification with imbalanced class distribution[J]. Expert Systems with Applications, 2012, 39(3): 3668-3675.
[24] Xiao Jin, Xiao Yi,Huang Anqiang, et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction[J]. Knowledge and Information Systems, 2015, 43(1): 29-51.
[25] Xiao Jin,Jiang Xiaoyi,He Changzheng, et al. Churn prediction in customer relationship management via GMDH-based multiple classifiers ensemble[J]. IEEE Intelligent Systems, 2016, 31(2): 37-44.
[26] Xiao Jin,He Changzheng,Jiang Xiangyi, et al. A dynamic classifier ensemble selection approach for noise data[J]. Information Sciences, 2010, 180(18): 3402-3421.
[27] Xiao Jin, He Changzheng, Jiang Xiaoyi. Structure identification of bayesian classifiers based on GMDH[J]. Knowledge-Based Systems, 2009. 22(6): 461-470.
[28] Xiao Jin, Cao Hanwen,Jiang Xiaoyi, et al. GMDH-based semi-supervised feature selection for customer classification[J]. Knowledge-Based Systems, 2017, 132(9): 236-248.
[29] 賀昌政. 自組織數據挖掘與經濟預測[M]. 北京: 科學出版社, 2005.
[30] Xiao Jin, Sun Haiyan,HuYi, et al. GMDH based auto- regressive model for China’s energy consumption prediction[C]//Proceedings of 2015 International Conference on Logistics, Informatics and Service Sciences,Barelona,Sipain,July,27-29. 2015.