王 琪
(南京財經大學 經濟學院,江蘇 南京210046)
根據江蘇省統計局關于全社會用電量的報告,江蘇省居民用電量是逐年增加的,與此同時民用電量占社會總用電量的比例也是逐年增加的。數據的變動說明了人民生活需求的提高,同時也表明對居民用電量的預測研究有著較大的經濟意義。為了幫助電力行業適應這個發展新形勢,本文以江蘇省為例,嘗試采用非組合模型與組合模型預測居民用電量,從而得出一個相對較優的預測模型。
季節性ARIMA(p,d,q)(P,D,Q)m,ARIMA(p,d,q)(P,D,Q)m的AR(p,d,q)(p,d,q)IMA模型是在ARIMA(P,D,Q)m(P,D,Q)m模型的基礎上增添了代表季節性的項,可以寫成為:ARIMA(p,d,q)(P,D,Q)m。其中(p,d,q)代表模型中的非季節部分,(P,D,Q)m代表模型中的季節部分,這里的m代表每年的觀測數量。季節性的地方在模型中用大寫英文字母表示,而不屬于季節性的部分則用小寫的英文字母表示。季節性與非季節性的分式中都具有相像的部分,但是季節性的項包含了季節性時段的回溯,可以通過R軟件畫出模型的PACF圖和ACF圖。從這兩張圖中觀察出模型是否具有季節性特征。值得注意的是,在構建季節性ARIMA模型時要約束季節性延遲,從而得出最優的季節階數。
Error-Trend-Seasonality模型,簡稱EST模型,它由誤差項、趨勢項、季節項三個部分的任意組合構成。其中,誤差項(Error)可以是相加模型或相乘模型趨勢項(Trend)可以是無、相加模型、相乘模型;季節項(Seasonality)可以是無、相加模型、相乘模型。誤差項為相加模型時,最大似然法等價于使SSE最小來進行參數估計。EST模型相較其他模型有一個可以進行模型選擇的顯著優勢,即對于現有的時間序列,通過BIC、AIC和AICc這三個指標進行統計。

其中L是模型的似然函數,k是已估計的參數個數和初始狀態的總和(包括殘差的方差)。針對小樣本偏差修正的AIC(AICc)可以寫成:

人工神經網絡也可以對數據進行建模預測,可以簡寫為ANN,它的長處在于可以適用于解釋變量與被解釋變量存在復雜非線性關系的數據。針對本文的時間序列數據,ANN是將滯后值當成神經網絡納入模型,該模型是神經網絡自回歸或NNAR模型。首先,考慮包含一個隱藏層的前饋網絡,式子NNAR(p,k)顯現出p期滯后輸入與k個節點存在與隱藏層中NNAR(p,0)模型相當于ARIMA(p,0,0)(P,0,0)模型。其次,考慮季節性數據,可以將同一季節的最后觀測值納入模型。NNAR(p,P,0)m模型相當于模型ARIMA(p,0,0)(P,0,0)m。
平均絕對誤差(mean absolute error),又簡稱為MAE,它是預測值與真實值誤差絕對值的平均數。之所以要加上絕對值,是因為如果誤差是[1,0,-1],則平均誤差值就是0,但實際上預測值并不是完全等于真實值,它的定義表達式為:

均方根誤差(root mean squared error),簡稱為RMSE,也稱為RMSD。它是預測值和真實值誤差平方平均值的平方根,能用來衡量誤差的平均大小,它的定義為:

平均絕對百分比誤差(Mean Absolute Percentage Error),簡稱為MAPE,定義如下:

本文選取2004年1月至2018年12月江蘇省城鄉居民用電量數據,來擬合不同的模型。由于某些特殊原因,在一些統計年鑒中并沒有相應的月份統計數據,數據中存在一定的缺失值,故本文采取了組合補齊法,使用R中的imputeTS包進行缺失值填補。由于用電量月度數據具有一定的季節性,故采用季節性調整與線性插值法,此方法適用于具有趨勢和季節性的數據。同時,利用R軟件繪制出2004年到2018年的時間序列圖,生成的時間序列圖如圖1的第一張圖所示。

圖1 數據處理對比
江蘇省居民用電量在2004—2018年具有上升趨勢并呈現出一定的季節波動性,數據顯然是非平穩的。為了處理這種非平穩性,可以采用多種方法。本文為了使原始數據達到平穩時間序列的狀態,分別采用了取對數、季節性差分、二次差分的方法。處理結果如圖1所示,若只取對數,數據依舊呈現不平穩的狀態。季節性差分與二次差分的效果相當,但是數據還是處于一點非平穩的狀態。差分方式的選擇沒有客觀的標準,故本文選擇第三種差分方式。
1.AIMRA模型的擬合。forecast包里的auto arima()函數,是專門用來進行季節性ARIMA建模的。把數據代入,模型為ARIMA(3,1,2)(2,1,1)。接著,對這個復雜季節性模型的殘差進行檢驗,圖2展現的就是檢驗的結果,殘差幾乎都在顯著性臨界值內,故判定這些殘差類似于白噪聲。與此同時,Ljung-Box檢驗的p值為0.9899,非常高,這就證明了該數據的殘差之間不存在自相關性,序列的信息已經完全提取。

圖2 殘差自相關圖
此時經過所有檢驗的模型就是本文所要構建的季節性的ARIMA預測模型。將其應用到對2018年江蘇省城鄉居民用電的預測中去,預測結果如圖3所示。對于2018年江蘇省城鄉居民用電的預測值依舊順應了之前的波動趨勢。黑色線條代表原始序列,不同置信度下的預測區間通過不同深度的顏色顯示。

圖3 ARIMA、EST、NNAR模型預測圖
2.ETS模型的擬合。最小化AICc是一種選擇模型的方法,本文使用R語言中的ETS()函數來實現。圖4展現了ETS模型的分解圖,ETS模型的三個字母分別代表ETS(M,A,M)ETS(M,A,M)誤差項、趨勢項、季節項,可以由這三個部分任意搭配建模。如圖4所示,最終擬合了模型,它是具有乘性誤差、加性趨勢和乘法季節性的方法。對于夏季制冷、冬季制熱這種家庭用電高峰期會使得居民用電量呈現一種季節振幅,而ETS模型恰好可以預測這種有周期性變化的數據。圖4中展現了EST模型對2018年江蘇省城鄉居民用電的預測結果。
3.神經網絡自回歸模型的擬合。使用R語言中的nnetar()函數來擬合神經網絡自回歸模型。該模型的預測變量是最后12個月的用電量,4個神經元存在于隱藏層中。用電量的季節性被此模型很好地擬合了。與本文中所討論的大多數方法不同,神經網絡不是基于明確定義的隨機模型,因此也不能直接得到預測值對應的預測區間。但是,仍然可以使用模擬來得到預測區間,在模擬過程中,通過bootstrap殘差項生成未來的樣本路徑。預測如圖4所示。

圖4 ETS模型的分解圖
4.組合模型的擬合。本文分別建立ARIMA模型、ETS模型和神經網絡自回歸模型對2004年到2018年江蘇省居民用電量數據進行分析,并且對比分析了不同模型的預測效果。結果表明,3個模型全部有效。將多個單一的預測模型通過適當的方法整合,就可以建立出一個組合模型。組合模型就是多個不同模型,通過適當的加權平均等方法,得到一個全新的模型。組合模型是集多個模型的優勢于一身,填補各個模型的缺失處,使得最終的預測效果更貼合實際。故本文將上述三個模型構建在一起,建立一個能夠提升預測效果的組合模型。
用ω1表示ARIMA模型的權重系數,用ω2表示ETS模型的權重系數,用ω3表示NNAR模型的權重系數。單個模型的權重分配是組合模型能否高效的重點,本文采取了兩種方法來計算權重。組合一是等權平均法,ω1=ω2=ω3。組合二是均方誤差倒數法,算得ω1=0.3054,ω2=0.2462,ω3=0.4484。
表1列出了五種組合模型的預測值,盡管最終的預測值都不一致,但根據表2所示的模型評價指標,這五種模型的預測結果都是有效的。首先,對比三個單一模型,預測效果依次由ETS模型、SARIMA模型、NNAR模型遞增。其次,對比兩個組合模型,組合二的效果略優于組合一,即對于本研究的組合模型而言,分配權重采用等權平均法要略優于均方誤差倒數法。最后對比單一模型與組合模型,發現組合模型所體現的性能要明顯優于所有的單一模型(見表1、2)。

表1 五種模型預測值

表2 五種模型評價
組合模型目前已經得到了較為普遍的運用,它能夠使得預測值更接近于真實值。并且在時間序列數據的預測中,組合模型能夠克服對時間的敏感度,無論是長期預測還是短期預測都能有較高的精度。
對于本研究而言,加權系數構成的模型就是相對最優的預測模型。在此基礎上,可以對未來的江蘇省居民用電量進行預測,以便相關產業調整自己的產能計劃。然而組合模型的權重系數也是影響預測精度的重要因素之一,權重系數的選擇并不是一成不變的,具體使用哪種權重系數的組合預測模型才是最優的,還需要對具體問題具體分析。構建出最優的預測模型才能使預測的結果更貼合實際,才能為決策者們提供有效信息,才能使預測更有經濟意義。