高海翔 胡 瑜 余樂安(北京化工大學經濟管理學院 北京 100029)
全球經濟的發展和社會的穩定與國際原油市場價格波動相關聯,原油作為全球經濟市場上一種特殊的貨物,其價格基本上由供需關系決定[1],但是也容易受到一些不規則的事件影響,例如天氣、庫存水平、GDP增長、政治因素,甚至是心理預期。這些因素導致了原油市場劇烈波動,具有復雜的非線性、高波動性和不規則的特點[2]。通過觀察可以看出,一個國家經濟的發展容易受油價波動的干擾,并且存在兩個不同的方面。一方面,石油進口國的通貨膨脹可能受油價的急劇上漲而加速,從而給該國的經濟造成不利的影響;另一個方面,原油價格下跌會給石油出口國帶來嚴重的預算赤字問題[3]。因此,不難得知在這個變化不定的國際原油商品市場中,無論是政策制定者還是經濟組織,如果及時地掌握油價的波動走勢,并且對其進行準確的預測,那么就能夠更好地維護企業和國家利益。基于這些原因,波動的油價引起了許多機構、商業從業者和研究者的極大興趣,油價預測成為了一個非常重要的研究課題。
在過去的幾十年中,傳統的統計與計量經濟模型被廣泛地運用到原油價格預測。例如,Huntington[4]應用復雜的計量經濟模型預測原油價格。Barone-Adesi等[5]提出了一種半參數方法預測,取得了良好的預測效果。Lanza等[6]使用誤差修正模型(ECM)計算原油和成品油的價格。在油價的短期預測方面,侯璐[7]結合定量和定性分析技術,應用ARIMA來構建新的預測方法來評判原油未來價格趨勢。林盛等[8]對于石油價格的預測通過PCA分析法構建了ARFMA-GARCH混合預測方法。
然而,傳統的統計與計量經濟模型難以處理非線性的油價數據,后來許多學者使用人工智能算法進行預測。例如,Xie等[9]采用支持向量回歸(SVR)作為一種新方法來預測石油期貨市場價格。Shambora等[10]為了預測石油期貨市場而采用了人工神經網絡。衛敏[11]改進了三種高斯型神經網絡,并將其應用于石油價格預測。何樹紅等[12]為了提高油價預測準確度,使用了Elman動態遞歸神經網絡模型,與BP神經網絡相比效果更優。
當前,一些流行的混合預測模型與集成預測模型被提了出來且取得了一定的預測優勢。例如,Tang等[13-14]選取了CEEMD和EELM分別作為分解和預測工具來預測油價,后來又提出了基于RVFL的非迭代分解集成學習模型,取得良好的效果。Yu等[15-18]基于“分解集成”思想也提出了一些神經網絡預測模型,對油價進行有效的預測。
但是上述針對石油價格時序的相關研究,均基于傳統的計量經濟模型和淺層神經網絡模型,關于深度學習算法以及其混合與集成預測油價模式的現有研究相對較為缺乏。由于油價預測不僅與當前的數據有關,而且涉及更早的時間數據。如果只應用最新的時間數據,則在更早的時間數據所攜帶的信息將丟失。與傳統的人工神經網絡不同,遞歸神經網絡(RNN)通過隱藏單元之間建立連接來記憶最近的事件。LSTM是RNN的一種改進模型,能通過其“門”結構對信息有選擇地過濾,并從訓練的歷史數據中提取更多的有用信息。此外,分解集成的方法能夠有效地處理非線性、非平穩的原始時間數據。對此,本文擬利用“分解集成”框架下的LSTM深度學習算法進行石油價格預測研究并且進行實證分析。相對于現有文獻,本文的創新工作主要有兩點:(1) 在數據處理方法上,基于EEMD時序分解,采用小波閾值去噪法去除虛假分量,然后利用fine-to-coarse法重構序列;(2) 在智能算法應用上,采用LSTM深度神經網絡對重構序列進行序列預測。
相對于傅里葉分解、小波分解等這些傳統的去噪方法,在處理非線性、高波動的原始時間數據上,EEMD和EMD有更優越的能力。根據Huang等[19]的研究,EMD及其變體廣泛運用于各類系統分析,實驗結果驗證了其在分解復雜時間序列數據方面有良好的性能。
從原始數據中提取出共存的離散函數,即本征模態函數(IMFs),這也是EEMD分解主要目的之一。IMFs必須滿足兩個條件:(1) 極大值和極小值的數目與過零點的數目的差值為0或者1;(2) 每個IMF整體均值為0[20]。因此,原始時間序列xt(t=1,2,…,T)表示為IMFs和殘差序列的線性組合,其計算式表示為:
(1)
式中:N為IMFs的數量;rN,t是殘差;cj,t(j=1,2,…,N)則代表在時間t的第j個IMF。這些IFMs包含不同頻帶,并且隨時間序列xt的變化而變化,rN,t則代表原始序列xt的中心趨勢。一般地,N=log2T,且N是由T決定的。
EEMD包含了白噪聲。在假設條件下,觀測數據包含了真實信息和白噪聲。而帶有不同白噪聲等級的數據集成平均將使最后的結果無限逼近真實序列。EEMD中疊加白噪聲來提取出真正的IMFs,然后集成平均抵消其影響。白噪聲對結果的影響可以由以下統計規則來控制:
(2)
式中:εne為分解最終結果的標準差;ε為額外噪聲振幅;NE為集合成員的數目。
原始時間序列的提前預測不僅需要最新的樣本,而且還需要以前的數據。受益于隱含層的自反饋機制,RNN模型在處理長期依賴的問題時具有一定的優勢,但在現實應用中仍然存在一些困難[21]。為了解決RNN存在梯度消失和梯度爆炸的問題,Hochreiter等[22]提出了LSTM模型,后來由Graves[23]改進和推廣。存儲信息的記憶細胞組成了LSTM單元,并且LSTM單元是由輸入門、遺忘門和輸出門這三個特殊的門進行更新。LSTM單元結構如圖1所示。
在t時刻,Ct為記憶細胞的值,xt為LSTM細胞的輸入值,ht-1、ht分別為LSTM細胞前一刻和當前輸出值。LSTM單元的具體計算步驟如下。
(1) 計算存儲單元:
(3)
式中:WC是權重矩陣;bC是偏置。
(2) 計算輸入門的值it:
it=σ(Wi·[ht-1,xt]+bi)
(4)
式中:σ是S型函數;Wi是權重矩陣;bi是偏置。
(3)計算遺忘門的值ft:
ft=σ(Wf·[ht-1,xt]+bf)
(5)
式中:Wf和bf分別是權重矩陣、偏置。
(4)計算當前記憶細胞Ct:
(6)
式中:Ct-1是最后一個LSTM單元的狀態值。
(5) 計算輸出門的值ot:
ot=σ(Wo·[ht-1,xt]+bo)
(7)
式中:Wo和bo分別是權重矩陣、偏置。
(6) 計算LSTM單元的輸出ht:
ht=ottanh(Ct)
(8)
fine-to-coarse法[24]重構EEMD分解出來的模態序列,主要的步驟如下:

步驟2利用統計量t檢驗判別si的均值顯著偏離于零點的序列。
步驟3如果判別出si的均值點偏離零點最遠,則需要重構局部序列,即將c1到ci-1疊加成高頻分量,而ci到cm疊加為低頻分量,同時將殘差項r(t)作為趨勢分量[26]。
基于“分解集成”框架,使用fine-to-coarse(FTC)重構技術,以EEMD和LSTM為核心方法構建一個新的集成預測模型(EEMD-FTC-LSTM),如圖2所示。

圖2 EEMD-FTC-LSTM分解集成模型
該模型的構造過程可以由四個步驟來完成:
(1) 油價時序xt(t=1,2,…,T)通過使用EEMD方法后,獲得多個本征模態函數(IMFs)ct(j=1,2,…,N)以及一個余項rN,t。
(2) 對于首個IMF,運用小波閾值去噪法提取其有效的歷史信息。然后所有模態序列cj,t采用fine-to-coarse方法論進行重構,從而得出高頻、低頻和趨勢這三個子時間序列。
(3) 使用LSTM深度神經網絡分別對這三個子時間序列進行模態預測。

總之,該模式可以縮寫為“EEMD(數據分解)-FTC重構-LSTM(模態預測)”。
本文選取了WTI的油價數據作為實驗樣本,主要由于該原油市場對世界經濟的影響巨大。從美國能源信息署官方網站可以截取實驗樣本,選取1983年4月4日至2019年3月12日的每天數據共9 025個的觀察值。本次研究選取1983年4月4日至2012年1月13日的序列值作為訓練集(即劃分80%的實驗樣本作為訓練集),共7 220個觀察值用來模型訓練;2012年1月14日至2019年3月12日的序列值(即劃分另外20%的實驗樣本用作測試集),共有1 805個觀察值用來評估預測性能。本文采取直接預測策略,提前1步長的預測結果作為判定依據。
在評估石油價格水平預測的準確度上,不失一般性地選取了平均絕對值百分誤差(MAPE)和均方根誤差(RMSE)這兩種方法作為評價依據。
(9)
(10)
式中:N為在測試集中觀察值的長度。
在趨勢預測上,Dstat統計指標被用來衡量預測趨勢準確度,即:
(11)
LSTM神經網絡預測模型采用標準的三層結構,激活函數為線性函數,優化器為Adma算法,目標函數為均方差,學習率為0.01。以RMSE為判斷依據,當時間長度、隱層數和迭代次數不同時,可能會出現不同的實驗效果,各分量預測值如表1至表3所示。通過上述參數優化過程可以得到其余參數優化值,如表4所示。

表1 不同時間長度下模型預測效果(迭代350輪)

續表1

表3 不同迭代次數下模型預測效果

表4 三個子序列參數設置
對于高頻固有模態序列IMF1透過小波閾值去噪法消噪處理,選擇的小波基為db3,分解尺度選擇為5層。本文實驗采用MATLAB 2018進行建模和算法實現。
如表5所示,由MAPE、RMSE和Dstat來評價模型的預測能力。通過對比實驗結果可以看出,無論是在水平預測和趨勢預測方面上,EEMD-FTC-LSTM預測范式在油價預測評估中都比其他基準模型(如ARIMA、BP神經網絡、LSTM和EEMD-LSTM)表現得更好。

表5 模型預測性能比較
就水平精度而言,即MAPE和RMSE,可以得到結論為:EEMD-FTC-LSTM集成預測模型與其他模型(ARIMA、BPNN、LSTM和EEMD-LSTM)相比,誤差最低,性能更好。其內在的原因可能存在兩個方面:(1) 高頻IMF1存在大量的白噪聲,通過小波閾值去噪可以提取出有用的歷史信息。(2) LSTM擁有強大的自學習能力,重構后能夠提高復雜的高頻分量的預測能力。
較低的MAPE和RMSE并不表示預測油價在運動趨勢上有較高的精度。從商業的角度來看,Dstat比MAPE和RMSE更為重要,因為Dstat可以視為原油市場投資的重要決策標準,所以有必要通過Dstat進行對比評價[25]。從表5可以看出,EEMD-FTC-LSTM分解集成預測模型在趨勢精度上排名第一,這個結果證明了所構建的分解集成模型的有效性。可能的原因是因其強大的自學習能力,LSTM深度學習模型在趨勢預測精度上要優于其他預測模型。同時也說明了對于石油價格數據中隱含的高波動不規則的復雜特征,這種混合與集成模型也能夠有效地捕捉和處理。
根據WTI原油價格日度數據,采用集合經驗模態分解(EEMD)、小波閾值去噪和fine-to-coarse法對油價時序分解重構,然后運用LSTM深度學習算法對重構序列預測,最后通過簡單加和的方式得到最終結果。通過所構建新的集成學習預測范式,有以下幾點可以總結:(1) 無論是在水平預測上還是趨勢預測上,EEMD-FTC-LSTM模型都能夠有效預測原油價格,為商業從業者或者經濟機構提供了決策參考。(2) 利用小波閾值去噪的方法,能夠有效地去除虛假分量噪聲,從而提取出高頻模態分量的有用信息,最終提高了油價預測精度。(3) 基于fine-to-coarse方法將模態分量進行重構,降低模態預測的復雜性,減少了模型的訓練時間,提高了模型的計算能力。