張 靜,秦 青
(河南科技大學 數學與統計學院,河南 洛陽 471000)
我國作為煤炭資源比較豐富的國家,煤炭的消耗量占我國能源產業的58.5%。我國的煤炭資源分布呈現出“北煤南運”的格局,在山西、內蒙古、陜西、寧夏等煤炭主要產地與東南沿海主要煤炭消費地之間形成了煤炭流通的樞紐,被稱為環渤海地區[1]。由于該地區煤炭的運銷最為集中,動力煤交易量也較大。在經過了長時間的煤炭市場交易后,環渤海地區港口的煤炭價格水平已經成為我國煤炭價格的風向標,其變動情況直接反映了我國煤炭市場的運行動態,可以作為研究我國煤炭市場變化的關鍵性指標。
為了預測我國煤炭價格的具體走勢,劉玥等[2]利用ARMA方法進行煤炭價格的預測,提出用EMD分解的方式增加ARMA模型的精準度,但其模型本身只考慮了環渤海動力煤的時間序列信息,延伸了數據本身的趨勢性和周期性,對其他外部因素帶來的影響并沒有加以考慮。劉原奇[3]構建了環渤海動力煤價格的多元線性回歸預測模型,雖然考慮了一些外部因素對于價格走勢的影響,但由于煤炭價格影響因素復雜,難以運用簡單的數學模型進行解釋和擬合,模型預測效果不佳。
隨著人工智能算法在股票市場中的大量實踐,基于神經網絡的預測模型近些年來越來越多地被應用于金融預測領域,劉斌[4]利用BP神經網絡對煤炭價格進行簡單預測的結果,體現出神經網絡在金融時間序列預測方面的顯著優勢。而長短期記憶神經網絡(LSTM)模型由于自身的選擇記憶性和基于時間序列內部影響的特性,非常適用于擬合價格時間序列這種非線性、非平穩的數據,能夠實現以時間序列作為載體,進行多個輸入的同時實現多個輸出,在價格預測模型中表現出了獨特的優勢。
筆者嘗試將深度學習LSTM方法應用于我國環渤海動力煤價格指數預測,并采取線性、非線性對照組的方式,進行預測模型精度和準確度的對比分析,證明了LSTM神經網絡在金融時間序列預測方面具有顯著的優越性。
傳統的循環神經網絡(RNN)是一類用于處理時間序列的神經網絡。相比于一般的神經網絡,它的優勢體現在能夠保存有助于當前決策的歷史信息,它的核心思想是用循環結構替換了前饋神經網絡的隱藏層。在傳遞信息的過程中,每一次循環都會有一部分信息保留在神經元中,作為輸入與新信息一同進入下一個神經元,對預測的結果產生影響。
LSTM網絡是改進后的RNN網絡,通過增加輸入門、輸出門、遺忘門和單元狀態,改變自循環的權重參數,在模型參數固定的情況下,可以有效地避免梯度“消失”或者“爆炸”的問題。其中,輸入門和輸出門控制信息流的流入和流出,遺忘門用來選擇上一時刻的單元狀態有多少保存到這一時刻。
筆者在設計LSTM神經網絡時特別添加了Dropout層以優化神經網絡結構,用以解決深層神經網絡存在的兩種可能影響模型訓練效果的問題(一是梯度消失導致神經網絡難以收斂,二是過擬合導致測試集失效)。本文LSTM神經網絡的主體結構包括兩層LSTM神經層,加入Dropout層(失活概率設為0.3)。本文所有模型擬合實驗基于Python語言環境。
煤炭價格的相關影響因素不是單一存在的,在實際市場中,煤炭價格受到多個因素的共同影響,例如我國宏觀經濟的整體發展態勢、世界能源市場上的相關行情、生產成本、煤炭產量以及庫存變化、煤炭相關替代能源的價格、政治經濟因素等。
2.1.1 宏觀經濟。中國經濟的高速增長是煤炭需求增長的主要原因,通過對煤炭需求量與我國GDP數據進行格蘭杰因果檢驗可以得到,5%的顯著水平下GDP是煤炭需求變化的原因。從動力煤價格指數時序圖中可以大致看出,宏觀經濟的發展對動力煤價格指數是呈現正向促進作用的[5]。
2.1.2 生產成本。煤炭的生產和運輸成本是影響煤炭價格走勢的重要因素。在其他條件不變的情況下,煤炭的生產成本越高,煤炭的價格就會越高,也就是說,煤炭價格的變動與生產成本的變化方向是一致的。
2.1.3 煤炭產量以及庫存變化。價格的變動與供求關系的變化密不可分,煤炭價格受煤炭當期產量以及庫存量的影響,其作用方式就是影響了煤炭市場的供求關系,進而影響到了煤炭的價格。
2.1.4 煤炭相關替代能源的價格。對于煤炭來說,石油就是它的替代品,石油一方面作為其替代能源直接影響煤炭價格,另一方面由于其作為我國的重要戰略資源也影響到了我國的宏觀經濟,進一步對煤炭價格產生了間接的影響[6]。
2.1.5 政治經濟因素。國家出臺的政策,直接或間接的影響煤炭產量,從而影響煤炭價格走勢。
為了能夠充分評估LSTM神經網絡在預測價格指數方面的價值,本文采用2010年8月—2021年10月的環渤海動力煤價格指數(以下簡稱為BSPI)進行模型擬合以及預測。我國環渤海動力煤價格指數的時間序列呈現出顯著非平穩的特征,大體呈上升趨勢,但由于其影響因素復雜,數據并無明顯規律性(本文數據均來自中國金融信息網、前瞻數據庫)。
數據預處理主要是補全了數據集中的空值部分(由于節假日以及國家政策的影響),筆者選擇上下均值填補法,對原始數據進行補全;接著對數據進行了歸一化處理,以提高模型預測精度;最后對預測模型的輸入和輸出進行定義。針對上面提出的多個變量與BSPI指數進行可視化分析,剔除無效不相關因素,最終建立輸入變量組見表1。

表1 變量信息對照表
為了觀察不同預測方法對環渤海動力煤指數的預測效果,本文分別取總樣本的前80%、60%作為訓練集,樣本的剩余部分作為測試集進行模型擬合,從各個對照模型中選取最優的預測模型。
LSTM神經網絡對未來BSPI價格指數預測的思路是:用歷史5個月的動力煤價格指數信息對未來一個月的價格指數進行預測。將表1中共10個變量的月度數據作為模型輸入部分,LSTM神經網絡的輸出量即為未來一個月的BSPI指數的預測值。
本文將經典RNN、KNN作為LSTM模型的非線性對照組,進行模型性能的比較。RNN作為主要解決序列問題的方法,強調的是數據間的先后關系。RNN具有其獨特的性質,在每次訓練時都會將前一次的輸出結果帶到下一次的隱藏層中,一起進行訓練。
KNN(最鄰近算法)可以用于對連續的數據標簽進行預測,基本方法是求出預測數據集與訓練數據集的每個點之間的距離,取前k個數據集的結果集,將結果求平均作為預測的數據集。
為了使文章更為嚴謹,本文采用簡單多元線性回歸的方式作為線性對照組,建立多元線性方程:
y=k1x1+k2x2+k3x3+…+k10x10
(1)
將已知變量輸入,利用訓練集數據進行模型訓練,尋找到合適的參數,最后在測試集上進行測試。
平均絕對誤差(MAE)、均方誤差(MSE)計算公式分別為:
(2)
(3)
選擇以上兩個指標對各組預測模型進行比較,MAE、MSE是評估預測值與真實值的誤差的指數,這兩個值越小表明誤差越小,預測的穩定性越高。
筆者通過20組每組10次共200次的對照實驗方法確定LSTM神經網絡基礎模型的層數和每層的神經元個數,選取MSE和MAE兩種模型評價指標進行考量。
通過模型訓練可以得出:①輸入層神經元節點數為32,隱含層神經元節點數為16時,模型的魯棒性較好;②并不是隱含層神經元節點數越多,越深層次的神經網絡學習能力越強;③不同的神經網絡參數,結果都會存在差異。
筆者經多次實驗得到第一個LSTM層的前饋網絡層的最佳隱藏神經元個數為32個,為避免過擬合現象采用L2正則化項和dropout機制,來提高模型的泛化能力。
由圖1可以看出LSTM模型預測數據與真實數據波動方向幾乎一致,也較為接近,相比單層模型有了一定的進步,但在長期來看模型擬合仍存在一定的誤差以及滯后性。其中實驗所得預測值精度如表2所示。

圖1 多層LSTM模型

表2 多層LSTM網絡模型預測結果
搭建簡單線性回歸模型,并在訓練集上進行模型訓練,最終可以得到其擬合模型的預測。在測試集的范疇內,簡單線性模型預測值始終低于真實值,雖然在2021年預測值與真實值有了一定的重合,但模型預測值整體波動較大,且在2020年前后預測值與真實值有很大的誤差。

圖2 線性對照模型

圖3 非線性對照模型
非線性對照模型顯示出了較大的波動性,模型擬合效果一般。
筆者采取多次訓練的結果,取平均值的方法來展示算法的平均水平。利用MSE、MAE這具體兩個指標進行多個模型的比對分析,可以得到表3(表中顯示MSE、MAE數值均為多次實驗平均值)。

表3 模型預測結果對比
通過多次實驗結果可以看出,在誤差穩定性方面,線性回歸方法、K近鄰回歸的方法均表現出較強的穩定性,LSTM模型穩定性緊隨其后,而RNN模型預測的穩定性則呈現較大的波動,但從MSE、MAE的數值上可以看出,LSTM模型預測在穩定性以及準確性方面具有明顯的優勢,說明該方法比較適用于環渤海動力煤價格指數的預測,預測精度、穩定性都較高。
通過研究發現,環渤海動力煤價格指數在近段時間波動幅度較大,呈現快速增長的態勢,其大幅度變動必然會對我國煤炭相關行業帶來極大的影響。本文結合目前最前沿的深度學習神經網絡技術構造了一個LSTM神經網絡,將其應用于分析預測我國環渤海動力煤價格指數,并進行了模型的線性、非線性對照組的訓練。驗證了LSTM神經網絡在價格指數預測方面具有較好的穩定性以及預測準確性。
根據模型預測結果來看,短期內煤炭價格指數受到多種因素的影響,波動細小頻繁(1元/t左右),對整體價格變動影響不大;從長期來看,環渤海動力煤價格指數變動主要受到季節因素的影響,但由于國內外大環境,煤炭、石油等能源價格持續上漲,動力煤價格也始終呈現上升態勢。
綜上所述,煤炭加工生產及其相關行業應把握煤炭市場價格的走勢規律,重視降低成本,提高生產效率,最大化的應對未來可能出現的風險;而其他煤炭消耗企業應做好煤炭價格持續上漲的準備,通過追加煤炭等能源的庫存或改換其他替代品等方式來應對價格上漲帶來的成本壓力。