計及經濟因素的隨機森林電量預測

2021-04-22 09:17:46屠一艷徐久益楊曉雷李自明姚劍峰

浙江電力 2021年3期

屠一艷，徐久益，楊曉雷，李自明，姚劍峰

（1.國網浙江省電力有限公司嘉興供電公司，浙江嘉興 314000；2.國網浙江桐鄉市供電有限公司，浙江桐鄉 314500）

0 引言

用電量是經濟發展的“晴雨表”。經濟增長對電力具有很強的依賴性，而經濟的快速增長也會刺激用電量的迅速增長。用電量預測是實現區域電力電量平衡、電網精準投資、規范電力現貨市場交易的主要依據。因此，用電量的準確預測既是電網發展規劃、生產經營的基礎，又是地區經濟社會發展變化趨勢的“風向標”[1-2]。

目前，各行各業對電力能源的依賴性日益顯著，加之國內各地區居民電氣化水平差異大，導致對電能消費需求變化趨勢不同，用電量呈現多因素化、變化復雜的特點，這對準確預測月用電量提出了挑戰[3]。傳統的月度電量預測方法如趨勢外推法、時間序列預測法、半參數統計法和BP神經網絡等預測方法[4-7]雖然成熟，但多以歷史純電量數據為預測依據，預測模型難以適應當前電力需求增長的諸多因素。一些學者對月度用電量的預測方法不斷進行改進，并取得了一定成果。文獻[8]在傳統多元回歸預測模型的基礎上，構建溫度和經濟增長因素為輸入的月用電量預測模型，對歷史數據擬合得較好，但預測方法中的經濟因素只考慮到規模以上工業增加值，不足以表現經濟因素的影響。文獻[9]綜合了灰色關聯分析法、多變量時間序列法優勢，將區域用電量相關影響因素進行關聯分析，雖然預測精度較高，但輸入的社會經濟變量較少，預測結果呈現出季節性波動。文獻[10]利用多元線性回歸與神經網絡算法各自的優勢，提出組合優化預測方法，既把握了用電量的整體趨勢，又抓住了細節波動變化，預測精度得到有效提高，但預測模型只驗證了短期預測的精準性，中長期電量預測精度還有待驗證。因此，在充分考慮各經濟因素發展趨勢及“新常態”下的中長期用電特點，研究區域用電量精確預測方法具有重要現實意義[11]。

本文以區域歷史用電量數據和多種經濟因素為基礎，挖掘兩者的關聯規律和特點，采用隨機森林算法構建電量預測模型，并檢驗預測模型的優越性，為地區月度用電量預測和電網建設提供參考依據。

1 數據分析與挖掘

電量預測的核心是依據歷史用電量數據，以及對用電量產生決定性作用的區域經濟、氣候等因素的歷史數據，利用科學的算法進行分析，并建立預測模型來描述未來一段時間的用電量發展規律。因此，在選擇合適的算法以及建立預測模型之前，對各類原始數據進行分析和處理（通過研究和處理歷史數據，挖掘原始數據內在關聯性和規律性）至關重要[12-13]。

1.1 數據分析

本文數據來源于南方某區域電網公司近4 年的月用電量數據（見表1）及該區域統計局公布的四類主要月度經濟指標（見表2），原始數據中用電量為一維，相關經濟數據為四維。由表1 可知，該地區的月用電量整體呈上升趨勢，每年的月用電量變化特性基本一致，具有周期性和慣性特點。鑒于篇幅，本文只列出上半年和全年的四類經濟數據，利用已知的數據來預測該區域2019年1—12 月的用電量。

作為一個多輸入系統，考慮的輸入量越多對系統的輸出預測越準確，但為了簡化電量預測模型，需要找到影響程度較大的因素，這就需要進行相關性分析[14]。相關系數是表示2 個變量（x，y）之間線性關系密切程度的指標，用r 表示，其定義為：

表1 南方某區域電網公司近些年各月電量情況（已脫敏處理）

表2 南方某區域相關經濟數據（已脫敏處理）

式中：xt為月用電量數量；yt為四類經濟數據；分別為xt和yt的平均值。

其中r 的絕對值越接近于1，說明相關關系越顯著。通過分析用電量與經濟因素的關系可以發現（見表3），用電量與相關四類經濟數據具有較強的相關性，相關系數r 均大于0.9，說明它們之間相關關系較顯著。因此，本文將這四類經濟因素作為電量預測建模研究的關鍵因素。

表3 相關性分析

1.2 數據預處理

高質量的輸入數據是整個預測工作的前提，歷史數據的平滑性直接關系到模型擬合與預測結果的精度。因此，本文將對原始數據進行預處理，主要是清洗原始數據，即選擇合適的方法對原始數據中的明顯錯誤值、異常值和可疑值進行“處理”。

本研究數據預處理的整體流程如圖1 所示。首先對原始電量數據進行觀察分析，發現沒有缺失點和重復數據；其次使用統計量χ2檢測原始數據中的異常值。統計量χ2可以用來檢測一組數據中的離群點，對于某個對象，χ2統計量是：χ2=（xi-μ）2/μ，其中，μ 是所有對象的均值。如果對象的χ2統計量大于選取的閾值，那么該對象就被認為是離群點。通過該方法可以檢測出2016 年2 月和2017 年2 月的用電量值為異常數據。

圖1 數據預處理流程

檢測出異常值后還需對其進行處理，異常值的處理方法主要采用數據平滑技術，按數據分布特征修勻源數據。具體方法有分箱、聚類和回歸等[15-16]。本文采用分箱方法，通過考察相鄰點來平滑異常數據值，即取異常值的縱向和橫向相鄰數據的均值來替換異常值，從而進行局部平滑。

2 電量預測模型

2.1 算法分析

目前，基于經濟因素的中長期電量預測方法應用廣泛的主要有多元回歸預測算法和時間序列自回歸預測算法，其中多元回歸預測算法中用電量的影響因素很難量化，即使能夠量化，量化指標的獲取一般也相對滯后，因此在實際預測中具有一定的局限性；而基于時間序列的自回歸等預測算法應對某個因素波動較大時，不能及時將其變化作用在預測結果上，導致短期預測結果偏差可能較大。鑒于原始用電量數據慣性和周期性等波動特點，以及1.1 節分析的相關性較高的四類經濟數據特點，需要尋找適合多維原始數據輸入且符合數據特性的預測方法，以得到比較準確的預測結果。

因此，充分考慮了用電量與經濟指標之間的相互影響，本文選用隨機森林算法[17]作為數學模型的主要預測方法，并與指數平滑法相結合。在整個預測過程中的每一步都會根據實際需求而選用不同的算法模型，既符合原始數據規律特點，又充分發揮了各模型算法的優勢，使預測效果最優化。首先，通過指數平滑法，利用其算法適合于歷史電量數據在短期內波動保持慣性的特征優勢，對用電量進行初步預測；其次，通過隨機森林算法相比傳統回歸算法具有不容易過度擬合、不限制于數據維度大小和可處理高維度數據的優點，把與用電量相關性很高的四類經濟因素作為隨機森林算法的輸入進行訓練，對初步純電量預測的用電量數據進行修正，從而得到最終貼近實際的預測值。

隨機森林算法是基于投票法構建多棵決策樹對樣本進行分類的集成學習算法[18]，原理如圖2所示。其核心思想是將每棵決策樹的分類結果進行統計，最終將樣本劃分為得票最多的類別。隨機森林隨機選擇樣本、特征，降低了決策樹之間的相關性。

圖2 隨機森林原理

2.2 預測模型

區域用電量曲線特征大致具有一定的周期性、時序性，一般以月為單位，每年電量曲線變化趨勢相同。選取多項式分別擬合歷史年的用電量曲線，再通過指數平滑法，即采用線性指數平滑模型Ft+m=at+btm（Ft+m為t+m 月的用電量預測值；at為平滑值序列差；bt為一次平滑步長參數），利用預測數據的變化在短期內保持慣性的特征，得到2019 年用電量初步預測值，如表4 所示。

表4 電量初步預測結果

由表4 可知，雖然指數平滑法能將經濟因素的影響作用反映在預測的變化趨勢中，但用電量的影響因素在電量預測過程中不能得以充分反映，當某個因素發生突變時，就會導致短期預測結果偏差較大，所以需要對初始電量預測值進行修正。引入經濟數據的影響后，把四類經濟數據輸入隨機森林算法進行訓練，利用初步預測的用電量與各經濟因素之間的關聯性預測2019 年1—12 月的四類經濟數據。圖3 所示為2015—2018 年數據的部分運行結果。

圖3 規模以上工業增加值實際值與預測值對比

由圖3 可知，通過初始電量預測值可以較為準確地預測出規模以上工業增加值。鑒于預測最終用電量模型是多輸入單輸出，輸入2019 年1—12 月初步預測的經濟指標數據和月用電量數據，完成對初步純電量預測值的修正，從而輸出2019年1—12 月的最終用電量預測數據。這種預測方法能直接反映用電量與各類經濟因素的影響關系，在數據完善的情況下，預測結果比較貼近實際值。月用電量變化曲線如圖4 所示。

圖4 月用電量變化曲線

3 算例分析

為驗證該預測方法的實際效果，將目前使用最廣泛的時間序列預測、灰色預測[19-20]方法與本文方法進行預測對比，3 種算法對比結果見表5。

表5 不同預測方法結果對比

由表5 可知，本文研究電量預測MAPE（平均絕對百分比誤差）為2.34%，而采用時間序列預測法和灰色預測法的預測誤差均高于本文方法。由此可見，本文研究方法預測精度得到了有效提高，且采用經濟數據對預測結果進行修正后，預測誤差由3.74%降低到2.34%，具有更高的穩定性和精確性，預測結果更加合理，也更加貼近實際值，如圖5 所示。

圖5 經濟數據修正前、后電量預測曲線

與此同時，本研究收集了西部兩省份相同的月用電量數據與四類經濟數據，將該模型運用于與南方區域電量波動、氣候條件以及經濟結構差異較大的西部兩省份進行預測，以便對模型的預測精度及通用性進行驗證。驗證結果見表6。

表6 不同省份預測結果對比

由表6 可知，該模型在西部兩省份預測的MAPE 分別為3.44%和2.75%，證明了該預測方法通用性強、具有較高的預測精度，可適用于不同地區的電量預測。

4 結論

本文首先引入了經濟因素對電量預測的影響，在建立用電量預測模型前對原始數據進行分析和處理；其次采用指數平滑法對月用電量進行初步預測；再通過隨機森林算法用四類經濟數據對月用電量預測值進行修正；最終得到更加接近于實際值的月用電量。通過實際算例仿真驗證，得出以下結論：

（1）充分考慮經濟因素與用電量之間的關聯性。加入與用電量相關性很高的經濟因素變量的輸入，有利于模型預測精度的提高。

（2）采用隨機森林算法進行預測。隨機森林算法具有不容易過度擬合，不限制于數據維度大小，可處理高維度數據，并檢測維度間的相互關聯，通過高維映射、記憶等手段大量挖掘數據的內在規律，得到用電量變化的波動趨勢等優點，符合預測模型要求，使預測精度有進一步的提高。

在預測過程中，本研究根據實際需求選擇不同的算法模型，發揮模型算法的優勢，使預測效果最優化。算例證明了該預測方法通用性強，為地區中長期電量預測提供了一種新思路。