仲立軍, 楊玉銳, 周曉琴, 牛中偉, 周子譽
(國網(wǎng)嘉興供電公司,浙江 嘉興 314000)
在企業(yè)工業(yè)用電以及用戶的用電中,電費的整體架構(gòu)通常包括基本電費、電度電費和功率因數(shù)調(diào)整電費等不同的形式。化工企業(yè)多數(shù)實行24 h連續(xù)生產(chǎn),對供電可靠性要求高,多數(shù)采用雙電源以保證供電質(zhì)量[1],因此無法有效通過生產(chǎn)負荷分時段調(diào)整,以利用分時電價差降低電度電費。現(xiàn)有技術(shù)中的企業(yè)功率因數(shù)在一定程度上雖然能夠滿足企業(yè)用電的需求,但是無功率太多,電費的優(yōu)化空間相對比較小[2]。在計算基本電費時,需要根據(jù)企業(yè)用戶的實際用電容量或者最大用電需量進行計算。在眾多用電過程中,企業(yè)用戶難以對未來的用電負荷情況進行判斷,使得在選擇基本電費計收方式時,難免與自身實際用電負荷存在偏差,容易引起基本電費虛高。這就需要一種方法實現(xiàn)企業(yè)電費優(yōu)化。
本文通過研究浙江某工業(yè)園區(qū)化工企業(yè)用電負荷特征,根據(jù)企業(yè)月度用電最大需量波動率分組,采用改進型XGBoost算法模型[3],構(gòu)建化工企業(yè)月度用電最大需量精準(zhǔn)預(yù)測模型。為企業(yè)合理選擇基本電費計算方式提供指導(dǎo),幫助企業(yè)合理降低用電成本。采用的大數(shù)據(jù)模型如圖1所示,下面分別對不同的算法模型進行說明。

圖1 負荷預(yù)測大數(shù)據(jù)模型設(shè)計
本文采用改進型XGBoost算法模型,在傳統(tǒng)XGBoost算法模型的基礎(chǔ)上加入逐步回歸算法模型[4],具有以下技術(shù)優(yōu)勢。
(1) 對大量的負荷數(shù)據(jù)比較敏感,計算速度比較快,數(shù)據(jù)效率輸出比較高。
(2) 模型構(gòu)建較為快捷,適用范圍廣,在電力負荷電費預(yù)測和計算過程中表現(xiàn)出較好的適應(yīng)性。
(3) 克服了現(xiàn)有技術(shù)分類算法效率低和分類性差的問題,提高了評估企業(yè)電力負荷電費的能力。
本文采用改進型XGBoost算法模型的核心意義在于使用CART模型。首先對負荷預(yù)測模型進行定義,設(shè)定其輸出的目標(biāo)函數(shù),目標(biāo)函數(shù)由訓(xùn)練損失L(Θ)、正則化Ω(Θ)兩種不同的函數(shù)表示式構(gòu)成,數(shù)學(xué)表達式如式(1)所示。
Obj(Θ)=L(Θ)+Ω(Θ)
(1)
對上述函數(shù)求最小化,其本質(zhì)是對訓(xùn)練損失L(Θ)和正則化Ω(Θ)求最小化。通過圖形使擬合曲線達到最佳,最終預(yù)測的負荷方差最小[5],輸出的結(jié)果較為穩(wěn)定。
評估目標(biāo)為:將出現(xiàn)的損失函數(shù)在擬合曲線圖中呈現(xiàn)欠擬合的形態(tài),輸出的優(yōu)化正則化項圖形表現(xiàn)為過擬合形態(tài),使最后的輸出函數(shù)達到最小值。這樣就能夠使用輸出函數(shù)的模型實現(xiàn)較佳的評估效果。流程示意圖如圖2所示。

圖2 改進型XGBoost模型構(gòu)建流程示意圖
下面分步驟說明上述函數(shù)。
(1) 構(gòu)建多個決策樹,反復(fù)進行迭代計算,將每個決策樹通過設(shè)置根節(jié)點和葉結(jié)點的方式,構(gòu)建出最佳決策樹模型。
(2) 在每次迭代開始之前,計算損失函數(shù)在每個訓(xùn)練樣本點的一階導(dǎo)數(shù)gi和二階導(dǎo)數(shù)hi。
(3) 采用貪心算法將不同的決策樹模型對不同的葉節(jié)點和根節(jié)點的計算輸出的預(yù)測值進行評價。
(4) 將每次計算輸出的決策樹ft(x)通過迭代模型進行計算,迭代模型公式為:
(2)
當(dāng)出現(xiàn)多個決策樹時,為了提高決策樹的精度,通過以下函數(shù)進行優(yōu)化:
(3)

(4)
改進型XGBoost算法模型的負荷預(yù)測模型可以用以下公式表示。
(5)

通常,在進行負荷評估時,將改進型XGBoost算法模型內(nèi)的各種決策樹模型進行固定設(shè)置,令q(x)=K,對Obj(t)進行求導(dǎo),其輸出的一階導(dǎo)數(shù)等于0,決策樹上的葉子節(jié)點j的參數(shù)值可通過以下函數(shù)表示。
(6)
式中:Gj為葉子節(jié)點j的所有輸入樣本的一階導(dǎo)之和;Hj為葉子節(jié)點j所有輸入樣本的二階導(dǎo)之和;λ為正則化系數(shù)。ω為構(gòu)建出的決策樹輸出的分數(shù)向量。
則對電力負荷電費評估和優(yōu)化的目標(biāo)函數(shù)為:
(7)
式中:T為構(gòu)建出的決策樹中每個葉的節(jié)點數(shù)量。
通過該方法,能夠?qū)㈦娏ω摵蛇\行情況轉(zhuǎn)化為大數(shù)據(jù)模型的方式表示,提高了數(shù)據(jù)計算的直觀能力。通過不斷地調(diào)整數(shù)據(jù)權(quán)重能夠不斷地訓(xùn)練單個弱學(xué)習(xí)器,有助于糾正和調(diào)整弱學(xué)習(xí)器輸出的數(shù)據(jù)殘差,將原始構(gòu)建出的多個不同決策樹學(xué)習(xí)器進行加權(quán)求和,最終輸出較為準(zhǔn)確的預(yù)測數(shù)值。
為了進一步提高上述計算精度,本文采用逐步回歸算法模型對上述算法進一步修正,以提高評估精度。
對逐步回歸算法模型的構(gòu)建方法進行說明,假設(shè)存在n個不同的企業(yè)基本電費類型。企業(yè)基本電費類型中的種類為m,每種m個數(shù)據(jù)類型中的數(shù)據(jù)量為p,反映用戶實際用電情況的矩陣為An×p,用戶理論用電矩陣為Cn×m,評估誤差矩陣為En×m,則引出關(guān)系式為:
Cn×m=An×pPp×m+En×m
(8)
(9)
在對個別企業(yè)基本電費進行數(shù)據(jù)分析時,可以令m=1,此時,式(10)可以轉(zhuǎn)化為:
(10)
式中:aki為企業(yè)基本電費的變量數(shù)據(jù)之間是相關(guān)系數(shù)為1的線性相關(guān)量。當(dāng)r(ATA)
通過上述模型的構(gòu)建,逐步回歸算法模型內(nèi)的總離差平方和與上述回歸方差平方和關(guān)系可以用以下關(guān)系式表示。
S總(t)=S回(t)+S殘(t)
(11)
S回(t)=S總(t)-S殘(t)
(12)
其中:

(13)

當(dāng)在企業(yè)基本電費的數(shù)據(jù)信息中剔除一個數(shù)據(jù)ai,則函數(shù)中的S回(t)轉(zhuǎn)變?yōu)镾回(t-1),再通過公式Δi(t)=S回(t)-S回(t-1)表示異常的數(shù)據(jù)信息ai對分類屬性c的總方差貢獻值。然后調(diào)取數(shù)據(jù)統(tǒng)計量:
(14)

本文主要驗證改進型XGBoost算法模型的工作效率。仿真試驗時,工作環(huán)境為Python3.5。該算法模型的參數(shù)為:每個決策樹的樹深度取6,學(xué)習(xí)效率為0.43,進行400次迭代計算[10]。決策樹剪枝后的數(shù)值為0.3,決策樹每個葉子輸出的權(quán)重值為6,其中對決策樹進行隨機采樣輸出的數(shù)值比例為0.7。改進型XGBoost算法模型的正則化被命名為L2, 將本文的改進型XGBoost算法模型與BP、GRNN算法分別進行對比驗證。
本文實例數(shù)據(jù)為浙江某工業(yè)園區(qū)內(nèi)化工企業(yè)2015年1月至2018年8月最大需量及影響因素指標(biāo)數(shù)據(jù)。以需量變異系數(shù)0.08為閾值,變異系數(shù)>0.08為波動較大組,變異系數(shù)≤0.08為波動較小組。園區(qū)兩組類型企業(yè)2018年8月需量數(shù)據(jù)如表1所示。

表1 樣本1園區(qū)部分企業(yè)2018年8月最大需量數(shù)據(jù)
通過設(shè)置如表1所示的數(shù)據(jù)信息,進行數(shù)據(jù)分析。
本文以園區(qū)企業(yè)2015年1月至2017年12月的需量及其相關(guān)影響指標(biāo)數(shù)據(jù)作通過數(shù)據(jù)采集和設(shè)置,首先需要對獲取的數(shù)據(jù)信息進行預(yù)處理,歸一化處理函數(shù)為:
為訓(xùn)練集,進行模型訓(xùn)練;以2018年1月至8月的數(shù)據(jù)為驗證集,對模型效果進行評價。樣本數(shù)據(jù)表如表2所示。

表2 樣本2 試驗數(shù)據(jù)表
(15)
在進行精確度評價時,采用均方根誤差(root mean square error,RMSE)和平均絕對誤差百分比(mean absolute percent error,MAPE),其中均方根RMSE誤差數(shù)據(jù)模型為:
(16)
平均絕對誤差百分比MAPE模型可以為:
(17)

通過對改進型XGBoost算法模型進行參數(shù)設(shè)置,在具體應(yīng)用時,需要調(diào)用XGBoost函數(shù)庫中的CV函數(shù)進行數(shù)據(jù)信息計算,通過400次的迭代計算,輸出如圖3所示的誤差曲線示意圖。
通過圖3可以看到,在經(jīng)歷一段時間的運行后,為了避免模型在運行過程中出現(xiàn)過擬合現(xiàn)象,將改進型XGBoost算法模型的迭代次數(shù)取值230。

圖3 負荷預(yù)測均方根誤差曲線示意圖
下面以幾種簡單的影響因素作為示例性分析,如圖4所示。
通過圖4可以看到,負荷影響因素不同,則均方根值不同,各個影響因素的分布比例都不相同。進而可以直觀地看出不同因素的影響。

圖4 改進型XGBoost算法模型中不同影響因素的特征重量級分布圖
將BP、GRNN算法分別與本文的改進型XGBoost算法模型進行對比分析,得出如圖5所示的對比示意圖。
分析圖5可知,改進型XGBoost算法模型預(yù)測準(zhǔn)確度較高,且較為穩(wěn)定,更適用于電力超短期負荷預(yù)測。

圖5 不同方法的預(yù)測準(zhǔn)確性分析對比示意圖
本文根據(jù)當(dāng)前電力負荷預(yù)測的需要,提出了新型的負荷預(yù)測模型,應(yīng)用了改進型XGBoost算法模型,通過調(diào)整權(quán)值的方式實現(xiàn)弱分類器和學(xué)習(xí)器的訓(xùn)練和學(xué)習(xí),提高了數(shù)據(jù)輸出的精確度。通過試驗,本文方法能夠直觀地看出負荷影響因素,誤差低,能為企業(yè)電力負荷的預(yù)測做出一定的貢獻,但是尚且存在其他不足,需要進行進一步的研究。