張春梅,魏俊鋒
(廣東電網有限責任公司中山供電局,中山 528400)
隨著經濟的不斷發展,我國居民及工業對電力的需求逐漸變大。對同一行業的不同用戶,其用電行為的差異日益明顯,僅以行業總體特征進行用電模式識別已無法客觀挖掘足夠的信息,用戶用電特性的多樣化對傳統的用電預測方法提出了挑戰,因此,將用戶用電特性進行多維度分解,對隸屬于不同用電模式的用戶群體采用差異化建模方法,分別建立有較強針對性的預測模型,可以提高用電量預測精度。本文使用CART決策回歸樹、AdaBoost算法進行規則挖掘,并針對不同用戶用電特點,融合隨機森林(Random forest)、XGBoost等多個算法匹配用戶最優算法進行用電量預測。
首先進行特征工程,特征工程包括特征選擇和特征提取[1],對于特征過多的一些數據要做降維處理。現有數據中現成的只有時間這一維特征,所以需進行特征構造。在原始數據中,以15個月為一個劃分區間,在區間內采取前三個月的值、總和、方差、平均值以及后三個月的值、總和、方差、平均值作為特征向量,形成的其中一組特征向量的值如表1所示,并把月份采用了獨熱碼[2](one-hot)的編碼,在一定程度上起到了擴充特征的作用。
CART決策樹[3]是一種有監督的學習算法,以樹狀圖為基礎,對特征空間進行二元劃分。采用自上而下的方法,在每一步選擇一個最好的屬性來分裂。“最好”的定義是使得子節點中的訓練集盡量的純,對于分類問題可使用Gini系數進行特征選擇,對于回歸問題用平方誤差最小化準則進行特征選擇,生成二叉樹,即最小二乘偏差(LSD)生成決策樹。

該算法流程如下:
輸入訓練集D={(x1,y1),(x2,y2)......(xm,ym)}
(1)CART樹生成,采用啟發式方法,選擇第j個變量x和它的取值s作為切分變量和切分點,定義兩個區域:

表1 特征向量值表

遍歷所有變量,找到最優切分變量j和最優切分點s,即尋找最優特征劃分點,接著對兩個區域遞歸操作,算法停止條件是結點中樣本個數少于給定的閾值(切分最小樣本數)、不純度指標下降的最大幅度小于用戶指定的幅度(誤差允許下降值)或這切分后某個子集大小小于給定的閾值。

(2)CART樹剪枝防止過擬合,第一步中有提前終止條件作為預剪枝,但是對參數較為敏感,所以再進行后剪枝,常用方法有Reduced-Error Pruning(REP,錯誤率降低剪枝)、Cost-Complexity Pruning(CCP、代價復雜度)。
歷史課堂教學中對學生學習興趣的激發要注重堅持深入挖掘教材,為學生學習歷史知識營造輕松的氛圍,逐漸的引導學生對歷史知識的學習有新的認識。教師要從歷史教材著手,深入的挖掘,找到吸引學生的知識點內容進行發揮,這是激發學生的要點。激發學生興趣要注重師生良好關系的建立,讓學生對教師產生信任感,這樣才能拉近師生距離,這對激發學生興趣就打下了基礎。
REP方法:
(a)如果存在任一子集是樹,則在該子集遞歸剪枝;
(b)計算當前兩個葉子節點合并后的誤差、不合并的誤差;
(c)如果合并后誤差降低,則合并。
AdaBoost[4]基于boosting流派,屬于集成學習方法。對預測來說,獲得粗糙的預測估計比精確的預測估計相對容易許多,提升方法(boost)從弱學習算法出發,反復學習,得到一系列弱分類器,組合弱分類器,提升成為一個強分類器。該算法流程如下:
輸入:T={(x1,y1),(x2,y2)......(xm,ym)}
輸出提升樹 fM(x)
(1)初始化 f0(x)=0
(a)根據rmi=ymi-fm-1(xi)計算殘差
(b)擬合殘差rmi學習一個回歸樹,得到T(x;Θm)
(c)更新 fm(x)=fm-1(x)+T(x;Θm)
本文的數據取自19個用電客戶68個月的月用電量數據,前60個月的數據作為樣本數據,后8個月的數據作為測試數據,使用預測的8個月數據與測試數據計算誤差,根據樣本數據采用交叉驗證訓練模型,交叉驗證的基本思想是把在某種意義下將原始數據(da?taset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validation set or test set),首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的性能指標。如下圖1為CART算法訓練出的決策樹模型,測量中使用可決系數作為綜合度量回歸模型對樣本觀測值擬合優度的度量指標,R2約接近1代表擬合優度越好,表2為其中用戶C的可決系數值。

表2 用戶可決系數表
不同用電行為的差異化日益明顯,因此,將用戶用電特性進行多維度分解,對隸屬于不同用電模式的用戶群體采用差異化建模方法,選取合適的數學模型進行數據建模,EW[5]是一類經常使用的組合預測方法,設yi(i=1,2,…,k)為第i個模型的預測值,如果ye代表組和模型的預測值,則EW方法得到的組合預測為,EW法不需要了解單一預測值yi的預測精度,是在對各種預測方法精度未知的情況下采取的一種方法。算法流程如下:
(1)對于每個用戶,遍歷算法并統計MSE,保存MSE最小的模型,并計算算法根據測試集所得出的預測結果與實際值的相關系數,即R2值。相關系數是一種比較客觀的評價模型方法,本系統采用的是皮爾遜相關系數[6](Pearson Product-moment Correlation Coeffi?cient)進行數學統計,如下面公式(4)。

(2)對每個算法進行調優,并保存調優后的算法模型,以便下次進行預測時縮短預測所需等待的時間。

圖1 CART決策樹
(3)綜合多個算法進行預測,即遍歷所有用戶,取出系統保存的用戶所對應的最佳算法模型進行實際預測。表3是單一算法與多算法融合后的誤差統計。
本文采用集成學習方法對數據樣本進行了規則挖掘,針對單個預測模型存在的不足,提出了權重組合預測模型,融合了多個算法進行用電量預測,對用戶68個月的月用電量數據進行特征處理和分類建模,基于CATR、Adaboost等多個算法以及融合算法對用電量進行預測,為每個用戶自動選擇最佳模型。通過模型調優,提高了用電量預測準確率。

表3 算法誤差統計(部分用戶)
參考文獻:
[1]陳霞,安伯義,陳廣林.電力負荷預測理論與方法.電氣化,2004(7):6-8
[2]唐小我.預測理論及其應用.成都:電子科技大學出版社,1992,2-27
[3]張松林.CART-分類與回歸樹方法介紹[J].火山地質與礦產,1997,18(1):67-75
[4]李航.統計學習方法[M].北京:清華大學出版社,,2012:138-154
[5]牛東曉,曹樹華,趙磊.電力負荷預測技術及其應用.北京:中國電力出版社,1998,1-45
[6]齊志剛,王金文.電力系統中長期符合預測的新方法.電站系統工程,2002,18(6):39-42