基于數據挖掘的短期用電負荷預測

2018-07-31 09:19:08陳鈞袁海林王雙

科技視界 2018年11期

關鍵詞：數據挖掘

陳鈞　袁海林　王雙

【摘要】本文采用數據挖掘技術，基于用戶用電和電網負荷信息，結合天氣、經濟、假日、社會事件等等外部因素，構建短期市場電力負荷分析模型，預測各級供電單位1-7天用電負荷曲線，為電力行業電網規劃、電能調配等提供決策支持。

【關鍵詞】數據挖掘；決策樹；電力負荷預測

中圖分類號： TM715 文獻標識碼： A 文章編號： 2095-2457（2018）11-0004-003

DOI：10.19694/j.cnki.issn2095-2457.2018.11.002

【Abstract】This paper adopts the big data analysis technology， based on the users' electricity and power grid load information， combined with the weather， economy， holiday， social events and other external factors， constructs the short-term power load analysis model， to predict the 1-7 day power load curve of the power supply units at all levels， which provides the decision support for the planning of the power grid and the power distribution in the power industry.

【Key words】Data mining； Decision tree； Power load prediction

0 引言

隨著我國電力事業的發展，電網的管理日趨現代化，電力系統負荷預測問題的研究也越來越引起人們的注意，現在已經成為了現代電力系統運行研究中的重要課題之一[1]。負荷預測可以分為長期、中期、短期、超短期以及節日預測。其中短期負荷預測是電網規劃建設的依據，是電力系統安全運行的前提，隨著分時電價方式的推廣和電力市場化改革的深入，電力公司力求及時、準確地把握負荷變化的信息，將負荷預測的重要性和迫切性提到前所未有的高度，同時也對負荷預測的精度提出更高的要求。

本文將數據挖掘技術應用到短期用電負荷預測中，基于用戶用電和電網負荷信息，結合天氣、經濟、假日、社會事件等等外部因素，構建短期市場電力負荷分析模型，預測各級供電單位1-7天用電負荷曲線，為電力行業電網規劃、電能調配等提供決策支持。

1 短期用電負荷預測算法

負荷預測方法可分為確定性負荷預測方法和不確定性負荷預測方法。其中確定性負荷預測方法是把電力負荷預測用一個或一組方程來描述，電力負荷與變量之間有明確的一一對應關系，包括時間序列預測法、回歸分析法、經典技術預測法、趨勢外推預測法等。而為了解決實際電力負荷發展變化規律非常復雜不能用簡單的顯式數學方程來描述期間的對應和相關這一問題，隨著大數據分析挖掘理論和技術的發展[2]，產生了一類基于大數據類比對應等關系進行推理預測的不確定性預測方法。

結合短期用電負荷預測具體需求，充分調研分析當前負荷預測典型算法的適用場景及優缺點，選取曲線聚類和決策樹用于預測單個用戶的用電負荷數據，選取時間序列用于預測分行業的用電負荷數據，最后用線性回歸修正系數，形成最終結果。

1.1 典型算法

1.1.1 功能算法-曲線聚類

聚類是將數據分類到不同的類或者簇這樣的一個過程，所以同一個簇中的對象有很大的相似性，而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個分類的標準，聚類分析能夠從樣本數據出發，自動進行分類。聚類分析所使用方法的不同，常常會得到不同的結論。聚類能夠作為一個獨立的工具獲得數據的分布狀況，觀察每一簇數據的特征，集中對特定的聚簇集合作進一步地分析。

采用K-MEANS聚類算法，對歷史負荷數據進行聚類分析。將歷史負荷數據作為歷史數據集，針對每天的負荷數據曲線，將形狀特征相近的兩個歸為一類，最終將所有零散分布的獨立樣本逐漸歸為趨勢相近的若干類，完成聚類。

1.1.2 功能算法-決策樹分類

決策樹學習是資料探勘中一個普通的方法。在這里，每個決策樹都表述了一種樹型結構，它由它的分支來對該類型的對象依靠屬性進行分類。每個決策樹可以依靠對源數據庫的分割進行數據測試。這個過程可以遞歸式的對樹進行修剪。當不能再進行分割或一個單獨的類可以被應用于某一分支時，遞歸過程就完成了。決策樹的每一個葉節點對應著一個分類，非葉節點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值將其劃分成若干個子集。對于非純的葉節點，多數類的標號給出到達這個節點的樣本所屬的類。構造決策樹的核心問題是在每一步如何選擇適當的屬性對樣本做拆分。對一個分類問題，從已知類標記的訓練樣本中學習并構造出決策樹是一個自上而下、分而治之的過程。

采用C50算法，根據指標列取的數據，分行業帶入決策樹模型。劃分到不同的聚類結果中。根據第一部分聚類模型的中位數值，作為此用戶的用電負荷值預測結果[3-4]。

1.1.3 功能算法-時間序列

時間序列預測主要是以連續性原理作為依據的。連續性原理是指客觀事物的發展具有合乎規律的連續性，事物發展是按照它本身固有的規律進行的。在一定條件下，只要規律賴以發生作用的條件不產生質的變化，則事物的基本發展趨勢在未來就還會延續下去。時間序列預測就是利用統計技術與方法，從預測指標的時間序列中找出演變模式，建立數學模型，對預測指標的未來發展趨勢做出定量估計。

采用HoltWinters指數平滑算法，根據各大行業用電負荷數據，預測未來幾天內可能的用電負荷值[5]。

1.1.4 功能算法-回歸修正

在統計學中，線性回歸（Linear Regression）是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。變量的相關關系中最為簡單的是線性相關關系，設隨機變量與變量之間存在線性相關關系，則由試驗數據得到的點，將散布在某一直線周圍。這種函數是一個或多個稱為回歸系數的模型參數的線性組合。分析按照自變量和因變量之間的關系類型，可分為線性回歸分析和非線性回歸分析。如果在回歸分析中，只包括一個自變量和一個因變量，且二者的關系可用一條直線近似表示，這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量，且因變量和自變量之間是線性關系，則稱為多元線性回歸分析。

將決策樹的單個用戶結果進行匯總形成行業數據結合實踐序列的各個行業數據進行回歸系數修正，并根據數據及時更新形成新的系數，產生更準確的結果。

1.1.5 特征選擇

特征選擇也叫特征子集選擇（ FSS ， Feature Subset Selection ）。是指從已有的M個特征（Feature）中選擇N個特征使得系統的特定指標最優化，是從原始特征中選擇出一些最有效特征以降低數據集維度的過程，是提高學習算法性能的一個重要手段，也是模式識別中關鍵的數據預處理步驟。對于一個學習算法來說，好的學習樣本是訓練模型的關鍵。

在代入變量之前，進行特征選擇。刪除變量值都為空的變量，刪除變量值只有一個相同數值的變量，刪除變量之間完全相同的變量。最后根據決策樹的變量重要性結果將重要性低于1%對模型影響甚微的變量一并刪除。

1.2 算法選擇

1.2.1 聚類算法

聚類算法常用的算法包括系統聚類法、動態聚類法（k-means）。

系統聚類一次形成之后就不能再改變，這需要一次分得比較準確，對分類的方法有很高的要求。相應的計算量也會很大比如Q型系統聚類法聚類的過程是在樣本間距離矩陣的基礎上進行的。當樣本容量很大時，需要占用足夠的計算機內存，而且在并類過程中，需要將每類樣本和其他樣本間的距離。逐一加一比較以決定應該合并的類別，需要很長的計算時間，不適用于海量數據樣本。

動態聚類法又稱為逐步聚類法基本思想是開始先粗略地分一下類，然后按照某種最優原則修改不合理的分類，直至類分得比較合理為止。適用于大樣本的聚類分析。所以選擇動態聚類（k-means）方法。

1.2.2 分類算法

常見的分類模型算法包括傳統方法和現代方法。其中傳統方法有線性判別法、距離判別法、貝葉斯分類器等；現代方法有決策樹、支持向量機、神經網絡等。

由于代入變量較多所以應該選擇更加智能的決策樹或者神經網絡算法。神經網絡算法不允許有缺失值，但是決策樹能更好的處理缺失值的問題。由于數據樣本有較多缺失值，所以選擇決策樹。

1.3 過程說明

動態聚類算法后將化為一類的96個曲線值進行比較分析，大體曲線區間以及走勢相同，說明此算法較好，如圖1所示。

R語言的決策樹算法包包含（C50、party、rpart）。根據三種算法比較，raprt運行過程最慢，耗時較長。C50最快并且準確率高于party算法。并且C50算法執行效率和內存使用更適用大數據集。由于變量有部分缺失值較多，C50算法面對數據遺漏和輸入字段很多的問題時非常穩健。同時C50比一些其他類型的模型易于理解，模型推出的規則有非常直觀的解釋。故最終選擇C50算法，C50算法決策樹的變量重要性如圖2所示。

2 短期用電負荷預測建模過程

2.1 主要流程

短期用電負荷預測建模主要包括以下三部分工作：

（1）基于按時間順序排列的負荷序列數據完成對未來7天用電負荷的預測；

（2）基于行業、天氣等多因素及負荷曲線數據完成對歷史負荷的曲線聚類并完成對未來用電負荷的分類預測；

（3）基于前2步模型的結果進行回歸系數的修正，產生更準確的預測結果，前2步模型可擴展添加。

主要流程如圖3所示。

2.2 模型評估

代入某市電力公司2017年12月數據并且以行業最多的工業為例準確率如表1所示，準確率可滿足需求。

表1 模型準確率統計

3 總結

本文將決策樹、時間序列等數據挖掘技術應用到短期用電負荷預測中，基于用戶用電和電網負荷信息，結合天氣、經濟、假日、社會事件等等外部因素，構建了短期市場電力負荷分析模型。經代入某市電力公司2017年12月數據，短期負荷預測精度接近90%，可為電力行業電網規劃、電能調配決策等提供有效的數據支撐。在未來的研究中，將進一步擴大樣本數據量，持續完善預測算法以及回歸模型修正工作，以進一步提高預測精度。

【參考文獻】

[1]鐘清，孫聞，余南華，等.主動配電網規劃中的負荷預測與發電預測[J].中國電機工程學報，2014，34（19）：3050-3056.

[2]中國電機工程學會信息化專委會.中國電力大數據發展白皮書[S].北京：中國電力出版社，2013.

[3]栗然，劉宇，黎靜華，等.基于改進決策樹算法的日特征負荷預測研究[J].中國電機工程學報， 2005， 25（24）：36-41.

[4]李響，黎燦兵，曹一家，等.短期負荷預測的解耦決策樹新算法[J].電力系統及其自動化學報，2013， 25（3）：13-19.

[5]張素香，劉建明，趙丙鎮，等.基于云計算的居民用電行為分析模型研究[J].電網技術，2013，37（6）：1542-1546.