宋藝航 冷媛 陳政 林慶文



摘要:文章基于貝葉斯聚類方法,對某地市30個用電行業2008年1月到2015年10月的月度用電序列進行K-Means聚類分析,結果表明,前三個類別的行業涵蓋了用電占比最高的10個主要用電行業,該三個類別的行業總用電量占全社會用電量約80%,最后基于ARIMA、神經網絡、灰色預測模型對主要行業類別的用電量進行測試。
關鍵詞:月度用電量;用電量預測;神經網絡;ARIMA;灰色預測系統 文獻標識碼:A
中圖分類號:TM715 文章編號:1009-2374(2017)01-0190-03 DOI:10.13535/j.cnki.11-4406/n.2017.01.090
1 概述
常用的電力系統負荷預測方法包括人工神經網絡法、回歸分析法和時間序列分析法等,但影響用電量的因素尤其是經濟因素是復雜多變的,僅僅依靠某單一因素來對用電量進行預測具有很大局限性。
參考文獻[4]和參考文獻[5]介紹了人工神經網絡法在負荷預測中的應用,其原理是利用訓練函數調整網絡中的權值與閥值,最終擬合數據樣本函數。該方法的缺點在于無法給出明確且具有實質意義的模型表達式,同時其預測結果對初始值等因素較為敏感。回歸分析法是負荷預測的一種重要方法,采用該方法所建立的模型的數學意義明確,數理性較強。由于該方法是基于長期穩定的回歸關系而建立的預測模型,其短期預測精度在一定程度上受到限制,且該方法經常無法避免偽回歸問題,其模型可能無法真實地表示負荷的變化趨勢。
聚類分析已經滲入到圖像處理、行業研究、預警體系等每個領域。針對神經網絡的局限性,有許多學者把聚類分析和神經網絡相結合,劉興杰等利用模糊粗糙集與聚類方法,對模型輸入參數進行優化,對訓練樣本實現優選,從而有效地提高了華北地區某風電場的風速預測。代倩等在光伏系統短期無輻照度發電預測過程中,采用自組織特征映射由云量預報信息對天氣類型聚類識別,繼而對各天氣類型采用相應的預測網絡,避免了單神經網絡的過擬合問題。
本研究將參照以上方法,通過對某地市行業用電大數據進行分析挖掘,提出基于用電量的預測和行業分類方法,并識別出關鍵用電行業,為進一步的行業用電預測及后續研究奠定基礎。最后,針對以自回歸移動平均(Autoregressive Moving Average,ARMA)法為代表的時間序列分析法能夠提高短期負荷預測的準確度,對于某地市的地區用電序列,本文提出一種把貝葉斯聚類方法和自回歸移動平均模型相結合的方法,在行業預測基礎上實現地區預測。該方法可以應用到具有層次結構的單維及多維度時間序列分析,為現實問題提供一種新的解決途徑。
2 基于貝葉斯聚類的行業用電量分析
2.1 數據來源
本研究的數據來源是某地市從2008年1月到2015年10月的用電分類報表,用電分類報表中的行業劃分包括多個層次,研究過程中可能存在重復選擇的問題。基于行業全覆蓋與避免重復的考慮,最終選擇了表1所示的30個分類作為最終的研究對象。按照上述30個分類,對月度用電報表進行合并和整理,并只保留報表中的“本年本月”數據列,形成研究所使用的行業分類月度用電序列數據。
2.2 聚類結果及分析
對30個用電行業從2008年1月到2015年10月(其中個別月份數據缺失,不影響聚類有效性)的月份用電序列進行K-Means聚類,結果如表2所示:
聚類結果的BSS/TTS達到94.45%,說明類別的區分度較好,聚類的有效性較高。從聚類的結果可以看出,屬于同一類別的行業,用電量級較為相近。類別1、類別2和類別3中的行業涵蓋了用電占比最高的10個主要用電行業,這三個類別的行業總用電量占全社會用電量
約80%。
3 行業用電量預測模型
3.1 預測模型介紹
預測模型研究,首先,需要對數據進行整理,包括有效性檢查、錯誤數據剔除與修改等。針對月度數據間隔較短特點,運用經濟計量方法對數據進行初步統計,對趨勢規律、不規則變動等因素進行分析,對序列做初步的自相關分析;其次,結合模型適用性條件庫信息,通過參數檢驗(或仿真)初次篩選模型;最后,通過綜合評價體系檢驗,形成最終兼具經濟含義與統計含義的用電量月度需求的預測模型、預測結果、預測區間。采用的預測模型包括ARIMA、BP神經網絡、灰色預測
模型。
3.2 行業用電量預測結果
本研究綜合考慮數據的合理性及無效值出現的比例,對于月度數據擬采用的擬合區間(訓練模型的數據)為2010年1月到2015年9月共69期數據,檢驗預測區間為2015年10月到2015年12月共3期數據。
針對月度數據時間間隔短,季節波動最為明顯的特點,研究中分別嘗試用灰色系統模型、BP神經網絡、ARIMA模型訓練用電數據并給出擬合誤差和預測,結果如表3所示。圖1至圖5分別為五個行業類別的預測結果圖(ARIMA結果)。
從表3可以看出,ARIMA模型相比于灰色系統和神經網絡精度更高。五個行業的神經網絡與灰色預測結果。灰色系統模型對于季節波動較明顯的數據無法進行擬合,對于神經網絡,由于訓練樣本不足或存在某些質量較差的數據節點等原因,無法收斂到較準確的精度,故月度用電數據預測擬采用ARIMA模型。
基于ARIMA模型,進一步給出各分類行業未來3個月(2016年1月到2016年3月)的預測結果,如表4所示。
4 結語
首先,基于貝葉斯聚類方法對各行業用電量進行分析,最終選取了5類具有行業代表性的行業類別,分析表明5類行業的用電特征具有較好的區分度;其次,根據不同用電數據的特征,分別利用月度預測模型庫中幾個有代表性的模型對關鍵用電行業數據進行預測并比較各模型精度,研究結果表明,對于月度分類行業用電序列,用ARIMA模型預測的精度較高;最后,按照與行業用電模型選擇的過程,對某地市月度用電量預測模型進行構建。研究結果表明,針對月度地區用電序列,某地市月度用電量預測用ARIMA模型預測的精度較高,最后構建基于分類行業的預測模型,結果表明對于該地市用電序列而言,行業分類的預測模型要比直接運用ARIMA模型預測精度高。
參考文獻
[1] 何永秀,王冰,熊威,等.基于模糊綜合評價的居
民智能用電行為分析與互動機制設計[J].電網技術,
2011,36(10).
[2] 郝洪星,朱玉全,陳耿,等.基于劃分和層次的混合
動態聚類算法[J].計算機應用研究,2011,28(1).
[3] 應劭霖.數據挖掘中的聚類算法的綜述[J].江西化
工,2014,(2).
[4] 樓巍.面向大數據的高維數據挖掘技術研究[D].上海
大學,2013.
[5] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿
真學報,2013,(S1).
[6] 王駿,王士同,鄧趙紅.聚類分析研究中的若干問題
[J].控制與決策,2012,27(3).
[7] 婁銀霞,程銘,文高進,等.基于FCM和遺傳算法
的圖像模糊聚類分析[J].計算機工程與應用,2010,
46(35).
[8] 勞蘭珺,邵玉敏.中國股票市場行業收益率序列動態
聚類分析[J].財經研究,2004,30(11).
[9] 劉興杰,岑添云,鄭文書,等.基于模糊粗糙集與
改進聚類的神經網絡風速預測[J].中國電機工程學
報,2014,(19).
[10] 代倩,段善旭,蔡濤,等.基于天氣類型聚類識別
的光伏系統短期無輻照度發電預測模型研究[J].中國
電機工程學報,2011,31(34).
[11] 楊建萍.基于ARIMA模型的用電量時間序列建模和
預報[J].工程數學學報,2008,25(4).
[12] 毛玉鳳.基于時間序列分析的電力需求預測及季節
調整模型的研究[D].北京工業大學,2013.
[13] 宋強,趙彪,劉文華,等.智能直流配電網研究綜
述[J].中國電機工程學報,2013,22(25).
[14] 袁旭峰,程時杰,文勁宇.基于CSC和VSC的混合多
端直流輸電系統及其仿真[J].電力系統自動化,
2006,30(20).
基金項目:本文系中國南方電網公司科技項目(K-KY2014-035)。
作者簡介:宋藝航(1982-),男,南方電網科學研究院副研究員,博士,研究方向:電網系統預測。
(責任編輯:周 瓊)