丁 曉, 孫 虹, 鄭海雁,季 聰, 徐金玲, 仲春林, 熊 政
( 1. 國網江蘇省電力有限公司,江蘇 南京 210024 ;2. 江蘇方天電力技術有限公司,江蘇 南京 211102; 3. 國網江蘇省電力有限公司電力科學研究院,江蘇 南京 211103)
隨著配電網信息化建設的推進,配電網在日常運行中產生了大量的配用電數據,但一直以來這些數據并未得到充分的挖掘和有效的利用。如今電改政策試點、售電側放開對電力客戶服務提出了更高的要求,電力行業市場化進程的深入也對電力負荷預測提出了更高的要求。目前,國內外專家和學者已經在大數據負荷預測領域展開了研究工作,也取得了一些成果。文獻[1-3]對配用電大數據背景下用電預測場景進行了研究和分析,認為用電預測是配用電大數據的關鍵技術和重要應用之一。文獻[4]提出了一種基于并行隨機森林的大數據負荷預測方法,取得了比決策樹更高的預測精度。文獻[5]將局部加權線性回歸預測算法和云計算Map/Reduce模型相結合,用于開展短期電力負荷預測研究。文獻[6]提出了基于用戶的電網負荷預測方案,將大數據技術引入到負荷預測。文獻[7]采用基于大數據的神經網絡算法將發電預測精度提高到接近99%。
江蘇居住區配電一體化系統的全面建成、用電信息采集系統(下稱“用采系統”)的全面覆蓋,積累了自2009年以來全省47萬配變、26萬專變、3700萬用戶的負荷和電量數據,營銷系統保存著自2009年以來全省26萬大用戶的業擴報裝、增容、減容數據,江蘇省電力公司氣象信息系統積累了自2006年以來全省13地市71個氣象站的10 min/點溫度、濕度、雨量、風速等氣象數據,上述數據總量已累計達到180 TB,且仍然在以每日30 GB的速度快速增長。如何充分利用這些數據資源,挖掘負荷、電量、業擴、氣象、經濟等因素的關系,建立更加精準的負荷和電量影響模型,提高短期負荷預測的精確度,是本文的重點研究內容。
本文分析了大數據負荷預測方法的優勢,介紹了配用電大數據的清洗方法,構建了多維負荷和電量模型,實現了基于配用電大數據的短期負荷預測方法,并且結合實際計算結果,驗證了方法的準確性。
傳統負荷預測方法大致可以分為統計算法和智能算法,統計算法包括時間序列模型、決策樹、回歸算法、隨機森林等,智能算法包括人工神經網絡、支持向量機、貝葉斯理論等基本算法及其改進算法,目前組合預測算法也受到了業界的青睞和關注[8-9]。但上述方法由于建模時選取的樣本較小,歷史數據的選取直接影響負荷預測的效果。大數據負荷預測方法存在以下3點優勢。
(1) 考慮的影響因素更全。影響負荷走勢的因素眾多,主要包括兩大類型:用戶用電行為中體現的隨機性,以及外部氣象因素和節假日的影響[10-11]。大數據負荷預測方法掌握著全面的用電行為數據和外部氣象數據,可以通過聚類分析挖掘用戶用電行為模式,對不同類型的用戶用電行為特征進行詳細的分析,可以通過相關性分析挖掘負荷走勢受氣象因素影響程度。
(2) 數據的時間跨度更長。大數據負荷預測方法選取了時間跨度更長的歷史數據,用于發現負荷數據隨月、季、年周期發生的變化規律,與選取相似日[12]負荷數據進行預測的一些傳統方法相比,不存在相似日選取不當而造成預測誤差較大的問題。
(3) 數據的空間粒度更細。大數據負荷預測方法所采用的負荷數據粒度可以細化到地區、行業、變壓器、線路、臺區、用戶等各個級別,而由于江蘇地域廣闊,存在溫度差異(南北最高溫差可達20 ℃),行業負荷特征明顯,因此本文的大數據負荷預測方法采用分地區、行業預測再按比例疊加的思路。這種方法能夠考慮不同行業的負荷特性、不同地區的溫度差異,而且也便于對預測結果進行成分分析和誤差追蹤。
江蘇電力大數據平臺以營配集成、用電信息采集、省地縣一體化電量系統為基礎,結合外部氣象和經濟數據,建成了江蘇配用電大數據中心,為江蘇配用電大數據分析工作提供了豐富的數據資源。
配用電大數據中心的數據體系架構如圖1所示。

圖1 配用電大數據中心的數據體系架構Fig.1 Structure of distribution and consumption big datacenter
數據主要來源于營配集成、用電信息采集系統、調度省地縣一體化電量系統,以及外部的氣象數據和宏觀經濟數據。
(1) 營配集成數據。全省3596萬居民用戶檔案信息、47萬配變及其與用戶的戶變關系、配網相關低壓線路檔案信息、電力生產管理系統(power production management system, PMS)和地理信息系統(geographic information system,GIS)數據。
(2) 用采系統數據。全省3596萬居民用戶、26萬負控用戶自2009年以來的負荷和電量數據。
(3) 調度省地縣一體化電量系統數據。自2005年以來全省約2500個廠站的超過40 000只電表的上下網電量數據和關口計量數據。
(4) 外部數據。自2006年以來全省13地市71個氣象站10 min/點的溫度、濕度、雨量、風速等氣象數據,以及江蘇13地市54縣的宏觀經濟數據。
從大數據平臺目前集成的所有數據類型來看,“臟數據”主要有3種大類型,11個小類,如表1所示。

表1 “臟數據”類型Tab.1 Type of dirty data
數據異常從某種程度上來說,與數據缺失的結果是類似的,因此針對需預處理的3種數據類型,分別提出了兩種不同的數據清洗方法。
2.2.1 數據缺失/異常的清洗方法
數據缺失/異常的清洗主要采用了替代法和插值法。
(1) 插值法。負荷數據缺點(異常)較少時,可以基于當日負荷曲線,采用插值法(如拉格朗日插值、三次樣條插值等)實現負荷曲線的補全;電量數據缺點(異常)較少時,可以基于當月電量曲線,采用插值法實現電量數據補全。
(2) 替代法。負荷數據缺點(異常)較多,無法采用插值法時,可以用相似日(工作日選取上一周工作日,周末選取上一周周末)同一時段負荷數據替代;電量數據缺點(異常)較多時,可以用相似日(工作日選取上一月工作日,周末選取上一月周末)的電量數據替代;溫度數據為空時,處理方法類同負荷數據缺點。
2.2.2 數據不同步的清洗方法
數據不同步的情況下,通常采用平均值法、強制同步法進行數據清洗。
(1) 平均值法。由于極少部分終端采集頻率為48 點/日,因此需要將48點負荷數據擴展為96點負荷數據,可以采用平均值法(如8:45的數據取為8:30和9:00的平均值)進行數據擴展。
(2) 強制同步法。溫度數據為10 min/點,而負荷數據15 min/點,強制將00:10的溫度數據與00:15的負荷數據匹配,00:30的溫度數據與00:30的負荷數據匹配,00:40的溫度數據與00:45的負荷數據集匹配,以此類推。
用電量受氣象因素、節假日、經濟形勢等眾多因素的影響,因此篩選合適的影響因素加以分析,建立精確的用電影響因素模型,是分析用電特性、開展用電預測的基礎。由于經濟數據發布頻率太低,而且經濟環境在一段時間內相對于氣象因素而言比較穩定,因此本文只考慮氣象因素和節假日建立用電影響因素模型。用電影響因素模型的總體構建思路如圖2所示。

圖2 用電影響因素模型構建思路Fig.2 Construction of electricity consumption impact model
模型構建思路主要包括以下4個步驟:
(1) 原始數據收集和清洗。收集電量、負荷數據,歷史氣象信息和節假日數據,按2.1~2.2所述方法處理電量和負荷數據,按2.3處理氣象數據,根據歷史節假日前后電量數據適當增加節假日的長度(如春節假期規定7 d,但實際上春節前一周、后兩周很多行業都處于停工狀態),得到清洗后的各項數據。
(2) 相關因素分析。逐一計算氣象因素、節假日與電量、負荷的相關系數,得到與電量、負荷相關性最高的影響因素。
(3) 數據標準化處理。獲取(1)中清洗好的溫度、電量(負荷)數據,計算得到各溫度檔位下的平均電量(負荷),繪制溫度電量(負荷)影響曲線,將電量(負荷)走勢較為平緩的溫度區間作為基準電量(負荷)溫度區間。
(4) 用電影響模型構建。以℃為單位,將各溫度區間下的電量(負荷)進行歸類并計算平均值,對于負荷模型還要考慮分時特性,得到電量溫度影響模型、負荷溫度影響模型等。
用電量受氣象因素、節假日、經濟形勢等眾多因素的影響,由于經濟數據發布頻率太低,而且經濟環境在一段時間內相對于氣象因素而言比較穩定,因此這里只考慮氣象因素和節假日與用電量的相關性。
目前氣象信息考慮溫度、濕度、雨量、云量、氣壓、風速六項指標,采用式(1)的相關性計算方法分別對各影響因素進行分析[13-16]:
(1)

一般認為,r≥0.8視為兩個向量高度相關,0.3≤r<0.8時中度相關,r<0.3時不相關。以南京為例,選取2014年南京全年用電量、氣象和用電量數據,進行相關性分析。需要說明的是:
(1) 由于溫度較高時與用電量呈正相關性,而溫度較低時與用電量呈負相關性,因此選取25 ℃及以上和10 ℃以下兩種情況分別進行相關性分析。
(2) 節假日信息按工作日=1,周末=2,法定假日=3設定。
南京用電影響因素與用電量相關性計算結果如表2所示。

表2 用電量與影響因素的相關性計算結果Tab.2 Correlation calculation results of electricity consumption and influencing factors
可見用電量與溫度高度相關,與節假日中度相關,而與風速、濕度、雨量、云量、氣壓不相關,因此構建用電影響因素模型時,主要考慮溫度和節假日兩個關鍵因素。
在構建用電影響因素模型之前,需要通過計算選取合適的基準電量(負荷),實現電量(負荷)數據的標幺化,便于后期直觀地分析各影響因素對電量(負荷)的影響率。數據標準化處理主要包括以下幾個步驟:
(1) 按度劃分溫度區間,將各溫度區間對應的電量(負荷)數據歸并,得到各溫度區間內的平均電量(負荷)。
(2) 繪制電量(負荷)-溫度曲線,并采用七點平滑算法平滑曲線。
(3) 按點計算(2)中曲線斜率,選擇曲線中較為平緩的溫度區間,計算該溫度區間內的平均電量(負荷),作為基準電量(負荷)。
(4) 采用(3)中的基準電量(負荷),標準化所有電量(負荷)數據。
圖3、4分別為南京商業和蘇州居民的電量-溫度曲線。

圖3 南京商業電量-溫度曲線Fig.3 Electricity consumption-temperature curve of Nanjing Commercial Industry
可見南京商業在11~19 ℃之間用電量較為穩定,溫度小于11 ℃或者大于19 ℃時用電量逐漸上升;蘇州居民在8~23 ℃之間用電量較為平穩,在小于9 ℃時急劇略有上升,而大于23 ℃時用電量急劇上升,說明蘇州居民用電對高溫天氣非常敏感。
由3.1可知,用電影響模型包括電量溫度影響模型、電量業擴影響模型、電量節假日影響模型、負荷溫度影響模型和負荷節假日影響模型,限于篇幅,這里主要介紹行業負荷溫度影響模型和行業電量節假日影響模型的構建方法。
3.4.1 行業負荷溫度影響模型

(2) 逐日逐點計算負荷影響率:

(3)
式中:d表示工作日編號,R(d,i)為第d個工作日第i個點的負荷影響率。
(3) 將溫度劃分為>40、<-4、-4~40這45個檔位,將所有工作日的96點負荷影響率歸類到對應的溫度檔位,形成45×96的溫度—負荷影響率序列S(d,i,t),其中下標t為溫度標簽。
(4) 逐一對S(d,i,t)中的數據集合求平均值,得到溫度綜合影響率C(i,t),若S(d,i,t)中某一格數據樣本太少,則溫度范圍上下擴展1 ℃,重新計算溫度綜合影響率,若果數據樣本依然過少,則將該點的溫度綜合影響率交給后續的模型擬合算法完成。
(5) 形成負荷-溫度綜合影響率矩陣C(i,t)后,通過插值法修補殘缺數據點,通過平滑算法平抑模型中的異常數據點,最終得到負荷溫度影響模型。
(6) 由于負荷數據更新較快,且過于久遠的歷史數據不具備參考價值,因此負荷溫度影響模型每月根據新增數據更新。
圖5為某地區住宿餐飲業的負荷-溫度影響模型。可見該行業分時負荷特性為白天負荷較高、午飯和晚飯時間出現高峰、下午略降;該行業的溫度影響率為溫度較低、較高時影響率較高,說明炎熱/寒冷天氣下用于制冷/取暖負荷較高,而溫度適宜時影響率較低。

圖5 某地區住宿餐飲業負荷-溫度影響模型Fig.5 Load-temperature impact model of accommodation and catering industry
3.4.2 行業電量節假日影響模型
目前節假日包括下列七類:元旦、清明、勞動、端午、國慶、中秋、春節。以年為計算周期,計算每年所有節假日期間,行業日電量相對于節假日前正常電量的影響率,其計算流程如下:
(1) 根據實時節假日放假時間及調休安排,配置節假日信息表,為了顯示節假對電量的連續影響趨勢,應在實際節假日的基礎上前后多配置1 d,對于春節這個特殊節假日,前后多配置一周。
(2) 找節假日前最近5個工作日,計算這5個工作日的平均用電量,將該電量作為基準電量。
(3) 根據下式計算節假日期間每天的電量影響率:
(4)

圖6為某地區商業的電量節假日影響模型。

圖6 某地區商業電量節假日影響模型Fig.6 Electricity-holiday consumption impact model of commercial industry
可見春節、清明節、國慶節都對商業產生了負影響,主要是因為春節、國慶長假歸鄉、旅游人數較多,而清明節更多人回歸家庭,也一定程度上影響了商業的用電量。
由于江蘇全省用戶數量高達4000萬,若全省網供負荷預測分解過細(到用戶)工作量太大,且用戶負荷隨機性較強,預測精確度反而較低。實踐表明,將全省網供負荷分解到行業級即可得到令人滿意的精確度,且計算量也在合理的范圍內。圖7為基于配用電大數據的短期網供負荷預測方法。

圖7 基于配用電大數據的短期網供負荷預測方法示意圖Fig.7 Sketch of short-term load forecasting method based on distribution and consumption big data
(1) 最近相似日選取。周二~周五以其前一日為最近相似日,周六、周日、周一以上周同一天為最近相似日,周休日以上周周休日為最近相似日(部分行業周休日并非周六、周日)。
(2) 相似日氣象因素剔除。從歷史氣象庫中匹配得到行業所在地區最近相似日的溫度數據,對照3.4.1的行業負荷溫度影響模型,按下式剔除行業相似日負荷中的溫度因素:
Pi1=Pi/(1+C(i,t))
(5)
式中:i取值范圍為1~96;Pi為相似日的第i個有功負荷;C(i,t)為第i個負荷數據對應溫度為t時的溫度綜合影響率;Pi1為剔除氣象因素后的相似日負荷。
(3) 預測日氣象因素加成。從預測氣象庫中匹配得到行業所在地區預測日的溫度數據,對照3.4.1的行業負荷溫度影響模型,按下式向(2)式中的Pi1加成影響因素:
Pi2=Pi1(1+C(i,t))
(6)
其中Pi2即為加成預測日氣象影響因素的負荷數據。
(4) 節假日因素考慮。對于節假日,還需要基于行業電量節假日影響模型進行修正,具體方法同步驟(2)(3)中的氣象因素修正方法。
(5) 構建負荷占比模型。由于統計口徑的差異和統計誤差的存在,分行業、地區負荷匯總到網供負荷時會與調度口徑數據存在一定的差異,因此根據相似日分行業、地區負荷和全省網供負荷,按比例得到全網負荷的占比模型。
(6) 實現網供負荷預測。根據負荷占比模型和(4)中得到的分行業、地區負荷數據,匯總得到全省網供負荷預測結果。
在傳統方法中,誤差逆向傳播神經網絡(back propagation,BP)算法應用廣泛、適應性強,以BP算法為傳統方法的代表,與本文提出的大數據方法進行比較。圖8為BP算法和大數據方法的全省網供負荷預測誤差率。

圖8 短期網供負荷預測結果Fig.8 Result of short-term load forecasting
BP算法的平均預測誤差率為1.038 2%,而大數據方法的平均預測誤差率僅為0.623 9%,且96個預測點中,有61個點誤差率低于BP算法。可見,基于大數據的網供負荷預測方法可以與傳統方法優勢互補,共同提升負荷預測的準確率。
本文基于配用電大數據開展了大量的研究工作,主要進行了:(1) 配用電大數據的清洗。基于配用電大數據的特點以及實際業務的需要,分析了配用電大數據中“臟數據”的來源和類型,針對性地提出了數據清洗方法。(2) 基于配用電大數據,構建了行業負荷溫度影響模型和行業電量節假日影響模型,為后期開展短期負荷預測打下基礎。(3) 提出了基于大數據的短期負荷預測方法。基于多維用電影響因素模型,開展了分地區、行業的短期網供負荷預測,計算結果表明基于配用電大數據的網供負荷預測有著較高的準確性,可以為電網運行和規劃提供數據支撐。
參考文獻:
[1] 趙 騰,張 焰,張東霞,等. 智能配電網大數據應用技術與前景分析[J]. 電網技術,2014,38(12):3305-3312.
ZHAO Teng,ZHANG Yan,ZHANG Dongxia,et al.Application technology of big data in smart distribution grid and its prospect analysis[J].Power System Technology,2014,38(12):3305-3312.
[2] 劉科研,盛萬興,張東霞,等. 智能配電網大數據應用需求和場景分析研究[J]. 中國電機工程學報,2015,35(2):287-293.
LIU Keyan,SHENG Wanxing,ZHANG Dongxia,et al.Big data application requirements and scenario analysis in smart distribution network[J].Proceedings of the CSEE,2015,35(2):287-293.
[3] 田世明,楊增輝,時志雄,等. 智能配用電大數據關鍵技術研究[J]. 供用電,2015,32(8):12-18.
TIAN Shiming,YANG Zenghui,SHI Zhixiong,et al. Research on the key technology of big data for smart power distribution and utilization[J]. Distribution and Utilization,2015,32(8):12-18.
[4] 王 璟,楊德昌,李 錳,等. 配電網大數據技術分析與典型應用案例[J]. 電網技術,2015,39(11):3114-3121.
WANG Jing,YANG Dechang,LI Meng,et al.Analysis of big data technology in power distribution system and typical applications[J]. Power System Technology,2015,39(11):3114-3121.
[5] 張素香,趙丙鎮,王風雨,等. 海量數據下的電力負荷短期預測[J]. 中國電機工程學報,2015,35(1):37-42.
ZHANG Suxiang,ZHAO Bingzhen,WANG Fengyu,et al. Short-term power load forecasting based on big data[J].Proceedings of the CSEE,2015,35(1):37-42.
[6] 王德金. 基于大數據技術的短期負荷分析與預測[J]. 華東電力,2014,42(10):2007-2010.
WANG Dejin. Short-term load analysis and forecast based on big data technology[J]. East China Electric Power,2014,42(10):2007-2010.
[7] RAHMAN M N,ESMAILPOUR A. An efficient electricity generation forecasting system using artificial neural network approach with big data[C]∥IEEE First International Conference on Big Data Computing Service and Applications(Big Data Service).Redwood,CA:IEEE,2015:213-217.
[8] 程建東,杜積貴. 組合預測方法在電力負荷預測中的應用[J]. 江蘇電機工程,2011,30(6):38-40,44.
CHENG Jiandong,DU Jigui.Application of combined method in power load forecasting[J]. Jiangsu Electrical Engineering,2011,30(6):38-40,44.
[9] 廖旎煥,胡智宏,馬瑩瑩,等. 電力系統短期負荷預測方法綜述[J]. 電力系統保護與控制,2011,39(1):147-152.
LIAO Nihuan,HU Zhihong,MA Yingying,et al.Review of the short-term load forecasting methods of electric power system[J].Power System Protection and Control,2011,39(1):147-152.
[10] 張翠芝,智 明. 泰州電網負荷特性分析及負荷預測[J]. 江蘇電機工程,2011,30(4):45-47.
ZHANG Cuizhi,ZHI Ming. Load characteristics and load Forecasting of Taizhou Power Grid[J]. Jiangsu Electrical Engineering,2011,30(4):45-47.
[11] 許 琦,曾 凌. 南京電網負荷與氣溫敏感性分析[J]. 江蘇電機工程,2012,31(5):55-57,61.
XU Qi,ZENG Ling.Analysis on load and temperature sensitivity of Nanjing Grid[J]. Jiangsu Electrical Engineering,2012,31(5):55-57,61.
[12] 黎燦兵,李曉輝,趙 瑞,等. 電力短期負荷預測相似日選取算法[J]. 電力系統自動化,2008,32(9):69-73.
LI Canbing,LI Xiaohui,ZHAO Rui,et al. A novel algorithm of selecting similar days for short-term power load forecasting[J].Automation of Electric Power Systems,2008,32(9):69-73.
[13] 賀春光. 夏季電網最大負荷與氣溫的相關性分析[J]. 華北電力技術,2011,30(5):5-17.
HE Chunguang. Correlation analysis on system peak load and temperature[J]. Hebei Electric Power,2011,30(5):15-17.
[14] 刁贏龍,盛萬興,劉科研,等. 大規模配電網負荷數據在線清洗與修復方法研究[J]. 電網技術,2015,39(11):3134-3140.
DIAO Yinglong,SHENG Wanxing,LIU Keyan,et al.Research on online cleaning and repair methods of large-scale distribution network load data[J]. Power System Technology,2015,39(11):3134-3140.
[15] 柯人觀,周金輝,汪東輝. 微電網規劃體系研究[J]. 浙江電力,2016,35(2):23-26.
KE Renguan,ZHOU Jinhui,WANG donghui. Study on planning system of microgrid[J]. Zhejiang Electric Power,2016,35(2):23-26.
[16] 蘭 嵐. 配電線路故障衍化分析[J]. 浙江電力,2016,35(4):28-31.
LAN Lan. Analysis of fault evolution in distribution lines[J].Zhejiang Electric Power,2016,35(4):28-31.