王登峰 ,竇圣霞 ,汪海燕 ,周 睿 ,嚴紹奎
(1.國網寧夏電力有限公司營銷服務中心(國網寧夏電力有限公司計量中心),寧夏 銀川 750011;2.國網(寧夏)綜合能源服務有限公司,寧夏 銀川 750011)
用電信息采集系統的核心設備是智能電表,目前正在國內外許多地區迅速取代傳統電表?;谥悄茈姳砗碗娏Υ髷祿闹悄茈娋W一方面能夠節省能源浪費、降低用電成本、提高電網運行可靠性;另一方面可確保電力生產和消費的有效連接和利用,實現電網的自動和實時管理,更好地測量能耗、優化可靠性水平并改善現有服務,從而節省能源并降低能耗費用[1-5]。
智能電網功能的實施基于在電網用電戶安裝的智能電表和各種傳感器,導致要處理的數據量大大增加。例如智能電表以每15 min 發送一次用戶消耗的能源的讀數,每個電表每天可產生大量讀數,而不是傳統電表中每月一次讀數。因此除了能源管理之外,智能電網還需要出色的數據管理來應對高速處理、存儲和用電數據高級分析的要求。實際上由于智能電網數據的性質、分布和某些需求的實時約束,通常需要復雜的數據處理方法。而大數據技術恰好適用于此類高效數據管理工作,以幫助電網公司更好地了解客戶的行為,實現節約用電和合理安排用電需求、跟蹤停機時間和監測電源故障等。因此電網單位的主要目標是能夠管理大量數據并通過數據分析將收集的數據轉換為有效的知識,最后轉換為可實施的電力服務計劃[6-10]。
因此本文采集了100 個匿名商業建筑的5 min智能電表數據集,進行了全面的分析,探索用電的時間序列以及用電行為的預測方法,通過對比不同預測模型效果驗證了本文構建的預測模型的合理性。研究結果可為基于電力大數據的用戶用電行為預測提供參考。
用電信息采集系統是由智能電表、通信網絡和數據管理系統組成的集成系統,可實現公用事業和客戶之間的雙向通信[11]。該系統提供了許多以前無法實現或必須手動執行的重要功能,例如自動和遠程測量用電量情況、連接和斷開服務、篡改和盜竊用電監測、故障和斷電識別以及電壓監測等[12]。
用電信息采集系統的體系構架通常包括以下幾個關鍵組件:
(1)智能電表:用電信息采集系統的核心元素是智能電表,該電表安裝在客戶的房屋內,并提供多種功能:包括以5 min、15 min、30 min 或60 min 的間隔測量客戶的用電量;測量電壓電平;監視電力服務的通斷狀態。智能電表將這些讀數傳達給電網相關單位,以進行處理、分析、回饋給客戶進行計費等。
(2)通信網絡:可將大量由智能電表采集的不同時間間隔的電力負載數據,從電表傳輸到電網公司的后臺。
(3)電表數據管理系統(meter data management system,MDMS),用于存儲和處理不同間隔時間的電力負荷數據,并將電表數據與多個關鍵信息和控制系統進行集成,這些系統包括有頭端系統、計費系統、客戶信息系統(customer information systems,CIS)、地理信息系統(geographic information systems,GIS)、停運管理系統(outage management systems,OMS)和配電管理系統(distribution management systems,DMS)。
推動用電信息采集系統投資的主要新功能是能夠自動生成及時且準確的賬單,而不受天氣條件或物業使用限制的影響,傳統上這會妨礙電表信息的收集。一旦正確配置,用電信息采集系統和計費系統將自動生成更一致、更準確的賬單,并減少記錄錯誤和客戶投訴。由于可以以15 min 為增量指定數據間隔,因此公用事業公司可以根據客戶偏好而不是根據公用事業公司設置的抄表時間表自定義計費周期。
本文采用一個2019 年采集的由100 個商業化行業場所的5 min 能源使用數據,數據文件的每一行包含以下值:時間戳、日期時間、電量讀取值、估計指標,異常指標等。其中“estimated indicator”是一個布爾值,指示是否估計讀數,如果讀數錯誤則“異常指示器”為空;能源數據的計量單位為kWh。如表1 所示是數據集的示例數據內容,表2 是數據標號及其所代表的用電戶類型:

表1 數據ID=213(學校用電)的示例數據

表2 數據站點標號及用電戶類型
根據先前的數據,可以通過時間序列得到未來物理量的變化情況,使得時間序列可用于預測經濟、天氣、能源消耗等方面,時間序列基本上是在基于時間(年,日,小時和分鐘)的數據上進行探索分析,以對未來的能源消耗進行量化預測。本文構建了用電量預測模型對用戶電力消費進行預測,模型主要組成部分及內容如下所示:
(1)ARIMA 模型:基于時間序列的預測中,最常用的方法之一就是ARIMA 模型,其基本原理是自動回歸綜合移動平均值,ARIMA 可以將數據按照時間序列進行擬合,以更好地預測序列中的未來點。模型中通過三個不同的整數(p,d,q)實現ARIMA 模型的參數化。因此ARIMA 模型用ARIMA(p,d,q)表示,這三個參數共同反映了數據集中的周期性、趨勢性和噪聲[13]。
(a)參數p是模型的自回歸部分,可以將過去值的影響納入模型,這一過程可以類比為:如果過去三天一直溫暖,明天可能會溫暖。
(b)d是模型的集成部分,模型中通過差分(即從當前值中減去的過去時間點的數量)應用于時間序列,從直覺上講,這一過程可以類比為:如果最近三天的溫差很小,則明天的溫度可能相同。
(c)q是模型的移動平均線部分,通過該參數可以將模型的誤差設置為過去在先前時間點觀察到的誤差值的線性組合。
周期性ARIMA 參數較多,調整過程復雜,因此需要為周期性ARIMA 時間序列模型構建自動識別最佳參數集。
(2)指數平滑:通過指數平滑可以平滑時間序列,隨著觀測值的增長,指數平滑法分配的權重呈指數下降趨勢[14],指數平滑法是一種通過更好的預測從數據中去除“噪聲”(隨機效應)來“平滑”數據的方法。該方法的輸入是n項時間序列值和平滑因子α,該算法的輸出是時間n+T的預測值,指數平滑預測算法主要有以下幾個步驟:
第1 步 輸入具有n項時間序列的數據和平滑因子α的順序原始數據集
第2 步 計算單指數平滑
第3 步 計算雙指數平滑
第4 步 計算平滑系數an和bn
第5 步 計算預測值Yn+T。
(3)STL 分解:STL 分解是一種用于分解時間序列的方法,其基本原理是一種非線性關系的估計方法,首先讀入數據,然后對數值矩陣進行反變換,就可以獲得分解矩陣。將0<λ<1 的數據通過Box-Cox 變換獲得加法和乘法之間的分解值,其中λ=0 的值對應于乘法分解,λ=1 的值對應于加法分解。
本文基于隨機森林算法對時間序列數據進行分析與預測,從原始數據集中隨機抽取訓練樣本,訓練得到單個學習機,這些學習機就是算法中的回歸樹,重復這一過程生成多個回歸樹組成隨機森林,并由所有樹的預測值的平均值決定最終預測結果。本文按照如下步驟構建隨機森林算法:
(1)隨機有放回地從N個原始訓練樣本中選擇n(n<N)個樣本生成m個訓練子集。
(2)使用訓練子集訓練回歸樹,在節點上所有的樣本特征中隨機選擇一部分樣本特征,依據最小均方差進行回歸樹的左右子樹劃分,遞歸建樹直到滿足終止條件。
(3)重復以上步驟,將多棵回歸樹組成隨機森林。
(4)將測試樣本輸入隨機森林回歸模型,取所有樹預測值的平均值作為最終預測結果,并與實際值對比,評價模型的擬合效果。模型步驟如圖2 所示:

圖2 隨機森林算法設計示意圖
利用本文構建的時間序列預測模型進行智能電表大數據分析,采用apache spark 框架以及”R”語言實現數據可視化。各個行業頻率表如表3 所示:

表3 行業類別與子行業頻率表
如圖3 所示是所有用電戶的建筑面積SQ-M 數據直方圖,由圖可見本文數據集的建筑物,大部分建筑面積都在20 000 m2以下。

圖3 用電戶的建筑面積直方圖
對4 個行業的建筑面積創建密度圖,如圖4 所示,由圖可見食品銷售與存儲業的建筑物的面積相對較小,而商業地產建筑物的面積變化很大。

圖4 4 個行業的建筑面積密度圖
之后將建筑面積數據與實際用電量數據結合,就可以得到建筑面積與用電量的關系,如圖5 所示是子行業的平均負荷條形圖,由圖可知,平均而言用電量最大的用戶是制造業、購物中心和商業服務大樓;而用電量最低的用戶是學校。

圖5 子行業的平均用電負載條形圖
如圖6 所示是用電消耗量和SQ-M 之間的依賴關系,采用中位數負荷和簡單的線性回歸對該關系進行分析,圖6 顯示了回歸線SQ-M 與中位數負載的關系。由圖中可見負載的中位數與用電戶的建筑面積之間存在明顯的相關性。

圖6 回歸線SQ-M 與中位負載
如圖7 所示是學校用電戶的日用電、周用電和月用電消耗量,以及相應的時間序列數據,由圖中可見用電量的多少與時間有顯著的依賴關系,表明用電量隨著時間的不同可能存在周期性的變化。

圖7 一個ID 的每月消費(學校)
將時間序列匯總到較小的維度,從而將數據維度從每天288 個測量值減少到每天48 個,如圖8 所示是4 個子行業組的典型用電數據。其中ID 213數據取自中學;ID 401 取自購物商場和市場;ID 832取自公司辦公室;ID 9 取自工廠用電數據。

圖8 4 個子行業組的代表
對于電網公司來說,創建消費者的每日用電信息資料或某個區域的每日用電信息非常有幫助,該資料有助于了解消費者的典型電力消費行為。為此本文采用MAD(中位數絕對偏差)創建了總用電的每日中位數,如圖9 所示:

圖9 MAD 每日總消費中位數
從圖9 可以看出,最大的負載峰值出現的時間是在傍晚。同樣使用周用電量模式來執行此操作,同樣可根據MAD 得出每周總消費的中位數,如圖10 所示:

圖10 MAD 每周總消費中位數
由圖10、圖11 可以看出一周內用電戶的電力消費行為具有5 種不同模式(以垂直線分隔):從星期一到星期五,電力消費量非常相似,但是星期一開始時的消費量較低,因此與其他消費量有所不同。周五的情況與此類似,但消費量比周四低一些。顯然,周末與工作日完全不同,而星期六和星期日也不同。如果按照MAD(中位數絕對偏差)對子行業進行每周中位數計算,將會得到不同的用電模式,對于制造業得到的結果如圖11 所示:

圖11 每周制造業中位數
由圖10~12 的分析可見,不同行業的電力消耗各自具有不同的特點,各個行業的電力消耗隨著時間變化表現出不同的周圍性規律,如此一來即可作為原始時間序列樣本輸入到模型中,從而為一周時間內的不同日期創建預測模型。使用相似日方法針對以每天為單位的用電數據建立預測模型。
首先定義基本的預測方法函數,這些函數用于產生預測結果。本文使用基于時間序列分解的STL+ARIMA 方法、STL+指數平滑方法以及傳統時間序列方法進行預測。最后基于Loess 回歸方法和STL分解對季節性時間序列進行分解,通過打包預測序列,可以將其組合以生成非常準確的預測結果。本文同時使用STL+ARIMA 方法和STL+指數平滑方法進行預測并對比其預測結果,如圖12 所示:

圖12 兩種模型的預測結果
其中黑色虛線是真實用電數據,原點數據是采用指數平滑的預測結果;實線是采用ARIMA 模型的預測結果。由圖中可見ARIMA 模型對于電力消費行為預測更加準確。如圖13 所示是未來一周的電力消費量預測圖,表4 所示是各種預測模型的平均誤差。

圖13 未來一周的電力消費預測結果圖

表4 預測模型誤差統計表
由圖14 和表4 可見采用本文預測模型得到的預測結果比指數平滑模型得到的預測結果更加準確。綜上所述,本文提出的基于智能電表大數據的電力消費量預測模型,不僅能夠根據用電的日、周、月數據進行對應時間周期的電力消費行為預測,而且預測精度比指數預測模型更加精確。
智能電表數據分析是一個復雜的過程,涉及數據提取、預處理、分析和可視化。為此本文對100 個匿名商業建筑的5 min 智能電表數據集進行了全面分析,得到以下幾個主要結論:
(1)電力消耗量與用電戶的建筑面積具有明顯相關性,表明智能電表的廣泛應用,有助于電網單位增強客戶用電服務、降低成本和提高能源效率。
(2)通過應用ARIMA、指數平滑等方法對不同行業的各個子行業層面進行的分析對比,表明本文構建的預測模型具有更高的預測精度。