王智,陳福勝,胡軍華,楊靜,蘇玉萍
(國家電網湖南省電力公司,長沙 410004)
負載預測對于電網系統的穩定運行有重要意義,其中,短期負載預測(Short-Term Load Forecasting,STLF)通常是指對從一小時到一星期的較短時間段內的用電需求預測問題[1]。與長期負載預測問題中對總體趨勢把握的高要求相比,短期負載預測更強調時效性與精確性,側重于為電網的即時調度與日常管理等高頻操作提供參考[2-3]。近年來,隨著分布式能源系統,微電網系統與可再生能源等技術的發展,智能電網體系的復雜程度不斷提升,短期負載預測問題也在向更細粒度的應用場景擴展,例如在單個變電站,單個用戶甚至單個設備級別上的預測任務[4-5]。
隨著智能電能表等高級計量設施(Advanced Metering Infrastructure,AMI)的應用越來越廣泛,AMI設備所采集到的海量數據與云計算設施的強大算力也為負載預測任務提供了更充分的支持[6]。文中主要研究了AMI數據在針對局部的、多節點的非侵入式短期負載預測問題中的應用。首先,討論了集聚效應對需求建模與負荷預測的影響,隨后,研究了這些影響在不同集聚水平下的大小。最后,提出一種將AMI數據非侵入式地融合到局部預測任務中的方案,使得短期負載預測更為精確,并在真實的數據集上進行了實驗。
在電力市場或供電系統等系統級應用場景下的短期負載預測已經是一項較為成熟的技術。在這些場景中,負載預測通常是針對大規模的總負載,用于為整個國家或地區的電網規劃提供參考。本質上,負載預測是一類典型的回歸預測問題,已有文獻中提出了一系列將傳統的時序預測技術與流行的機器學習技術用于短期負載預測的方案,從支持向量機與深度神經網絡等單模型方法[7-8],到整體或混合預測方法[9-10]。除了模型上的優化,近年來的研究也開始關注于利用更豐富的數據進行預測,典型的如氣象信息或者其他類型能源的消費數據,包括天然氣等[11-12]。
對于局部的短期負荷預測,目前主流的方法可以分為“自頂向下”(Top-Down,TD)與“自底向上”(Bottom-Up,BU)兩類[13]。兩類方法的共同點是將配電網整體視為一個節點構成的樹形結構(或森林結構)考慮。在自頂向下方法中,首先對父節點(如主變電站)的負載進行預測,再根據負載分配因子(Load Distribution Factors,LDF)將預測結果分配到各子節點(下游的小型變電站,配電饋線等),最終實現整體預測[14]。其中,LDF的值由歷史測量值與設備參數等信息估計得到。而在自底向上方法中,負載預測首先在各子節點上分別進行,相加后再提供給父節點用于下一級預測[15]。隨著AMI設備的大量使用,在子節點上得以獲取更豐富且更精確的數據,因此自底向上方法受到了越來越多的關注。
盡管智能電表等AMI設備的大量使用使得單個用戶級別上的能耗信息也可以被獲取,但從統計意義上看,對大量用戶的總體預測依然比對單個用戶的預測更為可靠。以圖1與圖2為例,圖1給出了數據集中一名普通用戶每小時內的用電量變化曲線,盡管曲線在總體上表現出一定的規律,但細節上具有極高的不確定性,且存在大量不規則波動,因此是非常難以預測的。而由于集聚效應的存在,圖2所示的1 000名普通用戶的總用電量變化曲線表現出了更清晰的周期性,單個用戶級別上的不規則波動在累積后相互抵消,使得曲線更為平滑,短期內更易預測。

圖1 單個用戶的用電量變化

圖2 1 000名用戶的總用電量變化
圖3進一步說明了不同集聚水平對于預測效果的影響。圖中橫軸與縱軸分別表示負載的真實值與預測值,顯然,隨著用戶數量的增加,即集聚水平的上升,預測值與真實值越來越接近相等(離散的點近似地分布在一條直線上),預測的不確定性也不斷降低。

圖3 不同集聚水平下的預測效果
使用了相關領域常用的兩個大型真實數據集:
(1)歐洲SmartHG數據集[16]。該數據集包括了24個月內每隔1小時采集自1 400名丹麥用戶的智能電能表數據與當地的天氣數據;
(2)愛爾蘭CBT數據集[17]。該數據集包括18個月內每隔半小時采集自6 500名愛爾蘭用戶的智能電能表數據與相應的天氣數據。
這兩個數據集都來自當地的普通用戶,在用電特征如時段分布上具有較高的代表性,但天氣特征與國內存在一定差異。文中主要關注多節點預測的意義,因此這一差異并不對結論有較大影響。下文將用SHG與CBT分別表示這兩個數據集。
特征選擇是預測模型建立過程中極為關鍵的步驟,直接影響模型的實際效果。影響短期負載的變量通常可以分為三類:(1)時間變量,如晝夜時間,當天是否為工作日等;(2)歷史數據,如前一時段的負載,前一星期的同期負載,前一周期的平均負載等;(3)天氣變量,通常認為氣溫的影響最大,但其他因素如風向,降水也存在細微影響[18]。圖4給出了這三類變量的四個例子,用散點圖說明了SHG數據集中負載與氣溫,小時數,前一星期同期負載與前24 h平均負載的關系??梢钥闯?,除了小時數外,負載與其他三個變量都存在較明顯的線性相關性,其中負載與氣溫呈負相關,與前一星期同期負載以及前24 h內平均負載呈正相關。

圖4 負載與不同影響因素的散點圖
需要注意的是,盡管負載與小時數并未表現出明顯的線性相關關系,但依然可以看出負載隨小時變化具有一定的周期性,周期約為5 h~6 h,反映了一天內家庭用電量的起伏,與常識一致。如表1所示,使用統計學中常用的t統計量(t-statistic,反映正/負相關程度,絕對值越大說明正/負相關程度越高)與p值(p-value,反映特征重要性,越接近0則越重要)方法,并剔除與所選擇特征相關性較高的冗余特征,在SHG數據集上最終選擇的特征變量包括小時數,星期數,氣溫,前一星期同期負載與前一日同期負載[19-20]。

表1 特征變量的t-統計量和p值
本節中采用多元線性回歸模型研究集聚效應對負載建模與預測的影響。一個典型的多元線性回歸模型可以表示為:
yi=β0+β1xi1+…+βkxik+ei
(1)
式中y表示真實值,預測變量(即特征)用x1~xk表示;β1~βk為線性系數;β0表示常數偏置;e為誤差。由于線性回歸是最為簡單的回歸模型,其求解方式也是直接的,因此不再詳細介紹模型的細節。多元線性回歸的模型評價指標通常取為R2值,其定義為:
(2)


圖5 集聚水平對預測模型R2值的影響
將研究自頂向下(TD)與自底向上(BU)兩類方法在非侵入式多節點負載預測中的應用。圖6給出了電網中的一個父節點與關聯的若干個子節點在一段時間內的負載變化。由于父節點與子節點的負載存在緊密聯系,因此在多節點負載預測中,通常都將整個網絡當作樹形結構處理,使用自頂向下或自底向上這類層級預測方法。

圖6 父節點與子節點負載的變化
自頂向下方法中,首先預測父節點的負載Lp,在根據負載分配因子(LDF)按比例將Lp劃分到各個子節點。這類方法實際上蘊含了一個假設:子節點的負載特性總是與父節點的負載特性相似,可以視為由父節點的負載按比例“縮小”得到。計算LDF的方式是通過過去S周的歷史負載信息估計,子節點i第k天第t小時的LDF為[14]:
(3)
式中Lc表示與父節點負載Lp關聯的各子節點負載。根據LDF,子節點i第k天第t小時的預測負載為:
(4)

而在自底向上方法中,由于可以直接獲取子節點的負載特性,因此不依賴于子節點與父節點負載特性相似的假設,從而也不需要計算LDF值,而是直接將子節點的預測值合并得到父節點預測值:
(5)
由于SHG數據集中給出了各個用戶的地理位置與所在節點的連接關系,因此在本節的多節點負載預測實驗中僅使用SHG數據集。子節點上的負載預測將基于第2節介紹過的特征選擇與多元線性回歸模型。數據集在時間上按1:1劃分為訓練集與測試集,各包含1 400名用戶(1 400個節點)連續12個月的智能電能表數據。
圖7給出了網絡中隨機選擇的30個變電站節點上兩種多節點預測方法的24 h連續預測的效果比較。

圖7 子節點上的負載預測誤差
圖7中的縱軸為平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE),其定義為:
(6)

表2為自頂向下與自底向上兩種預測策略的具體性能比較。從誤差上看,自底向上方法的精確度要由于自頂向上方法,這是由于自底向上方法避免了對子節點的負載特性的假設。偏移誤差(Bias Error)定義為預測誤差的平均值或期望值,由于兩種方法的偏移誤差都較小,因此可以認為是無偏預測或無偏估計。

表2 自頂向下與自底向上預測方法誤差比較
由于自底向上方法需要在大量子節點上運行預測模型,而自頂向下方法只在父節點上進行實際的預測,因此在計算效率上,自頂向下方法具有優勢。在1個父節點與30個子節點的局部網絡中,使用自頂向下方法完成24 h負載預測需要0.014 s,而自底向上方法則需要0.083 s。顯然,自底向上方法的計算量隨著節點數目增加而線性增加。但另一方面,如果不考慮子節點負載之間的相關性,各子節點上的預測可以并行地執行,因此實際耗時并不會顯著上升。
文章對電網系統的非侵入式短期多節點預測方法進行了研究。討論了集聚效應對于預測效果的影響,說明了對于用戶群或節點群的預測效果優于針對單個用戶或單個節點的預測。使用多元線性回歸模型對自頂向上與自底向上兩類多節點預測方案進行了比較,通過實驗說明了以智能電能表數據為支撐的自底向上方法在預測精度上的優勢。后續工作包括考慮子節點之間依賴的多節點預測,以及更為復雜的模型用于自底向上預測等。