李吉峰,何星瑭,宋奎錚,王浩嘉,郭思辰
(1.國網大連供電公司,大連 116001;2.智能電網教育部重點實驗室(天津大學),天津 300072;3.國網遼寧省電力有限公司電力調度控制中心,沈陽 110000;4.國網扎魯特旗供電公司,通遼 028000)
隨著新型電力系統建設的不斷深入[1],系統供需平衡方式由傳統的源隨荷動向源荷雙向互動模式轉變,而系統能量流交互的改變也促進了現金流即新型電力交易模式的發展[2]。因此,如何制定有效的交易機制并采取更為智能的決策管理方法是當前亟待解決的重要問題。在眾多的新型交易模式與示范中,端對端(peer-to-peer,P2P)交易[3]因其相對便捷的參與方式以及相對靈活的交易模式,被大量研究用于構建對等、透明的分布式電力交易市場,在提升本地清潔能源消納率的同時,提升本地能源系統的效率,目前也已經取得了一些示范與應用[4]。
目前,針對多用戶之間的P2P 分布式交易主要采取兩種出清定價策略[5],第一種是由聚合商作為市場聯盟的組織者與協調者,進而從聯盟宏觀的角度促成供需平衡。例如,文獻[6]提出并對比了包括供需比(supply and demand ratio,SDR)、中間市場率(mid-market rate,MMR)以及賬單分享(bill sharing,BS)在內的3 種典型的“聯盟式”交易價格清算機制。文獻[7]建立了包含能源市場、區域能源運營商、微網系統以及負荷用戶在內的多能源系統四層運營框架,從而協調區域能量平衡,降低微網系統的運行成本。文獻[8]考慮了建筑熱平衡特性對市場參與者用電行為的影響,制定了多用戶電能共享優化策略,并采用Shapley 算法對用戶集群所獲取的效益進行再分配。第二種是市場參與個體可以根據自身的實際供/用能情況,并隨著交易環境信號實施動態調整的P2P 交易市場。例如,文獻[3]通過引入非合作博弈與主從博弈理論對P2P 交易模式的內在博弈關系進行了全面分析。文獻[9]研究在P2P 交易中引入主從博弈理論,并驗證主從博弈交易對降低交易成本以及減少二氧化碳排放等方面的效果。文獻[10]提出配電系統內部的多微網博弈交易議價方法。文獻[11]提出時間與交易電量均為靈活性選擇因素的能量塊概念,解決了現有P2P 能源交易易出現的源荷不匹配問題。
在出清算法方面,目前對于P2P 交易的求解大多采用集中式優化算法或結合博弈理論的優化算法,雖然可以在一定程度上解決交易獲利分配以及用戶的隱私保護問題[12],然而,隨著交易參與者數量的增加,物理設備、能量交互與現金交易等數據量也會急劇增加,傳統的集中式優化算法可能會面臨維數災難問題。然而,如何將機器學習智能方法[13]應用在電力市場交易領域,相關的研究仍存在空白。
針對上述存在問題,以多微網之間的電力P2P交易作為研究切入點,首先構建了P2P 交易市場的參與主體即微網的自治運行調度模型;其次,分析了多微網間P2P 交易的博弈關系,并采用分布式強化學習算法對交易策略進行求解;最后,通過算例仿真驗證了所提理論及算法在降低用戶交易成本、提高本地清潔能源消納以及算法性能等方面的有效性與適用性,進而對人工智能算法在電力市場交易領域中的應用與適用性進行了探索,也為大數據背景下的多主體交易提供了算法參考。
所構建的多微網電力P2P 交易整體架構如圖1所示,市場交易的主體,即微網(microgrid,MG)由不同類型的負荷和分布式電源組成,微網配置有儲能設備。系統內的微網通過自身的聯絡線與外部上級電網相連,并通過本地配電網實現互聯,配電網網架均能夠支持雙向交易。每個微網的微網能源服務商通過合理化的P2P 交易、儲能設備調度,以實現微網系統內的電能供需平衡及運行經濟性最優。

圖1 多微網P2P交易框架Fig.1 P2P trading framework for multi-microgrids
假定本地配電網存在P2P 交易平臺,負責協助微網之間進行P2P 交易,該平臺可以是一個沒有實體的互聯網交易平臺,也可以是配電網運營商職責的一部分。在進行分布式P2P 交易的過程中,每一個微網能源服務商首先會對網供負荷需求、儲能設備充放電狀態、P2P 交易電量、上網電量進行優化調度;其次,基于內部自治優化調度結果,同時考慮配電網的實時電價波動,微網能源服務商向交易平臺提交待交易電量及報價;平臺會對相關信息進行公示,同時考慮微網能源服務商之間的博弈行為,平臺會不斷更新交易信息,并在考慮配電網實際運行的安全性約束的前提下,協助微網能源服務商之間實現最終的P2P 交易。
需要說明的是,鑒于P2P 分布式交易屬于本地用戶間的就近交易,未考慮交易所產生的服務費以及損耗問題[14]。
作為P2P 交易市場的主要參與主體,以第i個MG 為例,微網能源服務商會通過調節微網內部的可調控資源以及交易策略,以實現微網系統的總運行成本Ctotal,i,t最優,總運行成本主要包括與上級電網的交易成本Cutility,i,t、P2P 交易成本CP2P,i,t以及設備運行維護成本COM,i,t,故第i個MG 自治調度的目標函數為
上文中,式(4)與式(5)為綜合考慮了設備建設成本、維修費用、人力成本、政府補貼以及凈殘值等因素所計算出的分布式電源發電折算成本[15];式(6)為儲能設備的運行成本。
除此之外,微網自治運行調度模型還包括微網內電力供需平衡約束、儲能設備的容量約束、充放電功率約束等約束條件[15],在此不再贅述。
在P2P 分布式交易市場中,參與交易的微網都試圖通過更多地出售電能來提升自身收益,且各個微網由各自的能源服務商管理,不具有聯盟關系。因此,采用非合作博弈模型來分析P2P 交易中各個微網之間的競爭博弈關系。具體依照博弈三要素定義對博弈關系進行具體分析,博弈參與者為參與P2P 交易的微網;博弈策略為每個微網在P2P 交易中制定的交易電價及交易電量;博弈效用為各微網的總運行成本或收益,對應式(1)。
微網之間的博弈過程是一個動態過程,博弈結束的標志包括交易達到Nash 均衡狀態或最大迭代次數;博弈的均衡狀態包括微網制定的P2P 交易電價及交易電量。具體的迭代過程如下。
在第1 輪迭代中,各微網首先進行自治運行調度,并依據自治調度后電能過剩或不足情況,向P2P 交易平臺提交初始化交易電價及電量信息,平臺依據所處系統的安全運行約束條件,結合微網的自治調度情況,公布首輪電量與價格的報送結果,各微網根據結果反饋信息對P2P 交易投標策略進行修改后進行再次投標報價,進而完成一輪迭代。假設第k輪迭代中各微網的投標電量及價格如下。
當兩輪迭代可交易電量及價格相等,即
表示沒有任何一個參與P2P 交易的微網可以通過改變自身的調度結果及報價信息而獲得更高的博弈效用,此時的結果可看作博弈的Nash 均衡解。需要說明的是,如果微網之間博弈無法達到Nash 均衡,則微網將按照與上級電網進行雙向交易的傳統交易模式以實現微網內的供需平衡。
常規的機器學習方法雖然不要求具體抽象的數學模型,僅通過環境模型即可實現問題的求解,然而,常規的機器學習方法無論采用什么方法來更新環境模型,都會在某個時刻聚合出一個全局環境模型,這種處理思路對于所構建的多微網多極值點優化問題而言,難以同時達到最優的效果。因此,采用彈性平均隨機梯度下降(stochastic gradient descent,SGD)算法這種非完全一致的分布式機器學習算法來求解多微網的自治調度與P2P 交易問題。算法的具體原理如下。
定義ωi為第i個工作節點的模型,在特指第i個微網的經濟效益模型;為全局環境模型,則不同微網的分布式優化函數為
基于式(9)所示的分布式優化函數,所提出的分布式機器學習算法主要包括兩方面的優化目標:一是使得各微網的風險損失函數最小,進而體現出與其他微網之間的博弈關系;二是使得本地模型與環境模型之間的差距最小,進而體現出微網的自治調度特性。基于上述優化思路,分別對ωi與進行求導,即可得到環境模型的更新公式為
因此,所提出的彈性平均SGD 算法流程及偽代碼如下。
算法1:彈性平均隨機梯度下降算法偽代碼
從訓練集S中隨機抽取或在線獲取動作與策略樣本
計算動作與策略樣本的隨機梯度?fi(ωr)
完成本地模型的更新,更新時考慮最新的梯度和當前模型與全局環境模型的差異為
基于上述交易原理分析及求解算法介紹,所提出的基于分布式機器學習的多微網P2P 交易流程主要包括微網自治調度與基于非合作博弈的多微網P2P 交易兩個模塊,具體流程如圖2 所示。

圖2 基于非合作博弈與分布式機器學習的多微網端對端交易流程Fig.2 Multi-microgrids P2P transaction process based on non-cooperative games and distributed machine learning
以改進的IEEE 33 節點配電系統作為主體系統結構,其中部分節點接有可進行P2P 交易的微網[3],具體架構如圖3 所示。不同微網內的設備配置情況如表1 所示。典型日的負荷曲線及分布式電源的出力曲線分別如圖4 及圖5 所示。儲能設備參數及所在地區的電價信息參見文獻[3]。

圖3 系統架構Fig.3 System architecture

圖4 典型日負荷曲線Fig.4 Typical daily load curves

圖5 典型日分布式電源出力曲線Fig.5 Typical daily distributed power generation output curves
基于算例設置,將儲能設備的初始容量與最大充放電功率分別選取設備容量的50%與20%[15],調度時間步長設定為Δt=1 h。基于所提出的微網自治調度及P2P 博弈交易模型,得到典型時刻的P2P 交易結果如圖6 所示。
具體地,在01:00 時刻,MG2 與MG3 擁有可交易電量,屬于P2P 交易中的賣方,而MG1 與MG4 在該時段有購電需求,屬于P2P 交易中的買方。在博弈交易過程的初始階段,MG2 與MG3 均會通過降低報價以盡可能多地促成P2P 交易,然而,相比較于MG2,考慮到MG3 擁有的可交易電量較多,買方更傾向于同MG3 進行交易以盡可能多地降低購電成本,因此,在博弈過程的后期,MG2 會在可行區域內提升交易價格以獲取更大的收益。在04:00 時刻,MG2 與MG3 擁有可交易電量,而MG1 與MG4 在該時段有購電需求,然而,在該時段MG2 與MG3 擁有的可交易電量無法滿足MG1 與MG4 全部的購電需求,因此,在博弈交易過程的初始階段,MG2 與MG3會在可行區域內提升交易價格以獲取更大的收益,MG1 與MG4 額外的購電需求將通過與外部電網進行交易以滿足供需平衡。在13:00 時刻,MG1、MG3與MG4 擁有可交易電量,而MG2 在該時段有購電需求,因此,在博弈交易過程中,賣方們會在可行區間內通過降低報價以盡可能多地促成P2P 交易,進而提升交易的收益。在19:00 時刻,MG2 擁有可交易電量,而MG1 與MG4 在該時段有購電需求,考慮到MG2 擁有的可交易電量無法同時滿足此時系統內其他微網的全部購電需求,因此,MG2 會傾向于同購電需求較大的MG4 進行交易,MG1 與MG4 額外的購電需求將通過與外部電網進行交易以滿足供需平衡。綜上所述,所提出的P2P 博弈交易理論可以有效促成多微網之間的P2P 交易。
在對典型時刻P2P 交易結果進行分析的基礎上,進一步從交易成本/收益以及清潔能源消納的角度對不同交易模式進行分析,如表2 所示。通過對表2 的分析可知,相比較于同上級電網進行直接雙向交易的傳統交易模式,P2P 交易模式在交易主體的經濟性與促進新能源的本地消納方面均有一定的優勢。

表2 不同交易模式對比Table 2 Comparison of different trading models
為進一步驗證算法的有效性,分別選取啟發式算法[16]、改進的次梯度迭代法[17],通過優化微網內部的可調控資源及交易策略從而實現經濟性最優,并與本文介紹的分布式機器學習方法進行對比,基于4.1 節的在線學習環境,以MG4 的購電成本優化為例,不同算法的迭代收斂過程如圖7 所示。

圖7 不同算法收斂過程Fig.7 Convergence process of different algorithms
具體對圖7 分析可知,對于所構建的多主體高維度解空間的分布式優化問題,啟發式算法雖然迭代進程較短,但是易陷入局部最優,未能挖掘到最優解。改進次梯度迭代算法受到算法參數的影響,搜索解空間的波動范圍較大,迭代過程較長。而所提出的分布式機器學習算法可以縮小解空間范圍,迭代過程較短,求解效率較高。
合理有效的交易機制是加快推進電力體制改革與能源轉型的重要保障,提出基于非合作博弈與分布式強化學習的多微網P2P 交易方法,通過理論分析與算例仿真驗證,得到的主要結論如下:
1)相比較于傳統的雙向交易模式,基于非合作博弈理論的P2P 交易模式在降低用戶購電成本,提升用戶售電收益的同時,還可以有效提升本地分布式電源的消納率。
2)相比較于啟發式算法與梯度迭代算法,分布式機器學習方法在迭代收斂進程與解空間精準確定方面均具有一定的優勢,提升了求解效率。
未來的研究將會進一步挖掘微網內部用戶需求響應特性與靈活性負荷對市場交易產生的影響。