








收稿日期:2022-02-28;修回日期:2022-04-19" 基金項目:國家自然科學基金資助項目(72071130)
作者簡介:王菁祺(1997-),男,河南平頂山人,博士研究生,主要研究方向為智能電網實時定價、機器學習;高巖(1962-),男(通信作者),黑龍江五常人,教授,博導,博士,主要研究方向為智能電網實時定價等(gaoyan@usst.edu.cn);吳志強(1997-),男,安徽合肥人,碩士研究生,主要研究方向為系統工程、決策分析;李仁杰(1992-),男,江蘇泰州人,博士研究生,主要研究方向為智能電網實時定價、機器學習.
摘 要:
面對當前電力系統的負荷不確定、新能源并網與雙碳目標等現狀,在充分考慮供需雙方福利前提下,建立了智能電網背景下考慮負荷不確定與碳交易的實時定價模型,并基于強化學習能夠處理變量復雜性、非凸非線性問題優點,采用強化學習中Q學習算法對模型進行迭代求解。首先,將用戶與供電商實時交互過程轉換為強化學習框架對應的馬爾可夫決策過程;其次,通過智能體在動態環境中的反復探索表示用戶與供電商的信息交互;最后,通過強化學習中的Q學習算法尋找最優值即最大社會福利值。仿真結果表明,所提實時定價策略能夠有效提升社會福利,降低碳排放總量,這驗證了所提模型和算法的有效性。
關鍵詞:實時定價; 強化學習; 馬爾可夫決策過程; 負荷不確定; 雙碳目標
中圖分類號:TP391.9"" 文獻標志碼:A"" 文章編號:1001-3695(2022)09-012-2640-07
doi: 10.19734/j.issn.1001-3695.2022.02.0069
Real-time pricing strategy based on reinforcement learning with load uncertainty
Wang Jingqi, Gao Yan, Wu Zhiqiang, Li Renjie
(Business School, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:Facing the current situation of load uncertainty,new energy grid integration,and dual carbon goal in the power system,this paper established a real-time pricing model considering load uncertainty and carbon trading in the context of the smart grid with full consideration of the welfare of both supply side and user side. Based on the advantages that reinforcement learning could handle variable complexity,non-convex,and nonlinear problems,this paper used the Q-learning algorithm in reinforcement learning to solve the model iteratively. Firstly,this paper transformed the real-time interaction process between the user and the power supplier into a Markov decision process corresponding to the reinforcement learning framework. Secondly,the process represented the information interaction between the user and the power supplier as the iterative exploration of the agent in a dynamic environment. Finally,this paper found the optimal value by the Q-learning algorithm in reinforcement learning,i. e.,the maximal social welfare value. The simulation results show that the proposed real-time pricing strategy can effectively enhance social welfare and reduce total carbon emissions,which verifies the feasibility and effectiveness of the proposed model and algorithm.
Key words:real-time pricing; reinforcement learning; Markov decision-making process; load uncertainty; dual carbon goal
0 引言
在智能電網系統中,電力和信息的雙向流動能夠兼顧電力系統經濟、高效、環境友好等目標。隨著新能源發電商的深入普及,給發電系統帶來了更大的不確定性。圍繞著發電商、分布式新能源、碳交易市場與用戶需求,需求側管理將帶來大量的產業機會。
隨著信息通信與智能終端的發展,電力市場中電價的波動加劇將增加普通用戶參與電力系統調節的意愿。對電力系統需求側進行管理能夠有效對電力消耗削峰填谷,優化用電方式,提高電力系統的穩定性與安全性。需求響應(demand response,DR)是需求側管理的解決方案之一。現有需求響應策略[1~3]通常分為激勵型需求響應(incentive-based DR,IBDR)和價格型需求響應(price-based DR,PBDR)。價格型需求響應通過電價的調整使得用戶改變其用電模式;激勵型需求響應則向用戶提供固定或隨時間變化的激勵費用。通過考慮用戶的行為,許多研究使用基于價格的需求響應,而實時定價是價格型需求響應的重要研究方向,該策略通過直接控制電力價格以調整用戶側負荷需求,旨在通過提供實時電價有效地平抑用戶的用電需求。
文獻[4]首次提出了以社會福利最大化為目標的實時定價模型,模型同時考慮到供電商利潤和用戶福利,采用分布式梯度下降法求解,數值仿真驗證了模型可實現削峰填谷,同時對用戶和供電商兩方均有益。在此基礎上,以社會福利最大化作為目標函數的實時定價模型被廣泛應用。文獻[5]采用了光滑化方法對現有實時定價中常用的二次分段效用函數進行光滑化處理,并仿真得到用戶效用。文獻[6]以極小化峰谷差為目標建立實時定價優化模型,并提出一種依賴在線電量波動的同步擾動隨機逼近算法。文獻[7]將區塊鏈引入實時定價模型,能夠有效地提高微網可再生能源的利用率;同時用戶也作為獨立節點參與到電網決策中,應用區塊鏈交易可充分提高用戶用電的精準性和社會總福利。文獻[8]將社會福利最大化模型與微電網進行有效結合,建立了一個計及不確定性的雙層優化模型,并使用PSO-BBA算法進行求解,通過與確定性函數的對比能夠更好地起到削峰填谷的作用。文獻[9]在社會福利最大化模型上對最小供電量約束的作用進行了討論,引入有效成本函數并提出了對偶在線算法,實現了模型的改進。文獻[10]將實時定價問題表述為非合作博弈問題,并利用分布式在線算法進行求解,對用戶交互過程進行了更加精準的描述。
從優化方法來看,上述實時定價策略大致分為基于梯度優化算法與基于元啟發式優化算法兩類。前者如共軛梯度法、牛頓法等,具有計算效率高的特點,但如果模型中存在非線性、非光滑函數或者機會約束等難以處理的情況,具有較好全局搜索能力的元啟發式算法如遺傳算法、粒子群算法等,大部分與給定的模型高度獨立,可以很好地解決前者的問題。另一方面,現有定價策略往往預先確定模型的各項參數且集中式算法較多,在某種程度上沒有考慮到負荷不確定性情況且對于隱私安全缺乏相應的保護措施。面對大規模批量數據時會出現運算速度過慢、可靠性較低等問題,創新實時定價機制具有重要的理論意義和現實意義。
從時間關聯性上來看,上述研究主要將實時電價問題分為多個單時段問題予以考慮[4~9],每個時段沒有充分考慮整體的狀態轉移特性而獨立存在,對于實時電價模型交互過程描述的精確性有待提高,忽略了用戶用電和供電商供電的前后關聯性,而馬爾可夫決策過程可以使用狀態轉移矩陣描述負荷前后階段的關系,可以充分考慮時段的關聯性。文獻[11]基于馬爾可夫過程研究實時定價問題,考慮了參數已知與未知兩種情況,并驗證了模型的合理性與算法的可行性。
上述實時定價研究大多依賴于分析模型和確定性規則的傳統算法。近年來,強化學習取得了新的進展。與傳統優化算法不同,強化學習可在動態環境中探索一些隨機行動并從經驗中學習,從而可為求解復雜系統決策提供重要支持。強化學習簡潔明了且使用獎勵函數來評估決策行為,通過強化學習可得到問題有效的解決策略且結果具有收斂性。強化學習應用于許多領域,例如游戲控制、計算機視覺等[12]。而對于電力系統的強化學習研究具有較為廣闊的前景,在電力系統需求側管理中采用強化學習將有效擴展新的負荷側用電模式[13]。
近年來,強化學習算法在需求側管理中的應用主要有兩類:a)站在消費者立場,面對供電商的定價策略設計有效的響應模式以最大化消費者的利益[15];b)站在公用事業公司的立場通過設計有效的策略提高社會福利,從而有效提高包含用戶側與供電側在內的福利[14,16]。Lu等人[14]首次將強化學習方法應用于需求側管理,提出了分級電力市場的實時定價算法,將供電商與用戶的交互表示為馬爾可夫決策過程,從而動態確定最優電價。文獻[15]使用強化學習獲取需求響應中特定設備的能量調度,并在調度期間最大化用戶的回報。文獻[16]應用強化學習框架與需求響應策略,考慮到工業用戶與供電商的交互過程,實現供電商長期收益最大化。文獻[17]應用強化學習方法并將微電網視為一個智能體,微電網之間可通過單獨選擇能源交易策略,目標是最大化各個微電網的平均收益。文獻[18]提出了一種基于神經網絡和強化學習算法的多微電網能源管理方法,運營商通過深度神經網絡來預測各微網的功率交換,通過蒙特卡羅方法求解得到零售定價策略,使得運營商達到利潤最大化與需求側的峰均比最小化目標,提高用電可靠性。
然而上述基于強化學習的需求側管理研究缺乏對社會福利、碳交易與負荷不確定情況的整體考慮[13~17] 。基于上述分析,有必要對實時定價模型進行相應擴展,使用強化學習算法求解實時定價模型有顯著優勢,考慮到供電商產電所帶來的碳排放權以及碳排放交易所帶來的成本或收益,本文通過引入碳排放權交易促進新能源消納,進而助力雙碳目標的實現。
本文主要工作如下:
a)考慮到含傳統能源供電商與新能源供電商組成的供電商系統以及居民用戶和大型用戶組成的用戶系統,并充分表示考慮了供需雙方的福利,目標為社會福利最大。
b)通過引入強化學習框架將用戶與供電商之間的交互過程表述為馬爾可夫決策過程,利用智能體與環境,即供電商與全體用戶的迭代過程學習和獲取最優的實時定價策略。
c)將實時定價模型與強化學習的各要素進行了對應,并充分考慮了負荷不確定等情況,從而實現了對模型更加精細地刻畫。
d)通過引入碳交易,有效提高電力系統新能源的消納率,對推動能源可持續綠色發展有重要的現實意義。
1 系統模型
考慮一種包含兩類供電商和若干個不同類型終端用戶的智能電網系統(系統框架如圖1所示,符號說明部分如表1所示),其中供電商包含傳統能源供電商與新能源供電商,新能源供電由風力發電與光伏發電構成,同時由于新能源供電本身的間歇性、不穩定性等特性,供電商無法控制其每時段出力值,需根據風光機組特性及當日天氣作出當日各時段的預測,即用戶用電由新能源供電優先供應,從而促進新能源的消納。用戶側考慮居民用戶與大型用戶,居民用戶能源消耗為日常生活用電,而工商業等大型用戶的能源消耗往往是為了更高的利潤。
假設用戶和供電商直接通過智能電表進行雙向信息交互,即供電商可以通過智能電表獲取用戶的電力消耗情況,同時用戶可根據智能電表獲取下一時段供電商提供的價格信號,即供電商側通過實時定價策略實現利潤最大化,用戶側通過需求響應策略動態調整他們的能源需求從而降低購電成本,因此可以根據用戶側的負荷需求和供電側產電成本交互動態調整電價。
Euclid Math OneNApR={1,2,3,…,m}表示居民用戶集合;Euclid Math OneNApL={m+1,m+2,…,n}表示大型用戶集合;Euclid Math OneNAp表示全體用戶集合,Euclid Math OneNAp=Euclid Math OneNApR∪Euclid Math OneNApL。供電商與用戶電力交互以一天為周期,將其分為t個時段,t∈T,T={1,2,3,…,t}是所有時段的集合,模型假設t=24,即價格每小時更新一次。同時本文考慮到負荷不確定與碳排放權交易情景,建立了社會福利最大化目標下的實時定價模型。
1.1 用戶側模型
一般情況下,用戶在電力市場所需要的電量和對相同電量消耗后的效用值不盡相同。根據用戶側負荷優先級和需求特征,本文假設用戶負荷配置分為基本負荷與可削減負荷[19]兩類。在特定時段內固定需求的負荷稱為基本負荷,可以靈活調配使用時間的負荷則稱為可削減負荷。用戶可通過靈活調節空調、熱水器等可削減負荷實現需求響應。在需求響應中,供電商通過價格的動態調整引導用戶改變該時段的用電需求,從而實現供需平衡。
1.1.1 負荷函數
假設用戶基本負荷需要嚴格滿足,即不能通過需求響應調控該類負荷,例如生活必需用電。
用戶n在t時段的基本負荷Xbasict,n與基本負荷需求量Dbasict,n關系為
Xbasict,n=Dbasict,n(1)
同時,考慮可靈活調配使用時間及功率的負荷,稱為可削減負荷。可削減負荷與當前時間的電價以及當前用戶的價格彈性系數有關,用戶n在t時段可削減負荷的定義為[16]
Xflext,n=Dflext,n(1-εt,npt,n-cminnπ0cminnπ0)" n∈Euclid Math OneNAp,t∈T(2)
cminnπ0≤pt,n≤cmaxnπ0" n∈Euclid Math OneNAp(3)
其中:pt,n表示用戶n在t時段需支付的電價;Dflext,n表示用戶n在t時段可削減負荷需求量;εt,ngt;0為用戶n在t時段的價格彈性系數。價格的升高導致用戶實際負荷小于預期需求量,同時供電商的電價也應該在一個固定的區間內,π0 為基準電價, cminn和cmaxn分別代表電力價格系數的下界與上界,不同類型用戶的電力價格系數也不同。通過電力價格約束可保證供需雙方以合理的價格進行電力交易[14]。
令Xt,n表示用戶n在t時段中的電力總負荷,包含基本負荷與可削減負荷,表示如下:
Xt,n=Xbasict,n+Xflext,n" n∈Euclid Math OneNAp,t∈T(4)
同時由于現實環境的變化,考慮到用戶側負荷的隨機性,電力裝置通常會面臨負荷波動。在考慮負荷波動的情況下,用戶n在t時段總負荷Xt,n為
Xt,n=Xt,n+δt,n" n∈Euclid Math OneNAp,t∈T(5)
其中:δt,n~N(0,σ2t,n)是一個隨機變量且服從正態分布;σt,ngt;0,刻畫了用戶側負荷的不確定性[20]。
由于可削減負荷具有對電價敏感的特性,合理調度可削減負荷能夠有效實現電網削峰填谷。
1.1.2 效用函數
微觀經濟學中,效用函數U(x)可以刻畫用戶的滿意程度。假設每一個用戶對于不同電價的行為均是獨立的,對負荷的需求有著不同的偏好。彈性系數βn可以有效體現不同用戶的需求偏好,根據實際情況,效用函數U(x)需要滿足:U(x)/xgt;0和U(0,β)=0(βgt;0)。現有的實時定價模型中,用戶的效用函數常用二次函數表示[23],即用戶n∈Euclid Math OneNAp 在t∈T時段的效用函數U(Xt,n)可以表示為
U(Xt,n)=βnXt,n-αn2(Xt,n)2" 0≤Xt,n≤βnαn
(βn)22αnXt,ngt;βnαn(6)
其中:Xt,n為用戶n在t時段總負荷;βngt;0,αngt;0為用戶效用參數[24],在實際應用中應根據歷史數據和用戶調研來估計。不同類型用戶效用的變化程度可通過參數αn、βn刻畫。
與居民用戶類似,在一定負荷消費范圍內,大型用戶效用會隨著電力消費水平的增加而增加,當達到預先定義的最大負荷量時,效用將保持恒定,但用戶側負荷通常不會達到飽和狀態。
綜上所述,用戶側福利可以表示為用戶在當前時段效用值函數減去所支付成本的期望。令πC表示用戶側福利,則用戶側福利函數表示為
πC=E[∑ t∈T ∑ n∈Euclid Math OneNAp(U(Xt,n)-pt,nXt,n)](7)
1.2 供電商模型
供電商按照用戶的電力需求向用戶提供電力,從而實現電力的生產與傳輸。近年來,風電、光伏等新能源的接入大大增加了電力系統的隨機性。令Let和Lrt分別代表傳統能源與新能源供電商在t時段的發電量,由于供電商總供電量需要覆蓋所有用戶的需求,Let需滿足機組發電區間約束,則Let和Lrt需滿足如下約束:
∑n∈Euclid Math OneNApE(Xt,n)≤Let+Lrt(8)
Le,mint≤Let≤Le,maxt(9)
其中:Le,mint和Le,maxt分別代表傳統能源供電商在t時段的最小與最大發電量。
1.2.1 傳統能源供電商
假設傳統能源供電商成本主要來源于化石能源消耗和運行維護,傳統能源發電成本函數是一個單調增加的且嚴格凸的函數,目前普遍采用二次函數表示供電商發電成本[23],供電商在t時段的發電成本函數 Clt(Let)如下:
Clt(Let)=at(Let)2+btLet+ct(10)
其中:Let表示傳統能源供電商在t時段內提供的總電量;atgt;0,bt≥0,ct≥0為預設參數。
1.2.2 新能源供電商
由于光照強度、風速等自然資源的間歇性,新能源供電的輸出功率存在較大的不確定性,若系統可調配容量不足,則將造成棄風棄光現象,大大破壞系統的穩定性。針對該情況,本文假設新型能源供電不具有存儲功能且新能源供電與發電之間沒有耦合約束,同時供電商優先使用新能源供電以提高新能源消納率。
光伏發電輸出主要取決于到達地面的太陽輻射強度、環境溫度和光伏模塊本身的特性。光伏發電機組在t時段內的實際輸出功率[8]為
PPVt=PratedPV(Gc/GPV)(1-ηPV,i(Tc-TPV,T))NPV(11)
其中:PratedPV表示額定光伏輸出功率; GC表示工作點的輻射強度;GPV表示標準輻射強度; ηPV表示功率溫度系數; TC表示工作點的電池溫度;TPV,T表示參考溫度;NPV表示光伏發電設備數量。
風力發電輸出功率與當前時段內實際風速有關。一般來說,風速波動服從瑞利分布,風力發電機組在t時段內實際輸出功率為[8]
PWTt=0vlt;vin,vgt;vout
v-vinvrated-vinPratedWTNWTvin≤vlt;vrated
PratedWTNWTvrated≤vlt;vout(12)
其中:v代表實際風速;vrated是額定風速;vin和vout 分別代表切入和切出風速; PratedWT表示額定輸出功率;NWT代表風力發電設備數量。
新能源供電包含風力發電輸出與光伏發電輸出, Lrt 表示新能源供電在t時段的總輸出功率,表述如下:
Lrt=PPVt+PWTt,t∈T(13)
由于新能源發電成本可忽略不計,假設新能源供電商成本來自于后期運行維護的費用,本文使用二次成本函數表示t時段新能源設備運行過程中維護損失成本[25],表述如下:
CREt(Lrt)=δRE(Lrt)2+σRELrt" t∈T(14)
其中:δREgt;0,σRE≥0為新能源設備維護損失成本系數。
1.2.3 碳交易模型
碳交易機制下通過碳排放權交易可促進電力系統雙碳目標的實現,在碳排放權交易體系下,國家會根據供電商的發電總量分配相應的碳排放配額。若供電商的實際排放量小于分配的排放額度,則可將剩余額度在市場上出售獲利;若供電商的實際碳排放量超過了分配的排放額度,需在市場上購買超出部分的碳排放權,并以此產生碳過排放成本[26]。
供電商可通過傳統能源發電與可再生能源發電獲得碳排放權,發電機組在t時段分配的碳排放配額EDt如下:
EDt=δe Let+δr Lrt(15)
其中:δe和δr分別代表傳統能源與新能源發電的單位碳排放配額分配率。
考慮傳統能源發電作為碳排放量來源,傳統能源發電機組在t時段實際碳排放量如下[27]:
ECt=αe(Let)2+βeLet+λe(16)
其中:αe、βe、λe為傳統能源發電商產單位電量的碳排放系數。
綜上,可得t時段碳交易成本CEt的計算公式為
CEt=pe(ECt-EDt)(17)
其中:pe是市場上每單位碳排放權的交易價格;CEt≥0表示碳排放過量產生的碳交易成本,反之為碳交易收益。
考慮包含傳統能源供電商以及新能源供電商構成的供電商集合,在不考慮供電商之間電力交互的情況下,供電商通過向用戶出售電力獲得售電收益,同時由于存在非清潔能源發電會帶來相應碳排放量從而產生碳交易成本,社會偏好使用環境友好型的清潔能源減少碳排放,促進電力系統的可持續發展。
定義供電商福利為售電收入與成本之差的期望,供電商的目標是最大化其福利。而供電商收入來源于用戶所付電費,成本包含傳統能源與新能源供電成本與碳交易成本,則供電商福利可表示為
πs=E[∑t∈T ∑n∈Euclid Math OneNAppt,nXt,n-∑t∈T(Clt(Let)+CREt(Lrt)+CEt)](18)
1.3 負荷不確定情況下實時定價模型
考慮社會福利最大化目標,計及負荷不確定情況下的智能電網實時定價模型表述如下:
max μ1πc+(1-μ1)πs
s.t. 式(8)(9)(13), n∈Euclid Math OneNAp,t∈T(19)
其中:μ1∈(0,1),1-μ1分別表示用戶側福利與供電商福利的權重系數。μ1的取值由供電商的定價策略與用戶的需求彈性共同決定。可以發現實現最優社會福利時,用戶的總負荷與供應商的電力供給是相同的。
1.4 目標函數的轉換
目標函數式(19)可以分為用戶和供電商兩部分,根據期望運算性質,有
E[Xt,n]=E[Xt,n+δt,n]=Xt,n+E[δt,n]=Xt,n
則目標函數展開表示如下:
πs=E[∑ t∈T ∑ n∈Euclid Math OneNAppt,nXt,n-∑ t∈T(Clt(Let)+CREt(Lrt)+CEt)]=
E[∑ t∈T ∑ n∈Euclid Math OneNAppt,nXt,n]-∑ t∈T(Clt(Let)+CREt(Lrt)+CEt)=
∑ t∈T ∑ n∈Euclid Math OneNAp pt,nXt,n-∑ t∈T(Clt(Let)+CREt(Lrt)+CEt)
πc=E[∑ t∈T ∑ n∈Euclid Math OneNAp(U(Xt,n)-pt,nXt,n)]
由前文效用函數定義式(6)可知,效用函數U(Xt,n)的期望為
E[U(Xt,n)]=βnE[Xt,n+δt,n]-αn2E[Xt,n+δt,n]2=
βnXt,n-αn2(Xt,n)2-αn2σ2δt,n
由上節所定義隨機變量δt,n的期望與方差定義,令U(Xt,n)=E[U(Xt,n)],則
U(Xt,n)=βnXt,n-αn2(Xt,n)2-αn2σ2δt,n" 0≤Xt,n≤βnαn
(βn)22αn-αn2σ2δt,n Xt,ngt;βnαn(20)
πc=∑ t∈T ∑ n∈Euclid Math OneNAp (U(Xt,n)-pt,nXt,n)
于是不確定性模型式(19)可通過期望轉為確定性模型式(21):
max∑ t∈T ∑ n∈Euclid Math OneNAp(μ1U(Xt,n)+pt,nXt,n)+
(1-μ1)∑ t∈T(Clt(Let)+CREt(Lrt)+CEt)(21)
2 算法設計
本章將實時定價模型轉換為一種馬爾可夫決策過程,基于馬爾可夫過程的強化學習能夠很好地應用于單智能體環境中,本文使用了一種高效且適應多種環境的Q學習算法進行模型求解。
強化學習(reinforcement learning,RL)是在不同環境中自學習的一種最優動作決策技術[28],其最重要的特征是智能體學習并記錄相應的反饋,目標是最大化智能體的長期累積獎勵。智能體通過參數的調整自發選擇較大獎勵值的動作,具有自我學習與自我更新的優勢,交互過程如圖2所示。
時間差分(temporal-difference learning,TD)算法是強化學習的核心算法,常見的Q學習方法就屬于TD 算法,其值函數更新公式為
Q(s,a)=Q(s,a)+(r+γQ(s′,a′)-Q(s,a))(22)
其中:∈[0,1]是學習率;γ∈[0,1]是折現因子,表明了當前獎勵與未來獎勵的相對重要性。
時間差分算法結合了蒙特卡羅和動態規劃(dynamic programming,DP)方法,與蒙特卡羅相似的是可以直接從歷史經驗中學習。與DP類似的是使用后繼狀態的值函數對當前狀態的值函數進行更新。
在每個時間段中,智能體期望最大化累計折扣回報,即最大化當前時段和后續時間段的回報總和,可表述為
Rt=rt+γrt+2+γ2rt+3+…=rt+∑∞k=1γkrt+k+1(23)
強化學習求解最優策略即轉換為求狀態—動作值函數的最優值。通過實施策略A(λt,n)將狀態s轉移至狀態s′而獲得轉移概率PAss′與回報函數RAss′,因此本文可以得出最終迭代動作值函數的貝爾曼(Bellman)方程[14]:
Qπ(s,a)=∑s∈SPass′[Rass′+γ∑a′Qπ(s′,a′)](24)
其中:s∈S表示狀態集合。
因此,最優策略A*下的最佳狀態值函數V*(s)可以表示為
V*(s)=maxa∈A∑s∈SPass′[Rass′+γ∑a′Q(s′,a′)](25)
其中:V*(s)表示采用最優策略下的狀態值函數;a′表示狀態 s′下所有可能的動作。
在狀態轉移概率P和累積回報R已知的情況下,上述 Bellman最優方程是非線性的,最優策略π*(a|s)通常采用迭代的方法求解[29],根據迭代求解的對象是值函數還是狀態動作值函數可以將迭代算法分為值迭代與策略迭代兩類。
最終,本文可以得到最優策略為
π*(a|s)=1" a=argmaxa∈A Qπ(s,a)
0" a≠argmaxa∈A Qπ(s,a)(26)
Q學習用于求解實時定價模型時,實時電價問題可以表述為馬爾可夫決策過程,需要基于馬爾可夫決策過程確定強化學習模型要素(S,A,P,γ,R)[30]。通過智能體不斷選擇針對環境的策略并依據來自環境的反饋逐步迭代,獲取到最佳策略,即最優的實時電價是最佳策略的選擇過程。供電商根據當前時間段用戶側用電量設置電價即策略,然后用戶根據電價從上一狀態轉移到下一個狀態。此轉移過程主要取決于當前時段的行動和用戶上一個時間段的狀態,應用強化學習框架(圖3)表示供電商與用戶之間的能源交易策略,以充分提高社會整體福利。
a)狀態空間S。定義狀態空間時需要綜合考慮對決策問題有影響的因素。對于實時定價問題來說,狀態空間S由負荷需求、負荷和時段組成。pt,n代表供電商對用戶在t時段內提供的電價。Xt,n表示在用戶接收到供電商的價格信號后用戶所對應的能源需求量,可視做用戶對電價的反饋而實時更新得出的。狀態空間集合表示如下:
S={s|st=(Xt,n,pt,n,Let,Lrt)}(27)
b)動作空間A。由智能體來輸出動作即供電商提供的電價pt,n,輸出的決策動作是一個連續變量,無須離散化操作,因此,本節將動作空間設置為一個連續的電價區間范圍。
A={a|a∈[cminnπ0,cmaxnπ0]}(28)
c)狀態轉移概率P。對應式(24),定義實時定價策略下狀態轉移概率P∈Pastst+1,Pastst+1表示智能體在狀態st下采取動作a后將會環境轉移到下個階段st+1的轉移概率。
d)折現因子γ。γ是折現因子,指當前決策動作下未來獎勵期望所占的比例。一般來說,γ越大,未來獎勵相較于當前獎勵的重要程度越高,當前時段的決策將對下一狀態產生重要的影響。若折現率為0,即只考慮當前獎勵將會造成算法的短視優化。
e)回報R。在本節中,實時定價模型考慮社會福利最大化作為目標,將回報與社會福利值對應,因此單一階段的具體回報定義如下:
rt=∑ t∈T ∑ n∈Euclid Math OneNAp(μ1U(Xt,n)-pt,nXt,n)+
(1-μ1)∑ t∈T(Clt(Let)+CREt(Lrt)+CEt)(29)
綜上,實時定價策略下的Q值函數更新如下:
Qk(st,at)←(1-)Qk-1(st,at)+(rt+γQk-1(st+1,at+1))(30)
其中:∈[0,1]是學習率。
在迭代開始即t=0時,模型的目標是最大化當天所有時段的總效益。第一個時段結束后,目標將轉換為最大化剩余時段的總獎勵。在每個時間段的末尾最大化一天中剩余時段的獎勵,可充分考慮時間的前后關聯性,Q學習實時定價機制如下。
算法1 Q學習實時定價機制
輸入:預設參數,初始負荷值X0t,n、供電量Le,0t,Lr,0t和電價p0t,n。
輸出:最優動作值函數Qπ,負荷X*t,n,最優供電量Le,*t、Lr,*t,最優電力價格p*t,n。
a)數據初始化,初始化動作值函數Q0(s,a)=0,k=0,t=0;
b)迭代k←k+1;
(a)對每一輪循環,重復t←t+1;
(b)如果|Qk-Qk-1|≤δ成立,停止迭代輸出Qk,否則轉至步驟(c);
(c)面對初始策略,觀察狀態st并選擇一個動作at;
(d)智能體觀察收益值函數rt,以及觀察下一個狀態st+1;
(e)更新動作值函數
Qk(st,at)←(1-)Qk-1(st,at)+(rt+γQk-1(st+1,at+1));
(f)檢查是否完成一個周期,如果t=T,跳出循環,否則轉至步驟(g);
(g)通過式(7)(18)(21)更新負荷、供電量與實時電價。
常見的強化學習尋優方法是使用ε-greddy策略[31],此策略可選擇具有給定概率分布的隨機動作。在一天開始時,智能體即供電商首先在給定狀態的價格邊界內隨機選擇初始策略a0,即初始供電價格。選擇初始策略后,智能體可以立即獲得一定的獎勵,同時智能體還將觀察時段中的環境并更新Q值即社會福利值。隨著學習深入與供電商反復的價格調整,Q值通過智能體與環境學習而增加最終收斂到最大值。當Q學習算法實現了足夠多的狀態與動作后,算法可以保證模型收斂至最優函數[32]。當|Qk-Qk-1|≤δ時,滿足終止條件,模型將收斂至最優值即最大社會福利值,同時獲得最優的狀態空間。
3 數值仿真
3.1 算例背景
本節介紹數值仿真實驗,以驗證模型的合理性與算法的有效性。假設某個區域存在供電商與一個社區,考慮了含傳統能源與新能源發電的供電商,以及包含20個居民用戶與5個大型用戶的社區,智能電表可以通過聚合同類型用戶的用電信息進行統一調度從而有效保護用戶的隱私。本文考慮基于典型日的光伏和風電出力,如圖4所示。因此,直接參與電力交易的一天內是不同類型用戶的總負荷。本文采用文獻[33]的居民及大型用戶負荷數據并按照相應的比例進行調整作為本文數據來源,兩類用戶各個時段的負荷需求如圖5、6所示。
實驗環境設置如下:Intel 8259U,RAM 8 GB, Windows 10操作系統,Python 3.9作為編程環境。算例的詳細參數如表2~5所示,價格彈性系數如表2所示,碳交易價格即碳交易市場中單位碳排放權的價格pe取基準方案下每噸130元[27]。考慮到不同用戶對于電價的不同反應,對不同類型用戶設置不同的效用參數[34],用戶效用參數βn服從均勻分布,用戶側模型參數設置如表4所示。強化學習算法初始參數值設置及供電側各類參數如表5所示,權重系數μ1由算法自適應選取。同時,本文同時考慮將上海市分時電價與所提實時定價模型進行對比,分時電價如表6所示。
3.2 結果分析
用戶側實時電價與負荷削減量分別如圖7、8所示,從圖7可以看出兩類用戶實時電價趨勢相同。將高峰時段(如10:00~15:00,18:00~21:00)與非高峰時段(如21:00~7:00)相比較可以發現,高峰時段的用戶電價變化率與負荷削減比率高于非高峰時段,這是由于高峰時段電力價格彈性系數較高,價格的變化對于需求側削峰填谷具有更好的效果,供電側可在較小的電力價格調整下取得較大的調控力度,同時價格區間約束使電價保持在合理的范圍。圖8表示兩類用戶的負荷總削減量。從圖8可以發現,大型用戶的負荷削減量大于居民用戶,這是由于價格區間約束大型用戶具有較高的電價且在高峰期的電價波動性較高。
圖9為用戶側福利值,可以看出大型用戶福利值高于居民用戶福利值,同時大型用戶電價在用電高峰期間變化率較大,即用戶參與負荷調控的意愿較高。用戶面對供電商電價的變化按照福利最大化目標調整自身負荷。
圖10、11反映了供電商最終的供電量、供電商福利與碳交易成本,當取得最優社會福利時用戶總負荷與供電商總供電量相同。在考慮碳交易的情況下,供電商優先使用風電、光伏等新能源供電,在緩解化石能源供電壓力的同時降低了發電成本。圖11中碳排放成本為負值,即碳交易能夠增加供電商福利,供電商通過新能源發電獲得的碳排放權配額超出實際總碳排量,有效提高了供電側福利。算例驗證了碳交易下模型的合理性與有效性,同時碳交易的普及能夠有效推進能源系統綠色發展,從而在社會層面促進新能源的有效消納。
為進一步對比所提模型的合理性與有效性,將本文所提實時定價場景(場景1)與下面三種場景進行比較:a)考慮負荷確定情況下的實時定價策略(場景2);b)在第一種場景基礎上考慮算法的短視優化情景(場景3);c)基于分時定價機制下的社會福利(場景4)。共四種場景。
表6顯示了一個典型日內四種不同情景下的模型指標值。為了進一步說明所提出考慮負荷不確定下實時定價模型的合理性,假設四種場景基礎參數相同。仿真得出,所提實時定價場景與另外三種情形的社會福利值類似,同時在實時定價下的社會福利值總是優于分時電價下的社會福利值。盡管不確定情況下的實時定價相較于確定性情況下福利值有所降低,但不確定情況下的實時定價能夠更加貼合用戶實際用電情況,即所提實時定價策略在保證模型魯棒性的情況下取得較優的社會福利值,場景對比驗證了所提模型的有效性與合理性。
4 結束語
本文使用強化學習框架Q學習算法求解實時電價,算例仿真驗證了所提策略的有效性,并具有以下優勢:a)本文應用強化學習框架將實時定價問題轉換為一個馬爾可夫決策過程,供電商作為智能體可在與全體用戶迭代過程中學習和獲取最優的實時定價策略,實現電價的自動優化;b)本文考慮用戶分類,可有效提升系統性能的同時符合用戶實際用電情況;c)Q學習算法可適用于所提實時電價模型求解,計及負荷不確定的實時定價策略能夠有效地平衡電力市場能源供需,提高電力系統的魯棒性;d)碳排放交易機制能夠有效助力雙碳目標的實現,使得供電側在優化調度中充分調用風電、光伏等可再生能源,提高電力系統的經濟性與環保性。
本文策略可以使用多種方式擴展。后續可以引入用電限制與用戶資金限制等約束條件,從而更加貼近現實情況;運用多智能體強化學習算法整合含電動汽車與儲能設備的區域能源微網方案,從而提高強化學習框架對于復雜電力系統的適應性;針對更大規模用戶,通過大數據驅動分布式強化學習可實現更優的電力需求側管理。
參考文獻:
[1]張瑤,王傲寒,張宏. 中國智能電網發展綜述[J]. 電力系統保護與控制,2021,49(5): 180-187. (Zhang Yao,Wang Aohan,Zhang Hong. Overview of smart grid development in China[J]. Power System Protection and Control,2021,49(5): 180-187.)
[2]黃開藝,艾芊,張宇帆,等. 基于能源細胞—組織架構的區域能源網需求響應研究挑戰與展望[J]. 電網技術,2019,43(9): 3149-3160. (Huang Kaiyi,Ai Qian,Zhang Yufan,et al. Challenges and prospects of regional energy network demand response based on energy cell-tissue architecture[J]. Power System Technology,2019,43(9): 3149-3160.)
[3]原冠秀,高巖,王宏杰. 基于效用分類的智能電網實時電價算法[J]. 上海理工大學學報,2020,42(1): 29-35. (Yuan Guanxiu,Gao Yan,Wang Hongjie. A real-time pricing algorithm based on utility classification in a smart grid[J]. Journal of University of Shanghai for Science and Technology,2020,42(1): 29-35.)
[4]Samadi P,Mohsenian-Rad A H,Schober R, et al. Optimal real-time pricing algorithm based on utility maximization for smart grid [C]// Proc of the 1st IEEE International Conference on Smart Grid Communications. Piscataway,NJ: IEEE Press,2010: 415-420.
[5]王宏杰,高巖. 基于非光滑方程組的智能電網實時定價[J]. 系統工程學報,2018,33(3): 320-327. (Wang Hongjie,Gao Yan. Research on the real-time pricing of smart grid based on nonsmooth equations[J]. Journal of Systems Engineering,2018,33(3): 320-327.)
[6]陶莉,高巖,朱紅波. 以極小化峰谷差為目標的智能電網實時定價 [J]. 系統工程學報,2020,35(3): 315-324. (Tao Li,Gao Yan,Zhu Hongbo. Real-time pricing strategy for smart grid based on the minimization of the peak-valley difference[J]. Journal of Systems Engineering,2020,35(3): 315-324.)
[7]李軍祥,周繼儒,何建佳. 基于區塊鏈的電網實時定價混合博弈研究[J]. 電網技術,2020,44(11): 4183-4191. (Li Junxiang,Zhou Jiru,He Jianjia. Mixed game of real-time pricing based on block chain for power grid[J]. Power System Technology,2020,44(11): 4183-4191.)
[8]Yuan Guanxiu,Gao Yan,Ye Bei,et al. Real-time pricing for smart grid with multi-energy microgrids and uncertain loads: a bilevel programming method[J]. International Journal of Electrical Power amp; Energy Systems,2020,123: 106206.
[9]高巖. 智能電網實時電價社會福利最大化模型的研究[J]. 中國管理科學,2020,28(10): 201-209. (Gao Yan. The social welfare maximization model of real-time pricing for smart grid[J]. Chinese Journal of Management Science,2020,28(10): 201-209.)
[10]Tao Li,Gao Yan. Real-time pricing for smart grid with distributed energy and storage: a noncooperative game method considering spatially and temporally coupled constraints[J]. International Journal of Electrical Power amp; Energy Systems,2020,115: 105487.
[11]朱紅波,高巖,后勇,等. 馬爾可夫過程下多類用戶智能電網實時電價[J]. 系統工程理論與實踐,2018,38(3): 807-816. (Zhu Hongbo,Gao Yan,Hou Yong,et al. Real-time pricing considering different type of users based on Markov decision processes in smart grid[J]. Systems Engineering-Theory amp; Practice,2018,38(3): 807-816.)
[12]José R,Zoltán N. Reinforcement learning for demand response: a review of algorithms and modeling techniques[J]. Applied Energy,2019,235: 1072-1089.
[13]Mnih V,Kavukcuoglu K,Silver D,et al. Human-level control through deep reinforcement learning [J]. Nature,2015,518(7540): 529-533.
[14]Zhang Li,Gao Yan,Zhu Hongbo,et al. Bi-level stochastic real-time pricing model in multi-energy generation system: a reinforcement learning approach[J]. Energy,2021,239: 121926.
[15]Lu Renzhi,Hong SeungHo,Zhang Xiongfeng. A dynamic pricing demand response algorithm for smart grid: reinforcement learning approach[J]. Applied Energy,2018,220: 220-230.
[16]馮小峰,謝添闊,高賜威,等. 電力現貨市場下計及售電商長期收益的需求側響應[J]. 電網技術,2019,43(8): 2761-2769. (Feng Xiaofeng,Xie Tiankuo,Gao Ciwei,et al. A demand side response strategy considering long-term revenue of electricity retailer in electri-city spot market[J]. Power System Technology,2019,43(8): 2761-2769.)
[17]Wang Huiwei,Huang Tingwen,Liao Xiaofeng,et al. Reinforcement learning in energy trading game among smart microgrids[J]. IEEE Trans on Industrial Electronics,2016,63(8): 5109-5119.
[18]Du Yan,Li Fangxing. Intelligent multi-microgrid energy management based on deep neural network and model-free reinforcement learning[J]. IEEE Trans on Smart Grid,2020,11(2): 1066-1076.
[19]Jin Ming,Feng Wei,Marnay C,et al. Microgrid to enable optimal distributed energy retail and end-user demand response[J]. Applied Energy,2018,210: 1321-1335.
[20]張莉,高巖,朱紅波,等. 考慮用電量不確定性的智能電網實時定價策略[J]. 電網技術,2019,43(10): 181-190. (Zhang Li,Gao Yan,Zhu Hongbo,et al. Real-time pricing strategy based on uncertainty of power consumption in smart grid[J]. Power System Technology,2019,43(10): 181-190.)
[21]Tarasak P. Optimal real-time pricing under load uncertainty based on utility maximization for smart grid[C]// Proc of IEEE International Conference on Smart Grid Communications. Piscataway,NJ: IEEE Press,2011: 321-326.
[22]Yu Mengmeng,Hong S H. Incentive-based demand response consi-dering hierarchical electricity market: a Stackelberg game approach [J]. Applied Energy,2017,203: 267-279.
[23]Samadi P,Mohsenian-Rad H,Schober R,et al. Advanced demand side management for the future smart grid using mechanism design[J]. IEEE Trans on Smart Grid,2012,3(3): 1170-1180.
[24]李軍祥,潘婷婷,高巖. 智能電網互補能源供用電實時定價算法研究[J]. 計算機應用研究,2020,37(4): 1092-1096. (Li Jun-xiang,Pan Tingting,Gao Yan. Real time pricing algorithm for supply and demand of complementary energy on smart grid[J]. Application Research of Computers,2020,37(4): 1092-1096.)
[25]Chiu T C,Shih Y Y,Pang Aichun,et al. Optimized day-ahead pricing with renewable energy demand-side management for smart grids [J]. IEEE Internet of Things Journal, 2017,4(2): 374-383.
[26]Zhang Ning,Hu Zhaoguang,Dai Daihong,et al. Unit commitment model in smart grid environment considering carbon emissions trading[J]. IEEE Trans on Smart Grid,2016,7(1): 420-427.
[27]張曉輝,梁軍雪,趙翠妹,等. 基于碳交易的含燃氣機組的低碳電源規劃[J]. 太陽能學報,2020,41(7): 92-98. (Zhang Xiaohui,Liang Junxue,Zhao Cuimei,et al. Research on low-carbon power planning with gas turbine units based on carbon transactions[J]. Acta Energiae Solar Sinica,2020,41(7): 92-98.)
[28]Alpaydin E. Introduction to machine learning [M]. 4th ed. Cambridge,MA: MIT Press,2020.
[29]Yu Tao,Zhou Bin,Chan K W,et al. Stochastic optimal relaxed automatic generation control in non-Markov environment based on multi-step Q(λ) learning [J]. IEEE Trans on Power Systems,2011,26(3): 1272-1282.
[30]Kong Xiangyu,Kong Deqian,Yao Jingtao,et al. Online pricing of demand response based on long short-term memory and reinforcement learning [J]. Applied Energy,2020,271: 114945.
[31]Han Xuefeng,He Hongwen,Wu Jingda,et al. Energy management based on reinforcement learning with double deep Q-learning for a hybrid electric tracked vehicle[J]. Applied Energy,2019,254: 113708.
[32]Hasselt H. Double Q-learning[J]. Advances in Neural Information Processing Systems,2010,23: 2613-2621.
[33]Yang Peng,Tang Gongguo,Nehorai A. A game-theoretic approach for optimal time-of-use electricity pricing[J]. IEEE Trans on Power Systems,2012,28(2): 884-892.
[34]Lin Jie,Xiao Biao,Zhang Hanlin,et al. A novel multitype-users welfare equilibrium based real-time pricing in smart grid[J]. Future Generation Computer Systems,2020,108: 145-160.