謝昕怡,應黎明,田書圣,朱貴琪
(武漢大學電氣與自動化學院,武漢市 430072)
近年來,隨著一系列推動分布式能源、微電網(wǎng)發(fā)展政策的出臺,微電網(wǎng)市場快速增長。在此情況下,如何設計一種安全高效的微電網(wǎng)電能交易方法是近年來微電網(wǎng)改革的重點[1]。微電網(wǎng)電能交易一般采用第三方管理機構(gòu)參與的集中式交易模式,但這種交易模式可能會出現(xiàn)以下問題:交易中心運行以及維護成本高、交易自由度低,微電網(wǎng)的有效運行難以得到保障;交易用戶與第三方管理機構(gòu)信任度低;交易中心內(nèi)用戶的隱私無法得到保障,交易信息不透明;交易中心始終存在數(shù)據(jù)丟失及數(shù)據(jù)被篡改的可能性[2]。
傳統(tǒng)集中式交易模式出現(xiàn)的一系列問題使得能有效降低市場交易管理和運營成本的分散交易模式受到了廣泛關注,并被應用于微電網(wǎng)市場研究中[3-5]。同時隨著“互聯(lián)網(wǎng)+”新業(yè)態(tài)的發(fā)展,學者們發(fā)現(xiàn)在電能交易中引入?yún)^(qū)塊鏈下的智能合約技術具有去中心化和防篡改的優(yōu)勢,可降低電力市場運營成本、保證電能交易的安全性,并使電力市場交易過程更加透明[6-9]。大多數(shù)基于智能合約的研究都是對交易模型、框架結(jié)構(gòu)與代碼設計等內(nèi)容進行探討,而真正實現(xiàn)微電網(wǎng)市場交易,除了要以先進技術為支持外,還需要一種匹配的方法來開發(fā)靈活的市場機制、設計具體的合約內(nèi)容[10-12]。文獻[10]將拉格朗日原理與維克瑞-克拉克-格羅夫斯規(guī)則應用到智能合約實時部分;文獻[11]以用戶與代理商收益最大為目標建立智能合約模型后,結(jié)合粒子群和遺傳算法對該智能合約模型進行了求解;為解決分布式電能交易匹配過程中存在的訂單沖突問題,文獻[12]提出了基于最大目標函數(shù)和信譽值的沖突解決機制。研究微電網(wǎng)市場交易機制的關鍵是市場中不同利益相關者的相互競爭行為,現(xiàn)有文獻多側(cè)重于智能合約下的市場機制問題,對于智能合約下多微電網(wǎng)市場中各市場主體間的交易決策、利益分配問題卻鮮有研究。
多微電網(wǎng)市場中的復雜決策問題常通過建立市場參與者的博弈模型進行求解[13-14],為了在求解博弈模型時能夠從環(huán)境中提取有效信息,并結(jié)合環(huán)境信息和主體目標優(yōu)化主體策略,可考慮將人工智能算法引入其中[15-17]。在眾多人工智能算法中,深度強化學習(deep reinforcement learning, DRL)將強化學習與深度學習結(jié)合,通過端到端學習實現(xiàn)從輸入數(shù)據(jù)到輸出決策的直接控制,成為了解決復雜決策問題的有力工具之一[15]。為在不同決策空間中解決采樣效率低、收斂速度慢等問題,一系列改進深度強化學習算法逐漸被提出,其中,深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法[16]由確定性策略梯度算法改進而來,可以輸出連續(xù)動作,適用于復雜動作空間和連續(xù)動作空間,并保證了良好的收斂特性,在單一智能體環(huán)境中表現(xiàn)優(yōu)異,但其收斂速度和精度會隨著智能體數(shù)量的增多而下降。在實際微電網(wǎng)市場環(huán)境中,由于涉及到的市場主體數(shù)量多且復雜,為了貼合微網(wǎng)系統(tǒng)的實際運營,為交易主體的博弈分析建立基礎,可考慮將多智能體理念引入微電網(wǎng)市場交易中,利用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法滿足微電網(wǎng)市場向分布化和層次化發(fā)展的需求[17]。
基于上述背景,本文針對多微電網(wǎng)市場交易問題,首先基于智能合約設計多微電網(wǎng)市場的去中心化交易機制,介紹具體的交易流程。然后在所設計交易機制的基礎上,將各智能體利益最大化這一復雜多目標優(yōu)化問題的求解部署到微電網(wǎng)智能合約,同時將MADDPG算法引入到微電網(wǎng)去中心化市場交易中,通過算例分析驗證本文所提方法的實用性。
對于距離較近的微電網(wǎng),部分微電網(wǎng)由于內(nèi)部有間歇性能源或自身調(diào)控能力有限,其內(nèi)部發(fā)電量在單位時間內(nèi)不一定與自身負荷平衡,對外呈現(xiàn)一定的電量富余(稱為“多電微電網(wǎng)”)或缺額(稱為“少電微電網(wǎng)”)。少電微電網(wǎng)為保證自身負荷供電,需從多電微電網(wǎng)或配電網(wǎng)購電;多電微電網(wǎng)為追求自身收益最大化,會將富余電量出售給少電微電網(wǎng)或者配電網(wǎng)。因此可考慮在配網(wǎng)末端的微電網(wǎng)系統(tǒng)引入市場機制,令微電網(wǎng)之間、微電網(wǎng)與配電網(wǎng)之間均可進行電量交易。基于上述分析,以微網(wǎng)系統(tǒng)內(nèi)存在的不同利益追求作為參考并結(jié)合實際情況,可將微電網(wǎng)系統(tǒng)劃分為以下3類智能體:配電網(wǎng)、多電微電網(wǎng)、少電微電網(wǎng),相應多智能體結(jié)構(gòu)如圖1所示。

圖1 微電網(wǎng)市場的多智能體結(jié)構(gòu)Fig.1 The multi-agent structure of the microgrid market
3類智能體交互行為有:配電網(wǎng)與兩類微電網(wǎng)直接進行交易,交易價格以配電網(wǎng)銷售電價與回購電價為準;微電網(wǎng)間交易以自身收益最大化為目標進行競價博弈,博弈達到均衡后確定交易雙方電能的交易量與價格,交易達成后通過配電網(wǎng)絡實現(xiàn)電能傳遞,交易雙方平均分攤配電網(wǎng)收取的過網(wǎng)費用。接下來構(gòu)建兩類微電網(wǎng)的競價模型:
1)多電微電網(wǎng)。

多電微電網(wǎng)通過向少電微電網(wǎng)售電獲得收益,計算公式如下:
(1)

多電微電網(wǎng)向配電網(wǎng)售電所得收益為:
(2)

多電微電網(wǎng)因與少電微電網(wǎng)交易,應向配電網(wǎng)繳納的服務費為:
(3)
式中:sd為配電網(wǎng)收取的單位服務費。
多電微電網(wǎng)的富余電量主要來自風力發(fā)電、光伏發(fā)電此類間歇性能源發(fā)電,其發(fā)電成本為:
(4)

微電網(wǎng)實際發(fā)電量與廣播的富余電量存在偏差,且該偏差大于閾值A時記一次違規(guī),微電網(wǎng)需根據(jù)自身違規(guī)行為支付一定費用。對于微電網(wǎng)日前電能交易,t時刻多電微電網(wǎng)j的違約成本計算參考每次交易日前一天交易的情況,計算公式為:
(5)
(6)
式中:fV為單位信譽值違約成本系數(shù);Vj為多電微電網(wǎng)j交易日前一天的信譽值;hj和Hj分別為交易日前一天多電微電網(wǎng)j無違規(guī)行為交易次數(shù)與實際成交次數(shù);Q′ej與Qej分別為多電微電網(wǎng)j交易日前一天實際發(fā)電量與上報的電量;|(Q′ej-Qej)/Qej|為其電量偏差程度。
2)少電微電網(wǎng)。

少電微電網(wǎng)需從多電微電網(wǎng)處購電滿足自身電量缺額,其收益計算公式如下:
(7)
少電微電網(wǎng)從配電網(wǎng)處購電所得收益如下:
(8)

考慮到少電微電網(wǎng)購買的缺額電量主要來自風光發(fā)電等新能源,政府可給予一定的購電補貼:
(9)

少電微電網(wǎng)因與多電微電網(wǎng)交易,應向配電網(wǎng)繳納的服務費為:
(10)
少電微電網(wǎng)違約成本計算與多電微電網(wǎng)類似:
(11)
(12)
式中:Vm為少電微電網(wǎng)m交易日前一天的信譽值;hm和Hm分別為交易日前一天少電微電網(wǎng)m無違規(guī)行為交易次數(shù)與實際成交次數(shù);Q′em與Qem分別為少電微電網(wǎng)m實際使用電量與上報的電量;|(Q′em-Qem)/Qem|為其電量偏差程度。
多電微電網(wǎng)與少電微電網(wǎng)在競價過程中所申報電量與電價都需滿足一定范圍約束[19]。
在分布式電源滲透率較高的微網(wǎng)系統(tǒng)中,市場主體的供給與需求具有很強的隨機性與波動性,需借助靈活的交易機制維持供求關系的實時平衡。由于智能合約下的市場交易中買賣雙方通過程序算法執(zhí)行合同以實現(xiàn)自治,且記錄交易過程以便追溯保證交易安全,能在一定程度上降低交易成本、提高交易效率、避免惡意行為對正常執(zhí)行智能合約造成不利影響。本文提出以智能合約為技術支撐的微電網(wǎng)去中心化市場交易機制。按照智能合約簽訂與部署執(zhí)行的時間順序,交易流程包括交易需求提交、確認、驗證與結(jié)算階段,對應的交易流程如圖2所示。

圖2 智能合約下的微電網(wǎng)交易流程Fig.2 The process of microgrid transaction under smart contract
各市場主體在該階段主要發(fā)布供需信息,微電網(wǎng)確定好自身在市場開放周期內(nèi)的狀態(tài)(電量缺額、電量盈余、電量平衡)后廣播市場需求信息,若申報電量為正表明該微電網(wǎng)為多電微電網(wǎng),為負表明該微電網(wǎng)為少電微電網(wǎng)。各主體除了上報電量信息外,還需上報自身初始報價、可接受電價范圍。若多電微電網(wǎng)可接受電價下限低于少電微電網(wǎng)可接受電價上限,市場主體開始進行交易匹配。
市場主體廣播自身信息并成功匹配后,以自身收益最大為目標建立競價模型,通過分布式優(yōu)化實現(xiàn)競價均衡,在此過程中各主體可多次修改報價。在交易決策優(yōu)化過程完成后,市場主體同時將確定好的交易細節(jié)寫入智能合約中,確定好合約內(nèi)容后簽約達成交易。
考慮到智能合約下的市場交易屬于雙邊交易且信息公開,本文在交易確認階段將多買多賣的撮合交易規(guī)則以智能合約的形式記錄在區(qū)塊鏈中,具體執(zhí)行過程如下:在多方主體競價的市場環(huán)境下,全節(jié)點根據(jù)報價由低到高的順序?qū)Χ嚯娢㈦娋W(wǎng)進行優(yōu)先級排序,根據(jù)報價由高到低的順序?qū)ι匐娢㈦娋W(wǎng)進行優(yōu)先級排序,首先撮合優(yōu)先級最高的多電微電網(wǎng)和少電微電網(wǎng)間的交易,交易的成交價格為交易雙方報價的平均值,成交電量為雙方公示電量中的較小值;若第一輪撮合完成后買方需求電量未滿足或賣方可供應電量仍存在富余,在第二輪撮合中該交易方與優(yōu)先級次高的市場成員進行交易,以此類推[20-21];若全體微電網(wǎng)撮合交易完成后仍有微電網(wǎng)存在電量富余/缺額的情況,該微網(wǎng)自動與配電網(wǎng)簽訂相關合約。市場主體對每一輪撮合的結(jié)果都應作出適當?shù)姆磻{(diào)整自己的策略,優(yōu)化下一次競標,促使自身收益最大化。
合約簽訂完成后,智能電表會上傳交易雙方的電能傳輸信息,即雙方實際供用電情況,智能合約根據(jù)上傳的電能傳輸信息對市場主體履約情況進行驗證并進行微電網(wǎng)電能交易結(jié)算。若多電微電網(wǎng)供應的電量小于智能合約約定的電量,智能合約將退還未履約電量對應的代幣給少電微電網(wǎng),并將剩余的代幣支付給多電微電網(wǎng),同時更新多電微電網(wǎng)的信用值;若少電微電網(wǎng)使用的電量大于智能合約約定的電量,智能合約將合約內(nèi)所有的代幣支付給多電微電網(wǎng),并向少電微電網(wǎng)催收超出電量對應的代幣,同時更新少電微電網(wǎng)的信用值,在交易過程中根據(jù)信用值大小給予違規(guī)市場主體一定的懲罰。
在微電網(wǎng)市場競價智能合約中不可避免地會觸及一些細節(jié)問題,如市場智能合約的調(diào)度問題、用戶如果違約如何處理、競價博弈所采用的競價策略求解等,下文將基于MADDPG算法完成對微電網(wǎng)競價策略的求解。
傳統(tǒng)微網(wǎng)交易環(huán)境中信息不完全公開,市場主體需花費較大成本搜集信息,而上述智能合約下的微電網(wǎng)市場交易能為市場主體提供完全信息的博弈環(huán)境:市場主體在讀取相關信息后,以自身收益最大為目標進行電量/電價博弈并求解最終交易策略。MADDPG算法中各智能體制定自身策略時會考慮其他智能體的策略,可以很好地勝任完全信息環(huán)境下微電網(wǎng)市場主體交易決策優(yōu)化問題。
多智能體系統(tǒng)的深度強化學習常用馬爾科夫博弈來描述,本文將用多元組(N,S,A,T,R)構(gòu)建微電網(wǎng)市場交易中的馬爾科夫博弈模型,其中N=J+M為多電微電網(wǎng)和少電微電網(wǎng)的總數(shù);S={s1,s2,…,sN}為各智能體的觀察狀態(tài)空間;A={a1S,a2S,…,aNS}為各智能體的動作空間;T為狀態(tài)轉(zhuǎn)移函數(shù),即給定智能體當前的狀態(tài)與聯(lián)合動作時,其下一狀態(tài)的概率分布;R={r1,r2,…,rN}為獎勵函數(shù),即智能體在當前狀態(tài)時,采取聯(lián)合動作后在下一狀態(tài)所得到的獎勵。接下來對幾項關鍵元組進行詳述:
1)狀態(tài)空間。
對于多電微電網(wǎng)而言,其自身狀態(tài)包含當前時刻廣播的富余電量與電價;對于少電微電網(wǎng)而言,其自身狀態(tài)包含當前時刻廣播的缺額電量與電價;每一個智能體的狀態(tài)空間由自身狀態(tài)與其他智能體狀態(tài)組成,即聯(lián)合狀態(tài)空間。
2)動作空間。
通常情況下,微電網(wǎng)市場中智能體的動作空間是一個二維的連續(xù)空間,但由于本文假設微電網(wǎng)每個時刻申報的電量為定值,動作主要表現(xiàn)為交易雙方電能價格調(diào)整。依據(jù)各智能體初始限定的電能價格上下限,以步長為1在上一輪價格基礎上浮動,第k+1次博弈可選擇動作集合Ak+1={ak-1,ak,ak+1},ak表示第k次博弈所選動作。根據(jù)當前聯(lián)合狀態(tài)和動作策略可確定聯(lián)合動作空間A={a1S,a2S,…,aNS},其中a1S,a2S,…,aNS∈Ak+1分別為聯(lián)合狀態(tài)S下各交易主體所選動作。
3)獎勵函數(shù)。
微電網(wǎng)會對交易過程持續(xù)學習以優(yōu)化各自效益函數(shù),且為了防止微電網(wǎng)最終報價超出自身提交的可接受電價范圍,可在智能體超出范圍時給予懲罰,則多電微電網(wǎng)和少電微電網(wǎng)強化學習獎勵函數(shù)形式由收益與懲罰兩部分組成,分別如式(13)與(14)所示:
(13)
(14)
式中:hj(x)、hm(x)分別為多電微電網(wǎng)j與少電微電網(wǎng)m因電價策略超出設定范圍的懲罰函數(shù)。
MADDPG算法是一種基于多智能體環(huán)境的深度強化學習算法,由于在網(wǎng)絡架構(gòu)上采用了Actor-Critic的框架形式,每個智能體由需要全局信息的評論家(Critic)網(wǎng)絡和只需要局部觀測的動作家(Actor)網(wǎng)絡組成。每個智能體的Actor網(wǎng)絡的輸入包含環(huán)境中所有智能體的動作狀態(tài)信息,且由于采用集中訓練、分散執(zhí)行的方式,能有效提高多智能體系統(tǒng)的穩(wěn)定性。

(15)
式中:E表示總獎勵的期望值,由于每次狀態(tài)轉(zhuǎn)移都是隨機的,學習的目標是各智能體執(zhí)行一系列動作來獲得盡可能多的平均獎勵值;θ為各智能體網(wǎng)絡參數(shù)集合;γ為獎勵折扣系數(shù);ri為第i個智能體的獎勵。
不同網(wǎng)絡更新參數(shù)的方式不同,Critic當前網(wǎng)絡通過最小化每個智能體的損失函數(shù)來優(yōu)化更新參數(shù),損失函數(shù)計算公式如下:
(16)
(17)

Actor當前網(wǎng)絡通過神經(jīng)網(wǎng)絡的梯度反向傳播來更新網(wǎng)絡參數(shù),梯度計算公式如下:
(18)

Actor目標網(wǎng)絡和Critic目標網(wǎng)絡均采用軟更新方式更新網(wǎng)絡參數(shù):
(19)
(20)
式中:τ為軟更新系數(shù),且τ?1。
此外,與普通的監(jiān)督學習算法不同,MADDPG算法訓練過程中的訓練樣本是通過不停地執(zhí)行動作而動態(tài)生成的。為了解決訓練樣本間存在相關性、樣本概率分布不固定問題,MADDPG算法采用了經(jīng)驗回放機制,即先把執(zhí)行動作構(gòu)造的訓練樣本存儲到經(jīng)驗回放池中,在訓練網(wǎng)絡時每一回合從這個經(jīng)驗回放池中均勻采集一個批次的數(shù)據(jù)作為訓練樣本,新舊樣本被采集的概率是相等的,經(jīng)驗回放池大小及每一回合采集的批次大小分別稱為經(jīng)驗回放池規(guī)模及采樣規(guī)模。由于MADDPG算法訓練過程是通過產(chǎn)生的狀態(tài)和對應的獎勵函數(shù)判斷訓練結(jié)果的好壞,其訓練和測試使用的是同一套環(huán)境。
本節(jié)對上述微電網(wǎng)交易決策優(yōu)化過程進行仿真研究。假設某區(qū)域配電網(wǎng)中有4個臨近的微電網(wǎng),彼此之間可以進行電力交易,同時又可分別與配電網(wǎng)進行電力交易,構(gòu)成一個多微網(wǎng)系統(tǒng),其相關參數(shù)如表1所示,微網(wǎng)1、2為多電微電網(wǎng),微網(wǎng)3、4為少電微電網(wǎng)。交易周期為1 h,對于微電網(wǎng)日前電能交易,可將一天內(nèi)每小時的微電網(wǎng)參數(shù)值以向量的形式輸入,為簡化計算,本文僅研究微電網(wǎng)日前市場中某時刻t的交易情況。

表1 微電網(wǎng)相關參數(shù)Table 1 Related parameters of the microgrid
MADDPG算法中采用三層全連接神經(jīng)網(wǎng)絡結(jié)構(gòu),最大訓練回合數(shù)為4 000,網(wǎng)絡結(jié)構(gòu)參數(shù)見表2。

表2 MADDPG 算法中的網(wǎng)絡結(jié)構(gòu)參數(shù)Table 2 Parameters of network structure in MADDPG algorithm
4.2.1 不同場景下的微網(wǎng)群經(jīng)濟性分析
為驗證本文設計的基于MADDPG與智能合約的微電網(wǎng)去中心化市場交易體系的實用性與經(jīng)濟性,對4種場景下的微網(wǎng)群交易結(jié)果進行對比分析。
場景1:微電網(wǎng)直接與配電網(wǎng)進行交易;
場景2:微電網(wǎng)之間優(yōu)先交易,但不采用智能合約下的MADDPG算法進行決策優(yōu)化;
場景3:50%的微網(wǎng)供需量由微網(wǎng)間優(yōu)先交易滿足,剩余供需量由微網(wǎng)與配網(wǎng)直接交易滿足,且采用智能合約下的MADDPG算法進行決策優(yōu)化;
場景4:微網(wǎng)供需量均由微網(wǎng)間優(yōu)先交易滿足,且采用智能合約下的MADDPG算法進行決策優(yōu)化。
表3所示為不同場景下各微網(wǎng)制定的價格策略及收益情況。
由表3可知,場景1下各微網(wǎng)收益及整個微網(wǎng)市場收益偏低,這是因為配網(wǎng)的回購電價偏低、銷售電價偏高,若微網(wǎng)與配網(wǎng)直接進行交易會導致各微網(wǎng)收益普遍偏低。場景2相比場景1多電微電網(wǎng)收益顯著提升,少電微電網(wǎng)收益變化不大,這是因為本文所設微電網(wǎng)初始報價與配網(wǎng)銷售電價差別不大,但遠高于配網(wǎng)回購電價,若微電網(wǎng)之間優(yōu)先交易,各微網(wǎng)間的成交電價均高于配網(wǎng)回購電價、接近于配網(wǎng)銷售電價,導致多電微電網(wǎng)收益遠高于場景1、少電微電網(wǎng)收益與場景1相差不大;場景2整個微網(wǎng)市場收益仍要高于場景1,這說明微網(wǎng)間優(yōu)先交易可通過促進微網(wǎng)間電能消納提升微網(wǎng)市場的經(jīng)濟性。由于深度強化學習過程中各微電網(wǎng)收益均受其他智能體策略影響,難以獨自提高自身收益,隨著博弈的進行,各微網(wǎng)會通過調(diào)整報價策略改變整個市場收益分配情況,場景3中各微網(wǎng)報價相較于場景2做了一些調(diào)整,經(jīng)報價調(diào)整,少電微電網(wǎng)收益有所提高,但由于僅50%的微網(wǎng)供需量由微網(wǎng)間優(yōu)先交易滿足,該場景下的整體微網(wǎng)市場收益高于場景1但低于場景2。場景4全部的微網(wǎng)供需量由微網(wǎng)間優(yōu)先交易滿足,導致微網(wǎng)報價策略調(diào)整幅度大于場景3,從而使微網(wǎng)1、微網(wǎng)2與微網(wǎng)4收益顯著上升,但微網(wǎng)3因電量缺額量較大,不管在什么情況下總有一部分電量從配網(wǎng)處購入,微網(wǎng)3收益變化不大;此外,訓練過程中系統(tǒng)在平衡收益分配情況的同時也在提高整個微網(wǎng)市場收益,故場景4下微網(wǎng)市場總收益上升為-53.875元。

表3 不同場景下各微網(wǎng)制定的價格策略及收益Table 3 The price strategy and revenue of each microgrid in different scenarios
場景3、場景4強化學習過程中各市場主體的累計獎勵值變化曲線及整個市場的累計獎勵值變化曲線分別如圖3、4所示。通過對圖3、4分析可知,訓練初始階段算法對新環(huán)境探索不完全,多微電網(wǎng)系統(tǒng)尚未學習到最優(yōu)的動作策略,故兩種場景下微網(wǎng)3和微網(wǎng)4的累計獎勵值明顯低于微網(wǎng)1和微網(wǎng)2的累計獎勵值,系統(tǒng)收益分配不均,且整個市場的累計獎勵值較低,并處于波動狀態(tài)。當訓練回合數(shù)增加到1 000次時,各微電網(wǎng)的累計獎勵值逐漸靠近,整個微電網(wǎng)市場的累計獎勵值逐漸上升,表明多微電網(wǎng)系統(tǒng)在不斷學習的過程中會積累一定經(jīng)驗,導致交易主體在確定交易策略時能做出合理的決策。當訓練回合數(shù)增加到1 000次后,場景4中各微網(wǎng)及整個市場的累計獎勵值趨于平緩,且呈收斂趨勢,但場景3中存在一個較大的波動,當訓練回合數(shù)為1 500次后才整體趨于平緩,這是因為場景3中不同報價下微網(wǎng)間的交易量以及微網(wǎng)與配網(wǎng)的直接交易量總是在不斷變化,導致MADDPG算法對新環(huán)境進行探索時具有更強的隨機性,且受訓練過程超參數(shù)的影響,1 300回合處該隨機性體現(xiàn)地尤為明顯。兩種場景下累計獎勵值趨于平緩后仍存在一定波動,這是由于訓練過程中存在隨機噪聲,訓練時任何時刻都存在振蕩現(xiàn)象。此外,場景4各微網(wǎng)及整個市場趨于平緩后的累計獎勵值均大于場景3趨于平緩后的累計獎勵值,表明微網(wǎng)間優(yōu)先交易的交易方式能有效提高各微網(wǎng)及整個微網(wǎng)市場的經(jīng)濟性。

圖3 場景3中訓練累計獎勵值變化曲線Fig.3 The curve of training cumulative reward value in scenario 3

圖4 場景4中訓練累計獎勵值變化曲線Fig.4 The curve of training cumulative reward value in scenario 4
4.2.2 平均發(fā)電成本與信譽值對微網(wǎng)收益的影響
驗證了場景4所用方法的實用性與經(jīng)濟性后,分析場景4下平均發(fā)電成本與信譽值對微電網(wǎng)收益的影響:以微網(wǎng)1為例,其他條件保持不變,分別改變微網(wǎng)1的平均發(fā)電成本及信譽值,得到訓練過程中微網(wǎng)1的平均累計獎勵值變化情況,如圖5所示。
從圖5中可以看出,隨著平均發(fā)電成本的增加,微網(wǎng)1的平均累計獎勵值呈下降趨勢,這表明由于平均發(fā)電成本增加后會使微電網(wǎng)發(fā)電成本增加,即使多微電網(wǎng)系統(tǒng)能通過學習訓練對各主體策略進行優(yōu)化,還是會導致微電網(wǎng)的收益下降;隨著信譽值的增加,微網(wǎng)1的平均累計獎勵值呈上升趨勢,且上升幅度較大,這表明信譽值增加后微電網(wǎng)需要支付的違約成本降低,收益增加,多智能體深度強化學習過程無法通過優(yōu)化微網(wǎng)報價策略完全改善微電網(wǎng)因信譽值下降導致收益受損的情況。

圖5 微網(wǎng)1平均累計獎勵值變化情況Fig.5 Changes in the average cumulative reward value of microgrid 1
4.2.3 MADDPG算法性能評估
DDPG算法中每個智能體僅能觀測到自身狀態(tài)與所執(zhí)行的動作,而MADDPG算法學習過程中使用的是全局信息,采用DDPG算法對場景4下微電網(wǎng)智能體進行訓練后得到各市場主體的累計獎勵值變化曲線及整個市場的累計獎勵值變化曲線,如圖6所示。

圖6 DDPG算法下訓練累計獎勵值變化曲線Fig.6 The curve of training cumulative reward value under DDPG algorithm
從圖6可以看出隨著訓練次數(shù)的增多,多微電網(wǎng)系統(tǒng)的累計獎勵值呈上升趨勢,但對比圖4可以發(fā)現(xiàn)DDPG算法在訓練到1 500回合后累計獎勵值才開始趨于平穩(wěn),且訓練初始階段累計獎勵值波動性較大,訓練到3 500回合處累計獎勵值又開始下降。這是因為多微電網(wǎng)市場交易環(huán)境變化較大,若對每個微電網(wǎng)采用DDPG算法,在第i個微電網(wǎng)做出動作時由于其余微電網(wǎng)的動作未知,會導致第i個微電網(wǎng)獎勵值不穩(wěn)定,且受采樣規(guī)模及經(jīng)驗回放池規(guī)模大小的影響,即使各微網(wǎng)累計獎勵值在一段時間內(nèi)趨于平穩(wěn),在訓練回合數(shù)到達一定值后,仍會出現(xiàn)訓練性能變差的可能性。與DDPG算法對比,MADDPG算法整體呈上升收斂趨勢,沒有明顯的波動變化趨勢,說明了MADDPG比DDPG算法具有更強的穩(wěn)定性和更快的收斂性,DDPG算法在多智能體環(huán)境中容易出現(xiàn)由于無法獲取足夠信息導致訓練效果不好的問題。MADDPG算法得到的微電網(wǎng)市場平均累計獎勵值為-3 100.95,而DDPG算法得到的微電網(wǎng)市場平均累計獎勵值為-3 323.7,這說明采用MADDPG算法對智能合約下的微電網(wǎng)交易決策進行優(yōu)化要比DDPG算法更能提高整個微網(wǎng)市場的收益。
本文提出了智能合約下的微電網(wǎng)去中心化交易機制,并將基于MADDPG算法的微電網(wǎng)競價模型應用到該機制的交易確認階段,通過市場主體電量/電價的動態(tài)博弈解決完全信息環(huán)境下微電網(wǎng)的交易決策優(yōu)化問題,仿真結(jié)果表明:
1)基于MADDPG算法與智能合約的微電網(wǎng)去中心化市場交易體系可保證微電網(wǎng)市場主體合理的收益分配,在完全信息環(huán)境中通過反復探索與試錯有效提高微電網(wǎng)市場的整體收益。
2)微電網(wǎng)在市場交易過程中可通過改變風光平均發(fā)電成本、信譽值等調(diào)控手段,提高自身收益。
3)將MADDPG算法應用于微電網(wǎng)交易決策優(yōu)化相對于DDPG算法具有更快的收斂速度與更高的學習效率。
本文側(cè)重于研究MADDPG算法在智能合約交易確認階段對微電網(wǎng)市場主體決策優(yōu)化的實用性,后續(xù)可對智能合約環(huán)境下整套微電網(wǎng)去中心化交易流程中部署的相關機制進行改進。