考慮電動(dòng)汽車充放電的智慧社區(qū)強(qiáng)化學(xué)習(xí)能源優(yōu)化調(diào)度策略

2023-11-23 10:56:08李擎王歲寧崔家瑞楊旭閻群馬文雨

科學(xué)技術(shù)與工程 2023年30期

李擎,王歲寧,崔家瑞,楊旭,閻群,馬文雨

(北京科技大學(xué)自動(dòng)化學(xué)院,北京 100083)

隨著全球經(jīng)濟(jì)的快速發(fā)展和人口增長(zhǎng),能源供應(yīng)成為一個(gè)世界范圍內(nèi)的重要問(wèn)題。2021年 3月 11日,十三屆全國(guó)人大四次會(huì)議表決通過(guò)了關(guān)于國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和 2035 年遠(yuǎn)景目標(biāo)綱要的決議。“十四五”規(guī)劃第五篇第十八章專欄九提出建設(shè)智慧社區(qū)[1]。作為智慧城市的重要組成部分[2],其能源系統(tǒng)的運(yùn)行成本降低對(duì)于提高能源利用效率和減輕發(fā)電廠的運(yùn)行壓力具有重要意義[3-4]。

目前,中外學(xué)者提出了多種智慧社區(qū)能源系統(tǒng)模型,實(shí)現(xiàn)了智慧社區(qū)能源系統(tǒng)的能源運(yùn)行優(yōu)化。文獻(xiàn)[5]改進(jìn)了風(fēng)力發(fā)電系統(tǒng)的有功功率概率模型,探討了具有主動(dòng)控制能力的光伏發(fā)電系統(tǒng)的概率特性,建立了主動(dòng)配電網(wǎng)可控分布式發(fā)電的概率模型。文獻(xiàn)[6]提出了一個(gè)由多種可再生能源和地?zé)嵯到y(tǒng)組成的智慧社區(qū)模型,為用戶提供電、暖、生活熱水和淡水等資源。文獻(xiàn)[7]考慮將電動(dòng)汽車作為重要的主動(dòng)負(fù)荷并加入能源系統(tǒng)模型中,合理引導(dǎo)充電以促進(jìn)能源系統(tǒng)的高效運(yùn)行。

建立系統(tǒng)模型后,還需要在系統(tǒng)層對(duì)智慧社區(qū)進(jìn)行能源優(yōu)化調(diào)度。近年來(lái),強(qiáng)化學(xué)習(xí)算法為能源優(yōu)化調(diào)度提供了新思路。文獻(xiàn)[8]提出了一種使用縱向聯(lián)邦學(xué)習(xí)技術(shù)訓(xùn)練方法改進(jìn)的深度Q網(wǎng)絡(luò)(deep Q network,DQN)管理方法,以提升模型訓(xùn)練效率并優(yōu)化經(jīng)濟(jì)效益。文獻(xiàn)[9]提出了一種雙層強(qiáng)化學(xué)習(xí)模型,上層為強(qiáng)化學(xué)習(xí)智能體,下層為線性優(yōu)化求解器,通過(guò)簡(jiǎn)化動(dòng)作和獎(jiǎng)勵(lì)設(shè)計(jì),提高了強(qiáng)化學(xué)習(xí)算法的訓(xùn)練速度和收斂性能。文獻(xiàn)[10]考慮各單元組件的響應(yīng)優(yōu)先級(jí),采用具有經(jīng)驗(yàn)池的異步優(yōu)勢(shì)演員評(píng)論家(memory A3C,M-A3C)解決多線程資源優(yōu)先級(jí)分配問(wèn)題,提高了學(xué)習(xí)效率,降低了運(yùn)行成本。文獻(xiàn)[11]提出了一種基于隨機(jī)動(dòng)態(tài)規(guī)劃的在線算法,考慮電動(dòng)汽車和柔性熱負(fù)荷的不確定性,解決了綜合能源建筑的能源管理問(wèn)題。文獻(xiàn)[12]提出了一種充電算法(customized actor-critic learning charging,CALC),在電動(dòng)汽車到達(dá)時(shí)間、出發(fā)時(shí)間和充電需求等未知情況下,通過(guò)降低狀態(tài)維度和提高計(jì)算效率,降低了充電成本。文獻(xiàn)[13]提出了一種多智能體深度強(qiáng)化學(xué)習(xí)方法,根據(jù)電動(dòng)汽車相關(guān)信息和儲(chǔ)能系統(tǒng)的狀態(tài)等動(dòng)態(tài)數(shù)據(jù)分布式計(jì)算多個(gè)電動(dòng)汽車充電站的調(diào)度解,降低了電動(dòng)汽車充電站的運(yùn)行成本。文獻(xiàn)[14]提出了一種基于分布式近端策略優(yōu)化(distributed proximal policy optimization,DPPO)的分布式能源系統(tǒng)運(yùn)行優(yōu)化方法,實(shí)現(xiàn)了能源系統(tǒng)的經(jīng)濟(jì)性調(diào)度。

以上文獻(xiàn)對(duì)智慧社區(qū)能源系統(tǒng)的建模問(wèn)題進(jìn)行了深入廣泛的研究,然而,在實(shí)際應(yīng)用中,還需要考慮電動(dòng)汽車充放電行為的隨機(jī)性對(duì)系統(tǒng)負(fù)荷和供需平衡的影響。電動(dòng)汽車已成為智慧社區(qū)的重要組成部分,因此需要進(jìn)一步研究其在能源系統(tǒng)中的作用。現(xiàn)首先分析電動(dòng)汽車及各能源設(shè)備運(yùn)行機(jī)理,構(gòu)建新型智慧社區(qū)能源系統(tǒng)模型。其次分析新型智慧社區(qū)能源系統(tǒng)多種能源設(shè)備的能量耦合關(guān)系并將電動(dòng)汽車分為耗能組和儲(chǔ)能組,分別作為用電負(fù)荷和儲(chǔ)能設(shè)備參與系統(tǒng)運(yùn)行。再次考慮電動(dòng)汽車及各能源設(shè)備的非線性約束條件,基于深度雙Q網(wǎng)絡(luò)(double deep Q network,DDQN)提出考慮電動(dòng)汽車充放電的智慧社區(qū)能源優(yōu)化調(diào)度策略。為了最小化智慧社區(qū)能源系統(tǒng)的運(yùn)行成本,對(duì)DDQN進(jìn)行改進(jìn),重新設(shè)計(jì)算法的狀態(tài)空間、動(dòng)作空間以及獎(jiǎng)勵(lì)函數(shù),從而解決智慧社區(qū)能源系統(tǒng)的運(yùn)行優(yōu)化問(wèn)題。最后算例表明本優(yōu)化調(diào)度策略在降低智慧社區(qū)能源系統(tǒng)運(yùn)行成本方面的有效性和可行性。

1 智慧社區(qū)能源系統(tǒng)模型

傳統(tǒng)的模型無(wú)法解決電動(dòng)汽車充放電對(duì)智慧社區(qū)能源系統(tǒng)產(chǎn)生影響的問(wèn)題。因此,構(gòu)建了新型智慧社區(qū)能源系統(tǒng)模型,將電動(dòng)汽車作為儲(chǔ)能設(shè)備。如圖1所示,該系統(tǒng)由供能單元、能量轉(zhuǎn)換和儲(chǔ)能單元及用能單元構(gòu)成。其中,供能單元包括公共電網(wǎng)和太陽(yáng)能,為用戶提供能源;能量轉(zhuǎn)換和儲(chǔ)能單元包括光伏設(shè)備、電制熱設(shè)備、電制冷設(shè)備、蓄電池、蓄冷設(shè)備、蓄熱設(shè)備和儲(chǔ)能組電動(dòng)汽車,通過(guò)將電能轉(zhuǎn)化為其他能源和釋放儲(chǔ)存能源為用戶提供冷、熱、電3種能源;用能單元包括用戶冷、熱、電負(fù)荷和耗能組電動(dòng)汽車。其中,光伏設(shè)備、蓄電池、儲(chǔ)能組電動(dòng)汽車可以向電網(wǎng)回饋電能,從而降低系統(tǒng)運(yùn)行成本。

1.1 光伏設(shè)備能量模型

光伏設(shè)備發(fā)電功率根據(jù)當(dāng)前時(shí)刻垂直于陣列表面入射輻射功率Gt(t)和環(huán)境溫度Tamb(t)數(shù)據(jù)計(jì)算[15-16]。模型表示為

TC.STC)]NPV.SNPV.P

(1)

(2)

式中:Gt(t)和Tamb(t)分別為垂直于陣列表面入射的輻射功率和環(huán)境溫度;PPV.STC為標(biāo)準(zhǔn)試驗(yàn)條件下太陽(yáng)能板的標(biāo)稱功率;γ為功率折減系數(shù);TC(t)為工作條件下的電池溫度;TC.STC為標(biāo)準(zhǔn)試驗(yàn)條件下的電池溫度;NPV.S和NPV.P分別為串并聯(lián)的光伏電池?cái)?shù)量;NOCT為正常運(yùn)行時(shí)電池溫度。

1.2 蓄電池荷電狀態(tài)模型

蓄電池荷電狀態(tài)SOCBat(t)變化采用安時(shí)積分法通用公式計(jì)算。模型表示為

(3)

(4)

式中:SOCcha(t)、SOCdis(t)分別為t時(shí)刻充電、放電狀態(tài)荷電狀態(tài);Δt為時(shí)間間隔;η為充放電效率,0<η<1;Pcha(t)為充電功率;Pdis(t)為放電功率;Q為額定容量。

1.3 電動(dòng)汽車能量及數(shù)量模型

電動(dòng)汽車模型包括單輛電動(dòng)汽車充電量需求模型和數(shù)量模型[17-18]。在智慧社區(qū)能源系統(tǒng)中,將電動(dòng)汽車分為儲(chǔ)能組和耗能組,分別作為儲(chǔ)能設(shè)備和用電負(fù)荷參與智慧社區(qū)能源系統(tǒng)運(yùn)行優(yōu)化。其中,儲(chǔ)能組電動(dòng)汽車可以通過(guò)放電為用戶提供電能或向電網(wǎng)回饋電能,而耗能組電動(dòng)汽車僅進(jìn)行充電操作。電動(dòng)汽車分組策略流程如圖2所示。

圖2 電動(dòng)汽車分組策略流程圖

1.3.1 電動(dòng)汽車能量模型

基于文獻(xiàn)[17]中的概率模型,建立電動(dòng)汽車能量模型。單輛電動(dòng)汽車的每日行駛距離Md由式(5)計(jì)算,對(duì)數(shù)正態(tài)分布參數(shù)μm和σm由式(6)計(jì)算。

Md=exp(μm+σmN)

(5)

(6)

式中:N為標(biāo)準(zhǔn)正態(tài)變量;μMd和σMd分別為Md的均值和標(biāo)準(zhǔn)差。

單輛電動(dòng)汽車充電量需求DE為

(7)

(8)

式中:AE為每公里耗能;ME為最大行駛距離;CEV為電動(dòng)汽車額定容量。

單輛電動(dòng)汽車充電時(shí)間T遵循分布:

(9)

式(9)中:U服從區(qū)間(0,1)的均勻分布;Tmin為最低充電時(shí)間;Tmax為最高充電時(shí)間;Tμ為用戶平均充電時(shí)間。

單輛電動(dòng)汽車電流I計(jì)算公式為

(10)

式(10)中:V為充電樁電壓;Imax為最大充電電流。

則n輛電動(dòng)汽車充電需求P為

(11)

1.3.2 電動(dòng)汽車數(shù)量模型

基于文獻(xiàn)[17-18]中的概率模型,建立電動(dòng)汽車數(shù)量模型。假設(shè)電動(dòng)汽車的到達(dá)時(shí)間和充電持續(xù)時(shí)間是相互獨(dú)立的,均為泊松過(guò)程,則可使用排隊(duì)論中M/M/n/m/m排隊(duì)系統(tǒng)模型來(lái)描述其整個(gè)充電過(guò)程。其中第一個(gè)M表示電動(dòng)汽車到達(dá)的間隔時(shí)間,服從平均值為Tλ的指數(shù)分布,第二個(gè)M表示電動(dòng)汽車的充電時(shí)間,服從平均值為Tμ的指數(shù)分布,n表示同時(shí)充電的最大電動(dòng)汽車數(shù),第一個(gè)m表示隊(duì)列中等待充電的最大電動(dòng)汽車數(shù),第二個(gè)m表示潛在的需要充電的最大電動(dòng)汽車數(shù)。

根據(jù)排隊(duì)論,隊(duì)列中同時(shí)充電的電動(dòng)汽車數(shù)n服從離散分布,即

(12)

(13)

式中:c為同時(shí)充電的最大電動(dòng)汽車數(shù);Nmax為潛在的需要充電的最大電動(dòng)汽車數(shù);k為隊(duì)列中等待充電的最大電動(dòng)汽車數(shù);ρ為每臺(tái)充電樁的占用率,由式(13)計(jì)算。

利用式(12)離散分布產(chǎn)生每小時(shí)電動(dòng)汽車數(shù)量NEV,將電動(dòng)汽車分為兩組:儲(chǔ)能組電車數(shù)量NEV.Bat、耗能組電車數(shù)量NEV.LOAD。

1.3.3 儲(chǔ)能設(shè)備組電動(dòng)汽車能量模型

儲(chǔ)能組電動(dòng)汽車作為儲(chǔ)能設(shè)備使用,t時(shí)刻單輛電動(dòng)汽車荷電狀態(tài)SOCEV.Bat和儲(chǔ)能組總荷電狀態(tài)SOCEV模型為

(14)

式(14)中:DEV.Bat為單輛儲(chǔ)能組電動(dòng)汽車的充電需求;DEV.Bat.i為第i輛儲(chǔ)能組電動(dòng)汽車的充電需求,由式(7)和式(8)計(jì)算。

單輛電動(dòng)汽車荷電狀態(tài)SOCEV.Bat(t)變化由式(15)和式(16)計(jì)算。

SOCEV.Bat.cha(t+Δt)=SOCEV.Bat.cha(t)+

(15)

SOCEV.Bat.dis(t+Δt)=SOCEV.Bat.dis(t)-

(16)

式中:SOCEV.Bat.cha(t)、SOCEV.Bat.dis(t)充電、放電狀態(tài)單輛電動(dòng)汽車荷電狀態(tài);Δt為時(shí)間間隔;PEV.cha(t)和PEV.dis(t)分別為儲(chǔ)能組電動(dòng)汽車充電功率和放電功率;ηEV.cha和ηEV.dis分別為儲(chǔ)能電動(dòng)汽車充電效率和放電效率,取決于電池性能。

1.3.4 耗能設(shè)備組電動(dòng)汽車能量模型

耗能設(shè)備組全部作為用電負(fù)荷加入用能單元,耗能組單輛電動(dòng)汽車充電需求DEV.LOAD由式(7)和式(8)計(jì)算,充電時(shí)間TEV.LOAD遵循分布式(9),單輛電動(dòng)汽車充電電流IEV.LOAD由式(10)計(jì)算,b輛耗能組電動(dòng)汽車總充電功率由式(11)計(jì)算。

1.4 制冷設(shè)備及制熱設(shè)備通用能量模型

制冷設(shè)備、制熱提供的輸出功率主要取決于能效比ηE,計(jì)算公式為

POut(t)=ηEPIn(t)

(17)

式(17)中:PIn(t)為設(shè)備的輸入電功率;POut(t)為輸出功率;ηE為轉(zhuǎn)化效率。

1.5 蓄冷及蓄熱設(shè)備通用模型

蓄能設(shè)備可用于儲(chǔ)存冷、熱能兩種能源,其剩余能量QCool(t)、QHeat(t)如式(18)和式(19)計(jì)算。蓄能計(jì)算公式、釋能計(jì)算公式[19]為

Qe.in(t+Δt)=Qe.in(t)(1-μQ.in)+

ηinPin(t)Δt

(18)

Qe.out(t+Δt)=Qe.out(t)(1-μQ.out)-

(19)

式中:Qe.in(t)、Qe.out(t)為t時(shí)刻設(shè)備中蓄能、釋能狀態(tài)剩余能量;Δt為時(shí)間間隔;μQ.in、μQ.out分別為蓄釋能自損失率;Pin(t)、Pout(t)分別為蓄釋熱功率;ηin、ηout分別為蓄釋能效率。

2 目標(biāo)函數(shù)及設(shè)備約束條件

2.1 目標(biāo)函數(shù)

考慮電動(dòng)汽車作為儲(chǔ)能設(shè)備的新型智慧社區(qū)能源優(yōu)化調(diào)度模型以最小化系統(tǒng)總運(yùn)行成本作為目標(biāo)函數(shù)。

EGrid.User(t)+ECool(t)+EHeat(t)]+

r2(t)EGrid.EV(t)-{s1EPV.Grid(t)+

s2(t)[EBat.Grid.dis(t)+EEV.Grid.dis(t)]}

(20)

式(20)中:r1(t)為從電網(wǎng)購(gòu)電價(jià)格;r2(t)為電動(dòng)汽車充電樁的購(gòu)電價(jià)格;s1為光伏電出售價(jià)格;s2(t)用戶儲(chǔ)存電能出售價(jià)格;EGrid.Bat.cha(t)為電網(wǎng)供電池充電的電量;EGrid.User(t)為用戶購(gòu)電電量;ECool(t)為制冷設(shè)備耗電電量;EHeat(t)為制熱設(shè)備耗電電量;EGrid.EV(t)為電動(dòng)汽車充電的電量;EPV.Grid(t)為光伏上網(wǎng)發(fā)電電量;EBat.Grid.dis(t)為電池上網(wǎng)放電電量;EEV.Grid.dis(t)為電動(dòng)汽車上網(wǎng)放電電量。

電量計(jì)算公式為

E(t)=P(t)Δt

(21)

式(21)中:P(t)為功率。

2.2 光伏設(shè)備約束條件

光伏發(fā)電功率平衡條件為

PPV(t)=PPV.User(t)+PPV.Bat.cha(t)+

PPV.Grid(t)+PPV.loss(t)

(22)

發(fā)電功率范圍為

0≤PPV(t)≤PPV.max

(23)

式中:PPV.User(t)為光伏供給用戶的功率;PPV.Bat.cha(t)為光伏供電池充電的功率;PPV.Grid(t)為光伏上網(wǎng)發(fā)電功率;PPV.loss(t)為發(fā)電損耗;PPV.max(t)為光伏設(shè)備發(fā)電最大值。

2.3 蓄電池約束條件

因?yàn)槲锢硪蛩?蓄電池荷電狀態(tài)及充放電功率存在實(shí)際范圍,其荷電狀態(tài)約束及功率約束為

(24)

SOCBat.min≤SOCBat(t)≤SOCBat.max

(25)

式中:SOCBat.min為最低荷電狀態(tài);SOCBat.max為最高荷電狀態(tài);PBat.cha.min和PBat.cha.max分別為蓄電池充電功率最大最小值;PBat.dis.min和PBat.dis.max分別為蓄電池放電功率最大最小值。

蓄電池功率平衡條件為

(26)

式(26)中:UBat.cha(t)、UBat.dis(t)分別為蓄電池的充、放電開(kāi)關(guān)變量,只能為1或0,約束電池不能同時(shí)充放電;PGrid.Bat.cha(t)為電網(wǎng)供電池充電功率;PBat.EV.dis(t)為電池供電動(dòng)汽車的功率;PBat.User.dis(t)為電池供用戶的功率;PBat.Grid.dis(t)為電池上網(wǎng)放電功率。

2.4 儲(chǔ)能設(shè)備組電動(dòng)汽車約束條件

因?yàn)槲锢硪蛩?電動(dòng)汽車荷電狀態(tài)及充放電功率存在實(shí)際范圍,其荷電狀態(tài)約束及功率約束為

(27)

SOCEV.min≤SOCEV(t)≤SOCEV.max

(28)

式中:SOCEV.min為最低荷電狀態(tài);SOCEV.max為最高荷電狀態(tài);PEV.cha.min和PEV.cha.max分別為單輛電動(dòng)汽車充電功率最大最小值;PEV.dis.min和PEV.dis.max分別為單輛電動(dòng)汽車放電功率最大最小值。

儲(chǔ)能組電動(dòng)汽車總放電功率及總充電功率計(jì)算為

(29)

式(29)中:PEV.dis.all(t)為儲(chǔ)能組電車總放電功率;PEV.cha.all(t)為儲(chǔ)能組電車總充電功率;N1、N2分別為進(jìn)行放和充電操作的電動(dòng)汽車數(shù);PEV.dis.i1(t)為第i1輛儲(chǔ)能組電車的放電功率;PEV.dis.i2(t)為第i2輛儲(chǔ)能組電車的充電功率。

儲(chǔ)能設(shè)備組電動(dòng)汽車放電功率平衡條件為

PEV.dis.all(t)=PEV.User.dis(t)+PEV.Grid.dis(t)

(30)

式(30)中:PEV.User.dis(t)為儲(chǔ)能設(shè)備組電動(dòng)汽車供用戶的功率;PEV.Grid.dis(t)為電動(dòng)汽車上網(wǎng)放電功率。

2.5 用戶電功率約束條件

用戶功率平衡條件如式(31)所示,該約束條件用于計(jì)算用戶電網(wǎng)購(gòu)電功率PGrid.User(t)。

PLOAD(t)=PGrid.User(t)+PPV.User(t)+

PBat.User.dis(t)+PEV.User.dis(t)

(31)

式(31)中:PLOAD(t)為用戶需求;PGrid.User(t)為購(gòu)電功率。

2.6 制冷設(shè)備及制熱設(shè)備功率約束條件

因?yàn)槲锢硪蛩?制冷及制熱設(shè)備輸出功率存在范圍,即

(32)

式(32)中:PCool.max、PHeat.max分別為制冷、制熱設(shè)備的最大輸出功率。

制冷及制熱設(shè)備功率平衡條件為

(33)

式(33)中:PCool(t)為制冷設(shè)備輸出功率;PHeat(t)為制熱設(shè)備輸出功率;PCool.LOAD(t)為用戶冷負(fù)荷需求功率;PHeat.LOAD(t)為用戶熱負(fù)荷需求功率;PCool.Store.in(t)為蓄冷設(shè)備蓄冷功率;PHeat.Store.in(t)為蓄熱設(shè)備蓄熱功率;PCool.Store.out(t)為蓄冷設(shè)備釋冷功率;PHeat.Store.out(t)為蓄熱設(shè)備釋熱功率。

2.7 蓄冷及蓄熱設(shè)備約束條件

因?yàn)槲锢硪蛩?儲(chǔ)能設(shè)備存儲(chǔ)的能量存在范圍,且不能同時(shí)進(jìn)行蓄、釋能,其約束條件為

(34)

式(34)中:Qe(t)為儲(chǔ)能設(shè)備剩余能量;Qe.min、Qe.max分別為儲(chǔ)能設(shè)備剩余能量的上、下限。

3 基于深度強(qiáng)化學(xué)習(xí)的智慧社區(qū)能源優(yōu)化調(diào)度策略

在智慧社區(qū)能源系統(tǒng)運(yùn)行過(guò)程中未來(lái)的系統(tǒng)狀態(tài)演變與其歷史決策無(wú)關(guān),僅與當(dāng)前時(shí)刻系統(tǒng)狀態(tài)和采取的決策有關(guān),因此智慧社區(qū)能源系統(tǒng)具有馬爾科夫性,智能體的決策過(guò)程可以表示為馬爾科夫決策過(guò)程(Markov decision process,MDP)。MDP模型可用一個(gè)五元組{S,A,O,R,λ}表示,其中S為狀態(tài)空間;A為動(dòng)作空間;O為狀態(tài)轉(zhuǎn)移矩陣;R為獎(jiǎng)勵(lì);λ為折扣因子。智能體與智慧社區(qū)系統(tǒng)環(huán)境交互產(chǎn)生學(xué)習(xí)數(shù)據(jù),并在決策與演變過(guò)程中根據(jù)算法迭代學(xué)習(xí)產(chǎn)生最優(yōu)策略。

3.1 狀態(tài)空間設(shè)計(jì)

狀態(tài)空間應(yīng)盡可能使用對(duì)決策產(chǎn)生重要影響的因素,就本系統(tǒng)而言智能體通過(guò)觀測(cè)智慧社區(qū)能源系統(tǒng)的狀態(tài)對(duì)各設(shè)備的運(yùn)行進(jìn)行最優(yōu)決策。因此,系統(tǒng)的狀態(tài)空間S可以表示為

S=[PPV(t),PLOAD(t),PCool.LOAD(t),

PHeat.LOAD(t),QCool(t),QHeat(t),SOCBat(t),SOCEV(t),NEV(t),PEV.LOAD(t)]

(35)

3.2 動(dòng)作空間設(shè)計(jì)

為實(shí)現(xiàn)智慧社區(qū)能源優(yōu)化調(diào)度,動(dòng)作空間的各分量能夠?qū)崿F(xiàn)智慧社區(qū)儲(chǔ)能設(shè)備、產(chǎn)能設(shè)備和耗能設(shè)備之間的交互運(yùn)行,由儲(chǔ)能設(shè)備的蓄能功率、儲(chǔ)能設(shè)備及產(chǎn)能設(shè)備對(duì)耗能設(shè)備的供能功率表示。

因此,系統(tǒng)的動(dòng)作空間可表示為

A=[PPV.User(t),PPV.Bat.cha(t),PPV.Grid(t),

PBat.User.dis(t),PBat.Grid.dis(t),PBat.EV.dis(t),

PGrid.Bat.cha(t),PEV.cha(t),PEV.User.dis(t),

PEV.Grid.dis(t),PCool.Store.out(t),PHeat.Store.out(t),

PCool.Store.in(t),PHeat.Store.in(t)]

(36)

3.3 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

智慧社區(qū)能源優(yōu)化調(diào)度的目標(biāo)是在滿足用戶用能需求的基礎(chǔ)上最小化運(yùn)行成本,而強(qiáng)化學(xué)習(xí)會(huì)通過(guò)訓(xùn)練以獲得更大的獎(jiǎng)勵(lì),因此,獎(jiǎng)勵(lì)函數(shù)Rt表示為當(dāng)前用戶成本的負(fù)數(shù):

Rt(st,at)=-{r1(t)[EGrid.Bat.cha(t)+EGrid.User(t)+ECool(t)+EHeat(t)]+r2(t)EGrid.EV(t)-s2(t)[EBat.Grid.dis(t)+EEV.Grid.dis(t)]}

(37)

式(37)中:r1(t)為從電網(wǎng)購(gòu)電價(jià)格;r2(t)為電動(dòng)汽車充電樁的購(gòu)電價(jià)格;s1為光伏電出售價(jià)格;s2(t)用戶儲(chǔ)存電能出售價(jià)格。

3.4 DDQN強(qiáng)化學(xué)習(xí)算法

DDQN是一種基于價(jià)值迭代的深度強(qiáng)化學(xué)習(xí)算法。首先,隨機(jī)初始化Q網(wǎng)絡(luò)Q(θ)和Q-target網(wǎng)絡(luò)Q′(θ′),兩者的初始化參數(shù)相同,即θ=θ′,并設(shè)定訓(xùn)練的回合M和Q-target網(wǎng)絡(luò)的更新間隔N。更新策略為貪婪策略ε-greedy。選擇動(dòng)作at后,智能體從開(kāi)始狀態(tài)St到達(dá)新?tīng)顟B(tài)St+1,獲得即時(shí)獎(jiǎng)勵(lì)Rt和回合結(jié)束標(biāo)志done,并將樣本(St,at,St+1,done)存入經(jīng)驗(yàn)池中。接著,從經(jīng)驗(yàn)池中隨機(jī)抽取一個(gè)批次的樣本進(jìn)行訓(xùn)練并更新Q網(wǎng)絡(luò)的參數(shù)。當(dāng)檢測(cè)到回合結(jié)束標(biāo)志時(shí),結(jié)束當(dāng)前回合并開(kāi)始下一回合,不斷重復(fù)上述訓(xùn)練過(guò)程直到設(shè)定的訓(xùn)練回合數(shù)M。其中,Q-target網(wǎng)絡(luò)更新采用硬更新的方法,即每隔一段訓(xùn)練步數(shù)N,將Q網(wǎng)絡(luò)的參數(shù)直接復(fù)制給Q-target網(wǎng)絡(luò)。目標(biāo)值qtarget(S,a)計(jì)算及參數(shù)更新公式為

(38)

θ=θ-μ?{∑[qtarget-Q(St,at,θ)]2}

(39)

DDQN算法的更新過(guò)程如圖3所示。

圖3 DDQN算法流程

4 結(jié)果分析

4.1 系統(tǒng)構(gòu)成及參數(shù)問(wèn)題

本文算例中智慧社區(qū)設(shè)備參數(shù)參考文獻(xiàn)[19-20],社區(qū)用戶100戶,用戶某日24 h電負(fù)荷、冷負(fù)荷、熱負(fù)荷、光照輻射度和溫度數(shù)據(jù)均來(lái)自北京某小區(qū),時(shí)間尺度1 h。電動(dòng)汽車充電電價(jià)參考北京市電動(dòng)汽車收費(fèi)標(biāo)準(zhǔn),其中谷時(shí)段為23:00—07:00,平時(shí)段為08:00—10:00、16:00—18:00、22:00,峰時(shí)段為11:00—15:00、19:00—21:00,如表1所示。用戶購(gòu)電分時(shí)電價(jià)如表2所示,其中谷時(shí)段為23:00—06:00,平時(shí)段為07:00—09:00、12:00—18:00,峰時(shí)段為10:00—11:00、19:00—22:00,儲(chǔ)能設(shè)備向電網(wǎng)出售電能時(shí)出售價(jià)格設(shè)定為0.45元/(kW·h),大于兩者谷時(shí)電價(jià)且低于兩者平時(shí)電價(jià)。發(fā)電機(jī)單位有功出力的碳排放分配額取為0.798 t/(MW·h),碳交易價(jià)格取52.78元/t,其中每戶的用電容量在kW級(jí),用戶電負(fù)荷峰值150 kW,冷負(fù)荷峰值201 kW,熱負(fù)荷峰值67.2 kW,PV安裝容量在用電容量的0.5～2倍。儲(chǔ)能設(shè)備的容量為可在無(wú)發(fā)電情況下滿足4 h左右的用電需求。光伏設(shè)備裝機(jī)容量148.5 kW。每戶1輛電動(dòng)汽車,每輛電動(dòng)汽車容量213.6 Ah,充電樁規(guī)格為220 V/32 A直流充電樁,數(shù)量30個(gè)。考慮到電動(dòng)汽車充電需求,蓄電池裝機(jī)容量480 kW,制冷設(shè)備裝機(jī)容量220 kW,蓄冷設(shè)備裝機(jī)容量500 kW,制熱設(shè)備裝機(jī)容量70 kW,蓄熱設(shè)備裝機(jī)容量120 kW。

表1 電動(dòng)汽車充電分時(shí)電價(jià)

表2 用戶購(gòu)電分時(shí)電價(jià)

算法超參數(shù)設(shè)置:batchsize為64;學(xué)習(xí)率為0.001;神經(jīng)網(wǎng)絡(luò)設(shè)置為兩個(gè)隱含層;神經(jīng)元數(shù)分別為100,100;訓(xùn)練回合數(shù)為4 500;折扣因子γ=0.99;為保證算法收斂后仍有探索性,ε從0.99衰減至0.01。

圖4給出了智慧社區(qū)24 h輻射溫度的變化情況。在白天,輻射度和溫度都比較高,中午時(shí)達(dá)到頂峰;夜晚,輻射度幾乎為0,溫度約為20 ℃。圖5給出了用戶需求變化的曲線,3種負(fù)荷變化趨勢(shì)各具特點(diǎn)。用戶冷負(fù)荷需求在中午達(dá)到峰值,之后逐漸下降;熱負(fù)荷需求在0:00—16:00時(shí)較小,在夜晚時(shí)較大;而電負(fù)荷需求變化較為復(fù)雜,出現(xiàn)了多個(gè)用電高峰。

圖4 輻射度溫度變化曲線

圖5 用戶負(fù)荷需求變化曲線

4.2 優(yōu)化調(diào)度策略

智慧社區(qū)能源系統(tǒng)包含公共電網(wǎng)、光伏設(shè)備、蓄電池、電動(dòng)汽車、制冷設(shè)備、制熱設(shè)備、蓄冷設(shè)備和蓄熱設(shè)備,按照電動(dòng)汽車充放電模式設(shè)計(jì)3種運(yùn)行策略。

(1)策略1:電動(dòng)汽車無(wú)序充電:所有電動(dòng)汽車僅進(jìn)行充電操作,直至充電到100%。

(2)策略2:電動(dòng)汽車智能充電:考慮正在充電的電動(dòng)汽車中有50%用戶不參與智能充電策略。在智能充電策略下,系統(tǒng)首先滿足所有用戶的基本需求即電動(dòng)汽車荷電狀態(tài)不低于80%。然后,根據(jù)系統(tǒng)策略選擇電動(dòng)汽車是否繼續(xù)充電到100%。

(3)策略3:電動(dòng)汽車智能充放電:考慮正在充電的電動(dòng)汽車中有50%用戶不參與智能充放電策略。在智能充放電策略下,系統(tǒng)首先滿足所有用戶的基本需求即電動(dòng)汽車荷電狀態(tài)不低于80%。然后,根據(jù)系統(tǒng)策略選擇電動(dòng)汽車?yán)^續(xù)充電或放電。

4.3 優(yōu)化調(diào)度策略結(jié)果分析

4.3.1 不同策略運(yùn)行結(jié)果對(duì)比

為了測(cè)試所提出的策略在降低智慧社區(qū)能源系統(tǒng)運(yùn)行成本方面的能力,測(cè)試了在3種策略下使用DDQN算法的性能,并獲得了訓(xùn)練過(guò)程總運(yùn)行成本隨訓(xùn)練回合數(shù)的變化曲線,如圖6所示。DDQN智能體更新采取貪婪策略,訓(xùn)練初期經(jīng)驗(yàn)池樣本較少且ε較大,智能體通過(guò)與環(huán)境交互不斷挖掘樣本數(shù)據(jù)并存入經(jīng)驗(yàn)池。隨著訓(xùn)練的進(jìn)行,智能體積累經(jīng)驗(yàn),獎(jiǎng)勵(lì)值增大直至收斂。將ε最小值設(shè)置為0.01,保證算法在收斂后仍然具有探索性。

圖6 總運(yùn)行成本變化曲線

從圖6可以看出隨著訓(xùn)練的進(jìn)行,3種策略下模型均收斂至最優(yōu)。策略1下總運(yùn)行成本大約在 1 300 回合收斂至2 257.41元;策略2下總運(yùn)行成本大約在1 500回合收斂至1 891.26元;策略3下總運(yùn)行成本大約在1 500回合收斂至1 455.41元。策略3與其他兩種策略相比動(dòng)作空間更復(fù)雜,全局尋優(yōu)難度更大,但收斂速度相差不大,并且能夠獲得更低的總運(yùn)行成本。

為比較最優(yōu)策略下3種方案在降低系統(tǒng)運(yùn)行成本方面的效果,建立如表3所示不同方案優(yōu)化結(jié)果表格。可以看出,方案3的總運(yùn)行成本相對(duì)于方案1和方案2分別降低了802元與435.85元。從表3中可以看出,方案3電動(dòng)汽車總運(yùn)行成本相對(duì)于方案1和方案2分別降低了469.98元與182.9元,分別占總成本減少量的58.6%與41.96%。方案2的總運(yùn)行成本相對(duì)于方案1降低了336.15元,電動(dòng)汽車總運(yùn)行成本降低了287.08元,占總成本減少量的85.4%。方案3相對(duì)于方案1和方案2電動(dòng)汽車總運(yùn)行成本減少量占比與方案2相對(duì)于方案1相比更低,而總運(yùn)行成本降低更多,由此說(shuō)明方案3通過(guò)將電動(dòng)汽車作為儲(chǔ)能設(shè)備使用能夠有效降低總運(yùn)行成本。方案3的碳排放量相對(duì)于方案1和方案2分別降低了902.84 t與409.04 t,碳交易成本分別降低了47 651.94元與21 589.13元。綜上反映了本文考慮將電動(dòng)汽車作為儲(chǔ)能設(shè)備充放電策略在低碳與經(jīng)濟(jì)運(yùn)行方面的優(yōu)越性和有效性。

表3 不同方案優(yōu)化結(jié)果

4.3.2 策略3運(yùn)行結(jié)果分析

為詳細(xì)分析策略3對(duì)智慧社區(qū)能源系統(tǒng)的運(yùn)行優(yōu)化調(diào)度過(guò)程,繪制智慧社區(qū)能源系統(tǒng)在1 h時(shí)間尺度下的電量、熱量和冷量的優(yōu)化調(diào)度結(jié)果如圖7所示。從圖7(a)可以看出,在電價(jià)谷時(shí)段和平時(shí)段,系統(tǒng)儲(chǔ)存冷能,在峰時(shí)段釋放冷能以降低運(yùn)行成本,并滿足用戶的冷能需求。例如,在10:00—11:00和19:00—20:00這兩個(gè)峰時(shí)段,系統(tǒng)釋放了儲(chǔ)存的冷能來(lái)滿足用戶的需求。從圖7(b)可以看出,在電價(jià)谷時(shí)段和平時(shí)段,系統(tǒng)購(gòu)電產(chǎn)熱以滿足用戶的熱負(fù)荷需求,并儲(chǔ)存熱能,在峰時(shí)段釋放熱能來(lái)滿足用戶的熱能需求。例如,在10:00—14:00這一時(shí)間段,系統(tǒng)釋放儲(chǔ)存的熱能來(lái)供應(yīng)用戶的熱負(fù)荷需求,而在15:00—18:00這一時(shí)間段則儲(chǔ)存熱能以供夜晚的用熱高峰使用。系統(tǒng)在谷時(shí)段和平時(shí)段釋放能量不會(huì)影響滿足峰時(shí)段用戶用能需求,因此這種調(diào)度方式是合理的。例如,在03:00這一時(shí)間段,系統(tǒng)釋放熱能以滿足用戶的熱能需求,而在07:00這一時(shí)間段,系統(tǒng)通過(guò)釋放谷時(shí)段儲(chǔ)存的冷能稍微降低了運(yùn)行成本。根據(jù)圖7(c)所示,智慧社區(qū)的優(yōu)化調(diào)度根據(jù)電價(jià)的變化來(lái)實(shí)現(xiàn)節(jié)能和增加用戶收入。在電價(jià)谷時(shí)段和平時(shí)段,系統(tǒng)從電網(wǎng)購(gòu)電以滿足用戶和電動(dòng)汽車的需求,同時(shí)將電能儲(chǔ)存在蓄電池中,以備在電價(jià)峰時(shí)段供電動(dòng)汽車充電和用戶使用,或?qū)⒍嘤嗟碾娔艹鍪劢o電網(wǎng)以獲得收入。

為詳細(xì)分析策略3對(duì)儲(chǔ)能組電動(dòng)汽車和蓄電池的優(yōu)化調(diào)度過(guò)程,繪制儲(chǔ)能組電動(dòng)汽車電能優(yōu)化調(diào)度結(jié)果及蓄電池電能優(yōu)化調(diào)度結(jié)果柱形圖如圖8和圖9所示。可以看出,用戶電價(jià)和電動(dòng)汽車電價(jià)的谷時(shí)段是02:00和05:00—06:00,此時(shí)儲(chǔ)能組的電動(dòng)汽車可以出售電能以獲得收入。雖然16:00—18:00處于電動(dòng)汽車電價(jià)平段,但在19:00—21:00蓄電池需要放電以供應(yīng)電動(dòng)汽車充電和用戶使用,從而節(jié)約大量運(yùn)行成本,所以此時(shí)段儲(chǔ)能組電動(dòng)汽車仍然可以出售電能以獲得收入。在電價(jià)峰時(shí)段,電負(fù)荷由電網(wǎng)、蓄電池和儲(chǔ)能組電動(dòng)汽車共同供應(yīng)。如10:00—13:00、19:00—23:00等時(shí)間段包含用戶電價(jià)和電動(dòng)汽車電價(jià)的峰時(shí)段,此時(shí)蓄電池需要放電以供應(yīng)電動(dòng)汽車充電,并與儲(chǔ)能組電動(dòng)汽車一起為部分用戶供電。因此,通過(guò)基于電動(dòng)汽車充放電的策略,智慧社區(qū)能源系統(tǒng)能夠在電價(jià)谷時(shí)段和平時(shí)段出售電能或儲(chǔ)存能源,在電價(jià)峰時(shí)段使用預(yù)先儲(chǔ)存的能源,從而有效降低能源系統(tǒng)運(yùn)行成本,同時(shí)增加用戶收入。

圖8 儲(chǔ)能組電動(dòng)汽車電能優(yōu)化調(diào)度結(jié)果

圖9 蓄電池電能優(yōu)化調(diào)度結(jié)果

5 結(jié)論

在考慮電動(dòng)汽車充放電的前提下,建立了智慧社區(qū)能源系統(tǒng)模型,并利用DDQN強(qiáng)化學(xué)習(xí)算法建立了相應(yīng)的智慧社區(qū)能源優(yōu)化調(diào)度策略模型。通過(guò)對(duì)不同策略的算例對(duì)比分析,得出以下結(jié)論。

(1)通過(guò)算例分析,驗(yàn)證了該模型可以用于分析智慧社區(qū)的能源優(yōu)化調(diào)度,可以為智慧社區(qū)能源系統(tǒng)提供最優(yōu)調(diào)度方案。

(2)考慮電動(dòng)汽車及各能源設(shè)備的非線性約束條件,重新設(shè)計(jì)了DDQN算法的動(dòng)作空間、狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù)。通過(guò)將獎(jiǎng)勵(lì)函數(shù)設(shè)置為每小時(shí)運(yùn)行成本的負(fù)數(shù),智能體可以通過(guò)訓(xùn)練獲得更高的獎(jiǎng)勵(lì),從而最小化總運(yùn)行成本。

(3)對(duì)比無(wú)序充電與智能充電策略,發(fā)現(xiàn)所提出的策略可以分別將總運(yùn)行成本降低802元和435.85元,占總運(yùn)行成本的35.53%和23.95%。同時(shí),碳排放量也分別降低了902.84 t和409.04 t,碳交易成本也分別降低了47 651.94元和21 589.13元。驗(yàn)證了所提出策略在降低智慧社區(qū)能源系統(tǒng)運(yùn)行成本方面的有效性。

(4)在實(shí)際應(yīng)用中,用戶行為的影響、冷熱電負(fù)荷的擾動(dòng)以及電動(dòng)汽車數(shù)量的擾動(dòng)都會(huì)增加智慧社區(qū)能源系統(tǒng)運(yùn)行優(yōu)化的難度。因此,結(jié)合實(shí)際場(chǎng)景中存在的系統(tǒng)擾動(dòng)并考慮更多不確定性因素,是未來(lái)智慧社區(qū)能源系統(tǒng)優(yōu)化調(diào)度研究的重要方向。