李 振,趙鵬翔,王 楠,周喜超
(國網(wǎng)綜合能源服務(wù)集團有限公司,北京 100052)
綜合能源系統(tǒng)IES(integrated energy system)是一種多能源耦合互補的供能系統(tǒng),其打破原有各供能系統(tǒng)獨自運行、獨自規(guī)劃的模式,整合多類型能源并進行聯(lián)合調(diào)度,能夠顯著提升各類能源的利用效率[1-2]。因此,研究IES對現(xiàn)代化社會的發(fā)展具有重要意義。
目前,國內(nèi)外學(xué)者已在IES數(shù)學(xué)模型、優(yōu)化調(diào)度、能源管理、需求響應(yīng)等重要方面進行了廣泛研究[3-10],奠定了IES運行優(yōu)化基礎(chǔ)。文獻[3]充分考慮用戶側(cè)需求響應(yīng),實現(xiàn)了IES多時間尺度、多能源耦合優(yōu)化。文獻[4]以降低運行成本為目標,靈活調(diào)配園區(qū)內(nèi)部設(shè)備,實現(xiàn)了IES的最優(yōu)經(jīng)濟調(diào)度。文獻[5]將IES分為能源供應(yīng)、能源轉(zhuǎn)換、能源傳輸、能源存儲和能源需求5個環(huán)節(jié),提出了適用于評價IES的能源利用效率的表達式。文獻[6]建立了園區(qū)綜合能源系統(tǒng)DIES(district integrated energy system)模型,實現(xiàn)了DIES的聯(lián)合日內(nèi)調(diào)度。文獻[7]提出一種基于風(fēng)險量化的經(jīng)濟優(yōu)化調(diào)度模型,并以夏季為典型日進行分析,驗證了所提模型的有效性。文獻[8-9]不僅分析了電力用戶的需求響應(yīng),還把需求響應(yīng)拓展到了熱、氣負荷,并提出了相對應(yīng)的配網(wǎng)控制手段。為求解引入需求響應(yīng)后的綜合能源運行優(yōu)化過程,文獻[10]提出了一種基于實時價格的需求響應(yīng)算法以實現(xiàn)最優(yōu)負荷控制,并在虛擬的電能交易過程中,設(shè)立了單領(lǐng)導(dǎo)者、多個跟隨者、以零售價格作為能源管理者策略的模型。上述文獻對IES運行優(yōu)化過程進行了研究,但并未考慮系統(tǒng)內(nèi)部不同主體的主觀因素。
IES中不同利益主體均趨向于提升自身利益,具體表現(xiàn)為在滿足供應(yīng)需求的情況下,各個利益主體均可根據(jù)自身的利益目標靈活變更運營策略,這為分析各主體行為帶來了一定困難。為研究IES中各主體的互動機理,國內(nèi)外很多學(xué)者從多主體博弈的角度對IES運行優(yōu)化進行研究[11-18]。文獻[11]建立了基于多主體的Stackelberg博弈的綜合模型,并將該模型引入含有多個能源站的IES中,分析了多個能源站與用戶之間的交互關(guān)系,提升了各個主體收益。文獻[12]基于談判博弈建立了多主體、多目標的多微網(wǎng)IES模型,驗證了多目標優(yōu)化相較于單目標優(yōu)化的優(yōu)越性。文獻[13]基于Stackelberg博弈提出了一種新的博弈模型,此模型以分布式能源站為博弈主導(dǎo),以各能源用戶為追隨者,通過分布式能源站決定能量價格、用戶決定用能需求的形式進行博弈,并給出了一種最佳響應(yīng)方法進行仿真計算。文獻[14-17]對IES中多主體博弈的定價機制、多主體聯(lián)合規(guī)劃方式、多能源優(yōu)化調(diào)度機制進行了研究,分析了含配電網(wǎng)、配氣網(wǎng)、配熱網(wǎng)和多個能量樞紐組成的DIES的運行機制,提出了考慮供能網(wǎng)絡(luò)安全約束的DIES多主體運行優(yōu)化方法。文獻[18]充分考慮電力質(zhì)量的因素,提出一種計及電能質(zhì)量的電力市場多主體博弈模型,實現(xiàn)了電能市場多主體環(huán)境下的按質(zhì)定價。上述文獻考慮了IES多主體博弈互動機制,但對能源市場潛力的挖掘仍不足。
在求解多主體博弈時,傳統(tǒng)的粒子群算法、遺傳算法等啟發(fā)式方法計算時間較長[19]。人工智能算法能夠從歷史數(shù)據(jù)中獲取經(jīng)驗,可以通過預(yù)學(xué)習(xí)等方式降低計算時間。因此,為提升多主體博弈的計算速度,部分學(xué)者將人工智能算法引入多主體博弈,并取得了一定的效果[19-20]。文獻[20]提出了一種Nash-Q學(xué)習(xí)算法,該算法是在傳統(tǒng)強化學(xué)習(xí)算法中針對場景進行改進而得到,算法考慮多個主體的聯(lián)合動作,不再考慮個體的單獨動作,每個主體可以參考其他主體的動作與回報,綜合考慮全系統(tǒng)的動態(tài),從而決定自身動作策略,經(jīng)過原理推導(dǎo)驗證了該算法可以收斂于Nash均衡點。文獻[19]將Nash-Q學(xué)習(xí)算法引入綜合能源多主體博弈中,建立了含可再生能源服務(wù)商、微網(wǎng)系統(tǒng)能源服務(wù)商、電動汽車用戶、中斷負荷4個主體組成的綜合能源模型,獲取了最佳Nash均衡運行策略。上述文獻提升了IES中多主體博弈求解速度,但提升幅度有限。
綜上所述,為充分考慮IES中多主體主觀因素、挖掘能源市場潛力并研究多主體博弈快速求解算法,本文提出一種基于強化學(xué)習(xí)的DIES多主體運行優(yōu)化方法。首先,構(gòu)建了含能源供應(yīng)商、園區(qū)服務(wù)商和用戶的多主體DIES模型;其次,為快速得出Nash均衡點,提出了一種基于強化信號的多主體博弈快速求解法(后文中簡稱為博弈搜索法),提升了多主體博弈過程求解的速度;然后,對DIES多主體博弈過程實行分層控制,將不同主體間的供需博弈作為上層,將各主體自身的優(yōu)化運行作為下層;最后,以某園區(qū)為算例進行仿真,并與粒子群算法進行對比,驗證了所提算法的有效性與快速性。
本文采用如圖1所示的DIES模型,該模型包含以下部分。

圖1 DIES示意Fig.1 Schematic of DIES
(1)供應(yīng)方包含電網(wǎng)、熱源廠和能源供應(yīng)商,其中電網(wǎng)公司只能提供電能,熱源廠只能提供熱能,能源供應(yīng)商可以提供電、熱、氣3種能源。
(2)園區(qū)服務(wù)商負責(zé)從能源的供應(yīng)方購買能源,有選擇性地調(diào)用園區(qū)內(nèi)各類設(shè)備和供給用戶能源。園區(qū)服務(wù)商可以控制的設(shè)備有風(fēng)力發(fā)電機組WTG(wind turbine generator)、光伏發(fā)電機組 PG(photovoltaic generator)、電轉(zhuǎn)氣設(shè)備P2G(power to gas)、熱電聯(lián)供機組CHP(combined heat and power generation)、燃氣鍋爐GB(gas boiler)。
(3)用戶包含電、熱、氣3種負荷,用戶具備需求響應(yīng)能力,需求響應(yīng)形式為可中斷負荷。
當(dāng)用戶存在能源需求時,只能從園區(qū)服務(wù)商處購買能源,同時用戶會根據(jù)園區(qū)服務(wù)商的定價、自身的能源需求量、用戶用能偏好、用戶舒適度等因素決定其具體的能源需求響應(yīng)量。園區(qū)服務(wù)商可以調(diào)整其對用戶的能源價格,同時可以靈活選擇不同的能源供方和不同的能量轉(zhuǎn)化設(shè)備,從而實現(xiàn)自身利益的最大化。能源供應(yīng)商可以決定售賣給服務(wù)商的能源價格,服務(wù)商會根據(jù)能源供應(yīng)商的定價決定購能量。為促使各主體合理制定價格,能源供應(yīng)商和園區(qū)服務(wù)商在制定價格策略時需考慮用能滿意度。
能源供應(yīng)商作為園區(qū)的能源供方,其主要工作為調(diào)配能源生產(chǎn)設(shè)備和與園區(qū)服務(wù)商進行各類能源的博弈互動,收益為向園區(qū)服務(wù)商售能的收入與供能成本之差。能源供應(yīng)商的目標函數(shù)IES為

式中:下標t表示時刻;為能源供應(yīng)商第i個發(fā)電機組電能出售價格;為能源供應(yīng)商的氣能出售價格;為能源供應(yīng)商的熱能出售價格;為能源供應(yīng)商第i個機組的電能出售功率;和分別為能源供應(yīng)商氣能和熱能的出售功率;T為設(shè)置的總時間;N為發(fā)電機組個數(shù);cnet為能源供應(yīng)商需支付的過網(wǎng)費用;Ge,t,i為第i個發(fā)電機組運行成本;Gs,t和Gh,t分別為能源供應(yīng)商供氣和供熱的運行成本;為供應(yīng)商滿意度函數(shù),其表達式分別為

式中:δ1、δ2、δ3、δ4、δ5、δ6為滿意度系數(shù),其取值均為正,視具體情況選取;為能源供應(yīng)商各機組電價的加權(quán)平均值;分別為能源供應(yīng)商熱價和氣價;ρe,t、ρh,t、ρs,t分別為電能、熱能、天然氣的市場價格,一般可以考慮取電力市場、熱力市場、天然氣市場的邊際價格。同時,考慮到能源供應(yīng)商給出的能源價格必須合理,定價需滿足如下約束:

園區(qū)服務(wù)商是園區(qū)能源供方與用戶之間的中介,通過對各供方的選擇、對各類能量的分配、對園區(qū)各設(shè)備的控制實現(xiàn)園區(qū)能源的最有效利用。園區(qū)服務(wù)商收益為其向園區(qū)用戶售能獲得的利益與園區(qū)服務(wù)商綜合成本之差。園區(qū)服務(wù)商的綜合成本由對園區(qū)用戶進行需求響應(yīng)的補償成本、從能源供應(yīng)方購能的成本、環(huán)境治理成本和用戶對園區(qū)服務(wù)商電、熱、氣供給的滿意度成本組成。園區(qū)服務(wù)商的目標函數(shù)IEH為

式中:K為能源集合,K={e,h,s},其中e表示電能,h表示熱能,s表示天然氣;為園區(qū)服務(wù)商向用戶出售k類能源的價格;為用戶對k類能源進行需求響應(yīng)后的實際用能量,文中考慮的需求響應(yīng)方式為可中斷負荷;為園區(qū)服務(wù)商對參與需求響應(yīng)的用戶的補償成本,其計算公式為



式中:r為環(huán)境治理的單位成本;分別為t時刻風(fēng)力發(fā)電量和光伏發(fā)電量。滿意度成本的計算公式與式(2)相同,僅需更換滿意度系數(shù)并將供應(yīng)商價格替換為服務(wù)商價格即可。
園區(qū)服務(wù)商各設(shè)備功率需滿足如下約束:

式中;F為園區(qū)服務(wù)商各設(shè)備的集合,F(xiàn)={WTG,PG,GB,CHP,P2G};f表示當(dāng)前設(shè)備類型。
園區(qū)服務(wù)商的能量分配關(guān)系可表示為


為保證用戶不會跳過園區(qū)服務(wù)商直接從供能方購買能源,園區(qū)服務(wù)商的定價均值不應(yīng)超過市場定價均值,應(yīng)滿足如下約束:

園區(qū)用戶包括電、熱、氣3類負荷,用戶會綜合考慮自身購能成本和舒適度函數(shù)決定其中斷負荷的取值,用戶的目標函數(shù)為

式中:ω1和ω2分別為用戶購能成本和舒適度成本的權(quán)重系數(shù);Ct為用戶的購能成本;Dt為用戶的舒適度成本。Ct和Dt的表達式分別為

式中,yk為用戶對k類能源的偏好系數(shù),取值為正數(shù),若yk越小,則表示該類能源對用戶的舒適度影響較小,可中斷負荷值越高。
強化學(xué)習(xí)RL(reinforcement learning)是一種人工智能算法,其思想是智能體通過與環(huán)境進行交互獲得收益并指導(dǎo)智能體的行為,目標是使智能體獲得最大的收益。對于智能體i,若滿足

強化信號指智能體在與環(huán)境交互過程中獲得的收益。為快速求解Nash均衡解,本文提出了一種基于強化信號的博弈搜索法。該算法流程如圖2所示。

圖2 “博弈搜索法”流程Fig.2 Flow chart of game search method
該算法基本思想為在不同情況下,根據(jù)智能體的強化信號判斷某一個組合動作是否是該智能體當(dāng)前的最優(yōu)動作,即判斷該組合動作是否滿足式(15)。若對于任意智能體,該組合動作均為最優(yōu)動作,則該組合動作為1個Nash均衡解,求解完畢;否則舍棄該動作并選取下一個動作重復(fù)該過程,直至獲得Nash均衡點為止。
該方法可以快速求解某一狀態(tài)下的Nash均衡點,其執(zhí)行步驟如下。
步驟1離散動作空間。
步驟2各智能體根據(jù)約束條件,去除不滿足約束的組合動作,將滿足約束的動作保留作為動作集。
步驟3計算動作集中所有組合動作下各智能體的收益R。
步驟4按照從智能體1至智能體n的順序選中某一智能體,分別在其余未選中過的所有智能體的所有組合動作下搜索選中智能體的最優(yōu)動作,并刪除選中的智能體的其余動作,只保留最優(yōu)動作。選取最優(yōu)動作的方法為選取收益R最大的動作。對于選中過的智能體,其動作集中僅有最優(yōu)動作。
步驟5將現(xiàn)存的動作集中的組合動作保存,保存的組合動作即為該狀態(tài)下的Nash均衡點。
Nash-Q算法是一種求解多時段多主體博弈的人工智能算法,其迭代公式為

本文將整個園區(qū)多主體運行優(yōu)化過程分為上層多主體博弈與下層設(shè)備調(diào)度優(yōu)化兩部分。上層多主體博弈求解流程如圖3所示。

圖3 上層多主體博弈流程Fig.3 Process of upper-layer multi-agent game
在上層博弈中,能源供應(yīng)商的目標函數(shù)僅考慮供應(yīng)商售能總收益與滿意度成本之差最大,控制策略為供應(yīng)商的電能、熱能、天然氣價格;園區(qū)服務(wù)商的目標函數(shù)僅考慮服務(wù)商售能總收益與滿意度成本之差最大,控制策略為服務(wù)商的能量價格;用戶的目標函數(shù)與第1.4節(jié)中相同。3個主體的約束條件不變。
使用博弈搜索法配合Nash-Q算法,即可得到一組T時段內(nèi)最優(yōu)的Nash均衡點。
在上層博弈中獲取了T時段的Nash均衡點后,再根據(jù)Nash均衡點下的負荷情況與價格情況對能源供應(yīng)商和園區(qū)服務(wù)商內(nèi)部機組進行調(diào)度,下層設(shè)備調(diào)度優(yōu)化求解流程如圖4所示。

圖4 下層設(shè)備調(diào)度流程Fig.4 Process of lower-layer equipment scheduling
在下層優(yōu)化中,僅有供應(yīng)商與服務(wù)商兩個主體,其目標函數(shù)均為自身綜合生產(chǎn)成本最小,供應(yīng)商的可控策略為供應(yīng)商各機組出力,服務(wù)商控制策略為服務(wù)商各設(shè)備出力與購能功率,約束條件不變。
本文采用圖1所示DIES模型進行仿真驗證。設(shè)定仿真時長為24h,從電網(wǎng)購電價格為715¥/(MW·h),從熱源廠購熱價格為650¥/(MW·h),電網(wǎng)公司過網(wǎng)費為65¥/(MW·h),負荷削減補償成本為32.5¥/(MW·h),環(huán)境污染單位懲罰成本為19.5¥/(MW·h),變壓器效率為0.95,P2G設(shè)備效率為0.70,熱電聯(lián)產(chǎn)機組的電能生產(chǎn)效率為0.25,熱能生產(chǎn)效率為0.65,燃氣鍋爐的生產(chǎn)效率為0.9。初始負荷如圖5所示。為保證用能滿意度,設(shè)置能源供應(yīng)商的電能出售價格不高于747.5¥/(MW·h),熱能和氣能出售價格均不高于715¥/(MW·h)。對于園區(qū)服務(wù)商,3種能源的定價范圍為[552.5¥/(MW·h),585¥/(MW·h)]。同時,考慮以風(fēng)力、光伏發(fā)電的預(yù)測值作為風(fēng)力發(fā)電機組與光伏發(fā)電機組每個時刻的最大值,其具體數(shù)值如圖6所示。本次仿真利用博弈搜索法結(jié)合Nash-Q算法對整個博弈過程進行求解,設(shè)置學(xué)習(xí)率α為0.01,折扣因子β為0.9。

圖5 初始負荷曲線Fig.5 Curves of initial load

圖6 可再生能源預(yù)測值Fig.6 Forecasted values of renewable energy
能源供應(yīng)商、園區(qū)服務(wù)商、用戶博弈結(jié)果分別如圖7~圖9所示。

圖7 能源供應(yīng)商博弈結(jié)果Fig.7 Game results of energy suppliers

圖8 園區(qū)服務(wù)商博弈結(jié)果Fig.8 Game results of district service providers

圖9 用戶博弈結(jié)果Fig.9 Game results of users
由圖7和圖8中能源供應(yīng)商和園區(qū)服務(wù)商價格曲線可知,總是趨向于在用戶負荷較高的時刻選擇更高的能源價格,這是因為在此時刻提升能源價格帶來的售能收益大于滿意度函數(shù)中滿意度的損失。例如:在時段8—12和18—21,電負荷功率較高,此時能源供應(yīng)商和園區(qū)服務(wù)商均提升了其電能價格;而對于時段1—5和22—24,用戶電負荷較低,此時降低電能價格帶來的總收益更高。
將圖9中用戶博弈結(jié)果與圖5中初始用戶負荷對比,用戶負荷有所削減,這是因為用戶考慮成本升高適當(dāng)放緩了對舒適度的要求。由于本地負荷重要性較高,大多數(shù)時刻的用戶用能偏好系數(shù)設(shè)置較大,故用戶側(cè)需求響應(yīng)量較小。
下層調(diào)度中電、熱、氣設(shè)備的調(diào)度結(jié)果如圖10~圖12所示。其中,購電功率表示園區(qū)服務(wù)商從電網(wǎng)購電功率和供應(yīng)商購電功率之和;購熱功率表示其從熱源廠購熱功率和供應(yīng)商購熱功率之和;購氣表示其從氣網(wǎng)購氣功率。

圖10 電能調(diào)度情況Fig.10 Results of power scheduling

圖11 熱能調(diào)度情況Fig.11 Results of heat scheduling

圖12 天然氣調(diào)度情況Fig.12 Results of gas scheduling
在圖10中,風(fēng)電與光電幾乎按照預(yù)測值進行投入,這是因為本算例中風(fēng)電與光電的生產(chǎn)成本很小且不用繳納環(huán)境污染治理費用。在風(fēng)電與光電不能滿足電負荷需求時,優(yōu)先通過電網(wǎng)購電和供應(yīng)商購電的方式供給負荷,這里的購電功率表示兩種購電方式的購電量之和,有時也會通過CHP機組提供電負荷,例如第6 h、13 h、17 h等,這是因為這些時刻不僅有一定的電功率缺額,還有一定的熱功率缺額。
在圖11中,園區(qū)服務(wù)商具有從熱網(wǎng)和從供應(yīng)商購熱兩種形式,選擇哪種形式進行購熱取決于當(dāng)前時段供應(yīng)商熱價與電網(wǎng)熱價的相對大小。GB的投入取決于能源供應(yīng)商的氣價,當(dāng)通過燃氣產(chǎn)生熱能對于服務(wù)商而言收益為正時,服務(wù)商會選擇使用GB。
在圖12中,所有氣負荷都通過直接從供應(yīng)商購買的形式滿足,這是因為P2G設(shè)備的效率設(shè)為0.70,其經(jīng)濟性較差,在算例中通過其他形式可以滿足氣負荷,因此P2G設(shè)備未被使用。例如將第10 h氣負荷數(shù)值更改為原始值的3倍,P2G功率為2.06 MW。
在圖10~圖12中,需求響應(yīng)數(shù)值較小不易看清,這與本文中所設(shè)立滿意度有關(guān),其具體數(shù)值如表1所示。

表1 需求響應(yīng)數(shù)值Tab.1 Demand response values
文中設(shè)置以下4個場景進行對比分析。
場景1 能源供應(yīng)商、園區(qū)服務(wù)商與用戶之間進行電、熱、氣的多主體博弈互動,用戶考慮需求響應(yīng)。
場景2 能源供應(yīng)商、園區(qū)服務(wù)商與用戶之間僅進行電和熱的博弈過程,所有氣價固定,用戶考慮需求響應(yīng)。
場景3 能源供應(yīng)商、園區(qū)服務(wù)商與用戶之間僅進行電的博弈過程,所有熱價與氣價固定,用戶考慮需求響應(yīng)。
場景4 不進行博弈,所有價格均固定,用戶考慮需求響應(yīng)。
表2給出了不同場景下的收益結(jié)果,當(dāng)參與博弈的能源種類增多時,服務(wù)商和供應(yīng)商的收益也隨之上升,同時多主體博弈使得上層服務(wù)商考慮用戶主觀性,進而適度控制能源價格,令用戶自愿增大購能量,用戶的收益亦會隨之提升。由此可見,多主體博弈提升了各方主體利益。

表2 不同場景下服務(wù)商與供應(yīng)商收益Tab.2 Incomes of service providers and suppliers under different scenarios
場景1下博弈搜索法與粒子群優(yōu)化算法對比結(jié)果如表3所示,其中粒子群算法的種群個數(shù)為50,最大迭代次數(shù)為80。

表3 場景1下博弈搜索法與粒子群優(yōu)化算法對比結(jié)果Tab.3 Results of comparison between game search method and particle swarm optimization algorithm under Scenario 1
由表3可知道,博弈搜索法隨著離散等級的提升,其計算時間會變長,但計算結(jié)果也更加準確。
本文建立了包含多個主體的DIES模型,在此基礎(chǔ)上,為快速求解多主體博弈過程,對DIES進行分層控制,并提出了一種基于強化信號的博弈搜索法,根據(jù)仿真結(jié)果得出了以下結(jié)論:
(1)在DIES中引入多主體博弈理論,能夠充分考慮各主體的利益訴求,進而顯著提升各主體的收益;
(2)對比傳統(tǒng)粒子群算法,所提博弈搜索法能夠在保證計算結(jié)果正確的同時,大幅度提升多主體博弈的求解速度。
本文將博弈環(huán)節(jié)分為上、下兩層,這可能會帶來一定的誤差,使得求解結(jié)果并非全局最優(yōu)解。今后將在本文所提方法的基礎(chǔ)上探求消除此誤差的方法。