范培瀟,楊軍,肖金星,徐冰雁,葉影,李勇匯,李蕊
(1.武漢大學電氣與自動化學院,武漢市 430072;2.國網上海市電力公司,上海市 200122)
微電網能夠解決形式多樣的分布式電源靈活、高效并網的問題,實現對負荷多種能源形式的高可靠供給,是實現主動式配電網的有效途徑。
微電網既可以運行在并網模式,也可以運行在孤島模式;在孤島模式下,其頻率穩定是保障微電網安全運行的關鍵。文獻[1]針對光柴儲孤島微電網提出一種魯棒自適應協調控制,通過對光伏系統輸出功率精細化設定,并將功率輸出參考值反饋到逆變器功率控制環中,使其能夠根據自身容量響應微電網頻率偏差。文獻[2]提出了一種基于PI 控制的分布式二次控制技術,可以根據微電網的運行情況調整PI 控制器系數,大大提高控制效果和全局可控性,并保證了功率的均分。文獻[3]提出了一種利用模糊邏輯表對孤島微電網發電機組模型進行負荷頻率控制的方法,該方法在暫態性能方面優于PI 控制器。
儲能模塊是微電網負荷頻率控制模型中的重要組成部分,而電動汽車(electric-vehicle,EV)憑借其節能環保與靈活性,成為了一種新式的分布式儲能單元[4-6]。通過車輛到電網(vehicle-to-grid,V2G)技術,電動汽車能夠為孤島微電網的頻率提供功率支撐,但其移動性與用戶隨機性也給孤島微電網的調頻帶來了新的挑戰[7]。文獻[8]建立了包含微型燃氣輪機、電動汽車及約束條件的孤島微電網負荷頻率控制(load frequency control,LFC)模型,但文中電動汽車充電站模型的輸出功率增量約束為固定值;而文獻[9]考慮了用戶出行需求的隨機性,并對充電站中的電動汽車進行了荷電狀態(state of charge,SOC)約束,但沒有從電動汽車單體與集群的角度對隨機輸出功率增量進行細化建模。而實際情況中,充電站的功率增量約束會受到用戶充電行為隨機性以及電動汽車集群特性的影響。此外,隨著具有高比例分布式新能源的接入,上述微電網中的傳統控制器在面對孤島微電網中的大量隨機性擾動、系統參數和結構變化等復雜工況時,其控制性能有待進一步提升[10]。
因此,微電網控制中也出現了智能算法[11-12],文獻[13]研究了基于Q(λ)學習算法的集控式微電網控制器,在微電網負荷頻率控制方面具有較好的控制效果。文獻[14]提出了一種基于平均報酬模型的多步R(λ)學習算法的ACG 控制器,能夠實現對微電網的頻率調整。文獻[15]提出了基于多智能體相關均衡強化學習(CEQ(λ))的微電網智能發電控制方法,有著比PI 控制、單智能體R(λ)控制更好的學習能力,顯著增強孤島微電網的頻率穩定性。但是,上述LFC 模型均沒有考慮EV的接入,且沒有將EV 輸出功率增量作為狀態空間,即上述控制器的設計思路、收斂特性與動態性能也均存在著進一步優化的空間。
綜上,本文提出基于深度Q 學習的含電動汽車孤島微電網負荷頻率控制策略:1)分析用戶充電行為的隨機性,通過電動汽車的充放電約束邊界構建出電動汽車的SOC 模型,以此劃分出單體EV的各類充電狀態,并考慮單體EV的電池性能以及充電站內的EV 數量等參數,設計了隨機輸出功率增量約束下的電動汽車頻率控制模型,從而建立一個包含各類分布式電源、電動汽車及其隨機輸出功率增量約束條件的孤島微電網LFC 模型。2)將卷積神經網絡和Q 學習算法相結合作為控制器算法,采用經驗回放機制,固定目標Q 值網絡,并縮小獎賞值范圍[16],能夠很好地應對含有電動汽車的孤島微電網負荷頻率控制問題。3)在設計了基于DQN的頻率控制器后,依次完成了狀態空間、動作空間以及獎勵函數的定義,并通過調節得到了最優超參數。本文提出的DQN 控制器收斂特性和模型適應性好,能適應孤島微電網中強隨機性干擾和網絡拓撲參數改變等復雜工況。
微型燃氣輪機具有起動速度快、耐用、效率高等特點,在微電網中得到了極為廣泛的應用。因此本文將其作為主調頻機組,構建了微型燃氣輪機(microturbines,MT)的LFC 模型,其連續時間傳遞函數模型如圖1 所示。

圖1 微型燃氣輪機負荷頻率控制響應模型Fig.1 Load frequency control response model of micro gas turbine
圖1 表現了MT 輸出功率增量跟隨負荷頻率控制信號變化的過程,包含了調速器、燃料系統以及渦輪機。其中,燃料系統和渦輪機的等值模型均采用一階慣性環節來表示[17]。圖中:Δf為頻率偏差;ΔuMT為控制器發送至燃氣輪機的LFC 信號;ΔXMT是燃料系統的閥門位置變化的增量;Tf、Tt分別為燃料系統和渦輪機的時間常數;R為調速器系數;±δmt為功率爬坡約束的上下限;±μmt為功率增量約束的上下限;ΔPMT是燃氣輪機功率輸出的增量。
當ΔPMT=0 時,MT的輸出功率等于額定功率;當ΔPMT>0 時,MT的輸出功率大于額定功率;當ΔPMT<0 時,MT的輸出功率小于額定功率。
電動汽車在微電網調控中作為儲能與調頻裝置,輸出功率增量也具有限幅約束。而本節將考慮到用戶充電行為的隨機性,即車輛電池的性能參數、車輛電池所處的充電狀態以及充電站的車輛數量會發生變化,因此充電站的等效儲能容量也會發生變化,從而影響充電站在調頻過程中的可控功率。本文接下來將對上述3 種因素進行分別討論。
首先,車輛的電池性能將影響到充電時長,進而影響到系統的可控功率,但是考慮到固定地理位置充電站內的車輛品牌以及數量在一定時間內相對固定,可以利用平均值來簡化計算過程的復雜度,因此,可先得到電池平均容量C以及平均初始充電狀態Si,再通過充電站的平均額定充電功率,從而得到充電站內的單體EV 平均充電時長Tav。
其次,對于車輛電池所處的充電狀態,本文根據文獻[9]建立了EV 充放電約束模型,車站里的電動汽車SOC的范圍為[Smin,Smax],并且有足夠的Sm來確保未來電動汽車離開充電站后的行駛里程。因此,EV 充放電約束邊界如圖2 所示。

圖2 電動汽車的充放電約束邊界Fig.2 Boundary of charging and discharging constraints of electric vehicle
圖2 中:實心紅線代表充電邊界;綠色虛線代表放電邊界;實藍線代表強制充電邊界,即電動汽車在離開充電站前將進行強制充電,以確保其有足夠的Sm來完成拔掉電源后的行駛里程。由此,可以將不同車輛所處的充電狀態進行分類,從而得到控制器指令在充電站內的分布如圖3 所示。

圖3 控制指令在充電站內的分布Fig.3 Distribution of control commands in charging stations


圖4 單體EV的輸出功率增量約束Fig.4 Output power increment constraint of single EV
最后,對于充電站內的車輛數量,本文設置充電站最大容量為nEV,當單個EV 滿足時位于充電站內,不滿足時則不在充電站內。因此,可由單個EV的充電功率約束得到:集群EV的充電功率ΔPEV及其上、下限約束如下。

綜上所述,隨機容量約束下的電動汽車頻率控制模型如圖5 所示。圖中:ΔuE是控制器發送至電動汽車充電站的LFC 信號;Te為電動汽車充電站的時間常數;±μe為車載電池逆變器的容量約束,不隨時間發生變化;±δe為電動汽車充電站輸出功率增量的最大約束,而實時上、下限約束與受到充電站內車輛數量nEV、單體EV的SOC 容量以及所處的充放電狀態等因素的影響;Emax為最大的可控容量;Emin為最小的可控容量;ΔPE為電動汽車充電站的輸出功率增量。

圖5 隨機功率增量約束下的電動汽車頻率控制模型Fig.5 Frequency control model of electric vehicle under random power increment constraint
綜上所述,本文所構建的微電網負荷頻率控制模型如圖6 所示,風力發電與光伏發電共同作為不可控(隨機)電源[19],與負載一同向系統輸入擾動功率,而微型燃氣輪機與電動汽車充放電站一起作為微電網的調頻機組。圖中:ΔPL是負荷擾動功率;ΔPw是風電擾動功率;ΔPpv是光伏擾動功率;ΔPw與ΔPpv組成了隨機電源擾動功率ΔPS;而ΔPS與ΔPL共同組成了總擾動功率ΔPD;ΔPMT是微型燃氣輪機的輸出功率增量;ΔPE是EV 充電站的輸出功率增量;Ht是微電網的慣性常量。

圖6 含電動汽車的微電網負荷頻率控制模型Fig.6 Load frequency control model of microgrid with electric vehicle
本文選擇DQN 作為微電網控制器的算法模型,其主要流程如圖7 所示[20]。

圖7 深度Q 學習的主要流程Fig.7 The main process of deep Q learning
本文在考慮MT與EV 輸出功率增量限幅約束的情況下,提出一種基于深度Q 學習的LFC 控制器結構,如圖8 所示。

圖8 基于DQN的微電網LFC 控制器結構Fig.8 Microgrid LFC controller structure based on DQN
該控制器由協調控制層和頻率控制層兩層組成。協調控制層首先根據頻率偏差Δf與充電功率的實時上、下限約束與,向頻率控制層提供實時LFC 信號Δu,進而對MT 和EV的輸出功率進行控制,以快速抑制系統頻率振蕩。同時,該控制器的設計流程可以分為:狀態空間與動作空間的定義、獎勵函數的定義、超參數的選取[21]。
如上所述,本文微電網負荷頻率控制系統的狀態集為系統實時的頻率偏差ΔF(t)與充電功率的上、下限約束與,故可定義狀態空間為:

而DQN 控制器的聯合動作集A,即控制器的輸出,應為聯合調度指令(ΔuMT,ΔuE)的實時集合,故可定義動作空間為:

同時,由于Q 學習算法無法對連續信號處理,因此需要對上述動作空間離散化處理,且為防止離散化程度過高引起的“維數災”問題以及離散化程度不足導致頻率品質降低,應合理地安排狀態空間離散集S與控制動作集A的離散化程度[14]。
但是我國暫未對含多種分布式電源的微電網頻率范圍制定標準,因此本文選取較為保守的電力安全工作規程原則,即電力系統在正常運行狀態下的頻率應當在(50±0.2)Hz的范圍之內[15],并在此基礎上考慮一定的調節死區,即可設置實時的頻率偏差ΔF(t)的離散集為(-∞,-0.2),[ -0.2,-0.15),[ -0.15,-0.10),[ -0.10,-0.05),[ -0.05,0.05],(0.05,0.10],(0.10,0.15],(0.15,0.2],(0.2,+∞)。
此外,根據電動車最大功率增量限制±0.16 pu,并根據實際情況可設置實時的充電功率的上、下限約束與的離散集分為:[0,0.4),[0.4,0.8),[0.8,0.12),[0.12,0.16],以及[ -0.16,-0.12],(-0.12,-0.08],(-0.08,-0.04],(-0.04,0]。
進而,可同理設置AMT和AEV分別為微型燃氣輪機與電動汽車充電站的離散輸出動作集,并且令AMT=AEV=(-0.010,-0.005,-0.003,-0.001,0,0.001,0.003,0.005,0.010)。
根據上述微電網頻率的考核標準,能夠設計出獎勵函數rf為:

其中,當|Δf|處于調節死區[ -0.05,0.05] 時,頻率滿足正常運行的最小誤差要求,故此時賦予DQN 控制器最大獎勵值為0;當|Δf|分別處于正常控制區(0.05,0.10]與(0.10,0.15]、輔助控制區(0.15,0.2]、緊急控制區(0.2,+∞) 時,控制器將會獲得相應的負獎勵,即懲罰值;μ1、μ2、μ3為與μ4各控制區域獎勵函數對應的權值,確定獎勵函數時應該注意,過大的獎勵值會影響學習的收斂速度,因此,本文通過大量的仿真研究,分別取μ1、μ2、μ3與μ4為1、5、10與20。
在深度強化學習中,超參數是在訓練之前就設置的參數。通常情況下,需要對超參數進行合理的選擇,給智能體提供一組最優超參數,以提高學習的性能和效果。折扣因子γ越大,智能體就越重視以往經驗,能夠放棄當前利益而追求全局利益。但是,若折扣因子過大,也會導致智能體的訓練無法收斂。而學習率α越大,收斂速度越快,但穩定性越差;α越小,則穩定性越好,但收斂速度越慢[22]。
因此,在保證智能體訓練能夠收斂的前提下,通過測算與驗證,選取折扣因子γ為0.9,學習率α為0.001,并設置迭代次數為500 次,且每次500 步。
此外,用于儲存策略集的深度神經網絡也是超參數調節的重點。對于網絡結構的調節,可從網絡類型與網絡深度兩個方面進行討論。
1)網絡類型的選擇主要取決于狀態空間。若狀態空間為一維向量,智能體應選取全連接網絡;若狀態空間為二維信息(例如圖像、視頻),則應選取卷積神經網絡。
2)網絡深度決定了神經網絡的泛化能力,其包含神經網絡的層數h與每層的神經元數量u。
而本文微電網的負荷頻率控制對象是一維向量問題,因此,選取全連接層即能滿足儲存策略集的需求。同時,設置6 組(h,u)的參數設置來進行收斂測試,學習結果如表1 所示。

表1 不同參數設置下的收斂測試結果Table 1 Convergence test results under different parameters
綜上所述,本文為智能體選取的一組超參數為:折扣因子γ=0.9、學習率α=0.01 以及h=5,u=50的全連接層網絡結構,并設置迭代次數為500 次,每次500 步,且步長為0.1 s。
本文的孤島微電網模型采用Simulink 平臺搭建,如圖9 所示,該微電網由母線、風力渦輪機、光伏陣列、微型燃氣輪機、電動汽車和負荷組成。

圖9 含電動汽車的孤島微電網LFC 結構Fig.9 LFC structure of island microgrid with electric vehicles
此外,本文所構建的微電網負荷頻率控制模型的系統參數如表2 所示。

表2 微電網LFC 模型的系統參數Table 2 System parameters of microgrid LFC model
在深度強化學習中,各控制器在使用之前均需要接受一段隨機試錯的學習過程,稱為預學習階段。在預學習的初期階段,控制器尚未積累任何經驗,不具備智能控制能力,只有在接受各種狀態動作后,才能得到最優值函數Q網絡Qφ(s,a)。因此,本文設置了由不同幅值、不同類型函數疊加而成的負荷擾動來對控制器進行訓練。同時,根據某電動汽車充電站輸出功率增量變化數據設置了一組隨時間發生概率隨機變化的約束函數。截取上述各函數在某次迭代中的過程,如圖10 所示。

圖10 預學習階段的隨機輸入函數Fig.10 Random perturbation function in the pre-learning phase
智能體的預學習過程如圖11 所示。圖11 顯示,預學習過程在迭代180 次左右便基本收斂了,并在471次完成并停止了訓練,且在預學習階段結束后,平均獎勵值為-10.195,最終獎勵值為-0.407 54。可見具有較高的在線學習能力,收斂特性較好,此時控制器能夠完成接下來的仿真。

圖11 智能體的預學習過程Fig.11 Pre-learning process of agent
為了更好地體現出深度Q 學習控制器的性能,本節將引入傳統PID 控制與FUZZY 控制作為對比,分析三者在強隨機擾動下的控制性能。
如前文所述,假設初始狀態為穩態的孤島微電網受到的隨機擾動由負載擾動與隨機電源擾動組成:在t=35 s 時施加-0.03 pu、在t=88 s 時施加-0.03 pu的負載階躍擾動;而風電與光伏輸出功率擾動的數據來源于文獻[23],由此可得到仿真結果如圖12—14 所示。

圖12 孤島微電網受到的強隨機擾動Fig.12 Strong random disturbance to island microgrid

圖13 強隨機擾動下的微電網頻率偏差Fig.13 Frequency deviation of microgridunder strong random disturbance

圖14 強隨機擾動下的MT、EV 輸出功率增量Fig.14 Output power increment of MT and EV under strong random disturbance
同時,可以根據上述仿真結果,以頻率偏差的絕對值|Δf|為考核對象,設置頻率偏差考核優秀率閥限值為±0.05 Hz,統計出強隨機擾動下的對照試驗結果,如表3 所示。

表3 強隨機擾動下的頻率偏差仿真結果Table 3 Simulation results under strong random disturbance
由圖13與表3 分析可見,將本文所設計的DQN控制器用于孤島微電網的頻率控制時,微電網在受到隨機擾動與負載擾動時的頻率偏差可以控制在0.05 Hz的范圍內,達到100%的優秀率,調節時間也明顯短于傳統控制器。而在傳統PI、FUZZY 控制下,頻率偏差最大達到了0.191 8 Hz與0.061 1 Hz,特別傳統 PI 控制,頻率調控的優秀率僅達到62.5%。這一仿真結果表明了DQN 控制器具備在線學習和經驗回放能力,在應對強隨機性擾動時,有更好的穩定性和魯棒性,調節時間短、對擾動響應快。
前文針對孤島微電網在受到隨機性擾動的工況進行了較為全面的仿真設計,而本節將針對孤島微電網系統參數和結構變化的復雜工況進行仿真設計[24]:在3.3 節的仿真基礎上,假設80 s 時EV 調頻機組突然因故障失去調節能力,對比PI、FUZZY與DQN 三組控制器的頻率調節性能,結果如圖15 所示。同時,與前文同理,以頻率偏差的絕對值|Δf|為考核對象,可統計出EV 調頻機組故障情況下的對照試驗結果如表4 所示。

圖15 調頻機組故障情況下的微電網頻率偏差Fig.15 Frequency deviation of microgrid under fault condition of FM unit
由圖15、表4 分析可見,在EV 調頻機組故障退出運行的情況下,PI與FUZZY 控制器的控制性能受到較大影響,最大頻率偏差達到0.287 3 Hz與0.087 9 Hz,其中PID 控制器下的頻率偏差已經遠遠超過了電網頻率的合格標準(|Δf| <0.2 Hz),優秀率僅達到58.2%。而具備在線學習和自適應特性的DQN 控制器調控下的微電網系統,仍能較好地保持頻率的穩定運行,頻率偏差依然能控制在0.05 Hz的范圍內,達到100%的優秀率。這一仿真結果表明了DQN 控制器將電動汽車隨機輸出功率增量作為狀態空間量之一,能夠更好地適應系統參數和結構變化的復雜運行工況。

表4 調頻機組故障情況下的頻率偏差仿真結果Table 4 Simulation results under fault condition of FM unit
本文提出了一種基于深度Q 學習的含電動汽車孤島微電網負荷頻率控制策略。與傳統PI 控制、FUZZY 控制相比,DQN 控制具備在線學習和經驗回放能力,更能有效應對強隨機性擾動、系統參數和結構變化等復雜運行工況。當施加隨機擾動后,在調節速度與效果上均明顯優于傳統控制器,同時,在面對調頻機組失去調節能力的嚴重事故時,依然能保證系統頻率的平穩,顯著增強了孤島微電網的魯棒性和適應性。與傳統智能控制方法相比,本文所提出的DQN 控制器將電動汽車隨機輸出功率增量作為狀態空間量之一,很好地適應了電動汽車充電站所具有的用戶隨機性,更適用于含電動汽車的孤島微電網的負荷頻率控制。而對于結構更為復雜、體量更大的互聯多微網系統,本文的DQN 控制器將難以滿足多個微網之間的協調控制問題,后續工作將著力對此方向進行深入分析研究。