李 華,于 瀟
(1.省部共建電工裝備可靠性與智能化國家重點實驗室(河北工業大學),天津300132;2.河北省電磁場與電器可靠性重點實驗室(河北工業大學),天津300132)
近年來,國家對分布式發電的扶持力度不斷加大,屋頂分布式光伏發電成為了許多家庭的有效選擇。而光電本身的不確定性會造成一定程度的棄光現象,給公共電網的穩定運行帶來很大的挑戰[1]。為此,在新能源消納困難的地區要提高光電的就近消納能力,充分挖掘現有系統的調峰能力[2]。儲能技術的引入不僅能夠提升分布式光伏的就地消納能力,還可以提升系統穩定性,改善電能質量,將系統由“剛性”變為“柔性”[3],[4]。
針對微電網中的能量管理和優化控制問題,文獻[5]利用粒子群優化算法尋求儲能電站調度任務的最優分配方案,最大限度地降低了調度成本。文獻[6]提出了一種集成混合整數線性規劃、多尺度規劃和基于優先級的模糊隨機規劃算法,這些算法能夠解決微電網中的許多問題。文獻[7]構造了包含蓄電池和儲氫裝置的微電網復合儲能模型,采用DQN(Deep Q Network)算法對微電網系統的能量調度進行決策優化。文獻[8]采用Q學習算法研究了以風儲合作系統長期收益最大化為目標的風儲合作系統參與電力交易的能量調度優化問題,并考慮了申購的備用容量成本。文獻[9]采用強化學習算法,使電源、分布式存儲系統和用戶在互相沒有先驗信息的情況下能夠達到納什均衡。
針對微電網中儲能設備的管理問題,本文以家庭光儲系統的累計經濟收益和蓄電池調節能力為目標,設計了一種基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的光儲微電網系統能量調度方法。首先闡述了理論基礎和數學模型,然后通過歷史數據和探索性策略進行網絡參數的訓練,最后對比和分析了不同獎勵函數下系統的年收益,驗證了以長期收益最大為目標的小型家庭式光儲系統能量調度策略的有效性和可行性。
強化學習作為機器學習的一個分支,其原理為智能體在通過與環境的不斷交互的過程中得到環境的反饋獎勵,然后根據反饋獎勵對動作進行評估和改進,以使評估越來越準、采取的動作越來越好。強化學習的理論基礎是馬爾科夫決策過程(Markov Decision Process,MDP),MDP可以用一個五元組(S,A,P,R,γ)來表示,其中,S為狀態集,A為動作集,P為轉移概率,R為獎勵函數,γ為折扣因子。t時刻,在策略π下,智能體根據當前狀態st采取動作at,并依據轉移概率p(st+1|st,at)進入到下一個狀態st+1,同時得到來自環境的反饋rt。為降低未來反饋對當前的影響,須將γ與回報函數r相乘來計算累計回報Rt。

強化學習的目標是找到最佳策略π,得到累計回報期望的最大值。為了便于求解,須對某一時刻的狀態動作進行評估,為此引入了狀態動作值函數的概念,表達式如下:

利用基于蒙特卡羅的強化學習方法、基于時間差分的強化學習方法和基于值函數逼近的強化學習方法,對狀態動作值函數進行求解。其中,前兩個方法難以解決狀態空間和動作空間較大的問題,在基于值函數的強化學習方法中,DDPG算法在處理高維連續動作空間問題時有良好的表現。
DDPG是強化學習算法的一個重要里程碑,其中深度神經網絡的應用增強了模型的特征提取能力,為強化學習在高維連續狀態空間的應用提供了可能。同時,DDPG算法繼承了DQN算法中的經驗回放和獨立目標網絡,旨在打破數據之間的關聯性,降低模型的訓練難度。與DQN算法相比,DDPG算法使用了演員-評論家(Actor-Critic Algorithm,AC)網絡,使動作空間也升級為連續。DDPG算法更新網絡參數如式(3)~(7)所示。


DDPG算法避開了傳統啟發式算法在解決微電網能量管理和調度上的局限,它不需要研究者制定具體的決策流程和目標函數,代之以動作空間、狀態空間、獎勵函數和一定的變量約束就可以將初始網絡訓練成想要的網絡。系統的預測和能量調度在該算法下可實時進行,電能交易規則根據獎勵函數值實時更新,具有自發滾動協調不同時間尺度的功能。與隨機策略相比,確定性策略對采樣數量要求低,在處理高維動作空間的問題時計算速度更快。
如圖1所示,家庭光儲一體化模型為源-網-儲-荷的家庭微電網系統,包括交直流母線、光伏組件、公共電網、蓄電池、變流器以及由直流負載和交流負載組成的家庭用電負荷,箭頭代表功率流向。其中光伏組件將太陽能轉換為電能,供給交流負荷或經過變流器將電能轉換成直流電供給直流負載或蓄電池。用戶是光儲一體化系統的直接收益者,當光伏發電量和蓄電池存儲電能不足以供給本地負荷使用時,用戶從公共電網購電;當光伏發電量或蓄電池存儲電能盈余時,用戶可以選擇出售給電網獲取收益或存儲備用。

圖1 光儲系統合作機制Fig.1 Hybrid system cooperationmechanism
光伏發電系統的出力模型為


蓄電池的充、放電模型分別為



2.5.1 狀態空間和動作空間
家庭式光儲系統的狀態空間s:{m,sbat,Ppv-Pl},其中:m包含24個狀態,代表了從開始到之后24 h每個時段的電價,分別為m(t),m(t+1),…,m(t+23);sbat為蓄電池的剩余電量;Ppv-Pl為光伏發電系統供給家庭用電負荷后的剩余電量。動作空間A:{pbat},其中:pbat>0蓄電池放電;pbat<0蓄電池充電;pbat=0蓄電池閑置,既不充電也不放電。
2.5.2 獎勵函數

式中:R為累計收益;M-M'為光儲一體化系統比采用“自發自用,余電上網”模型的系統多出的盈利額,它保證了系統的累計收益和功率平衡;μ為蓄電池調節能力的獎勵系數;C為蓄電池的調節能力。
μ反映了蓄電池調節能力的重要程度,是系統自身盈利與系統功率波動平衡之間的平衡度量。μ的取值越小,經訓練后的模型盈利能力越強;μ的取值越大,經訓練后的模型平抑功率波動能力越強。經多次實驗分析對比,得到較為理想的μ值,在該μ值下,系統的自身盈利與系統功率波動平衡之間達到博弈均衡。
本實驗中所用的AC網絡架構如圖2所示。為了使模型響應不同時間的電價,在Actor網絡中,s1先經過兩個卷積池化塊,每個卷積池化塊包含一個卷積核尺寸為15的卷積層和一個尺寸為2的最大池化層,連接層將其與s2連接為一個變量;之后經過4個全連接層,其中,前3個全連接層的激活函數為relu,最后一個全連接層通過

圖2 網絡架構圖Fig.2 Network architecture diagram
softsign激活函數得到動作a。在Critic網絡中,s1先經過兩個卷積池化塊,連接層將其與動作a和s2連接成一個變量輸入到一個激活函數為relu的全連接層中,之后再經過一個無激活函數的全連接層得到Q(s,a)。該網絡的具體訓練步驟如圖3所示。

圖3 DDPG訓練流程圖Fig.3 DDPG training flowchart



表1 日分時電價Table 1 Time-of-use power price
在本文所建立的家庭光儲微電網模型中,采用時間跨度為1 a的實驗數據進行了多次實驗,將光伏發電所需的氣象數據、負荷數據與分時電價信息作為輸入數據,蓄電池動作作為輸出數據。為使結果更加清晰直觀,下文將用蓄電池剩余電量、微電網-公共電網聯絡線上的功率波動和系統年收益加以表示。
圖4為損失值變化趨勢曲線,其中,loss1為C網絡的損失值,loss2為A網絡的損失值。從圖中可以看出,隨著訓練次數的增加,損失值逐漸接近0,說明訓練效果趨于穩定,模型趨于收斂。

圖4 損失值變化趨勢曲線Fig.4 Trend curve of loss value
圖5為截取了時長為1 d的蓄電池剩余電量變化趨勢曲線。從圖中可以看出:當μ=0.1時,經訓練后的模型以系統最大年收益為主要目標,高電價時蓄電池迅速放電至容量下限,低電價時蓄電池迅速充電至容量上限,且蓄電池剩余電量達到容量上限和容量下限的狀態持續了很長時間,在此期間,蓄電池始終沒有調節能力;當μ=0.2時,蓄電池剩余電量停留在容量上限和容量下限的時間變短;當μ=0.3時,蓄電池剩余電量停留在容量上限和容量下限的時間為0,說明在第8小時以外的時段蓄電池均保留了調節能力,在第13小時,蓄電池的工況由放電轉為充電,說明其具備感知平時段和峰時段之間微小電價差的能力,在后面的峰時段電價到來之際,蓄電池開始放電以套取更多收益;當μ=0.4時,蓄電池剩余電量曲線接近于一條水平直線,說明此時經訓練后的模型以蓄電池調節能力為主要目標,盈利意愿不明顯。

圖5 蓄電池剩余電量曲線圖Fig.5 Curve of battery remaining power
在實際運行過程中,由于光伏發電的波動性,光伏系統出力的實際值與預測值存在一定的偏差,這會導致源-儲-荷系統與公共電網間的聯絡線上的功率波動較大,而有調節能力的蓄電池可以在一定程度上平抑聯絡線上的功率波動,其平抑功率波動能力的強弱取決于獎勵函數中μ值的大小。圖6為截取了800 h內,μ分別取0.1,0.2,0.3和0.4時聯絡線上的功率波動情況。從圖中可以看出,μ的取值越大,聯絡線上的功率波動越小,說明蓄電池平抑功率波動的能力越強,系統向電網申購備用容量的成本越低。

圖6 聯絡線上的功率波動曲線Fig.6 Curve of power fluctuations on the Power tie line
表2給出了不同模型下家庭光儲微網系統的年支出與年收益對比,年支出為系統用電成本,年收益為系統利用電價差進行低電價買入電能、高電價賣出電能掙得的額外收益。其中“自發自用”模型即采用“自發自用,余電上網”政策的模型。從表中可以看出,在家庭光儲微電網模型中,當μ=0.2和μ=0.3時,系統的年收益較多,且這兩種情況下的系統年收益差別不大。

表2 不同模型下的年支出與年收益Table 2 Annual expenditure and annual income under differentmodels
綜上所述,當μ=0.3時,家庭光儲微電網系統中的蓄電池調節能力較強,同時也可以很好地響應電價激勵。說明此時,該模型并沒有以犧牲很多年收益為代價來提高蓄電池對聯絡線上功率波動的平抑能力,反而維持在較高的年收益水平,同時對電網負荷側也起到了削峰填谷的作用。
本文將深度強化學習理論引入源-網-儲-荷的家庭光儲一體化微電網系統中,計算系統中蓄電池的充放電功率,其結果具有很強的自洽性。將DDPG算法應用于家庭光儲微電網系統的能量決策優化問題中,有效地改善了系統的靈活性、實時性和經濟性,提升了系統平抑功率偏差的能力。