999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的綜合能源系統管理綜述

2021-12-01 08:25:10熊珞琳董朝陽
自動化學報 2021年10期
關鍵詞:優化策略模型

熊珞琳 毛 帥 唐 漾 孟 科 董朝陽 錢 鋒

能源是人類社會生存和發展的重要物質基礎,社會的發展伴隨著能源需求日益增長,化石能源的大量使用帶來環境污染、生態破壞和全球氣候變暖等一系列問題[1?2].為了解決能源可持續供應以及環境污染等問題,以電能為核心,在源端整合了太陽能、風能、生物質能、海洋能、地熱能等清潔可再生能源,在終端實現熱、電、冷聯供的綜合能源系統(Integrated energy system,IES)成為當今世界能源領域研究的熱點[3].隨著全球能源供應多元化和社會對各類能源需求的不斷增加,加強對綜合能源的管理不僅能夠提高能源利用率、減少對環境的破壞,也能提升經濟發展質量和效益[4].電能作為綜合能源的核心,是把握國家經濟命脈的關鍵因素[3],因此本文從系統層面將綜合能源管理問題分為僅考慮單一電能的電力系統管理問題和考慮多種能源的綜合能源系統管理問題.

綜合能源系統的大規模區域互聯使其逐漸發展成為大型高維系統,間歇性可再生能源和包含電動汽車(Electric vehicle,EV)、分布式儲能設備在內的柔性負載的接入增加了綜合能源系統的復雜動態特性[5?6],另外用戶能源消耗行為的隨機性、能源多樣性和不同形式能源之間的耦合關系也給現代化能源管理帶來了巨大的挑戰[7?8].混合整數規劃[9]、線性規劃[10]、非線性規劃[11]等傳統優化算法往往依賴于精確的數學模型和參數,考慮到綜合能源系統是具有高度不確定性的復雜動態系統,精確的模型構造十分困難,因此傳統優化算法在求解綜合能源系統管理問題中的應用受到限制[12].

作為人工智能的一個重要分支,強化學習(Reinforcement learning,RL)因其強大的自主學習能力,獲得了許多專家學者的關注[13?19].具體來講,強化學習不需要監督信號來直接指導學習,只依賴于一個反饋回報信號,對其“試錯”過程進行評估,間接指導智能體向反饋回報值最大的方向進行學習,從而減少對精確的系統模型的依賴.目前,強化學習算法已廣泛應用于機器人導航[13]、計算機游戲[14]、計算機視覺[15]和化學合成[16]等領域.

針對綜合能源系統的高度不確定性,傳統優化方法需要對不確定因素提前預測[20]并利用動態場景生成方法對環境進行估計,進一步建立能源系統動態模型.這類方法不僅計算量大,而且優化結果極大程度上取決于不確定因素預測和動態場景生成的準確度,當預測結果偏差較大時,即使性能優良的求解算法也無法得到最優解[21].然而在強化學習方法中,智能體可以在不同的系統狀態下嘗試不同的動作,并從獎勵回報中學習知識以獲得最優策略,智能體與環境交互的整個過程可以不依賴于詳細精確的模型信息,因此所得策略的性能也不受制于預測結果的精度[22].

針對綜合能源系統的變量高維度特性,強化學習可以采用多層馬爾科夫決策過程(Markov decision process,MDP)模型進行分層優化.在面對一些具有連續動作和狀態空間的問題時,強化學習還可以與具有出色數據處理能力的深度學習相結合構成深度強化學習算法(Deep reinforcement learning,DRL),進而求解得到具有高維變量的綜合能源系統的最優管理策略[23],并且該方法相較于傳統優化方法在實際生活場景下更容易實現[21].

基于強化學習的無模型依賴性、變量復雜性的優點,許多專家學者致力于利用強化學習算法來處理綜合能源系統管理問題,并取得了一系列研究成果[17?19].同時一些學者基于這些研究作了相關綜述,例如文獻[24]從拓撲結構、優化目標、時間尺度、調度優化結構等方面綜述了互聯微電網的能源管理方案;文獻[25]基于大功耗家庭供暖通風空調控制系統(Heating,ventilation,and air conditioning,HVAC)、智能家庭、智能商業和住宅建筑這三個系統的能源管理問題,綜述了利用深度強化學習算法求解的能源管理方案;文獻[26]系統地總結了強化學習、深度強化學習和多智能體強化學習分別在電力和能源系統中的應用.

本文在現有研究成果和相關綜述的基礎上,從模型和算法兩個方面系統回顧了基于強化學習的綜合能源系統管理問題.在模型方面,將單一電能從綜合能源中提出來單獨討論,把綜合能源管理問題分為電力系統和綜合能源系統管理問題,在電力系統管理中依次討論了微電網、智能家庭以及公共電動汽車這三個關注度較高的電能優化管理問題,即互聯微電網電能調度、智能家庭用電管理和電動汽車充放電規劃.在算法方面,主要分析各類問題中用到的不同強化學習算法并對比其性能.圖1 是本文的結構框架及主要內容.第1 節主要介紹強化學習算法的定義、分類及面臨的挑戰和解決方法;第2 節主要總結了強化學習算法在電力系統優化管理中的應用;第3 節聚焦于多種異質能源協調優化、互補互濟的綜合能源系統中,分別介紹了綜合能源系統優化管理模型和利用強化學習算法求解得到的綜合能源系統管理方案;第4 節對綜合能源系統管理問題面臨的挑戰進行展望,并結合強化學習方法提出相應的潛在解決方案;第5 節對本文工作進行簡單總結.

圖1 結構及主要內容Fig.1 The structure and main contents

1 強化學習簡單介紹及分類

隨著人工智能技術的發展進入新的歷史階段,強化學習作為人工智能領域中一種快速、高效的學習算法,是當前的研究熱門,受到許多學者的廣泛關注[13?19].強化學習與依賴直接監督信息的監督學習不同,它讓智能體通過與環境的持續交互獲取環境知識,并通過采取最優動作獲得最大回報以實現其目標.在解決具有延時回報的序列決策問題中,智能體與環境的交互過程通常被建模為馬爾科夫決策過程模型[27].

強化學習在馬爾科夫決策過程中主要使用的方法包括自適應動態規劃(Adaptive dynamic programming,ADP)[28]、時間差分(Temporal difference,TD) 學習[29]、蒙特卡洛法(Monte carlo,MC)[27]等.

根據學習方式的不同,強化學習可以分為在線策略和離線策略[27].其中,在線策略是指生成樣本的策略與網絡更新參數時使用的策略不同,即與環境互動和網絡更新同時進行,一邊采樣一邊更新.離線策略則是指生成樣本的策略與網絡更新參數時使用的策略相同,采用先采樣后集中更新的方式進行學習[27].兩者的本質區別在于,更新Q值的方法是沿用既定策略還是新策略.以此為依據,時間差分學習又分為狀態–動作–回報–狀態–動作(Stateaction-reward-state-action,SARSA)算法和Q學習算法(QLearning)[27].

根據動作的選擇依據,強化學習又可以分為基于價值的強化學習和基于策略的強化學習[27].其中,基于價值的強化學習是在知曉所有動作價值的基礎上,根據最高價值來選擇動作,因此并不適用于選取連續動作.基于策略的強化學習則是通過對環境的分析,直接輸出下一步可能采取的各種動作的概率,然后根據概率采樣選取行動[27].

在強化學習中,系統的模型包括環境的狀態空間、動作空間以及狀態轉移概率等.根據模型是否完全給定,強化學習還可以分為基于模型的強化學習和無模型的強化學習[27].其中,基于模型的強化學習依賴于環境在各個動作下的狀態轉移概率,而無模型的方法不需要完整的環境信息,當給予適當的獎勵時智能體可以自主學習最優策略[27].

強化學習在應用過程中會面臨許多挑戰,例如如何平衡探索與開發、如何處理高維決策問題、如何減小狀態動作價值的估計誤差、如何提升學習效率等.在選擇策略的過程中如何平衡探索與開發是一個常見的問題,其中探索是指嘗試之前沒有執行過的動作以期望獲得超過當前最優動作的獎勵回報,開發是指執行已經學習到的能獲得最大獎勵回報的動作,即貪婪動作.因此以現有的動作價值為參考,開發是相對正確的,但是由于一些具有更高價值的動作可能還未被發現,從長期來看探索可能會比開發帶來更大的收益.所以需要在開發和探索之間找到一個平衡,避免陷入局部最優,并收斂到全局最優.一種平衡探索與開發的方法是采取貪婪策略,智能體在每個狀態有 1??的概率選擇進行開發,有?的概率選擇進行探索.當動作空間為A時,|A|是該空間中的動作總數,除貪婪動作外各個動作被采取的概率為?/(|A|?1)[30].另一種方法是在每次得到貪婪動作的基礎上添加隨機噪聲,使得采取的動作是在貪婪動作鄰域內隨機探索的結果[31].但是由于沒有考慮每次探索動作的價值,添加隨機噪聲的方法存在數據利用率低、充分探索需要無限長時間等不足.

為了處理高維決策問題,具有感知能力的深度學習和具有決策能力的強化學習相結合產生了深度強化學習算法[23].深度學習中深度神經網絡從高維數據中提取低維特征,能夠有效解決維度災害的問題,再與強化學習相結合解決具有高維狀態和動作空間的序列決策問題.深度Q網絡(DeepQnetwork,DQN)[14]、演員?評論家算法(Actor-critic,AC)[32]都是常見的深度強化學習算法.此外,針對變量耦合的問題,傳統優化算法中耦合變量和耦合的約束條件使得建立機理模型存在困難,也為后續的求解增加了難度.然而強化學習算法具有無模型依賴性,智能體從與環境交互過程獲得的獎勵回報中學習知識,可以克服復雜耦合變量和約束條件帶來的困難[33].

在所有目標的狀態動作價值都是通過執行貪婪動作直接得到的情況下,DQN 中目標Q值的計算更新公式如式(1)所示[14]

其中,rt是t時刻在狀態st下采取動作at得到的獎勵回報,γ是折扣因子,Q(st+1,at+1) 指下一時刻的狀態動作價值.這里的max 操作會使現有狀態動作價值Q(st,at) 被高估,對不同動作不同程度的高估可能會導致某些次優策略價值超過實際最優策略的價值,從而永遠無法找到最優策略.針對Q值被高估的問題,有學者提出了深度雙Q網絡(Double deepQnetwork,Double DQN),通過解耦動作的選擇和目標Q值的計算,來解決過度估計問題,提升算法性能[34].類似地,深度競爭Q網絡(Dueling deepQnetwork,Dueling DQN)也能提高估計值的精確度,提升算法穩定性[35].

Q學習無法在連續動作空間中選擇合適的動作,策略梯度方法能有效解決這個問題,但是傳統的策略梯度方法采用回合更新的形式,降低了學習效率.因此有學者提出了演員?評論家算法[32],該算法融合了以狀態動作價值為基礎(比如Q學習)和以動作概率為基礎(比如策略梯度)的兩類強化學習算法.優勢演員?評論家算法 (Advantage actorcritic,A2C)、異步優勢演員?評論家算法(Asynchronous advantage actor-critic,A3C)[36]、置信域策略梯度算法(Trust region policy optimization,TRPO)[37]、近端策略優化算法(Proximal policy optimization,PPO)[38]、深度確定性策略梯度算法(Deep deterministic policy gradient,DDPG)[39?40]都是基于演員?評論家算法改進得到的算法,并被眾多專家學者用于高效求解具有連續動作空間的能源管理問題[41?45].按照是否基于模型、選擇動作的依據和學習方式,本文對強化學習算法進行了如表1所示的分類.

表1 強化學習算法分類Table 1 The classification of reinforcement learning algorithm

2 基于強化學習的電力系統管理

優化電能分配方式、提高電能利用效率在促進可持續發展進程中起到重要作用,因此本文首先聚焦電力系統管理問題.本節將依次介紹面向微電網、智能家庭、電動汽車管理問題的基于強化學習的方法.這些問題具有相似的經濟性和社會性優化目標,例如降低購電成本、系統運營成本或操作成本以提升系統經濟性,降低負荷曲線峰均比以提升電力系統安全性、穩定性;它們也面臨相似的挑戰,例如系統的高度不確定性、變量的高維耦合特性以及難以建立精確的系統模型等.由于智能體在與環境交互的過程中可以自主學習環境知識,不依賴于精確的環境模型,因此相較于依賴不確定因素預測精度的傳統優化方法,強化學習能夠更好地處理無模型的綜合能源系統管理優化問題.但是由于不同場景中電能管理的時間尺度是不同的,例如對電價的優化可以是日前調度,而對渦輪發電機、電動汽車或家庭用電設備的調度則需要更小時間尺度下的日內滾動優化或實時調整[46],因此用到的強化學習算法也有一定差異.下面將對上述問題進行詳細的分析和總結.

2.1 微電網管理

微電網是集成了分布式電源、儲電系統、電能轉換設備和用電負載的小型配電系統[47].在微電網電能優化管理中,優化變量主要包括電力交易價格、功率分配方案等,優化目標包括最大化運營商收益、最小化購電成本、提高用戶用電滿意度、減少能量傳輸損失、提高新能源利用率、提高系統穩定性等.其常見模型如式(2)~式(4)所示[48]

如圖2 所示,對微電網實施能源優化管理主要從供電側、儲電系統和需求側三個方面進行考慮.供電側管理與調節發電裝置的發電量有關[49].儲電系統管理通過規劃充放電動作來協調系統電能供求關系[41,50?55].需求側管理主要分為兩類,一類是直接控制負載通斷[56],另一類通過動態電價間接管理功率分配.動態電價對電能的間接管理又可以細分為兩個方向[57]:其一,站在公用事業公司的立場,通過設計有效的定價策略最大程度地提高社會福利,包括智能電網中所有消費者的總收益和公用事業公司售電獲得的收益[42,47,58?60];其二,站在消費者的立場,針對公用事業公司的定價策略,設計有效的價格感知型需求調度策略以最大化消費者個人收益.在本節將著重討論動態定價方案設計問題,用戶需求響應和用電設備的規劃將在第2.2 節中闡述.

圖2 微電網管理方案Fig.2 Microgrid management approach

表2 羅列了基于強化學習的微電網管理的相關文獻,從時間尺度、管理方案和求解算法這三個角度進行總結,并從收斂穩定性、計算速度、隱私保護和適應性4 個方面分析這些算法的性能,其中 √ 表示文獻提出的算法在這方面具有較好的性能,空白的單元格表示文中沒有提到這方面的性能.根據時間尺度的不同,微電網的電能優化管理問題中具體包括了日前調度、日內滾動優化和實時調整三種時間尺度的優化類型.日前調度是階段性的,考慮到電力系統的高度不確定性,預測可能存在偏差,所以需要更小時間尺度的優化方案,例如日內滾動優化和實時調整,其中,日內滾動優化是指在某個時間窗口內以日前計劃作為參考,利用時間窗口動態更新的模型數據滾動求得最優策略[61].實時調整則是以小時或者更短的時間為單位進行實時優化.預測精度隨時間尺度的減小而逐漸提高,更小的時間尺度優化往往具有更好的性能,但也需要進行更復雜的計算[62].

表2 基于強化學習的微電網管理Table 2 Microgrid management based on reinforcement learning

2.1.1 常規算法求解微電網管理問題

微電網系統包含的可再生能源(例如太陽能光伏發電、風力發電)生成的不確定性以及用戶需求的隨機性,使微電網管理問題模型難以建立,同時高維優化變量以及非線性約束的存在也為求解此類優化問題帶來困難.

傳統優化求解算法包括遺傳算法(Genetic algorithm,GA)[63]、粒子群算法(Particle swarm optimization,PSO)[64?65]、混合整數線性規劃(Mixed integer linear programming,MILP)[63]以及動態規劃算法[53,66]等.例如Shu 等[63]面向公用事業公司提出一種融合遺傳算法和混合整數線性規劃的混合優化算法來確定最優動態零售電價,在提高了公用事業公司利潤的同時改善了大型工業用戶的用電方式,降低其平均用電成本.Mirzaei 等[64]通過自適應粒子群算法求解由多個微電網和電動汽車組成的雙層能源系統管理問題,以減少高峰時段的負載需求使得負載曲線平整化.Jin 等[53]在存在分布式可再生能源和時變電力價格的場景中,利用動態規劃算法求解得到儲電設備的最佳運行策略,最大程度地降低消費者的電力消費成本.

針對可再生能源生成的不確定性問題,Li 等[67]使用區間預測方法預測微電網中風力渦輪機和光伏電池的不確定功率輸出,并通過混沌群體搜索優化方法求解滿足微電網運行經濟性、電能質量和安全性要求的多目標優化問題.針對用戶用電需求的隨機性問題,Bao 等[68]提出了一種面向工業客戶的多時標需求側最優調度框架,用動態場景生成方法模擬調度時段內客戶用電時間序列的不確定性.

然而,上述區間預測和動態場景生成方法不僅計算量大,而且策略優化性能極大程度地取決于不確定因素預測和動態場景生成的準確度,當預測結果偏差較大時,即使性能優良的求解算法也無法得到最優策略.考慮到優化變量的高維性和模型的不可知,一些文章采用強化學習算法[22,43],在節約計算成本的同時提升了算法在面向不同場景的優化問題時的適應性.

2.1.2 強化學習求解儲電系統管理問題

一些學者利用強化學習方法對儲電系統進行管理,進而解決電能分配調度優化問題.例如通過在用電低峰期充電、用電高峰期放電來降低用電成本,平整負荷曲線;在光照強或者風力大的時候利用光伏發電或風力發電為儲電設備充電,在電價高或用戶用電需求增加時放電,以滿足用戶用電需求并降低電力成本.文獻[41]提供了一種利用DDPG 算法進行訓練的控制器用于管理儲電系統的充放電狀態,同時為電網提供頻率響應服務.Qazi 等[69]提出了基于DQN 的孤立微電網集群能源和儲備調度的概念,通過共享能源和儲備來提高微電網的經濟效益,最大程度降低其運營成本.Jayaraj 等[70]面向包含光伏單元和電池的微電網利用Q學習算法實現經濟調度,減少了電網的凈交易成本,并給出以24小時為周期的電池運行調度方案.文獻[50]提出了一種基于Double-Q學習的方法,在實時電價和煤炭價格不確定的情況下,求解得到并網微電網中的儲電套利策略.其中,Double-Q學習的主要思想是使用兩個神經網絡將選擇策略和評估策略進行分離,因此該算法可以在迭代更新后更準確地收斂到最優解.

2.1.3 強化學習求解需求側電能管理問題

一些學者從需求側管理的角度通過直接控制負載通斷對電能進行管理.文獻[56] 使用Dueling-DQN 算法學習控制可中斷負載的狀態,實現電壓調節并減少分布式系統的總操作成本.Dueling-DQN算法用兩個深度網絡分別表示狀態價值網絡V(st)和動作優勢函數網絡A(st,at),其輸出將兩者結合以產生狀態動作值Q(st,at),克服傳統DQN 中的噪聲和不穩定性,提高模型收斂穩定性.

制定動態電價是一種更為常見的需求側能源管理方法,從公用事業公司的角度來看,一般將提升利潤作為首要優化目標.例如,Liang 等[42]采用DDPG 算法求解公用事業公司的電價競標策略,最終實現社會收益最大化.文獻[58]提出了一種用于分級電力市場能源管理的動態定價需求響應算法,將動態定價問題建模為離散有限馬爾科夫決策過程,服務供應商通過Q學習算法在線自適應地制定零售電價,同時實現提高服務供應商利潤、降低客戶成本、平衡電力市場的能源供需、提高電力系統的可靠性等優化目標.除了經濟性目標之外,合理分配功率以增加用戶用電滿意度和降低峰均比也是微電網能源管理中的重要優化目標.例如文獻[48]提出了一種基于深度神經網絡和無模型強化學習算法的多微電網能源管理方法,配電系統運營商(Distribution system operator,DSO)利用深度神經網絡來預測各微電網的功率交換而無需直接訪問用戶信息.DSO 通過蒙特卡洛方法求解得到零售定價策略,既能使DSO 的利潤最大化又能降低需求側的峰均比,提高用電可靠性.與之相似,Zhang 等[22]在無法直接訪問用戶信息的條件下,讓智能體基于自適應強化學習框架通過函數逼近來預測微電網功率分配行為,并優化價格信號,最終最大化微電網總收益.

從消費者的角度來看,對實時電價進行感知并調整配電策略可以節省用電費用.Lei 等[43]針對深度強化學習算法的不穩定性和有限時域模型的獨特性,提出了兩種新的DRL 算法,即有限時域深度確定性策略梯度算法和有限時域遞歸確定性策略梯度算法,分別在有、無完全可觀測狀態信息這兩種情況下學習到包含柴油發電機、光伏電池板和蓄電池的孤立微電網的能源調度策略,在滿足用戶電力需求的基礎上降低了分布式電源的發電成本,并最大限度地利用了可再生能源.

2.1.4 電力系統管理中的博弈和隱私保護問題

由于我國電網具有多主體、強不確定性、多目標的特征,電力系統管理決策問題已逐步由單人優化決策向具有不同目標的多決策者博弈轉換.例如在消納發電側大規模風電和光電的問題中,存在經濟性與環保性的權衡;輸電網中,為保障不確定環境下電網安全,大自然和電網存在著博弈;在電動汽車等儲電設備靈活接入微電網進行充電和放電的問題中,存在售電商與用戶之間的博弈,所以在電能管理問題中考慮博弈論和強化學習結合的方法是十分必要的[42].例如文獻[47]提出了一種用于微/納米電網的內部能源管理和外部能源交易的三層優化方案.第一層提出一個在線隨機需求側能源管理模型,并用強化學習算法求解各個網絡內部的用電調度方案;第二層制定了雙重拍賣機制,使各個網絡之間可以直接進行電力交易;第三層由中央控制器制定最佳功率分配策略,以減少功率傳輸損耗和局部能源交易可能會帶來的破壞性影響.

隨著社會和科技的發展,用戶的隱私保護問題得到越來越多的關注[71],例如文獻[22]、[48]在無法觀測用戶對價格作出響應的情況下,只能選擇通過神經網絡或函數逼近來預測特定價格信號下的功率交換信息.文獻[43]在狀態信息部分可觀的情況下利用歷史信息進行優化.此外,文獻[64]中的雙層能源管理模型也在一定程度上保護了用戶的隱私.

2.2 智能家庭電能優化管理

隨著太陽能光伏電池板、智能電表、電動汽車、家用電池和其他“智能”設備的普及[72],智能家庭的概念進入人們視野,由此家庭耗能優化管理問題得到廣泛關注,一些學者把研究目光聚焦到家庭用電設備的調度管理上來.由于家用設備數量較多,而且不同設備具有不同的控制策略,例如對照明設備的控制可能是連續的功率控制、對洗碗機的控制是離散的開關控制,傳統優化方法對家用設備的管理需要針對不同設備建立不同的模型,而強化學習算法可以只用一個網絡輸出不同的參數,對不同的設備同時優化提高效率.

實時定價和能源調度是家庭能源管理的兩個重要組成部分[73].在實時定價方面,主要考慮包含可再生能源發電設備、儲電設備[74]和可充放電電動汽車的家庭在開放市場中進行交易的場景.文獻[75]提出了一種基于深度演員?評論家的多智能體擴展算法,在環境部分可觀測并且感知非平穩的條件下學習實時定價方案,以降低所有家庭總能耗峰均比和用電成本.

在能源調度方面,不同文獻采用不同的方式對負載進行分類,可以分為不可調負載、運行時間可調負載、運行功率可調負載[21],或者再進一步將時間可調負載分為連續時間工作負載和可中斷負載[44,76].然后根據各類負載運行特性分別實施調度策略,在節約用電成本的同時,提升用戶用電滿意度和舒適度.文獻[77]將負載分為常開負載、可開關負載和可靈活調節負載,并用雙向長短期記憶(Long short term memory,LSTM)網絡預測電力和能源價格,在此基礎上用Q學習算法進行優化,實現了能耗減少和成本降低.文獻[44]提出了一種基于置信域策略梯度的家用電器高效需求響應算法,該方法不依賴模型,并且通過同一個策略網絡輸出不同概率分布的參數,基于不同的概率分布進一步采樣得到不同類型設備優化后的離散動作或連續動作.文獻[76]對比了DQN 和確定性策略梯度法(Deterministic policy gradient,DPG)的優化性能,根據電價實時在線優化用電設備的動作,實現用電總花費最小,同時考慮了開關頻率對用電設備和用戶舒適度的影響,仿真結果證明DPG 算法在降低用電成本和降低峰均比方面有更好的效果.

此外,由于多重不確定因素在不同時間尺度上表現出不同的分布特性,許多文章選擇在不同時間尺度上進行優化,包括日前調度、日內滾動優化和實時調整.例如,Xu 等[21]在滾動時間窗口下利用神經網絡對不確定性因素預測并進行優化,而Lu 等[78]則提出了一種提前一小時的家庭能源管理實時需求響應算法.常見的目標函數如式(5)所示[21]

對家庭供暖通風空調控制系統進行管理也是家庭能源管理的一個熱點,許多專家在這方面進行了深入的研究[40,79?80].由于模型和參數的不確定性(如可再生能源發電、電力需求、室外溫度和電價)以及時間耦合約束的存在,文獻[40]提出了具有注意力機制的多智能體深度強化學習方法,在不需要任何關于不確定參數的先驗知識和建筑物熱動力學模型的情況下進行學習,并獲得優化控制策略.類似地,文獻[45]設計的基于DDPG 的能源管理算法,也不需要參數和模型的先驗知識,仿真結果驗證了該算法的有效性和魯棒性.文獻[25]按照模型規模從小到大的順序對基于深度強化學習的智能建筑能源管理作了相關綜述,從大功耗HVAC、智能家庭、智能商業和住宅建筑三個方面進行了詳細而全面的總結.

值得一提的是,在家庭能源管理問題中,包括用電時間、用電量等能體現用戶偏好習慣的私人信息也可以得到有效的保護.例如,文獻[81?82]通過增加各個設備耗電量和使用時間的相似度或者加入儲電設備充放電操作來掩蓋用戶用電偏好信息,文獻[83]通過添加噪聲來隱藏有效的用戶用電信息,文獻[84?85]通過平整負載曲線來加強隱私保護.

2.3 電動汽車充放電策略管理

得益于國家政策的扶持以及電池技術和電動馬達技術的發展,電動汽車市場逐年擴張[86],如何通過調度電動汽車充放電行為達到降低充電成本的目標一直是人們關注的焦點.鑒于電動汽車充放電的靈活性,許多研究場景考慮利用隨機的太陽能或風能為其充電.私人電動汽車在第2.2 節中作為一種特殊的家庭負載或移動儲電設備已經被討論,因此本節主要討論公用電動汽車的充放電規劃調度問題.

龐大的電動汽車數量使調度優化變量具有高維特性,并且可再生能源發電和用戶需求的不確定性使得模型難以建立.文獻[87]設計了基于參數自適應差分進化的多目標優化算法,但是該方法需要在計算風電功率的概率基礎上建立電動汽車?風能集成電力系統協調調度模型.文獻[88]采用的基于場景樹的動態規劃方法必須具備對不確定性模型完全準確可知的能力,并生成場景樹來描述系統動態變化.

針對電動汽車充放電規劃問題中的不確定性主要有兩種處理方法.一種是在決策優化之前對其進行預測得到估計值[89?90].其中,通過物理模型或者概率分布來預測不確定性因素是較為簡單且常見的[91?92],適用于精確度要求較低的場景(如日前小時級預測需求);通過利用歷史數據訓練得到的神經網絡進行預測[93]的方法,對數據要求比較高、計算復雜,更適合精確度要求較高的場景(如日內分鐘級預測需求)[94],因此它往往出現在單獨的預測問題中.另一種方法得益于深度強化學習算法的興起,它將歷史數據作為系統狀態直接輸入到智能體中,智能體通過神經網絡自行提取其中的特征,而后輸入策略網絡進行學習得到最優策略.該過程無需輸出預測結果值,屬于數據驅動的方法,因此得到的策略優劣也不依賴于預測結果的精度.本文將電動汽車充放電策略管理問題中處理不確定因素的方法分為三種,即機理模型驅動(簡單模型預測)、數據驅動和模型已知(包含通過精確預測得到的模型,在本文中不作詳細討論).例如,文獻[95]提出的基于深度強化學習的方法包含兩個網絡:一個代表網絡,用于從電價中提取特征;一個Q網絡,用于近似最佳動作價值函數.類似地,文獻[31]利用LSTM 網絡從歷史能源價格中提取相關特征,用充電控制深度確定性策略梯度方法進行優化.

針對優化變量的高維特性,一些文獻從模型上通過定義電動汽車聚合器、事件和子狀態將具有高維變量的電動汽車充放電管理問題進行分層優化,以降低每一層的變量維數,同時能一定程度上保護下層用戶的隱私信息,適用于有隱私保護需求的高維系統優化問題.例如將具有相同剩余電量或相同剩余停車時間或停在同一位置的電動汽車定義為一個電動汽車聚合器,構建雙層或者三層[96]優化模型,上層對電動汽車聚合器群體進行電量分配,下層對各個聚合器內部的電動汽車進行充放電管理[97].文獻[97]基于雙層馬爾科夫模型開發了一種雙層近端策略優化算法來實現充電成本最小化.文獻[98]提出了一種基于事件的策略迭代方法,在假設風能服從正態分布和充電量服從基于停車時間的正態分布條件下,在上層定義了一系列事件以確定每個聚合器要充電的電動汽車數量,下層具體決定每輛電動汽車的充電計劃,有效降低了電動汽車的充電成本.文獻[99]提出一種基于分布式模擬的策略改進方法對基于經驗的策略進行改進,并且通過將建筑集合群內的電動汽車定義為一個子狀態來避免維度災難.另外,文獻[100]采用一種新穎的二維表格從模型上簡化電動汽車充電調度問題,其中一維表示需要充電的時間,另一維表示剩余停車時間,每個單元格的值表示該狀態電動汽車數量占總數的比例,因此模型大小僅與充電時間和剩余停車時間相關,不會隨著電動汽車數量增加而呈指數上升,從而有效避免維度災難.而且二維表格的建模方式還具有可擴展性,例如當電動汽車具有異質性時,可以將表格擴展到三維,第三維表示不同電動汽車的充電效率.強化學習算法作為解決具有多重不確定性的復雜動態系統管理問題的另一種思路,可以與深度學習結合從而解決高維狀態空間和動作空間的難題.利用強化學習求解電動汽車充放電策略問題,首先需要建立馬爾科夫決策過程模型,其中系統狀態主要包括風力發電量剩余所需充電量、剩余停車時間或剩余行駛時間和電動汽車位置動作可以用簡單的二值變量1 和0 表示是否充電,更復雜的情況可以考慮多個離散動作(例如充電、放電、既不充電也不放電)或者連續動作(連續數值表示充放電具體電量).在給定系統狀態和動作的情況下,電動汽車狀態動力學如式(6)~式(8)所示[99]

其中,式(6)表示電動汽車剩余停車時間或剩余行駛時間的動態特性,?t表示時間間隔,τt+1和ηt+1為兩個隨機變量,分別表示電動汽車i在t+1 時刻到達時的剩余停車時間和離開后的剩余行駛時間;式(7)表示電動汽車位置變化情況,Rt+1表示電動汽車i在t+1 時刻所到達的位置;式(8)表示剩余所需充電量的變化,是一個二維動作變量,1 和0 分別表示第i輛電動汽車是否充電,P為恒定的充電功率,表示電動汽車到達時的電量狀態,fi(ηt+1)表示電動汽車能耗與其行駛時間ηt+1的關系.

此外,電動汽車充電決策問題中的約束條件可以分為可行性約束和安全性約束.其中,可行性約束主要針對策略的可行性,例如電池電量狀態受電池容量限制、充電狀態受電動汽車位置限制等;安全性約束主要考慮供電量與充電需求間的平衡、單位時間充電功率大小限制等.對于有復雜約束的優化問題,很難實現直接求解,常見的方法是將各個約束考慮為優化目標進行加權求和,從而將具有復雜約束的優化問題轉化為多目標無約束優化問題.通過設計懲罰函數對違反約束的動作進行懲罰也是一種常見的處理約束的方法.基于類似的思想,強化學習可以對不同動作設計不同的獎勵回報值來懲罰違反約束的動作、獎勵滿足約束的動作.但是由于過高的懲罰會使智能體學習效率降低,過低的懲罰不利于系統的安全性,因此設計適當的獎勵函數存在一定的困難.在文獻[101]中,作者將電動汽車充放電調度問題建模為約束馬爾科夫決策過程,并提出了一種基于安全深度強化學習的無模型方法,在不需要關于不確定因素的任何知識、不需要設計懲罰項或調整懲罰系數的情況下,直接使用深度神經網絡學習滿足約束的最佳充放電策略.此外,將約束嵌入環境模型也是一種處理約束的方法.例如文獻[102]利用約束深度雙Q網絡,在包含隨機風能的場景中,將動作約束模型嵌入到深度雙Q學習網絡中,以解決狀態空間過大且決策受限的MDP問題,減少了Q值估計的誤差,并通過生成更有效的訓練數據提高充電策略的準確性.

在電動汽車充放電規劃調度問題中,優化目標除了包含最小化充電成本外,還包含提升用戶用車需求滿足率、降低棄風率[87]、降低充電時間成本[103]、避免電動汽車充放電導致變壓器過載等實際需求[104].文獻[105]提出了一種針對配電網的最優電動汽車充電策略,在滿足所有物理約束的同時最大化配電系統運營商的利潤,并利用DDPG 算法來分析不確定的用戶用車行為對充電策略的影響,滿足電動汽車電能需求的同時最大程度地減少用戶的充電費用.表3 總結了處理可再生能源發電和用戶用車需求不確定性以及高維變量問題的一些常規算法和強化學習算法,并從計算速度和算法適應性角度分析了算法的性能.其中√表示文獻提出的算法在這方面具有較好的性能,×表示文獻中提到的算法在這方面具有較差的性能,空白的單元格表示文中沒有提到這方面的性能.從表3 可以看出,利用強化學習可以處理具有不確定性的無模型問題,而深度網絡既可以解決高維變量帶來的困難,也能對不確定因素進行預測[106].因此,深度強化學習算法能更好地解決此類具有多重不確定性的高維無模型問題.

表3 電動汽車充放電管理算法Table 3 The algorithm of charge and discharge management of electric vehicle

3 基于強化學習的綜合能源系統管理

受理論方法和各種能源技術的限制,以前天然氣、電能和熱能等能源系統往往是獨立計劃和運行的,相互之間缺乏協調,由此產生的諸如能量利用率低、能源系統的靈活性和可靠性低等問題亟待解決[107].可再生能源技術、分布式發電技術、綜合能源利用技術和能源管理技術的迅速發展為綜合能源系統的形成和發展提供了技術支持.以電力為核心,耦合了燃氣、熱力及其他能源的綜合能源系統已經成為國際能源領域的重要戰略方向[108],其目標是通過拓寬能源來源和減少能源消耗建立可持續的能源系統,從而緩解能源危機并減少環境污染.在此背景下,除了綜合能源系統外[109],類似的多能協調、互補共濟的能源利用形式還包括能源互聯網(Energy Internet,EI)[110]和自能源(We-energy)[111].其中,能源互聯網是以電力網絡、熱力網絡、天然氣網絡及交通網絡等復雜網絡為物理實體的一種新型開放式能源生態系統,自能源是能夠實現能量間雙向傳輸及靈活轉換的能源互聯網子單元.本節主要討論綜合能源系統管理問題.

3.1 綜合能源系統管理模型

協同管理多種能源可以提高能源利用率,保證用能可靠性,提升用戶滿意度,解決能源可持續供應以及環境污染等問題[108,112].然而,綜合能源系統具有多元大數據、源荷雙端不確定、時空多維耦合等特征,亟需理論方法和關鍵技術的突破.對于綜合能源系統,許多文章運用智能能源樞紐(Smart energy hub,SEH)[113]、多能載波(Multi-energy carrier,MEC)[114]、熱電聯產(Cogeneration,combined heat and power,CHP)、冷熱電三聯產(Combined cooling,heating and power,CCHP)[115]的概念協調優化多種能源以實現經濟性和社會性目標.例如文獻[116]在優化能源樞紐(Energy hub,EH)調度時考慮了三種目標函數,分別是最小化當前凈成本、最小化二氧化碳總排放量以及同時最小化當前凈成本和二氧化碳總排放量.在文獻[117]中,通過調度電力和天然氣的交換以及能源樞紐的能源分配,不僅減小運營成本實現經濟性目標,而且順應可持續發展規律減少碳排放實現社會性目標.常見的如式(9a)、(9b)、(9c)和式(10)所示,優化目標為最小化能源成本J(t)[118]

其中,Je(t)指電力成本,Jg(t) 指天然氣成本.電力成本取決于電力負荷Le(t)、天然氣輸入熱電聯產系統后的發電量PgC(t)×和電力價格Pre(t),其中表示熱電聯產系統的電能轉化效率;天然氣成本主要由熱電聯產和鍋爐的天然氣輸入PgC(t) 、PgB(t)以及天然氣價格Prg(t) 決定.此外,求解得到的優化策略還需要滿足用戶熱能需求的約束條件(10)以及熱電聯產系統和鍋爐等的輸入容量約束,式(10)中和表示熱電聯產系統和鍋爐的熱能轉化效率,ηC表示制冷機的效率,Lh(t) 和Lc(t) 表示熱負載和冷負載需求.不同文獻考慮的約束有所不同,例如文獻[119]還考慮了電力負載平衡約束、熱能供需平衡約束、各個設備能量輸出上下限的約束等.文獻[120]已經對優化目標和傳統求解算法進行了總結,本文主要聚焦于綜合能源系統模型的規模級別和時間尺度分析,并對常規算法進行簡單對比.

從規模級別來看,綜合能源系統包括城市能源系統[121]、社區能源系統[122]、工廠能源系統[123]和家庭能源系統[124].文獻[125]將由多個能源樞紐構成的合作社區作為研究對象,研究了共享能量的合作經濟調度問題,將能源交換和定價問題建模為合作博弈過程,在考慮不同EH 目標的條件下實現Pareto最優的平衡.對多個決策者應用分布式優化算法尋找合作系統的議價解決方案,保證了EH 的自主調度和信息保密性.

由于綜合能源系統是一個多時空尺度的耦合系統,不同優化對象具有不同時空特性,例如熱能具有熱慣性,因此對熱能進行管理調度的頻率可以比電能低.用戶對價格變化的響應較快,因此以價格為導向的需求響應往往比較快.準確預測不確定性因素并進行提前計劃能夠提升方案性能,日前調度[126]是一種常見的方式,但是在實際運行中計劃情況可能會與實際情況發生偏差,導致計劃方案的可行性降低.因此,除日前調度外,往往需要在更小的時間尺度內進行更為精確的優化,例如文獻[122]在社區級能源系統的合作交易模式下提出一種實時滾動能源管理模型.在日前調度的基礎上,還可以與日內滾動優化、實時調整等不同時間尺度的調度相配合,形成多時間尺度優化,進一步提高優化策略的性能[127].表4 從綜合能源系統規模級別和不同時間尺度的角度對部分文獻進行總結.

從算法的角度,表4 主要總結幾種傳統算法,在運用這些方法的過程中,不同文獻利用不同方式處理雙端不確定性、多種能源耦合、非線性目標等問題.例如Ma 等[122]考慮了光伏發電的隨機特征和可變負荷,用風險條件值綜合考慮當期成本和未來成本.文獻[128]通過混合整數非線性規劃優化方法解決了不確定環境下的能源樞紐非線性調度問題.文獻[129]將多能載波系統(Multiple energy carrier systems,MECS)的分布式多周期多能量運行模型調度問題描述為混合整數二階錐規劃問題,隨后通過順序二階錐規劃方法解決多能量網絡中的強耦合和固有非凸性問題,以確保令人滿意的收斂性能.同時考慮到相鄰的異構能源樞紐的自主性,利用一種完全分布式的基于一致性的交替方向乘子法,僅需要相鄰信息交換便可優化多能量流.文獻[130]提出了一種基于EH 的雙層模型:上層領導者從大的時間范圍基于輸入信息和限制的功率單元數量處理能源樞紐的規劃和設計問題,在此基礎上下層運營部門對各類負載進行操作分配,然后利用基于多目標粒子群優化的雙層元啟發式算法使關鍵績效指標(Key performance indicators,KPI)最小化.

表4 綜合能源系統管理的常規算法Table 4 Conventional algorithm for integrated energy system management

本文將綜合能源系統管理問題的優化目標從經濟和社會兩個角度進行分類.經濟角度主要包括系統建設運行維護成本、能源消費成本和能源利用率,社會角度包括降低能耗峰均比、平整負荷曲線提升能源網絡穩定性、提升用戶滿意度以及環境友好性.鑒于文獻[120]已進行這方面的總結,在此不再贅述.此外,隱私保護[125?126]和減輕計算負擔[127?128,131]也被納入考慮范圍.

3.2 基于強化學習的綜合能源系統管理

基于前文提到的強化學習具有無模型依賴性、環境適應性等優點,本節聚焦于利用強化學習算法求解綜合能源系統管理問題.首先簡要介紹綜合能源系統中的馬爾科夫決策過程模型,包括系統狀態s(t)、動作a(t)和獎勵函數r(t)[118]

其中,式(11a)是由耗能成本的相反數構成的獎勵函數,第1 項為天然氣成本,由輸入熱電聯產系統和輸入鍋爐的天然氣總量PgC(t) 、PgB(t) 與天然氣價格Prg決定,第2 項是由天然氣轉化為電能進而節約的電力成本,ηeC是天然氣經熱電聯產系統轉化為電能的效率,Pre(t) 是時變電價;式(11b)是由時變電價Pre(t) 構成的系統狀態;式(11c)是由輸入熱電聯產系統的天然氣量PgC(t) 構成的動作[118].此外,當降低碳排放、提升用戶用能滿意度也作為優化目標時,相應的獎勵函數也應該考慮這些因素,例如加上碳排放成本和用戶不滿意成本的相反數作為新的獎勵函數[132].

在本節中,綜合能源系統管理的優化目標和優化變量仍然沒有大的改變,即問題的背景、難點與第3.1 節一致.但是深度強化學習算法的引進增強了面對無精確模型[118,133]、可變場景[134?135]、多重不確定性[117]等情況的求解能力.表5 從綜合能源系統管理的優化目標、強化學習算法及性能這三個方面進行了總結.其中由于經濟性目標是普遍存在的,因此表5 主要對社會性目標進行總結,具體包括用戶滿意度、環境友好性以及負荷平滑程度.Ye 等[133]提出了一種不依賴于模型的優先深度確定性策略梯度方法來求解住宅綜合能源系統實時自主能源管理策略,該方法用TD 誤差的大小來衡量Q值估計的準確度并指導學習.TD 誤差表明了一個智能體可以從一次試錯中學到知識的效果,較大的正TD 誤差表明這是一次非常成功的嘗試,而較大的負TD 誤差表明智能體的此次嘗試是失敗的.在訓練期間對這些經驗的重演進行優先級排序可以使智能體基于成功的嘗試更快地優化策略,防止其選擇某些狀態下的不利動作,從而提高策略學習的質量與效率.文獻[118]在住宅智能能源樞紐中采用蒙特卡洛方法來尋找近似最佳的解決方案以降低運營成本.

表5 基于強化學習的綜合能源系統管理Table 5 Integrated energy system management based on reinforcement learning

在場景適應性方面,Zhou 等[134]利用分布式近端策略優化算法訓練智能體以探索熱電聯產系統的最佳經濟調度,并且能夠自適應地學習不同場景下的優化管理策略.文獻[135]采用DDPG 方法解決動態能量轉換和管理決策問題,系統運營商基于在線過程自適應地協調電氣裝置和發電機的運行,進而平滑電力和天然氣的凈負荷曲線,同時兼顧了經濟性目標.在能源價格不確定的條件下,Hua 等[117]提出了條件隨機場方法來分析能源的動態價格彈性,基于這些內在特征設計了強化學習算法來調度電力和天然氣的交換以及能源樞紐的能源分配,以減小運營成本和降低碳排放.此外,文獻[119]為了滿足We-energy 的功率和熱能需求,同時實現運營成本最小化和降低污染物排放,在智能能源管理系統中將Q學習算法與資格跡理論結合以獲得最優策略并加快計算速度.

優化問題除了常見的能源設備運行策略外,不少文獻還考慮了能源樞紐系統的設計和配置問題.文獻[136]提出了一種基于強化學習的雙層調度策略,用于同時優化EH 系統的設計和運行策略.文獻[137]中智能體通過強化學習方法找到EH 的最佳配置,即燃氣輪機、熔爐、變壓器和存儲設備的組合以及這些設備的最佳控制策略,最大程度地降低設備總成本和單位成本,同時滿足用戶的電熱負載需求.

在能源管理優化決策問題中,當面臨的問題模型是單智能體時,智能體所在的環境是相對穩定不變、可預測的.但是在多智能體強化學習中,例如多微網優化管理、多個家庭能源交易或多種能源調度的問題[141],環境是復雜的、動態的,給學習訓練帶來很大的挑戰.而且多智能體之間可能包含合作與競爭等多重關系,例如在選擇能源種類時,存在不同種類能源供給之間的博弈;在制定能源價格時,存在多個能源供應商之間的博弈;在優化購買能源策略時,存在能源供應商和能源消費者之間的博弈[142].因此引入博弈的概念,將博弈論與強化學習相結合可以很好地處理這些問題.Zhang 等[138]針對多能載波系統的分布式能源樞紐經濟調度問題(Energy hub economic dispatch,EHED)提出了一種多智能體議價學習方法.每個智能體利用帶聯想記憶的經典Q學習獲取知識,買方與賣方利用討價還價博弈的方法進行有效協調,從而實現所有能源樞紐的總收益最大化.對于分布式的EHED,每個能源樞紐都可以看作是討價還價博弈過程中的一個參與者,在該模型中具有最多種輸出能量類型的樞紐可以被選擇作為賣方,賣方智能體只負責對不同買方報價,相比之下,每個買方智能體不僅需要與賣方進行談判,還需要搜索潛在的更優解決方案.

在住宅級別,智能電表的推出和智能設備的快速部署是綜合能源系統自治的基礎,該系統可以利用智能電表提供的實時信息來優化調度不同智能設備的運行,從而最大程度地減少終端用戶能源成本.但是在耦合了多種能源的綜合能源系統中,隱私保護問題仍然值得關注.與單一電能的管理類似,從模型角度考慮,可以建立分層馬爾科夫決策過程模型或加入噪聲以掩蓋用戶隱私信息[64,83];從優化目標角度考慮,可以平整負荷曲線來隱藏耗能信息[84?85];從算法角度考慮,強化學習算法在不需要用戶用能數據的情況下,從與環境交互獲得的獎勵回報中學習到最優能源管理策略,可以一定程度上保護用戶隱私[139].在綜合能源系統管理中,分布式優化算法是一種較為常見的保障信息私密性的方法[125?126].

除了住宅級別綜合能源系統,基于強化學習的綜合能源系統管理方案還能用于建筑物供暖系統和更復雜的工業場景中.文獻[139]提出了雙深度神經擬合Q迭代方法控制建筑物室內溫度,在降低能耗和成本的同時確保居住者舒適,該算法不僅有更短的計算時間,而且能提高對建筑物動態非平穩過程的魯棒性.Wang 等[140]針對鋼鐵行業綜合能源系統中各類能源輸入量的優化問題,提出了基于演員?評論家的分層優化模型及循環求解方法.該方法既能解決非線性約束,又可以有效獲得最優能源分配方案,降低生產鋼的能耗并確保氣體排放達標.

4 展望

本文所提到的綜合能源系統管理優化問題的求解難度體現在系統的高度不確定性、難以建立精確的系統模型、維度災難以及變量耦合等方面.分層馬爾科夫決策過程是一種求解具有高維變量問題的思路,而且能一定程度上保護用戶隱私信息,適用于有隱私保護需求的高維綜合能源系統管理優化問題.強化學習由于不具有模型依賴性,可以在沒有先驗知識的情況下通過與環境交互進行學習,解決新能源發電和用戶用能需求的不確定性帶來的問題,同時深度神經網絡的引入還可以解決維度災難和復雜優化變量耦合的問題,因此深度強化學習在求解具有復雜動態特性的綜合能源系統管理問題中具有極大潛力.然而,強化學習方法也具有一定的局限性,例如學習性能很大程度上依賴于人為設計的獎勵函數,降低了可解釋性,而且獎勵函數還需要適用于不同種類能源和具有不同特性用能設備的學習,設計存在一定的困難.在電能的優化管理方面,尤其是與家庭能源系統和電動汽車相關的研究中,強化學習算法已經是一種常見的求解方法,具有卓越的性能.然而在綜合能源系統中,傳統算法仍然是主流,未來可以更多地嘗試將具有強大自主學習能力的強化學習方法用于解決具有復雜動態特性的綜合能源系統優化調度問題.

結合現有的強化學習和深度強化學習在綜合能源系統管理中的研究進展和研究趨勢,下面將從多時間尺度特性、可解釋性、遷移性和信息安全性4個方面對綜合能源系統管理問題進行展望.

4.1 多時間尺度特性

日前調度雖然計算相對比較簡單,但由于時間尺度較大,而且綜合能源系統存在較大的不確定性,在對綜合能源系統的實際管理中計劃情況可能會與實際情況發生較大偏差,導致優化效果不佳.因此考慮更為復雜的日內滾動優化、實時調整或者三者相互結合的多時間尺度優化,這樣能更加準確地對實際情況進行預估.但是這同時會導致計算量增加,計算時間成本上升,難以滿足綜合能源系統管理實時性的要求.強化學習方法能在特定場景下對智能體進行針對性訓練,當該場景下的參數隨著時間推移發生變化時,訓練好的智能體也能快速求得最優管理策略,從而提高算法效率以達到實時性的要求,因此與強化學習算法相結合的多時間尺度優化可以得到更好的應用.

4.2 可解釋性

可解釋性是近年來專家學者討論比較多的一個話題,在綜合能源系統中,能源管理的策略最終是面向用戶的,可解釋性的提高能夠增加社會的接受度[143].其中解釋性是指人們能夠理解人工智能算法所作的決策,也就是基于對模型特征、結構和相關參數的整體認知來理解算法如何作出決策.從這個層面上講,由于基于強化學習的各種衍生算法都是基于策略迭代和策略提升的原理逐步演變而來,不同的網絡結構和目標函數分別解決什么樣的問題都已闡明,具有強邏輯性和強可解釋性.但由于在面對一些具有連續動作和狀態空間的綜合能源系統管理問題時引入了深度學習,用數據驅動的神經網絡來擬合策略函數、值函數;在面對新能源發電和用戶耗能需求不確定性時,一些基于強化學習的方法也用到深度網絡對不確定因素進行預測,這都使強化學習在能源管理問題中的可解釋性受到一定程度的影響.因此,如何提升深度強化學習的可解釋性是未來深度強化學習方法應用于實際綜合能源系統管理中要面臨的一個重要問題.

4.3 遷移性

不論在電力系統還是綜合能源系統中,能源管理優化問題都可能遇到僅有的少量數據不足以支持完成網絡訓練的情況.數據量不足的可能原因主要有兩種:1)在綜合能源系統中,由于系統規模較大,所涉及的設備較多,數據收集復雜且昂貴,出于技術和成本的原因,綜合能源系統本身無法提供大量的數據;2)隨著時間推移,綜合能源系統迅速發展,當系統中的某些設備或用戶用能偏好發生變化時,原有的數據不再包含充足的實時有效信息[144].基于綜合能源系統中的舊場景和歷史數據花費大量時間訓練得到的網絡無法在新場景中作出最優決策,需要再次利用大量時間和實時數據進行重新學習.因此,在綜合能源系統的管理問題中,如何利用先驗知識和少量數據進行學習是當下研究熱門.

深度學習具有嚴重的數據依賴性,加速學習過程是強化學習方法面臨的一個重要問題.在機器學習中,遷移學習作為一種運用相似任務已經訓練好的網絡中包含的知識來求解目標任務的方法,主要思想為:解決類似任務的知識會加速目標任務的學習過程,并且在類似任務數據充足的前提下有效降低對目標任務的數據依賴[145].由此可以看出,遷移學習可以解決綜合能源系統中的跨任務學習問題,對于出現的新的能源管理任務體現了時效性優勢,而且降低了對目標任務的數據依賴性.

遷移學習過程中,利用目標任務數據對遷移過來的相似任務網絡進行訓練或者微調,源任務與目標任務之間越相似,遷移就越容易,遷移效果也越好[146].由此可見,這種方法局限于相似任務間的遷移,而不能用于學習全新的任務,因此針對經常發生變化的綜合能源系統管理問題,進一步可以考慮使用元學習.通俗地講,元學習通過研究如何讓神經網絡充分利用舊的綜合能源系統中獲得的知識經驗來指導新系統中的學習任務,使得神經網絡能針對新系統中的能源管理任務進行適當調整,從而具有學會學習的能力[147].一個好的元學習模型能夠很好地推廣到從未遇到過的新的綜合能源系統管理場景中,最終經過模型的自我調整可以完成新的綜合能源系統管理任務.其中小樣本學習是元學習的一種典型方法[148],可以克服綜合能源系統中數據樣本少的困難,并降低數據采集成本.此外,元學習還可以與強化學習結合構成元強化學習,減少強化學習方法對超參數、策略網絡參數、獎勵函數等的依賴[147].基于此,未來在綜合能源系統管理優化問題中,可以通過遷移學習、小樣本學習甚至元學習與深度強化學習相結合來解決遷移性的問題,同時克服數據依賴并加快學習過程.

4.4 信息安全性

信息技術的發展使得人們對信息安全問題越來越重視.隨著智能電表和智能設備的發展,人們的用電偏好和習慣包含在用戶數據信息中,并可以隨時被獲取,如何掩蓋這些信息成為新的研究熱點.由于在處理具有不完全信息的優化問題中的突出表現,強化學習方法在不需要新能源發電和用戶用能數據的情況下,通過與環境交互獲得的獎勵回報中學習到最優能源管理策略,一定程度上保護了用戶隱私信息,提升信息安全性[22,43,47,65].

5 總結

本文綜述了基于強化學習的綜合能源系統管理優化研究.首先從模型角度將綜合能源系統管理問題分為對單一電能的管理和對綜合能源的管理.在電能管理問題中,分別從微電網、智能家庭和電動汽車三個方面進行闡述,總結發現相較于傳統優化求解方法,強化學習在解決沒有先驗知識且具有多重不確定性的優化問題中具有突出表現.當多種能源通過耦合技術相互轉換、相互連接形成綜合能源系統之后,由于變量之間相互耦合,不同種類的能源具有不同的特性使得場景變得更加復雜.此時在對比傳統求解算法的基礎上,對已有的基于強化學習的相關文獻進行分析,結果表明強化學習在求解綜合能源系統管理問題時具有卓越性能.最后本文對綜合能源系統管理問題進行展望,得益于人工智能的發展,利用深度強化學習算法能夠處理具有高維變量的復雜動態系統優化問題.未來能源管理中多時間尺度特性、可解釋性、遷移性和信息安全性的問題將得到人們越來越多的重視,相應的多時間尺度優化、機理知識與數據驅動相融合的方法以及遷移學習、元學習等算法也將與強化學習算法相結合,用于綜合能源系統管理優化問題.

猜你喜歡
優化策略模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 欧美黄网站免费观看| 日韩欧美国产精品| 亚洲一区二区三区国产精品 | 奇米精品一区二区三区在线观看| 日本不卡视频在线| 日韩精品欧美国产在线| 青青青视频免费一区二区| 久久精品亚洲中文字幕乱码| 99久久婷婷国产综合精| 国产三区二区| 狼友视频国产精品首页| 国产丝袜第一页| 四虎国产精品永久一区| 在线观看亚洲人成网站| 国产欧美精品午夜在线播放| 久久99国产综合精品1| 亚洲精品图区| 九九视频在线免费观看| 日韩精品免费一线在线观看| 最新国产麻豆aⅴ精品无| 国产在线欧美| 国产精选自拍| 又爽又大又黄a级毛片在线视频 | 欧美黄色a| 色悠久久综合| 黄色网在线| A级毛片高清免费视频就| 9丨情侣偷在线精品国产| 精品乱码久久久久久久| 国产女同自拍视频| 五月天福利视频| 大香伊人久久| 久视频免费精品6| 99视频在线精品免费观看6| 色亚洲激情综合精品无码视频 | 99久久免费精品特色大片| 国产精品无码翘臀在线看纯欲| 国产精品免费电影| 国产日韩精品一区在线不卡| 精品欧美视频| 亚洲成在人线av品善网好看| 亚洲妓女综合网995久久| 日韩国产高清无码| 国产91九色在线播放| 日韩av手机在线| 在线视频97| 国产亚洲成AⅤ人片在线观看| 一边摸一边做爽的视频17国产| 午夜视频免费试看| 精品视频在线观看你懂的一区| 国产微拍精品| 波多野结衣无码中文字幕在线观看一区二区 | 中文字幕 91| 国产精品入口麻豆| 国产精品手机在线观看你懂的| 自拍中文字幕| 国产成人精品一区二区三区| 午夜视频在线观看免费网站| 亚洲成人手机在线| 国内精品一区二区在线观看| 亚洲欧洲日韩综合色天使| 波多野结衣一二三| 日日拍夜夜嗷嗷叫国产| 亚洲色图欧美视频| 国产肉感大码AV无码| 欧美爱爱网| 国产乱人激情H在线观看| 免费国产在线精品一区| 久久熟女AV| 欧美福利在线观看| 欧美精品高清| 国产精品无码制服丝袜| 99精品影院| 激情视频综合网| 中国成人在线视频| 成人国产小视频| 国产呦精品一区二区三区网站| 国产不卡在线看| 国产成人精品亚洲日本对白优播| 久久96热在精品国产高清| 国产亚洲欧美在线人成aaaa| AV片亚洲国产男人的天堂|