999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多智能體強化學習的電力市場競價模型

2022-01-26 05:10:08黃飛虎李沛東
現代計算機 2021年34期
關鍵詞:智能策略模型

黃飛虎,李沛東

(1.四川中電啟明星信息技術有限公司,成都 610000;2.四川大學計算機學院,成都 610000)

0 引言

2015年國家針對電力體制改革發布了《關于進一步深化電力體制改革的若干意見》[1],該文件體現了國家對電力市場建設的重視和高瞻遠矚。文件說明了電力市場建設的目的,即打破現有的統一定價,通過市場競爭確定電價,充分發揮發電側、售電側、用電側各個參與者的積極性,促進我國電力系統的發展。目前我國電力市場建設還處于初期階段,截至2021年9月,我國已完成了第二批電力現貨試點工作[2]。相比于國外的電力現貨市場發展,我國的電力市場建設還有很多工作需要完善。

本文針對發電商參與電力現貨市場競價的場景,提出了基于多智能體強化學習的競價模型,為電力現貨競價的研究人員提供參考。模型中,每個發電商抽象為一個智能體,具有動作空間和狀態空間。考慮到競價過程中,每個廠商對其他廠商的競價策略以及市場出清結果的未知,模型采用了一種分散式學習算法,即Wolf-PHC,求解各發電廠商的最優策略。實驗結果實證了本文模型的有效性。

1 相關工作

電力現貨,即現貨市場,是電力市場的組成部分。電力市場中除了電力現貨之外,還包括中長期市場、容量市場、期貨市場以及衍生品市場等[3]。現貨市場涉及日前、日內、實時等短時間的電能交易。實時電能交易主要以小時為單位,主要解決超短期的電能缺乏和阻塞問題。現有的電力現貨競價策略可以分為三大類,一是基于成本的競價策略,二是基于預測算法的競價策略,三是基于博弈算法的競價策略。

(1)基于成本的競價策略是一類經典的方法。這類方法以經濟學為基礎分析發電成本,進而完成競價。比如,文獻[4]提出的報價策略主要考慮發電成本分析與系統邊際電價之間的關系,其中系統邊際電價通過預測算法得到。文獻[5]通過分析機組在不同負荷下的發電成本,討論了基于邊際成本的競價策略。

(2)基于預測算法的競價策略。這類方法首先預測競爭對手的報價或者市場出清電價,然后作出競價策略。比如,文獻[6]則主要討論單一水電廠參與的競價問題,文中提出了基于市場出清電價預測的報價策略,策略主要約束條件是可用水量和機組特性。

(3)基于博弈算法的競價策略。這類方法以博弈論、強化學習為基礎,實現最優競價策略。相比基于預測的競價策略,這類方法具有更好的效果。博弈過程是參與者在相互作用中尋找最優策略的過程,這與電力市場參與者之間的競價過程十分類似。因此,有一些學者基于博弈論構建競價決策方法。比如,文獻[7,8]對風光互補發電系統進行了競標分析,將其建模為一個多人貝葉斯博弈問題,進而提出了基于貝葉斯博弈理論的競價模型。強化學習因其扎實的理論基礎,在很多應用場景(比如推薦系統、智能駕駛等)得到了應用。在電力現貨中,也得到了學者們的廣泛關注。比如,文獻[9]將電力市場建模為信息有限的場景,提出了基于強化學習自動機的模型。模型中,作者利用重復博弈建模發電商與市場的反饋過程。文獻[10]針對中長期電力市場發電商報價問題,采用A3C算法進行了建模仿真,并討論了運營效率。

2 競價模型構建

2.1 問題定義

報價策略算法的任務是給出合適的報價策略,實現利潤最大化。從任務特點來說,發電廠商報價策略需考慮發電成本、機組出力等自身情況,推斷日期(或實時)市場邊界條件以及競爭對手的報價情況進而做出決策。從科學問題來說,報價任務可以定義為帶約束條件的優化問題,即:

其中,約束條件包括機組運行特性(比如機組優先電量約束、機組出力上下限約束、機組爬坡約束等)、市場邊界條件(比如線路潮流約束、斷面潮流約束、電量空間邊界等)。

2.2 模型描述

本文將各發電商建模為智能體,電力市場出清建模為環境,將發電商報價決策問題轉化為一個多智體強化學習求解問題,如圖1所示。各發電商根據發電成本、負荷需求和機組運行特性等約束條件給出最優報價。在交易中心收到所有發電商的報價之后,結合網絡拓撲參數、潮流約束和負荷需求等因素進行出清,最后將出清結果反饋給各發電商。

圖1 模型框架

結合強化學習方法,相關定義如下。

定義1智能體。用集合G={g1,g2,…,gn}表示,在電力現貨日前市場中,發電商i為一個智能體(即gi),各智能體之間具有競爭關系。

定義2動作。用集合A={a1,a2,…,an}表示,本文定義動作ai為發電商可選擇的第i種報價曲線。

動作ai與發電商機組的出力區間相關,給定發電商的出力區間為[Pmin,Pmax],報價區間數為d段,則動作ai的報價曲線為:

其中x表示出力,將出力區間[Pmin,Pmax]均分為d段,k1到kd為出力區間的分段標簽,ci,?表示對應區間的價格,滿足ci,1≤ci,2

定義3狀態。用集合S={s1,s2,…,s n}表示,本文定義發電商的出力情況為狀態。

本文根據發電商的出力區間為[Pmin,Pmax]將狀態離散化為n個區間,即S={[Pmin,P1),[P1,P2),…,[Pn-1,Pmax]}。

定義4回報。用r表示,本文定義回報即發電商報價后可以獲得的收益。ri即智能體i在當前狀態si下選擇動作ai之后獲得的收益。

不同類型的發電商有不同的發電成本,但計算方式均與中標電量、中標價格和成本相關。

定義5環境。用E表示,本文定義市場出清為環境,其決定各發電商在采取特定動作后的回報。

本文基于安全約束經濟調度(SCED)進行出清,其公式如下:

其中,機組的總臺數是N,總時段數為T,機組i在時段t的出力用pi,t表示,C i,t(pi,t)為機組i在時段t的運行費用,是與機組申報的各段出力區間和對應能量價格有關的多段線函數;網絡潮流約束松弛罰因子用M L S表示;M C為機組優先電量約束松弛罰因子。公式中,針對電網安全問題,重點考慮了線路潮流和斷面潮流的約束。首先,線路l在時段t的正、反向潮流松弛變量,即和;然后是斷面s在時段t的正、反向潮流松弛變量,即sls+s,t,s l s-s,t;最后,考慮了機組i在時段t的機組優先電量松弛變量s l ci,t。

定義6策略。用π表示,其定義了一個特定時刻智能體的行為方式,即發電商在當前出力狀態下該采取何種報價動作。

定義7狀態-行為值函數。用Q表示,該函數刻畫了智能體在長期狀態下對于某個狀態或者行為的偏好。

2.3 模型訓練

算法1智能體i的學習算法。

初始化:

學習率α=(0 ,1],δw∈( 0,1]且δl>δw;

折扣因子γ∈(0,1);探索率ε;

狀態-行為值函數Qi(a)=0;

重復:

(1)根據具有某一探索率ε的策略πi(a)選擇報價動作并提交給市場。

(2)觀測直接回報ri。

(3)更新Qt+1i(a),計算公式為:

(4)更新策略πti+1(a),計算公式為:

其中,

在實際報價過程中,各發電廠商不知道其他競爭對手的策略,也不知道市場出清的信息,即回報函數。因此,本文采用Wolf-PHC算法求解報價最優策略。該算法中,各智能體只需知道自身的行為和每次獲得的回報。在算法訓練階段,重復執行步驟(1)~(5)直至達到最大迭代次數或滿足特定終止條件。當算法訓練結束之后,則可以使用算法進行實際報價。

3 實驗討論

3.1 參數設置

實驗中地區的負荷數據,本文采用的數據集1數據集:https://www.eia.gov/electricity/gridmonitor/dashboard/electric_overview/US48/US48源于美國能源信息署的公開數據平臺,本文下載了紐約市2015年7月—2021年4月的數據。數據間隔時間以小時為單位。訓練過程中10天出清為一次迭代,每次迭代結束后記錄各發電商10天的收益及所有發電商10天的總收益。

仿真實現對5節點3發電商系統進行模擬,每個發電商擁有一臺火力發電機組,驗證指標為每次迭代后的各發電商收益和總收益。設置的發電商機組信息如表1所示。

表1 發電商機組信息

每次出清發電商收益ri的計算公式為:

其中cost=a1(x‘)2+a2(x‘)+a3,x‘為中標出力,c‘為中標電價,a1,a2和a3分別是成本系數,實驗中其設置信息如表2所示。

表2 成本系數設置

3.2 結果分析

實驗記錄了總體的收益變化過程以及各發電商的收益變化過程,如圖2和圖3所示。

圖2 總體收益變化

圖3 各智能體收益變化

從實驗結果來看,各發電商的收益隨迭代次數增加,逐漸提高,最后達到穩定狀態。這表明本文模型求解的最優策略能夠使各發電商收斂到各自的納什均衡狀態。

此外,表3統計了本文模型與貪心算法、動態規劃算法的收斂步數和收益比較。從實驗結果來看,本文采用的基于Wolf-PHC求解算法,比動態規劃和貪心算法具有更快的收斂速度,而且也能保證整個系統達到較大的收益。

表3 算法對比

4 結語

針對電力市場的報價場景,本文提出了基于多智能體的強化學習報價策略。特別地,在策略求解時,針對各智能體無法知道對手策略以及回報函數的情況,提出了采用Wolf-PHC算法的思路。從實驗結果來看,本文模型是可行的。在未來的工作中,本文作者認為應該從模型可信性的角度構建競價模型。具有可信度高的模型,更容易讓競價操作者接受且認可模型給出的策略。從另一方面來說,現貨市場的競價涉及參與方的利益,因此只有可信度高的模型才能廣泛用于輔助決策。

猜你喜歡
智能策略模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 久久特级毛片| 2021最新国产精品网站| 人妻熟妇日韩AV在线播放| 精品视频一区二区观看| 激情六月丁香婷婷| 亚洲AV电影不卡在线观看| 五月婷婷导航| aaa国产一级毛片| 美女免费黄网站| 日韩国产综合精选| 成人在线不卡| 久久五月视频| 美女内射视频WWW网站午夜| 无码免费视频| 91亚洲国产视频| igao国产精品| 国产成人一区免费观看| 国产真实乱人视频| 91精品国产91欠久久久久| 欧美激情视频一区| 免费看久久精品99| 亚洲永久视频| 亚洲国产精品日韩欧美一区| 国产美女91呻吟求| 国产精品久久久精品三级| 伊伊人成亚洲综合人网7777| 久久永久精品免费视频| 九色视频线上播放| 在线国产你懂的| 全免费a级毛片免费看不卡| 欧美 国产 人人视频| 欧美色综合久久| m男亚洲一区中文字幕| 色男人的天堂久久综合| 国产亚洲视频免费播放| 久久久久九九精品影院 | 国产小视频网站| 亚洲精选高清无码| 精品国产网站| 91久久偷偷做嫩草影院精品| 午夜电影在线观看国产1区| 国产网站黄| 香蕉久久国产超碰青草| 亚洲无码视频喷水| 992tv国产人成在线观看| 亚洲国产精品成人久久综合影院| 99re精彩视频| 色悠久久综合| 成人福利在线视频| 亚洲无码精彩视频在线观看| 成人自拍视频在线观看| 国内精自视频品线一二区| 日韩一级二级三级| 久久国产高潮流白浆免费观看| 国产剧情一区二区| 欧美va亚洲va香蕉在线| 91小视频版在线观看www| 男女男免费视频网站国产| 最新日本中文字幕| 国产在线观看一区二区三区| 国产精品亚洲αv天堂无码| 午夜限制老子影院888| 久久不卡国产精品无码| 欧美日韩成人| 激情综合五月网| www成人国产在线观看网站| 亚洲女同欧美在线| 欧美色综合网站| 91精品国产情侣高潮露脸| 四虎国产精品永久在线网址| 制服丝袜国产精品| 蝌蚪国产精品视频第一页| 国产精品性| 国产成人精品一区二区秒拍1o| 精品综合久久久久久97超人该| 狠狠色婷婷丁香综合久久韩国| 91久久天天躁狠狠躁夜夜| 日韩东京热无码人妻| 欧美日韩精品综合在线一区| 国产女人18毛片水真多1| 亚洲成人免费看| 国产丝袜91|