基于Q-learning的碳-電聯合套利策略

2023-11-09 10:57:32余運俊龔漢城王忠陽楊林鋒

實驗室研究與探索 2023年8期

余運俊，龔海，龔漢城，陳敏，王忠陽，楊林鋒

（1.南昌大學a.信息工程學院；b.人工智能工業(yè)研究院，南昌 330031；2.江西倬云數字產業(yè)集團，南昌 330031；3.北京化工大學信息科學與技術學院，北京 100010）

0 引言

為緩解全球變暖和溫室氣體排放，電力低碳轉型受到人們廣泛關注［1-2］。2020 年歐盟氣候與能源方案將計劃在2030 年可再生能源占比提升至27%［3］。有研究認為可再生能源對經濟增長以及降低溫室氣體排放有促進作用［4］。發(fā)電企業(yè)要實現電力低碳轉型，經濟性是電力低碳轉型過程的一大問題，儲能套利方法可提高經濟性。儲能設備以高價格放電，以低價格充電，利用實時市場的價格差來獲利。Baltaolu 等［5］提出一種算法競價策略，通過在電力市場每個交易日的出價中分配交易者的預算，在有限的交易時段內最大化套利累積收益。Gandhi 等［6］提出一種無功功率調度結合能源套利的方法，該方法綜合考慮電價、無功成本、無功充電、線損和能量套利，使得微電網的運行成本最小化。Nezamabadi 等［7］提出一種微電網可再生能源點對點能源交易的套利策略，通過應用該策略微電網的利潤增加了3.1%。Cui 等［8］提出一種電網儲能雙層套利策略，上層考慮儲能套利收益最大化，下層考慮風電和儲能市場清算過程。Krishnamurthy 等［9］建立儲能套利利潤最大化問題的隨機表達式，幫助儲能所有者進行市場投標和運營決策，并評估了儲能的經濟可行性。Khani等［10］提出一種基于聯合套利和運營儲備函數的存儲調度算法，通過引入自適應懲罰機制和軟約束來分配儲能和運營儲備的荷電狀態(tài)。Schneided等［11］提出一種新的投資和運營決策建模方法，評估同時為需求峰值調控和價格套利業(yè)務部署儲能的經濟效益。Kazempour等［12］提出一種獨立系統運營商模型在電力市場中進行套利。上述方法考慮儲能套利，但沒有考慮如何降低電力低碳轉型過程中的碳排放開銷。

近年來，歐洲電力行業(yè)碳排放快速下降，離不開歐洲碳市場，在歐洲碳市場中，發(fā)電企業(yè)產生的二氧化碳排放需要購買歐盟配額（European Union Allowances，EUAs）來進行抵消，每個EUA 授予持有者排放1 t 二氧化碳的權利［13］。發(fā)電企業(yè)每年需要投入大量的資金購買碳排放權。在碳市場中，碳排放權的價格實時波動也給碳市場套利帶來了可能性。對比單一電力市場的儲能套利，將電力市場儲能套利與碳市場套利相結合，可獲得更高的利潤。

電力市場和碳市場的價格具有不確定性，傳統的優(yōu)化方法需要對不確定因素進行預測［14］，這類方法計算量大，且優(yōu)化結果與預測精確度相關，當預測結果偏差較大時，即使性能優(yōu)良的求解算法也無法得到最優(yōu)解［15］。對此，Q-learning 算法對于數學模型的依賴性低，能基于已知數據構造環(huán)境進行決策［16-18］，具有決策性好、靈活性高、泛化性強等優(yōu)點，所得策略的性能也不受制于預測結果的精度［19-21］，可解決電力市場和碳市場套利利潤最大化的問題。Cao 等［22］使用深度強化學習進行儲能套利，考慮儲能套利過程中鋰離子電池的退化的影響，但沒有與碳市場結合。Yang等［23］提出一種考慮碳-電交易的虛擬發(fā)電廠競價策略，通過在電價套利中加入可再生能源發(fā)電的碳信用機制，在套利的同時使用碳信用抵消設備的碳排放開銷，提升總體的套利利潤，但沒有考慮主動購入低價的碳排放權降低碳排放開銷。Yu 等［24］采用Double Qlearning算法解決碳-電聯合套利問題，但其在一個決策周期內只能選擇電力市場或者碳市場實時價格套利，沒考慮實際的電能傳輸損耗。

本文在發(fā)電企業(yè)的視角，研究了一種基于Qlearning的碳-電聯合套利策略，通過多動作獎勵疊加的形式，實現碳-電聯合套利。對比文獻［23］中本文所提策略可將儲能套利與碳市場套利結合，主動參與碳市場交易，在碳價低時購買碳排放權，抵消設備的多余碳排放。對比文獻［24］本文所提策略可在一個決策中同時執(zhí)行電力市場和碳市場套利策略，實現碳-電聯合套利。通過本文所提方法制定的套利策略，能改善發(fā)電企業(yè)低碳轉型過程中的經濟性問題。仿真結果表示，該方法可使得可再生能源發(fā)電的年度收益提升1%，發(fā)電企業(yè)年度碳排放花費降低31%。

1 基于Q-learning的碳-電聯合套利模型

1.1 套利目標

電價套利根據實時電價的高低決定儲能的充、放動作，利用高價放電低價充電來賺取差價。碳價套利根據實時碳排放權拍賣市場中拍賣價格的高低，在低價時買入碳排放權直至購入的碳排放權等于全年碳排放量，降低全年碳排放花費。碳-電聯合套利的利潤

式中：Re為電價套利利潤；Echarge為全年向儲能中充電的電能價值；pe（t）為t 時刻電價；C 為儲能放電容量；Rc為碳價套利利潤；avgcp為全年平均碳價；goalcp為全年碳排放目標；pc（t）為t時刻碳價；N為購入EUAs的數量。

1.2 狀態(tài)空間

電價存在波峰和波谷，將電價根據電價的高低劃分為極端低價（電價小于O /MW）、極端高價（當前電價大于全年平均電價的3 倍，因地而異）和普通電價。普通電價再等長劃分為100 個區(qū)間。這樣可解決由于極端電價所在，導致對電價直接劃分區(qū)間后，對實時電價狀態(tài)評估不準確的問題。碳價出現極端價格的情況較少且對比正常的碳價跨度不大，將碳價等區(qū)間劃分為70 個區(qū)間。狀態(tài)空間分為實時電價pe（t）（E/MW）、實時碳價pc（t）（E/t CO2）、儲能的狀態(tài)空間SB和碳價高低的狀態(tài)空間SC。

根據儲能自身充、放電的特性，將儲能電量范圍設置為10% ～90%，充電速度為1C（充電時長為1 h，由于時間尺度考慮為1 h，所以儲能狀態(tài)能夠直接從0 變?yōu)?）。儲能的狀態(tài)空間

通過與全年平均碳價比較，將碳價高于全年平均碳價時為高碳價，低于全年平均碳價時為低碳價，碳價高低的狀態(tài)空間

1.3 動作空間與獎勵

本研究中，動作空間分為儲能動作空間和碳價動作空間

儲能動作空間

碳價動作空間

儲能動作獎勵

碳價動作獎勵

在儲能動作獎勵中，使用全年電價平均值pc，avg和實時電價pe（t）作為衡量獎勵值高低的依據。在碳價動作獎勵中，由于需要買入足夠多的碳排放權來抵消碳排放，碳價套利不能和儲能套利一樣等待低價時購入。因此采取全年碳價平均值pc，avg、實時碳價pc（t）、碳價狀態(tài)SC和最近5 日平均電價avg5作為衡量獎勵值高低的依據，α 和β 決定在高碳價狀態(tài)和低碳價狀態(tài)下的獎勵倍數，使得低碳價時買入的獎勵更高，可鼓勵智能體在低碳價時做出買入動作。

Q-learning算法中，將儲能動作aB和碳價動作aC的獎勵疊加，結合為碳-電聯合動作，選取的動作at為aB以及aC的結合，at為正整數，at∈［1，6］，t 時刻執(zhí)行碳-電聯合動作的獎勵

式中：SBt為t 時刻儲能的狀態(tài)；SCt為t 時刻碳價的狀態(tài)；r（t）為t時刻智能體獲得的獎勵值；RB和RC為執(zhí)行儲能動作和碳價動作的回報獎勵函數；k 為電價獎勵的系數，改變k的大小可改變電價獎勵與碳價獎勵所占的比例。將儲能狀態(tài)SB和碳價高低狀態(tài)SC以二進制的形式結合（SC在低位，SB在高位），通過一個二進制數來代表實時的儲能狀態(tài)和碳價狀態(tài)，在執(zhí)行碳-電聯合動作之后，將動作拆分為aB和aC分別執(zhí)行。

在學習過程中，Q 值根據貝爾曼方程進行更新，即：

式中：St為t時刻儲能的狀態(tài)SBt與t 時刻碳價的狀態(tài)SCt組成的二進制數，St為正整數，St∈［1，4］；max Q（St+1，a）為下一狀態(tài)St+1下的Q表最大值；γ 為折扣因子，γ∈［0，1］，它權衡了立即回報和未來回報的重要性；α為學習率，α∈［0，1］。

2 碳-電聯合套利

本文研究中假設的實驗主體是巴黎、赫爾辛基和哥本哈根的發(fā)電企業(yè)，年度火力發(fā)電產生的碳排放量為3 ×106t，發(fā)電企業(yè)所有火力發(fā)電產生的二氧化碳排放必須全部由自己購買碳排放權來抵消。為降低購買碳排放權的開支，發(fā)電企業(yè)需采取清潔能源發(fā)電逐步替代火力發(fā)電，降低自身碳排放，進行電力低碳轉型，圖1 為碳-電聯合套利結構。

如圖1 所示，碳-電聯合套利結構由儲能系統和發(fā)電機組成。儲能系統包括光電儲能（PVES）和風電儲能（WPES），發(fā)電機包括光伏面板（PV）、風力渦輪機（WT）和火力發(fā)電機（TPG）。與其他儲能套利方法不同，在碳-電聯合套利策略中，儲能不會從電網中購電來進行充電。具體套利流程如下：

（1）使用Q-learning 算法結合歷史的電價數據、碳價數據和風光發(fā)電數據進行訓練，產生碳-電聯合套利策略。

（2）碳-電聯合套利策略接收當前電價狀態(tài)、碳價狀態(tài)、儲能狀態(tài)以及碳價高、低狀態(tài)。

（3）碳-電聯合套利策略控制儲能系統的充、放電以及是否購入碳排放權。儲能充電時，在風力發(fā)電機與光伏電板將儲能中的電量充滿后，多余的電能直接在電力市場售賣。在碳排放權的數量足以抵消碳排放量后，將不再買入碳排放權。

（4）進入下一個狀態(tài)，跳轉到流程（2），如沒有下一個狀態(tài)，則套利結束。

采取的Q-learning 算法的訓練參數選取：訓練輪次設置為1 000，學習率α 采用固定值，設置為0.9。由于碳-電聯合套利中電價與碳價的狀態(tài)是隨機的，與上一個狀態(tài)無關，因此智能體只需要關注即時利益即可，即折扣因子γ設置為0。

3 實驗結果與討論

實驗地點選取經緯度相差較大，具有不同的風光資源的3 個城市，通過實驗仿真測試本文方法在不同條件的地區(qū)的效果。風光發(fā)電模型和系統參數見附錄A，3 個城市的全年光伏發(fā)電量見附錄A圖A1，全年風力發(fā)電量見附錄A 圖A2（風速、輻照度數據來自https：/ /cds.climate.copernicus.eu/）。

實驗采用的碳價是從EEX包括2021 年8 月3 日交易日之前的366 個交易日的碳價，圖2 為歐盟碳價。

圖2 歐盟碳排放權價格

電價是Nord Pool 上的2021 年1 月1 日到2021年12月31日在3個地區(qū)的實時電價，其電價數據在附錄A圖A3中表示（https：/ /www.nordpoolgroup.com）。

將Q-learning所得套利策略分別運用在前文選擇的3 個城市中，得到3 城市在碳-電聯合套利下的全年利潤。按照式（1）的計算方法，電價套利結果如圖3所示；按照式（2）的計算方法，碳價套利結果如圖4所示。

圖3 電價套利利潤

圖4 碳價套利利潤

在儲能套利部分，3 城市的光電儲能套利利潤都要少于風電儲能，光電儲能的套利只能在白天進行，儲能的套利次數有限。3 城市的風電儲能套利效益有較大的差別，對于風力資源較多的城市，充足的風力發(fā)電量可很快為風電儲能充能，儲能的套利次數顯著增加，總體套利效益也因此增加。

通過部署可再生能源發(fā)電替代火力發(fā)電能減少碳排放，以二氧化碳排放量0.997 kg/kWh 折算，表1 為在3 城市部署可再生能源發(fā)電的減排收益。

在碳價套利部分，3 城市使用碳價套利策略最后的利潤都在3.2 ×107歐元左右。歐盟碳交易第4 期開啟，碳價開始上漲，套利策略在前期碳價較低時買入碳排放權的頻率較高，碳排放權的數量很快就達到全年目標，不再購買碳排放權，利潤在滿足碳排放權數量之后停止上漲。

在做了50 次仿真來驗證Q-learning 算法的效果。50次仿真結果中的電價套利結果見表2，碳價套利結果見表3。

表3 碳價套利利潤平均值

仿真結果表明，Q-learning 算法碳-電聯合套利策略可很好地完成碳-電聯合套利最大化目標。采取碳-電聯合套利策略能穩(wěn)定進行碳-電聯合套利，有效增加售電收入、減少碳排放開銷。

4 結語

本文研究了一種基于Q-learning的碳-電聯合套利策略，運用Q-learning 算法采用多動作獎勵疊加的形式，能很好地處理碳-電聯合套利利潤最大化，無須建立復雜模型即可獲得不錯的效果。通過應用碳-電聯合套利策略，可使再生能源的全年發(fā)電收益提升1%左右，使發(fā)電企業(yè)全年平均碳排放開支降低31%左右。將電價套利與碳價套利結合后，其碳-電聯合套利的效果顯著。同時還能進一步減少火力發(fā)電產生的碳排放，降低碳排放開支10%-20%。仿真結果表明，本文所研究的Q-learning 的碳-電聯合套利策略能完成碳-電聯合套利的目標，有效增加售電收入減少發(fā)電企業(yè)自身購買碳排放權的花費，在碳達峰和碳中和的目標下，助力發(fā)電企業(yè)低碳轉型。

附錄A

圖A1 全年光伏發(fā)電量

圖A2 全年風力發(fā)電量

圖A3 全年電價

風力發(fā)電模型：

式中：Pwt為渦輪機發(fā)電額定功率，MW；vt為實時風速；vin為切進風速，3 m/s；vR為額定風速，16 m/s；voff為截斷風速，25 m/s。

光伏發(fā)電模型：

式中：PSTC為標準條件下輸出功率；k為功率溫度系數，0.42%；GSTC為標準條件下輻照度，1 kW/m2；TSTC為標準條件下溫度，25 ℃；Gc（t）為t時刻的輻照度，W/m2；Tc（t）為t時刻的溫度，℃。

系統參數選取：

光伏發(fā)電的裝機容量為140 MW 配帶38 WM 的光電儲能，風力發(fā)電的裝機容量為160 MW 配帶48 MW的風電儲能，儲能的充放電速度為1C。為更加貼合實際情況，在仿真中電能傳輸到電網會有3%的損失，儲能的電能充、放損耗為5%，儲能放出的電能傳輸到電網也會損失3%。