基于專家示范深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)MPPT控制

2023-03-23 07:03:12王逸軒戴宇軒

電源技術(shù) 2023年2期

關(guān)鍵詞：動作

王逸軒，戴宇軒

(上海電力大學(xué)自動化工程學(xué)院,上海 200090)

影響太陽電池陣發(fā)電功率的因素主要為溫度與輻照度。為了提高經(jīng)濟(jì)性，電池陣需要在不同環(huán)境條件下盡可能輸出最大功率。最大功率點(diǎn)跟蹤(maximum power point tracking,MPPT)是利用適宜算法控制電子裝置對太陽電池陣的端電壓及輸出電流進(jìn)行實(shí)時調(diào)節(jié)，動態(tài)跟蹤極值使其運(yùn)行在最大功率點(diǎn)附近的功率控制技術(shù)。

國內(nèi)外學(xué)者們提出過許多MPPT 控制算法。第一類是基于參數(shù)選擇的間接控制法，其中常見的間接控制算法是開路電壓法與短路電流法。這類算法的優(yōu)點(diǎn)是簡單易行，缺點(diǎn)是魯棒性差，不能適應(yīng)任何變化[1]。第二類算法是基于采集數(shù)據(jù)的直接控制法，常見的算法是擾動觀察法(P&O)[2]、電導(dǎo)增量法(INC)等。這類算法復(fù)雜性低且面對環(huán)境穩(wěn)定的情況效果較好，但它們在最大功率點(diǎn)附近會產(chǎn)生持續(xù)的震蕩，面對環(huán)境條件變化的情況會缺乏魯棒性從而降低運(yùn)行效率。第三類算法是基于智能控制的算法，例如基于模糊邏輯規(guī)則的算法[3]、基于神經(jīng)網(wǎng)絡(luò)的控制算法[4]等。這類算法往往需要更多的先驗(yàn)知識作為信息，成為了近年來MPPT 控制算法研究的熱門方向。

在第三類算法中，文獻(xiàn)[5]提出了改進(jìn)的粒子群MPPT 控制算法，它通過提升太陽電池陣輸出功率的尋優(yōu)速度和動態(tài)性能,能夠更好地適應(yīng)復(fù)雜外部環(huán)境。文獻(xiàn)[6]使用改進(jìn)麻雀搜索算法對MPPT 陣列進(jìn)行建模和仿真，該算法快速準(zhǔn)確地找到最大功率點(diǎn)，取得了良好的效果。

近年來，深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)技術(shù)被學(xué)者們應(yīng)用于光伏系統(tǒng)的MPPT 控制算法中。為了獲得高精度的輸出電壓并優(yōu)化MPPT 動態(tài)效率，強(qiáng)化學(xué)習(xí)算法中的動作空間調(diào)整為連續(xù)動作空間[7]。文獻(xiàn)[8]提出了一種DDPG 的強(qiáng)化學(xué)習(xí)算法用于將深度強(qiáng)化學(xué)習(xí)(DRL)離散域的動作空間擴(kuò)展到連續(xù)域。然而文中的訓(xùn)練模型具有兩處缺陷，其一是沒有考慮復(fù)雜環(huán)境的變化，面對環(huán)境變化的魯棒性較差；其二是采用DDPG 算法直接訓(xùn)練MPPT 問題時收斂速度慢甚至無法收斂，導(dǎo)致訓(xùn)練時間過長。針對上述問題，本文采用了基于專家示范深度確定性策略梯度算法的MPPT控制算法，一方面提升MPPT 動態(tài)效率，另一方面加快了模型的收斂速度。

1 太陽電池等效模型及輸出特性

圖1 是太陽電池的單二極管模型。Iph是電池照射太陽光后產(chǎn)生的電流，IDS是流過二極管的電流，VDS是二極管兩端電壓，Ish為通過分流并聯(lián)電阻Rsh的電流，I為太陽電池的輸出電流。當(dāng)環(huán)境溫度與光照強(qiáng)度不變時，太陽光產(chǎn)生的電流Iph保持不變，可以看作一個恒流源。

圖1 太陽電池單二極管模型

太陽電池輸出電流I的表達(dá)式為：

二極管電流IDS的表達(dá)式為：

式中:I0為二極管飽和電流；q為單位電荷；K為玻爾茲曼常數(shù)；T為開氏溫度；η為二極管的理想因子，一般取值1～2，理想二極管因子為1。

光生電流Iph受到太陽輻照度G與環(huán)境溫度T的影響，關(guān)系式見式(3)。

式中:Iscr為短路電流；Ki為環(huán)境溫度影響因子；Tr為環(huán)境溫度參考值。

二極管飽和電流I0見表達(dá)式(4)。

式中:IRS為二極管反向飽和電流；Eg為二極管的帶隙能量。

太陽電池陣通常由若干個太陽電池經(jīng)過串并聯(lián)后組成。假設(shè)一個太陽電池陣包含N個并聯(lián)的太陽電池電路，每個電路由M個單體太陽電池串聯(lián)構(gòu)成，則太陽電池陣輸出電流Ism見式(5)。

從式(5)可以看出，電池陣輸出特性主要受到環(huán)境溫度T、太陽輻照度G的影響。圖2(a)～(d)分別展示了在恒定環(huán)境溫度改變太陽輻照強(qiáng)度與恒定太陽輻照強(qiáng)度改變環(huán)境溫度條件下的輸出I-V與P-V特性曲線。

圖2 溫度、光照條件變化時光伏特性曲線

2 深度強(qiáng)化學(xué)習(xí)DDPG 算法

深度強(qiáng)化學(xué)習(xí)是在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上將具有強(qiáng)大表征能力的深度學(xué)習(xí)與具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合，使動作序列空間與狀態(tài)值空間映射為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，以便處理高維度的動作與狀態(tài)[9]。對于本文中研究的光伏系統(tǒng)MPPT問題，使用深度神經(jīng)網(wǎng)絡(luò)來表征光伏系統(tǒng)在不同狀態(tài)下的價值函數(shù)，再結(jié)合強(qiáng)化學(xué)習(xí)算法根據(jù)價值函數(shù)決策出當(dāng)前時刻的電壓變化量。深度強(qiáng)化學(xué)習(xí)中的相關(guān)術(shù)語以及表達(dá)式如下[10]：

價值函數(shù)V為從該狀態(tài)開始的馬爾科夫決策過程獲得的總期望：

狀態(tài)動作值函數(shù)Qπ(s,a)表示在狀態(tài)s下根據(jù)策略π 采取某個動作a時獲得的收獲的期望：

深度確定性策略梯度算法(DPPG)是以演員-批評家(actor-critic)為基礎(chǔ)[11]，針對連續(xù)動作空間的離線無模型算法。DDPG 算法共有四個網(wǎng)絡(luò)，它們分別是演員網(wǎng)絡(luò)、演員目標(biāo)網(wǎng)絡(luò)、批評家網(wǎng)絡(luò)和批評家目標(biāo)網(wǎng)絡(luò)。狀態(tài)動作值函數(shù)和動作函數(shù)分別由深度神經(jīng)網(wǎng)絡(luò)Q(st,at|θQ)和μ(st|θμ)訓(xùn)練得到，其中，θQ與θμ對應(yīng)了批評家網(wǎng)絡(luò)和演員網(wǎng)絡(luò)中的各層各節(jié)點(diǎn)的權(quán)值與偏差矩陣。

批評家網(wǎng)絡(luò)參數(shù)的更新通過最小化損失函數(shù)L(θQ)來實(shí)現(xiàn)，見式(8)。

式中：yt為預(yù)期回報；rt為當(dāng)前狀態(tài)動作下的獎勵；γ為衰減率，一般取0.9～1。

演員網(wǎng)絡(luò)的參數(shù)θμ可以通過梯度方法更新，見式(10)。

式中：?為偏導(dǎo)數(shù)；J為演員網(wǎng)絡(luò)參數(shù)關(guān)于回報期望的分布；ρβ為狀態(tài)st所服從的分布。

批評家目標(biāo)網(wǎng)絡(luò)與演員目標(biāo)網(wǎng)絡(luò)通過軟更新方式改變參數(shù)。兩個目標(biāo)網(wǎng)絡(luò)分別設(shè)置更新率τ，當(dāng)一次訓(xùn)練結(jié)束時，目標(biāo)網(wǎng)絡(luò)向原始網(wǎng)絡(luò)的參數(shù)更新τ%，保留(1-τ)%的網(wǎng)絡(luò)參數(shù)不變。

3 ED-DDPG 算法的MPPT 控制

考慮到控制的目標(biāo)輸出電壓是一個連續(xù)變量，本文首先采用DDPG 算法來控制MPPT 過程，其次加入專家示范的方法來解決DDPG 算法中訓(xùn)練時間過長、收斂難度大的問題。

3.1 狀態(tài)空間與狀態(tài)擴(kuò)張

DDPG 算法中的狀態(tài)采用溫度T、光照G、電壓V、功率P四個不同的量[12]，其中電壓和功率包含最近連續(xù)的三個時刻(t,t-1,t-2)的值。狀態(tài)矩陣S如下所示：

為了增加專家示范的適應(yīng)性，需要對狀態(tài)作出如下調(diào)整：

式中：I為電流值，I(t)=P(t)/V(t)；ΔP為功率變化值，ΔP(t)=P(t)-P(t-1)。

調(diào)整后的狀態(tài)矩陣與之前相比增加了四個元素，主要用于提高算法中的網(wǎng)絡(luò)對專家示范經(jīng)驗(yàn)的適應(yīng)性以及神經(jīng)網(wǎng)絡(luò)對特征的識別能力。同時，這四個元素是由電壓與功率經(jīng)過線性變換得出，一旦前八個狀態(tài)量確定，后四個狀態(tài)量也隨之確定，因而本質(zhì)上算法中的狀態(tài)維度并未發(fā)生改變。

3.2 動作空間

光伏系統(tǒng)MPPT 控制中被控對象是輸出電壓，因此動作需要選取與電壓有關(guān)的變量。本算法采用電壓的變化量作為動作值，通過獲取當(dāng)前的狀態(tài)判斷接下來電壓的增減以完成最大功率點(diǎn)的持續(xù)跟蹤。動作空間A的表示如下：

式中：ΔVmin為電壓減少量閾值；ΔVmax為電壓增加量閾值。

3.3 獎勵函數(shù)

本文針對光伏系統(tǒng)MPPT 控制的實(shí)際特點(diǎn)設(shè)計(jì)了分段式獎勵函數(shù)：

采用分段式獎勵函數(shù)使得強(qiáng)化學(xué)習(xí)任務(wù)的難度分解，在未完成任務(wù)時也能獲得部分獎勵，與稀疏獎勵對比，這樣的方式增加了模型收斂的可能性。

3.4 神經(jīng)網(wǎng)絡(luò)及超參數(shù)

本文中評論家網(wǎng)絡(luò)結(jié)構(gòu)為一個輸入層，三個隱藏層和一個輸出層。輸入層和隱藏層之間以及輸出層和隱藏層之間使用線性激活函數(shù)，隱藏層之間使用ReLU 非線性激活函數(shù)。演員網(wǎng)絡(luò)結(jié)構(gòu)為一個輸入層、兩個隱藏層和一個輸出層。各層之間的激活函數(shù)與評論家網(wǎng)絡(luò)相同。ED-DDPG 算法的神經(jīng)網(wǎng)絡(luò)超參數(shù)見表1。

表1 神經(jīng)網(wǎng)絡(luò)超參數(shù)

3.5 專家示范(expert demonstration)

DDPG 算法在訓(xùn)練時存在缺陷，如消耗資源多和消耗資源多訓(xùn)練數(shù)據(jù)不足等。消耗資源多指在使用深度強(qiáng)化學(xué)習(xí)DDPG 算法訓(xùn)練網(wǎng)絡(luò)時，會消耗大量的時間以及硬件資源；訓(xùn)練數(shù)據(jù)不足指算法訓(xùn)練過程中，由于缺少先驗(yàn)知識、環(huán)境的維度空間復(fù)雜等問題，DDPG 算法在探索過程中難以完成最大功率點(diǎn)跟蹤任務(wù)。后者將導(dǎo)致從環(huán)境獲取的反饋獎勵構(gòu)成的序列存入經(jīng)驗(yàn)池后無法有效引導(dǎo)算法中的神經(jīng)網(wǎng)絡(luò)向正確的梯度方向收斂，從而形成了一個惡性循環(huán)。

本文采用“專家示范”的思想[13]從而加快DDPG 算法的收斂速度，選擇擾動觀察法P&O 作為專家示范的經(jīng)驗(yàn)來源。首先使用一個擁有P&O 策略的智能體在強(qiáng)化學(xué)習(xí)環(huán)境中交互，將交互得到的數(shù)據(jù)傳入強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)池中。強(qiáng)化學(xué)習(xí)算法基于經(jīng)驗(yàn)池中的專家經(jīng)驗(yàn)訓(xùn)練一個近似P&O 策略的策略網(wǎng)絡(luò)，再進(jìn)行隨機(jī)搜索不斷優(yōu)化策略。

基于專家示范的深度確定性策略梯度算法(ED-DDPG)訓(xùn)練過程如下：

首先，訓(xùn)練系統(tǒng)中預(yù)先設(shè)置了專家示范回合數(shù)。當(dāng)訓(xùn)練回合數(shù)小于專家示范回合數(shù)時，專家示范智能體使用傳統(tǒng)算法P&O 作為專家策略作出動作并與環(huán)境進(jìn)行交互。隨后將動作-狀態(tài)序列直接存入強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)池中，這些經(jīng)驗(yàn)會在每一次智能體與環(huán)境交互時用于訓(xùn)練強(qiáng)化學(xué)習(xí)智能體中的演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)。其中演員網(wǎng)絡(luò)的策略梯度更新修正見式(16)。

式中：?為偏導(dǎo)數(shù)；μed為專家示范策略；μ為演員網(wǎng)絡(luò)策略；J為演員網(wǎng)絡(luò)參數(shù)關(guān)于回報期望的分布；N為批處理數(shù)；Q為價值函數(shù)；s為狀態(tài)；a為動作。

當(dāng)訓(xùn)練回合數(shù)大于專家示范回合數(shù)時，本算法根據(jù)DDPG 算法中的策略選擇動作。值得注意的是，此時的演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的參數(shù)經(jīng)過了專家經(jīng)驗(yàn)的訓(xùn)練而不是隨機(jī)初始化的參數(shù)。最后，神經(jīng)網(wǎng)絡(luò)在與環(huán)境若干回合的交互中訓(xùn)練網(wǎng)絡(luò)得到收斂速度更快、獲取獎勵更大的MPPT 動作策略。ED-DDPG 算法的示意圖見圖3。

圖3 ED-DDPG算法示意圖

圖3 中左側(cè)部分為演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的結(jié)構(gòu)示意圖，中間虛線框部分為本算法的決策與網(wǎng)絡(luò)更新部分，通過強(qiáng)化學(xué)習(xí)環(huán)境中得到的狀態(tài)基于演員-評論家的決策機(jī)制下獲得對應(yīng)的動作，并將經(jīng)驗(yàn)池中抽取的序列更新演員-批評家網(wǎng)絡(luò)的參數(shù)。右側(cè)部分為強(qiáng)化學(xué)習(xí)環(huán)境與經(jīng)驗(yàn)池，強(qiáng)化學(xué)習(xí)環(huán)境由太陽電池等效模型構(gòu)建而成，由環(huán)境產(chǎn)生的狀態(tài)與算法決策部分產(chǎn)生的動作將被存入經(jīng)驗(yàn)池中用于更新網(wǎng)絡(luò)。

4 仿真驗(yàn)證

4.1 算法有效性驗(yàn)證

4.1.1 EN50530 標(biāo)準(zhǔn)

IEC/EN50530 定義了不同的測試模式[14]：

(1) 低輻照度到中輻照度的不同速率往復(fù)變化，從100 W/m2到500 W/m2的變化，最慢800 s，最快8 s。

(2) 中輻照度到高輻照度的不同速率往復(fù)變化，從300 W/m2到1 000 W/m2的變化，最慢70 s，最快7 s。

4.1.2 動態(tài)MPPT 效率

根據(jù)NB/T 32004-2013 標(biāo)準(zhǔn)，靜態(tài)最大功率跟蹤效率計(jì)算公式如下：

式中：ΔTj為PMPP,PVS,i的采樣間隔；UDC,i與IDC,i為輸出電壓、電流采樣值；ΔTi為輸出電壓電流的采樣間隔；PMPP,PVS,i為太陽電池陣中獲得的理論最大功率輸出。

4.1.3 算法對比實(shí)驗(yàn)

本文針對上述標(biāo)準(zhǔn)對基于專家示范的深度確定性策略梯度算法(ED-DDPG)進(jìn)行仿真驗(yàn)證，以對比實(shí)驗(yàn)的方式進(jìn)行。對比的算法為傳統(tǒng)MPPT 控制方法擾動觀察法(P&O)以及深度確定性策略梯度算法(DDPG)的MPPT 控制方法。

EN50530 標(biāo)準(zhǔn)下的兩個測試模式以最快與最慢兩種速度作為仿真環(huán)境，分別對三種MPPT 控制算法進(jìn)行仿真驗(yàn)證，獲得的結(jié)果見圖4。

圖4 基于EN50530的四種環(huán)境變化對比曲線

表2 總結(jié)了在四種輻照變化模式下三種MPPT 算法的動態(tài)MPPT 效率。可以看出ED-DDPG 算法的動態(tài)效率對比傳統(tǒng)算法有顯著提高，與普通DDPG 算法相比略有提高，動態(tài)MPPT 效率平均達(dá)到97.3%。

表2 不同輻照條件下各算法效率 %

4.2 算法魯棒性驗(yàn)證

本文所提ED-DDPG 算法的魯棒性仿真實(shí)驗(yàn)見圖5。實(shí)驗(yàn)中采用隨機(jī)的溫度和光照強(qiáng)度組合，每秒階梯變化1 次；在運(yùn)行過程中設(shè)定環(huán)境有10%可能性給智能體反饋錯誤的狀態(tài)。共進(jìn)行了3 組實(shí)驗(yàn)，每組實(shí)驗(yàn)采取不同的初始點(diǎn)，最終三組結(jié)果以及平均值見表3。

圖5 算法魯棒性實(shí)驗(yàn)圖（實(shí)驗(yàn)二）

表3 算法魯棒性實(shí)驗(yàn)結(jié)果表

ED-DDPG 算法在劇烈的環(huán)境變化以及錯誤信息干擾下仍然能夠擁有93.53%的MPPT 動態(tài)效率，證明本算法具有強(qiáng)魯棒性，符合實(shí)際應(yīng)用需求。

4.3 專家示范對DDPG 算法收斂性影響測試

本實(shí)驗(yàn)對ED-DDPG 算法與普通MPPT 算法分別進(jìn)行MPPT 的訓(xùn)練任務(wù)，最終比較兩者的收斂速度。圖6 是專家示范DDPG 算法與普通DDPG 算法收斂性對比圖。可以看出ED-DDPG 算法收斂速度更快，且隨著訓(xùn)練時間的增加收斂穩(wěn)定性比普通DDPG 算法更強(qiáng)。

圖6 專家示范DDPG算法與普通DDPG算法收斂性對比圖

4.4 衰減率γ 測試

對于強(qiáng)化學(xué)習(xí)而言，衰減率γ的選擇意味著總回報中當(dāng)前獎勵與未來獎勵的比重，一般取0.9～1 之間的值。衰減率取值的選擇影響算法的收斂性能，采用強(qiáng)化學(xué)習(xí)中常用的三種衰減率0.90、0.93、0.95 進(jìn)行對比實(shí)驗(yàn)，比較ED-DDPG 算法的收斂性能。

衰減率γ的對比圖如圖7所示。當(dāng)衰減率取0.93時獲得的獎勵曲線穩(wěn)定時獎勵值最大，當(dāng)衰減率減少時獎勵曲線波動較大，當(dāng)衰減率增大時，獎勵曲線的穩(wěn)定值小于衰減率為0.93時獎勵的穩(wěn)定值。因此采用0.93作為本文所提算法衰減率。

圖7 γ不同取值下的收斂對比

5 結(jié)論

基于專家示范的深度強(qiáng)化學(xué)習(xí)DDPG 算法提出了一種光伏系統(tǒng)最大功率點(diǎn)跟蹤的算法。根據(jù)仿真結(jié)果，本文所提出的MPPT 控制算法與傳統(tǒng)方法相比在動態(tài)效率上有明顯的提高，與普通DDPG 算法相比在硬件資源的消耗與收斂速度方面有明顯的優(yōu)勢；ED-DDPG 算法在魯棒性驗(yàn)證時證明了其對于外界環(huán)境的變化具有很強(qiáng)的魯棒性，適用于復(fù)雜環(huán)境條件下的光伏系統(tǒng)最大功率點(diǎn)跟蹤。