999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于專家示范深度強(qiáng)化學(xué)習(xí)的光伏系統(tǒng)MPPT控制

2023-03-23 07:03:12王逸軒戴宇軒
電源技術(shù) 2023年2期
關(guān)鍵詞:動作

王逸軒,戴宇軒

(上海電力大學(xué)自動化工程學(xué)院,上海 200090)

影響太陽電池陣發(fā)電功率的因素主要為溫度與輻照度。為了提高經(jīng)濟(jì)性,電池陣需要在不同環(huán)境條件下盡可能輸出最大功率。最大功率點(diǎn)跟蹤(maximum power point tracking,MPPT)是利用適宜算法控制電子裝置對太陽電池陣的端電壓及輸出電流進(jìn)行實(shí)時調(diào)節(jié),動態(tài)跟蹤極值使其運(yùn)行在最大功率點(diǎn)附近的功率控制技術(shù)。

國內(nèi)外學(xué)者們提出過許多MPPT 控制算法。第一類是基于參數(shù)選擇的間接控制法,其中常見的間接控制算法是開路電壓法與短路電流法。這類算法的優(yōu)點(diǎn)是簡單易行,缺點(diǎn)是魯棒性差,不能適應(yīng)任何變化[1]。第二類算法是基于采集數(shù)據(jù)的直接控制法,常見的算法是擾動觀察法(P&O)[2]、電導(dǎo)增量法(INC)等。這類算法復(fù)雜性低且面對環(huán)境穩(wěn)定的情況效果較好,但它們在最大功率點(diǎn)附近會產(chǎn)生持續(xù)的震蕩,面對環(huán)境條件變化的情況會缺乏魯棒性從而降低運(yùn)行效率。第三類算法是基于智能控制的算法,例如基于模糊邏輯規(guī)則的算法[3]、基于神經(jīng)網(wǎng)絡(luò)的控制算法[4]等。這類算法往往需要更多的先驗(yàn)知識作為信息,成為了近年來MPPT 控制算法研究的熱門方向。

在第三類算法中,文獻(xiàn)[5]提出了改進(jìn)的粒子群MPPT 控制算法,它通過提升太陽電池陣輸出功率的尋優(yōu)速度和動態(tài)性能,能夠更好地適應(yīng)復(fù)雜外部環(huán)境。文獻(xiàn)[6]使用改進(jìn)麻雀搜索算法對MPPT 陣列進(jìn)行建模和仿真,該算法快速準(zhǔn)確地找到最大功率點(diǎn),取得了良好的效果。

近年來,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)技術(shù)被學(xué)者們應(yīng)用于光伏系統(tǒng)的MPPT 控制算法中。為了獲得高精度的輸出電壓并優(yōu)化MPPT 動態(tài)效率,強(qiáng)化學(xué)習(xí)算法中的動作空間調(diào)整為連續(xù)動作空間[7]。文獻(xiàn)[8]提出了一種DDPG 的強(qiáng)化學(xué)習(xí)算法用于將深度強(qiáng)化學(xué)習(xí)(DRL)離散域的動作空間擴(kuò)展到連續(xù)域。然而文中的訓(xùn)練模型具有兩處缺陷,其一是沒有考慮復(fù)雜環(huán)境的變化,面對環(huán)境變化的魯棒性較差;其二是采用DDPG 算法直接訓(xùn)練MPPT 問題時收斂速度慢甚至無法收斂,導(dǎo)致訓(xùn)練時間過長。針對上述問題,本文采用了基于專家示范深度確定性策略梯度算法的MPPT控制算法,一方面提升MPPT 動態(tài)效率,另一方面加快了模型的收斂速度。

1 太陽電池等效模型及輸出特性

圖1 是太陽電池的單二極管模型。Iph是電池照射太陽光后產(chǎn)生的電流,IDS是流過二極管的電流,VDS是二極管兩端電壓,Ish為通過分流并聯(lián)電阻Rsh的電流,I為太陽電池的輸出電流。當(dāng)環(huán)境溫度與光照強(qiáng)度不變時,太陽光產(chǎn)生的電流Iph保持不變,可以看作一個恒流源。

圖1 太陽電池單二極管模型

太陽電池輸出電流I的表達(dá)式為:

二極管電流IDS的表達(dá)式為:

式中:I0為二極管飽和電流;q為單位電荷;K為玻爾茲曼常數(shù);T為開氏溫度;η為二極管的理想因子,一般取值1~2,理想二極管因子為1。

光生電流Iph受到太陽輻照度G與環(huán)境溫度T的影響,關(guān)系式見式(3)。

式中:Iscr為短路電流;Ki為環(huán)境溫度影響因子;Tr為環(huán)境溫度參考值。

二極管飽和電流I0見表達(dá)式(4)。

式中:IRS為二極管反向飽和電流;Eg為二極管的帶隙能量。

太陽電池陣通常由若干個太陽電池經(jīng)過串并聯(lián)后組成。假設(shè)一個太陽電池陣包含N個并聯(lián)的太陽電池電路,每個電路由M個單體太陽電池串聯(lián)構(gòu)成,則太陽電池陣輸出電流Ism見式(5)。

從式(5)可以看出,電池陣輸出特性主要受到環(huán)境溫度T、太陽輻照度G的影響。圖2(a)~(d)分別展示了在恒定環(huán)境溫度改變太陽輻照強(qiáng)度與恒定太陽輻照強(qiáng)度改變環(huán)境溫度條件下的輸出I-V與P-V特性曲線。

圖2 溫度、光照條件變化時光伏特性曲線

2 深度強(qiáng)化學(xué)習(xí)DDPG 算法

深度強(qiáng)化學(xué)習(xí)是在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上將具有強(qiáng)大表征能力的深度學(xué)習(xí)與具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合,使動作序列空間與狀態(tài)值空間映射為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),以便處理高維度的動作與狀態(tài)[9]。對于本文中研究的光伏系統(tǒng)MPPT問題,使用深度神經(jīng)網(wǎng)絡(luò)來表征光伏系統(tǒng)在不同狀態(tài)下的價值函數(shù),再結(jié)合強(qiáng)化學(xué)習(xí)算法根據(jù)價值函數(shù)決策出當(dāng)前時刻的電壓變化量。深度強(qiáng)化學(xué)習(xí)中的相關(guān)術(shù)語以及表達(dá)式如下[10]:

價值函數(shù)V為從該狀態(tài)開始的馬爾科夫決策過程獲得的總期望:

狀態(tài)動作值函數(shù)Qπ(s,a)表示在狀態(tài)s下根據(jù)策略π 采取某個動作a時獲得的收獲的期望:

深度確定性策略梯度算法(DPPG)是以演員-批評家(actor-critic)為基礎(chǔ)[11],針對連續(xù)動作空間的離線無模型算法。DDPG 算法共有四個網(wǎng)絡(luò),它們分別是演員網(wǎng)絡(luò)、演員目標(biāo)網(wǎng)絡(luò)、批評家網(wǎng)絡(luò)和批評家目標(biāo)網(wǎng)絡(luò)。狀態(tài)動作值函數(shù)和動作函數(shù)分別由深度神經(jīng)網(wǎng)絡(luò)Q(st,at|θQ)和μ(st|θμ)訓(xùn)練得到,其中,θQ與θμ對應(yīng)了批評家網(wǎng)絡(luò)和演員網(wǎng)絡(luò)中的各層各節(jié)點(diǎn)的權(quán)值與偏差矩陣。

批評家網(wǎng)絡(luò)參數(shù)的更新通過最小化損失函數(shù)L(θQ)來實(shí)現(xiàn),見式(8)。

式中:yt為預(yù)期回報;rt為當(dāng)前狀態(tài)動作下的獎勵;γ為衰減率,一般取0.9~1。

演員網(wǎng)絡(luò)的參數(shù)θμ可以通過梯度方法更新,見式(10)。

式中:?為偏導(dǎo)數(shù);J為演員網(wǎng)絡(luò)參數(shù)關(guān)于回報期望的分布;ρβ為狀態(tài)st所服從的分布。

批評家目標(biāo)網(wǎng)絡(luò)與演員目標(biāo)網(wǎng)絡(luò)通過軟更新方式改變參數(shù)。兩個目標(biāo)網(wǎng)絡(luò)分別設(shè)置更新率τ,當(dāng)一次訓(xùn)練結(jié)束時,目標(biāo)網(wǎng)絡(luò)向原始網(wǎng)絡(luò)的參數(shù)更新τ%,保留(1-τ)%的網(wǎng)絡(luò)參數(shù)不變。

3 ED-DDPG 算法的MPPT 控制

考慮到控制的目標(biāo)輸出電壓是一個連續(xù)變量,本文首先采用DDPG 算法來控制MPPT 過程,其次加入專家示范的方法來解決DDPG 算法中訓(xùn)練時間過長、收斂難度大的問題。

3.1 狀態(tài)空間與狀態(tài)擴(kuò)張

DDPG 算法中的狀態(tài)采用溫度T、光照G、電壓V、功率P四個不同的量[12],其中電壓和功率包含最近連續(xù)的三個時刻(t,t-1,t-2)的值。狀態(tài)矩陣S如下所示:

為了增加專家示范的適應(yīng)性,需要對狀態(tài)作出如下調(diào)整:

式中:I為電流值,I(t)=P(t)/V(t);ΔP為功率變化值,ΔP(t)=P(t)-P(t-1)。

調(diào)整后的狀態(tài)矩陣與之前相比增加了四個元素,主要用于提高算法中的網(wǎng)絡(luò)對專家示范經(jīng)驗(yàn)的適應(yīng)性以及神經(jīng)網(wǎng)絡(luò)對特征的識別能力。同時,這四個元素是由電壓與功率經(jīng)過線性變換得出,一旦前八個狀態(tài)量確定,后四個狀態(tài)量也隨之確定,因而本質(zhì)上算法中的狀態(tài)維度并未發(fā)生改變。

3.2 動作空間

光伏系統(tǒng)MPPT 控制中被控對象是輸出電壓,因此動作需要選取與電壓有關(guān)的變量。本算法采用電壓的變化量作為動作值,通過獲取當(dāng)前的狀態(tài)判斷接下來電壓的增減以完成最大功率點(diǎn)的持續(xù)跟蹤。動作空間A的表示如下:

式中:ΔVmin為電壓減少量閾值;ΔVmax為電壓增加量閾值。

3.3 獎勵函數(shù)

本文針對光伏系統(tǒng)MPPT 控制的實(shí)際特點(diǎn)設(shè)計(jì)了分段式獎勵函數(shù):

采用分段式獎勵函數(shù)使得強(qiáng)化學(xué)習(xí)任務(wù)的難度分解,在未完成任務(wù)時也能獲得部分獎勵,與稀疏獎勵對比,這樣的方式增加了模型收斂的可能性。

3.4 神經(jīng)網(wǎng)絡(luò)及超參數(shù)

本文中評論家網(wǎng)絡(luò)結(jié)構(gòu)為一個輸入層,三個隱藏層和一個輸出層。輸入層和隱藏層之間以及輸出層和隱藏層之間使用線性激活函數(shù),隱藏層之間使用ReLU 非線性激活函數(shù)。演員網(wǎng)絡(luò)結(jié)構(gòu)為一個輸入層、兩個隱藏層和一個輸出層。各層之間的激活函數(shù)與評論家網(wǎng)絡(luò)相同。ED-DDPG 算法的神經(jīng)網(wǎng)絡(luò)超參數(shù)見表1。

表1 神經(jīng)網(wǎng)絡(luò)超參數(shù)

3.5 專家示范(expert demonstration)

DDPG 算法在訓(xùn)練時存在缺陷,如消耗資源多和消耗資源多訓(xùn)練數(shù)據(jù)不足等。消耗資源多指在使用深度強(qiáng)化學(xué)習(xí)DDPG 算法訓(xùn)練網(wǎng)絡(luò)時,會消耗大量的時間以及硬件資源;訓(xùn)練數(shù)據(jù)不足指算法訓(xùn)練過程中,由于缺少先驗(yàn)知識、環(huán)境的維度空間復(fù)雜等問題,DDPG 算法在探索過程中難以完成最大功率點(diǎn)跟蹤任務(wù)。后者將導(dǎo)致從環(huán)境獲取的反饋獎勵構(gòu)成的序列存入經(jīng)驗(yàn)池后無法有效引導(dǎo)算法中的神經(jīng)網(wǎng)絡(luò)向正確的梯度方向收斂,從而形成了一個惡性循環(huán)。

本文采用“專家示范”的思想[13]從而加快DDPG 算法的收斂速度,選擇擾動觀察法P&O 作為專家示范的經(jīng)驗(yàn)來源。首先使用一個擁有P&O 策略的智能體在強(qiáng)化學(xué)習(xí)環(huán)境中交互,將交互得到的數(shù)據(jù)傳入強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)池中。強(qiáng)化學(xué)習(xí)算法基于經(jīng)驗(yàn)池中的專家經(jīng)驗(yàn)訓(xùn)練一個近似P&O 策略的策略網(wǎng)絡(luò),再進(jìn)行隨機(jī)搜索不斷優(yōu)化策略。

基于專家示范的深度確定性策略梯度算法(ED-DDPG)訓(xùn)練過程如下:

首先,訓(xùn)練系統(tǒng)中預(yù)先設(shè)置了專家示范回合數(shù)。當(dāng)訓(xùn)練回合數(shù)小于專家示范回合數(shù)時,專家示范智能體使用傳統(tǒng)算法P&O 作為專家策略作出動作并與環(huán)境進(jìn)行交互。隨后將動作-狀態(tài)序列直接存入強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)池中,這些經(jīng)驗(yàn)會在每一次智能體與環(huán)境交互時用于訓(xùn)練強(qiáng)化學(xué)習(xí)智能體中的演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)。其中演員網(wǎng)絡(luò)的策略梯度更新修正見式(16)。

式中:?為偏導(dǎo)數(shù);μed為專家示范策略;μ為演員網(wǎng)絡(luò)策略;J為演員網(wǎng)絡(luò)參數(shù)關(guān)于回報期望的分布;N為批處理數(shù);Q為價值函數(shù);s為狀態(tài);a為動作。

當(dāng)訓(xùn)練回合數(shù)大于專家示范回合數(shù)時,本算法根據(jù)DDPG 算法中的策略選擇動作。值得注意的是,此時的演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的參數(shù)經(jīng)過了專家經(jīng)驗(yàn)的訓(xùn)練而不是隨機(jī)初始化的參數(shù)。最后,神經(jīng)網(wǎng)絡(luò)在與環(huán)境若干回合的交互中訓(xùn)練網(wǎng)絡(luò)得到收斂速度更快、獲取獎勵更大的MPPT 動作策略。ED-DDPG 算法的示意圖見圖3。

圖3 ED-DDPG算法示意圖

圖3 中左側(cè)部分為演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的結(jié)構(gòu)示意圖,中間虛線框部分為本算法的決策與網(wǎng)絡(luò)更新部分,通過強(qiáng)化學(xué)習(xí)環(huán)境中得到的狀態(tài)基于演員-評論家的決策機(jī)制下獲得對應(yīng)的動作,并將經(jīng)驗(yàn)池中抽取的序列更新演員-批評家網(wǎng)絡(luò)的參數(shù)。右側(cè)部分為強(qiáng)化學(xué)習(xí)環(huán)境與經(jīng)驗(yàn)池,強(qiáng)化學(xué)習(xí)環(huán)境由太陽電池等效模型構(gòu)建而成,由環(huán)境產(chǎn)生的狀態(tài)與算法決策部分產(chǎn)生的動作將被存入經(jīng)驗(yàn)池中用于更新網(wǎng)絡(luò)。

4 仿真驗(yàn)證

4.1 算法有效性驗(yàn)證

4.1.1 EN50530 標(biāo)準(zhǔn)

IEC/EN50530 定義了不同的測試模式[14]:

(1) 低輻照度到中輻照度的不同速率往復(fù)變化,從100 W/m2到500 W/m2的變化,最慢800 s,最快8 s。

(2) 中輻照度到高輻照度的不同速率往復(fù)變化,從300 W/m2到1 000 W/m2的變化,最慢70 s,最快7 s。

4.1.2 動態(tài)MPPT 效率

根據(jù)NB/T 32004-2013 標(biāo)準(zhǔn),靜態(tài)最大功率跟蹤效率計(jì)算公式如下:

式中:ΔTj為PMPP,PVS,i的采樣間隔;UDC,i與IDC,i為輸出電壓、電流采樣值;ΔTi為輸出電壓電流的采樣間隔;PMPP,PVS,i為太陽電池陣中獲得的理論最大功率輸出。

4.1.3 算法對比實(shí)驗(yàn)

本文針對上述標(biāo)準(zhǔn)對基于專家示范的深度確定性策略梯度算法(ED-DDPG)進(jìn)行仿真驗(yàn)證,以對比實(shí)驗(yàn)的方式進(jìn)行。對比的算法為傳統(tǒng)MPPT 控制方法擾動觀察法(P&O)以及深度確定性策略梯度算法(DDPG)的MPPT 控制方法。

EN50530 標(biāo)準(zhǔn)下的兩個測試模式以最快與最慢兩種速度作為仿真環(huán)境,分別對三種MPPT 控制算法進(jìn)行仿真驗(yàn)證,獲得的結(jié)果見圖4。

圖4 基于EN50530的四種環(huán)境變化對比曲線

表2 總結(jié)了在四種輻照變化模式下三種MPPT 算法的動態(tài)MPPT 效率。可以看出ED-DDPG 算法的動態(tài)效率對比傳統(tǒng)算法有顯著提高,與普通DDPG 算法相比略有提高,動態(tài)MPPT 效率平均達(dá)到97.3%。

表2 不同輻照條件下各算法效率 %

4.2 算法魯棒性驗(yàn)證

本文所提ED-DDPG 算法的魯棒性仿真實(shí)驗(yàn)見圖5。實(shí)驗(yàn)中采用隨機(jī)的溫度和光照強(qiáng)度組合,每秒階梯變化1 次;在運(yùn)行過程中設(shè)定環(huán)境有10%可能性給智能體反饋錯誤的狀態(tài)。共進(jìn)行了3 組實(shí)驗(yàn),每組實(shí)驗(yàn)采取不同的初始點(diǎn),最終三組結(jié)果以及平均值見表3。

圖5 算法魯棒性實(shí)驗(yàn)圖(實(shí)驗(yàn)二)

表3 算法魯棒性實(shí)驗(yàn)結(jié)果表

ED-DDPG 算法在劇烈的環(huán)境變化以及錯誤信息干擾下仍然能夠擁有93.53%的MPPT 動態(tài)效率,證明本算法具有強(qiáng)魯棒性,符合實(shí)際應(yīng)用需求。

4.3 專家示范對DDPG 算法收斂性影響測試

本實(shí)驗(yàn)對ED-DDPG 算法與普通MPPT 算法分別進(jìn)行MPPT 的訓(xùn)練任務(wù),最終比較兩者的收斂速度。圖6 是專家示范DDPG 算法與普通DDPG 算法收斂性對比圖。可以看出ED-DDPG 算法收斂速度更快,且隨著訓(xùn)練時間的增加收斂穩(wěn)定性比普通DDPG 算法更強(qiáng)。

圖6 專家示范DDPG算法與普通DDPG算法收斂性對比圖

4.4 衰減率γ 測試

對于強(qiáng)化學(xué)習(xí)而言,衰減率γ的選擇意味著總回報中當(dāng)前獎勵與未來獎勵的比重,一般取0.9~1 之間的值。衰減率取值的選擇影響算法的收斂性能,采用強(qiáng)化學(xué)習(xí)中常用的三種衰減率0.90、0.93、0.95 進(jìn)行對比實(shí)驗(yàn),比較ED-DDPG 算法的收斂性能。

衰減率γ的對比圖如圖7所示。當(dāng)衰減率取0.93時獲得的獎勵曲線穩(wěn)定時獎勵值最大,當(dāng)衰減率減少時獎勵曲線波動較大,當(dāng)衰減率增大時,獎勵曲線的穩(wěn)定值小于衰減率為0.93時獎勵的穩(wěn)定值。因此采用0.93作為本文所提算法衰減率。

圖7 γ不同取值下的收斂對比

5 結(jié)論

基于專家示范的深度強(qiáng)化學(xué)習(xí)DDPG 算法提出了一種光伏系統(tǒng)最大功率點(diǎn)跟蹤的算法。根據(jù)仿真結(jié)果,本文所提出的MPPT 控制算法與傳統(tǒng)方法相比在動態(tài)效率上有明顯的提高,與普通DDPG 算法相比在硬件資源的消耗與收斂速度方面有明顯的優(yōu)勢;ED-DDPG 算法在魯棒性驗(yàn)證時證明了其對于外界環(huán)境的變化具有很強(qiáng)的魯棒性,適用于復(fù)雜環(huán)境條件下的光伏系統(tǒng)最大功率點(diǎn)跟蹤。

猜你喜歡
動作
動作不可少(下)
巧借動作寫友愛
下一個動作
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
動作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 成年人福利视频| 久久国语对白| 国产精品免费电影| 久久婷婷六月| 国产在线观看一区二区三区| 无码精品一区二区久久久| 爆乳熟妇一区二区三区| 欧美精品高清| 国产成人高清在线精品| 久久频这里精品99香蕉久网址| 欧美日韩成人| 国产午夜看片| 亚洲精品成人福利在线电影| 国产成人凹凸视频在线| 国产精品yjizz视频网一二区| 2021国产v亚洲v天堂无码| 一级毛片在线免费视频| 午夜啪啪网| 99热国产在线精品99| 伊人色天堂| 国产欧美视频在线| 内射人妻无码色AV天堂| 91精品日韩人妻无码久久| 国产精品短篇二区| 亚洲中文字幕国产av| 国产在线无码一区二区三区| 97se亚洲| 亚洲日韩Av中文字幕无码| 永久在线播放| 天天色综网| 国产高潮流白浆视频| 又粗又硬又大又爽免费视频播放| 国产美女91视频| 成人va亚洲va欧美天堂| 91福利一区二区三区| 福利在线不卡| 日韩国产高清无码| 精品一区二区三区中文字幕| 一级成人a做片免费| 欧美亚洲第一页| 久久女人网| 久久国产毛片| 免费99精品国产自在现线| 亚洲无码A视频在线| AV在线天堂进入| 国产黄网永久免费| 国产乱人伦精品一区二区| 国产精品亚欧美一区二区| 国产三级成人| 在线无码av一区二区三区| www欧美在线观看| 9久久伊人精品综合| 欧美日韩国产在线观看一区二区三区| 午夜人性色福利无码视频在线观看 | 99精品热视频这里只有精品7| 免费av一区二区三区在线| 亚洲天堂视频网站| 亚洲第一成人在线| 亚洲成人一区二区三区| 国产91视频免费| 久久激情影院| 国产情精品嫩草影院88av| 91区国产福利在线观看午夜| 草草线在成年免费视频2| 亚洲视频欧美不卡| 国产成人综合在线观看| 99re在线视频观看| 国产毛片高清一级国语| 狠狠色综合久久狠狠色综合| 国产高清在线丝袜精品一区| 精品色综合| 日韩二区三区| 免费在线成人网| 亚洲午夜综合网| 91蜜芽尤物福利在线观看| 国产鲁鲁视频在线观看| 国产h视频在线观看视频| 欧美日韩在线亚洲国产人| 蜜臀AV在线播放| 国产欧美日韩一区二区视频在线| 国产乱人乱偷精品视频a人人澡| 999国产精品|