王逸軒,戴宇軒
(上海電力大學(xué)自動化工程學(xué)院,上海 200090)
影響太陽電池陣發(fā)電功率的因素主要為溫度與輻照度。為了提高經(jīng)濟(jì)性,電池陣需要在不同環(huán)境條件下盡可能輸出最大功率。最大功率點(diǎn)跟蹤(maximum power point tracking,MPPT)是利用適宜算法控制電子裝置對太陽電池陣的端電壓及輸出電流進(jìn)行實(shí)時調(diào)節(jié),動態(tài)跟蹤極值使其運(yùn)行在最大功率點(diǎn)附近的功率控制技術(shù)。
國內(nèi)外學(xué)者們提出過許多MPPT 控制算法。第一類是基于參數(shù)選擇的間接控制法,其中常見的間接控制算法是開路電壓法與短路電流法。這類算法的優(yōu)點(diǎn)是簡單易行,缺點(diǎn)是魯棒性差,不能適應(yīng)任何變化[1]。第二類算法是基于采集數(shù)據(jù)的直接控制法,常見的算法是擾動觀察法(P&O)[2]、電導(dǎo)增量法(INC)等。這類算法復(fù)雜性低且面對環(huán)境穩(wěn)定的情況效果較好,但它們在最大功率點(diǎn)附近會產(chǎn)生持續(xù)的震蕩,面對環(huán)境條件變化的情況會缺乏魯棒性從而降低運(yùn)行效率。第三類算法是基于智能控制的算法,例如基于模糊邏輯規(guī)則的算法[3]、基于神經(jīng)網(wǎng)絡(luò)的控制算法[4]等。這類算法往往需要更多的先驗(yàn)知識作為信息,成為了近年來MPPT 控制算法研究的熱門方向。
在第三類算法中,文獻(xiàn)[5]提出了改進(jìn)的粒子群MPPT 控制算法,它通過提升太陽電池陣輸出功率的尋優(yōu)速度和動態(tài)性能,能夠更好地適應(yīng)復(fù)雜外部環(huán)境。文獻(xiàn)[6]使用改進(jìn)麻雀搜索算法對MPPT 陣列進(jìn)行建模和仿真,該算法快速準(zhǔn)確地找到最大功率點(diǎn),取得了良好的效果。
近年來,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)技術(shù)被學(xué)者們應(yīng)用于光伏系統(tǒng)的MPPT 控制算法中。為了獲得高精度的輸出電壓并優(yōu)化MPPT 動態(tài)效率,強(qiáng)化學(xué)習(xí)算法中的動作空間調(diào)整為連續(xù)動作空間[7]。文獻(xiàn)[8]提出了一種DDPG 的強(qiáng)化學(xué)習(xí)算法用于將深度強(qiáng)化學(xué)習(xí)(DRL)離散域的動作空間擴(kuò)展到連續(xù)域。然而文中的訓(xùn)練模型具有兩處缺陷,其一是沒有考慮復(fù)雜環(huán)境的變化,面對環(huán)境變化的魯棒性較差;其二是采用DDPG 算法直接訓(xùn)練MPPT 問題時收斂速度慢甚至無法收斂,導(dǎo)致訓(xùn)練時間過長。針對上述問題,本文采用了基于專家示范深度確定性策略梯度算法的MPPT控制算法,一方面提升MPPT 動態(tài)效率,另一方面加快了模型的收斂速度。
圖1 是太陽電池的單二極管模型。Iph是電池照射太陽光后產(chǎn)生的電流,IDS是流過二極管的電流,VDS是二極管兩端電壓,Ish為通過分流并聯(lián)電阻Rsh的電流,I為太陽電池的輸出電流。當(dāng)環(huán)境溫度與光照強(qiáng)度不變時,太陽光產(chǎn)生的電流Iph保持不變,可以看作一個恒流源。

圖1 太陽電池單二極管模型
太陽電池輸出電流I的表達(dá)式為:
二極管電流IDS的表達(dá)式為:
式中:I0為二極管飽和電流;q為單位電荷;K為玻爾茲曼常數(shù);T為開氏溫度;η為二極管的理想因子,一般取值1~2,理想二極管因子為1。
光生電流Iph受到太陽輻照度G與環(huán)境溫度T的影響,關(guān)系式見式(3)。
式中:Iscr為短路電流;Ki為環(huán)境溫度影響因子;Tr為環(huán)境溫度參考值。
二極管飽和電流I0見表達(dá)式(4)。
式中:IRS為二極管反向飽和電流;Eg為二極管的帶隙能量。
太陽電池陣通常由若干個太陽電池經(jīng)過串并聯(lián)后組成。假設(shè)一個太陽電池陣包含N個并聯(lián)的太陽電池電路,每個電路由M個單體太陽電池串聯(lián)構(gòu)成,則太陽電池陣輸出電流Ism見式(5)。
從式(5)可以看出,電池陣輸出特性主要受到環(huán)境溫度T、太陽輻照度G的影響。圖2(a)~(d)分別展示了在恒定環(huán)境溫度改變太陽輻照強(qiáng)度與恒定太陽輻照強(qiáng)度改變環(huán)境溫度條件下的輸出I-V與P-V特性曲線。

圖2 溫度、光照條件變化時光伏特性曲線
深度強(qiáng)化學(xué)習(xí)是在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上將具有強(qiáng)大表征能力的深度學(xué)習(xí)與具有決策能力的強(qiáng)化學(xué)習(xí)相結(jié)合,使動作序列空間與狀態(tài)值空間映射為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),以便處理高維度的動作與狀態(tài)[9]。對于本文中研究的光伏系統(tǒng)MPPT問題,使用深度神經(jīng)網(wǎng)絡(luò)來表征光伏系統(tǒng)在不同狀態(tài)下的價值函數(shù),再結(jié)合強(qiáng)化學(xué)習(xí)算法根據(jù)價值函數(shù)決策出當(dāng)前時刻的電壓變化量。深度強(qiáng)化學(xué)習(xí)中的相關(guān)術(shù)語以及表達(dá)式如下[10]:
價值函數(shù)V為從該狀態(tài)開始的馬爾科夫決策過程獲得的總期望:
狀態(tài)動作值函數(shù)Qπ(s,a)表示在狀態(tài)s下根據(jù)策略π 采取某個動作a時獲得的收獲的期望:
深度確定性策略梯度算法(DPPG)是以演員-批評家(actor-critic)為基礎(chǔ)[11],針對連續(xù)動作空間的離線無模型算法。DDPG 算法共有四個網(wǎng)絡(luò),它們分別是演員網(wǎng)絡(luò)、演員目標(biāo)網(wǎng)絡(luò)、批評家網(wǎng)絡(luò)和批評家目標(biāo)網(wǎng)絡(luò)。狀態(tài)動作值函數(shù)和動作函數(shù)分別由深度神經(jīng)網(wǎng)絡(luò)Q(st,at|θQ)和μ(st|θμ)訓(xùn)練得到,其中,θQ與θμ對應(yīng)了批評家網(wǎng)絡(luò)和演員網(wǎng)絡(luò)中的各層各節(jié)點(diǎn)的權(quán)值與偏差矩陣。
批評家網(wǎng)絡(luò)參數(shù)的更新通過最小化損失函數(shù)L(θQ)來實(shí)現(xiàn),見式(8)。
式中:yt為預(yù)期回報;rt為當(dāng)前狀態(tài)動作下的獎勵;γ為衰減率,一般取0.9~1。
演員網(wǎng)絡(luò)的參數(shù)θμ可以通過梯度方法更新,見式(10)。
式中:?為偏導(dǎo)數(shù);J為演員網(wǎng)絡(luò)參數(shù)關(guān)于回報期望的分布;ρβ為狀態(tài)st所服從的分布。
批評家目標(biāo)網(wǎng)絡(luò)與演員目標(biāo)網(wǎng)絡(luò)通過軟更新方式改變參數(shù)。兩個目標(biāo)網(wǎng)絡(luò)分別設(shè)置更新率τ,當(dāng)一次訓(xùn)練結(jié)束時,目標(biāo)網(wǎng)絡(luò)向原始網(wǎng)絡(luò)的參數(shù)更新τ%,保留(1-τ)%的網(wǎng)絡(luò)參數(shù)不變。
考慮到控制的目標(biāo)輸出電壓是一個連續(xù)變量,本文首先采用DDPG 算法來控制MPPT 過程,其次加入專家示范的方法來解決DDPG 算法中訓(xùn)練時間過長、收斂難度大的問題。
DDPG 算法中的狀態(tài)采用溫度T、光照G、電壓V、功率P四個不同的量[12],其中電壓和功率包含最近連續(xù)的三個時刻(t,t-1,t-2)的值。狀態(tài)矩陣S如下所示:
為了增加專家示范的適應(yīng)性,需要對狀態(tài)作出如下調(diào)整:
式中:I為電流值,I(t)=P(t)/V(t);ΔP為功率變化值,ΔP(t)=P(t)-P(t-1)。
調(diào)整后的狀態(tài)矩陣與之前相比增加了四個元素,主要用于提高算法中的網(wǎng)絡(luò)對專家示范經(jīng)驗(yàn)的適應(yīng)性以及神經(jīng)網(wǎng)絡(luò)對特征的識別能力。同時,這四個元素是由電壓與功率經(jīng)過線性變換得出,一旦前八個狀態(tài)量確定,后四個狀態(tài)量也隨之確定,因而本質(zhì)上算法中的狀態(tài)維度并未發(fā)生改變。
光伏系統(tǒng)MPPT 控制中被控對象是輸出電壓,因此動作需要選取與電壓有關(guān)的變量。本算法采用電壓的變化量作為動作值,通過獲取當(dāng)前的狀態(tài)判斷接下來電壓的增減以完成最大功率點(diǎn)的持續(xù)跟蹤。動作空間A的表示如下:
式中:ΔVmin為電壓減少量閾值;ΔVmax為電壓增加量閾值。
本文針對光伏系統(tǒng)MPPT 控制的實(shí)際特點(diǎn)設(shè)計(jì)了分段式獎勵函數(shù):
采用分段式獎勵函數(shù)使得強(qiáng)化學(xué)習(xí)任務(wù)的難度分解,在未完成任務(wù)時也能獲得部分獎勵,與稀疏獎勵對比,這樣的方式增加了模型收斂的可能性。
本文中評論家網(wǎng)絡(luò)結(jié)構(gòu)為一個輸入層,三個隱藏層和一個輸出層。輸入層和隱藏層之間以及輸出層和隱藏層之間使用線性激活函數(shù),隱藏層之間使用ReLU 非線性激活函數(shù)。演員網(wǎng)絡(luò)結(jié)構(gòu)為一個輸入層、兩個隱藏層和一個輸出層。各層之間的激活函數(shù)與評論家網(wǎng)絡(luò)相同。ED-DDPG 算法的神經(jīng)網(wǎng)絡(luò)超參數(shù)見表1。

表1 神經(jīng)網(wǎng)絡(luò)超參數(shù)
DDPG 算法在訓(xùn)練時存在缺陷,如消耗資源多和消耗資源多訓(xùn)練數(shù)據(jù)不足等。消耗資源多指在使用深度強(qiáng)化學(xué)習(xí)DDPG 算法訓(xùn)練網(wǎng)絡(luò)時,會消耗大量的時間以及硬件資源;訓(xùn)練數(shù)據(jù)不足指算法訓(xùn)練過程中,由于缺少先驗(yàn)知識、環(huán)境的維度空間復(fù)雜等問題,DDPG 算法在探索過程中難以完成最大功率點(diǎn)跟蹤任務(wù)。后者將導(dǎo)致從環(huán)境獲取的反饋獎勵構(gòu)成的序列存入經(jīng)驗(yàn)池后無法有效引導(dǎo)算法中的神經(jīng)網(wǎng)絡(luò)向正確的梯度方向收斂,從而形成了一個惡性循環(huán)。
本文采用“專家示范”的思想[13]從而加快DDPG 算法的收斂速度,選擇擾動觀察法P&O 作為專家示范的經(jīng)驗(yàn)來源。首先使用一個擁有P&O 策略的智能體在強(qiáng)化學(xué)習(xí)環(huán)境中交互,將交互得到的數(shù)據(jù)傳入強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)池中。強(qiáng)化學(xué)習(xí)算法基于經(jīng)驗(yàn)池中的專家經(jīng)驗(yàn)訓(xùn)練一個近似P&O 策略的策略網(wǎng)絡(luò),再進(jìn)行隨機(jī)搜索不斷優(yōu)化策略。
基于專家示范的深度確定性策略梯度算法(ED-DDPG)訓(xùn)練過程如下:
首先,訓(xùn)練系統(tǒng)中預(yù)先設(shè)置了專家示范回合數(shù)。當(dāng)訓(xùn)練回合數(shù)小于專家示范回合數(shù)時,專家示范智能體使用傳統(tǒng)算法P&O 作為專家策略作出動作并與環(huán)境進(jìn)行交互。隨后將動作-狀態(tài)序列直接存入強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)池中,這些經(jīng)驗(yàn)會在每一次智能體與環(huán)境交互時用于訓(xùn)練強(qiáng)化學(xué)習(xí)智能體中的演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)。其中演員網(wǎng)絡(luò)的策略梯度更新修正見式(16)。
式中:?為偏導(dǎo)數(shù);μed為專家示范策略;μ為演員網(wǎng)絡(luò)策略;J為演員網(wǎng)絡(luò)參數(shù)關(guān)于回報期望的分布;N為批處理數(shù);Q為價值函數(shù);s為狀態(tài);a為動作。
當(dāng)訓(xùn)練回合數(shù)大于專家示范回合數(shù)時,本算法根據(jù)DDPG 算法中的策略選擇動作。值得注意的是,此時的演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的參數(shù)經(jīng)過了專家經(jīng)驗(yàn)的訓(xùn)練而不是隨機(jī)初始化的參數(shù)。最后,神經(jīng)網(wǎng)絡(luò)在與環(huán)境若干回合的交互中訓(xùn)練網(wǎng)絡(luò)得到收斂速度更快、獲取獎勵更大的MPPT 動作策略。ED-DDPG 算法的示意圖見圖3。

圖3 ED-DDPG算法示意圖
圖3 中左側(cè)部分為演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的結(jié)構(gòu)示意圖,中間虛線框部分為本算法的決策與網(wǎng)絡(luò)更新部分,通過強(qiáng)化學(xué)習(xí)環(huán)境中得到的狀態(tài)基于演員-評論家的決策機(jī)制下獲得對應(yīng)的動作,并將經(jīng)驗(yàn)池中抽取的序列更新演員-批評家網(wǎng)絡(luò)的參數(shù)。右側(cè)部分為強(qiáng)化學(xué)習(xí)環(huán)境與經(jīng)驗(yàn)池,強(qiáng)化學(xué)習(xí)環(huán)境由太陽電池等效模型構(gòu)建而成,由環(huán)境產(chǎn)生的狀態(tài)與算法決策部分產(chǎn)生的動作將被存入經(jīng)驗(yàn)池中用于更新網(wǎng)絡(luò)。
4.1.1 EN50530 標(biāo)準(zhǔn)
IEC/EN50530 定義了不同的測試模式[14]:
(1) 低輻照度到中輻照度的不同速率往復(fù)變化,從100 W/m2到500 W/m2的變化,最慢800 s,最快8 s。
(2) 中輻照度到高輻照度的不同速率往復(fù)變化,從300 W/m2到1 000 W/m2的變化,最慢70 s,最快7 s。
4.1.2 動態(tài)MPPT 效率
根據(jù)NB/T 32004-2013 標(biāo)準(zhǔn),靜態(tài)最大功率跟蹤效率計(jì)算公式如下:
式中:ΔTj為PMPP,PVS,i的采樣間隔;UDC,i與IDC,i為輸出電壓、電流采樣值;ΔTi為輸出電壓電流的采樣間隔;PMPP,PVS,i為太陽電池陣中獲得的理論最大功率輸出。
4.1.3 算法對比實(shí)驗(yàn)
本文針對上述標(biāo)準(zhǔn)對基于專家示范的深度確定性策略梯度算法(ED-DDPG)進(jìn)行仿真驗(yàn)證,以對比實(shí)驗(yàn)的方式進(jìn)行。對比的算法為傳統(tǒng)MPPT 控制方法擾動觀察法(P&O)以及深度確定性策略梯度算法(DDPG)的MPPT 控制方法。
EN50530 標(biāo)準(zhǔn)下的兩個測試模式以最快與最慢兩種速度作為仿真環(huán)境,分別對三種MPPT 控制算法進(jìn)行仿真驗(yàn)證,獲得的結(jié)果見圖4。

圖4 基于EN50530的四種環(huán)境變化對比曲線
表2 總結(jié)了在四種輻照變化模式下三種MPPT 算法的動態(tài)MPPT 效率。可以看出ED-DDPG 算法的動態(tài)效率對比傳統(tǒng)算法有顯著提高,與普通DDPG 算法相比略有提高,動態(tài)MPPT 效率平均達(dá)到97.3%。

表2 不同輻照條件下各算法效率 %
本文所提ED-DDPG 算法的魯棒性仿真實(shí)驗(yàn)見圖5。實(shí)驗(yàn)中采用隨機(jī)的溫度和光照強(qiáng)度組合,每秒階梯變化1 次;在運(yùn)行過程中設(shè)定環(huán)境有10%可能性給智能體反饋錯誤的狀態(tài)。共進(jìn)行了3 組實(shí)驗(yàn),每組實(shí)驗(yàn)采取不同的初始點(diǎn),最終三組結(jié)果以及平均值見表3。

圖5 算法魯棒性實(shí)驗(yàn)圖(實(shí)驗(yàn)二)

表3 算法魯棒性實(shí)驗(yàn)結(jié)果表
ED-DDPG 算法在劇烈的環(huán)境變化以及錯誤信息干擾下仍然能夠擁有93.53%的MPPT 動態(tài)效率,證明本算法具有強(qiáng)魯棒性,符合實(shí)際應(yīng)用需求。
本實(shí)驗(yàn)對ED-DDPG 算法與普通MPPT 算法分別進(jìn)行MPPT 的訓(xùn)練任務(wù),最終比較兩者的收斂速度。圖6 是專家示范DDPG 算法與普通DDPG 算法收斂性對比圖。可以看出ED-DDPG 算法收斂速度更快,且隨著訓(xùn)練時間的增加收斂穩(wěn)定性比普通DDPG 算法更強(qiáng)。

圖6 專家示范DDPG算法與普通DDPG算法收斂性對比圖
對于強(qiáng)化學(xué)習(xí)而言,衰減率γ的選擇意味著總回報中當(dāng)前獎勵與未來獎勵的比重,一般取0.9~1 之間的值。衰減率取值的選擇影響算法的收斂性能,采用強(qiáng)化學(xué)習(xí)中常用的三種衰減率0.90、0.93、0.95 進(jìn)行對比實(shí)驗(yàn),比較ED-DDPG 算法的收斂性能。
衰減率γ的對比圖如圖7所示。當(dāng)衰減率取0.93時獲得的獎勵曲線穩(wěn)定時獎勵值最大,當(dāng)衰減率減少時獎勵曲線波動較大,當(dāng)衰減率增大時,獎勵曲線的穩(wěn)定值小于衰減率為0.93時獎勵的穩(wěn)定值。因此采用0.93作為本文所提算法衰減率。

圖7 γ不同取值下的收斂對比
基于專家示范的深度強(qiáng)化學(xué)習(xí)DDPG 算法提出了一種光伏系統(tǒng)最大功率點(diǎn)跟蹤的算法。根據(jù)仿真結(jié)果,本文所提出的MPPT 控制算法與傳統(tǒng)方法相比在動態(tài)效率上有明顯的提高,與普通DDPG 算法相比在硬件資源的消耗與收斂速度方面有明顯的優(yōu)勢;ED-DDPG 算法在魯棒性驗(yàn)證時證明了其對于外界環(huán)境的變化具有很強(qiáng)的魯棒性,適用于復(fù)雜環(huán)境條件下的光伏系統(tǒng)最大功率點(diǎn)跟蹤。