自適應(yīng)學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)飛行控制

2022-03-25 02:50:04劉俊輝單家元榮吉利

宇航學(xué)報(bào) 2022年1期

關(guān)鍵詞：模型

劉俊輝，單家元，榮吉利，鄭雄

(1.北京理工大學(xué)宇航學(xué)院,北京 100081；2.北京理工大學(xué)飛行器動(dòng)力學(xué)與控制教育部重點(diǎn)實(shí)驗(yàn)室，北京100081；3.中國(guó)運(yùn)載火箭技術(shù)研究院，北京100076)

0 引言

近年來(lái)，導(dǎo)彈、火箭等飛行器自主學(xué)習(xí)飛行控制問(wèn)題得到廣泛關(guān)注，未來(lái)復(fù)雜任務(wù)迫切需要增強(qiáng)彈/箭復(fù)雜飛行環(huán)境適應(yīng)能力及突發(fā)事件的應(yīng)對(duì)能力。跨域強(qiáng)對(duì)抗環(huán)境作戰(zhàn)，未知環(huán)境與非預(yù)定任務(wù)場(chǎng)景下偵察、打擊或?qū)梗捎陲w行場(chǎng)景和任務(wù)變化，大氣密度、飛行速度、環(huán)境溫度、障礙物發(fā)生很大改變以及飛行器本體動(dòng)力學(xué)發(fā)生突變等，傳統(tǒng)的針對(duì)預(yù)先已知使用場(chǎng)景和作戰(zhàn)任務(wù)而進(jìn)行增益調(diào)度設(shè)計(jì)的飛行控制器需要各特征點(diǎn)下精確的系統(tǒng)模型，在未知、未探明環(huán)境中很難獲得，并且設(shè)計(jì)過(guò)程非常繁瑣，亟需突破以智能控制為核心的自主學(xué)習(xí)飛行控制技術(shù)，以彌補(bǔ)程序化控制策略帶來(lái)的局限性，提升飛行器在復(fù)雜未知環(huán)境與突發(fā)事件下的自主性、強(qiáng)適應(yīng)性與魯棒飛行控制能力。

強(qiáng)化學(xué)習(xí)控制方法是一種不依賴于對(duì)象動(dòng)力學(xué)模型并對(duì)環(huán)境變化與模型時(shí)變特性具有較強(qiáng)魯棒性的控制方法，為飛行器自主飛行控制提供了有效可行的思路。強(qiáng)化學(xué)習(xí)方法起源于計(jì)算機(jī)領(lǐng)域，幾乎同一時(shí)期最優(yōu)控制領(lǐng)域?qū)W者Werbos, Bertsekas等開(kāi)展了類似的近似動(dòng)態(tài)規(guī)劃和神經(jīng)元?jiǎng)討B(tài)規(guī)劃的研究。這些方法的理論根基是1956年Bellman提出的動(dòng)態(tài)規(guī)劃方法。為了解決動(dòng)態(tài)規(guī)劃方法的維度災(zāi)難及逆向求解問(wèn)題，Werbos在1977年提出了近似/自適應(yīng)動(dòng)態(tài)規(guī)劃方法，該方法融合了強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)規(guī)劃的思想。后續(xù)，強(qiáng)化學(xué)習(xí)方法在計(jì)算機(jī)和控制領(lǐng)域分別迅速發(fā)展，并且在航空航天領(lǐng)域進(jìn)行了廣泛探索研究，包括直升機(jī)、運(yùn)載器、變體飛行器、制導(dǎo)系統(tǒng)的自適應(yīng)飛行控制。為了實(shí)現(xiàn)在線求解飛行控制律，通常采用時(shí)序差分法(TD)來(lái)求解強(qiáng)化學(xué)習(xí)問(wèn)題。TD結(jié)合了動(dòng)態(tài)規(guī)劃法和蒙特卡洛法(MC)的優(yōu)勢(shì)，既不需要對(duì)象與環(huán)境的模型，也不用端到端的訓(xùn)練過(guò)程，可以實(shí)現(xiàn)飛行控制器實(shí)時(shí)迭代更新。

自適應(yīng)Actor critic designs(ACD)是一種基于TD的方法，結(jié)合Actor-Critic結(jié)構(gòu)、動(dòng)態(tài)規(guī)劃、和神經(jīng)網(wǎng)絡(luò)的自適應(yīng)/近似動(dòng)態(tài)規(guī)劃方法，是設(shè)計(jì)自適應(yīng)最優(yōu)飛行控制器的有效方法。ACD將策略評(píng)價(jià)(critic)和策略更新(actor)分離設(shè)計(jì)，能適應(yīng)未知環(huán)境得到最優(yōu)控制策略。ACD方法可以分為：?jiǎn)l(fā)式動(dòng)態(tài)規(guī)劃(HDP)、雙啟發(fā)式動(dòng)態(tài)規(guī)劃(DHP)、全局雙啟發(fā)式動(dòng)態(tài)規(guī)劃(GDHP)。DHP與HDP方法的區(qū)別在于DHP評(píng)價(jià)網(wǎng)絡(luò)用于近似值函數(shù)相對(duì)于狀態(tài)的偏導(dǎo)，而HDP的評(píng)價(jià)網(wǎng)絡(luò)用于近似值函數(shù)。GDHP方法是結(jié)合DHP與HDP的一種強(qiáng)化學(xué)習(xí)方法。但是這些方法都需要在線或離線辨識(shí)被控對(duì)象的精確模型。直接在線辨識(shí)對(duì)象的精確模型耗時(shí)較長(zhǎng)，很難在線完成，而事先的離線辨識(shí)又由于環(huán)境或模型不確定性無(wú)法獲得對(duì)象的精確模型。文獻(xiàn)[11-12]通過(guò)輸入-輸出數(shù)據(jù)辨識(shí)被控對(duì)象增量模型，提出了基于增量模型的雙啟發(fā)式動(dòng)態(tài)規(guī)劃方法(IDHP)，很好地解決了模型精度與在線實(shí)時(shí)計(jì)算的矛盾，并應(yīng)用于飛行控制器設(shè)計(jì)。相比于直接辨識(shí)被控對(duì)象模型的DHP方法，IDHP具有更快的在線學(xué)習(xí)速度和更高的控制精度。

IDHP自主學(xué)習(xí)飛行控制律分為控制律學(xué)習(xí)階段和飛行控制運(yùn)行階段。在控制律學(xué)習(xí)階段，IDHP基于一定的學(xué)習(xí)策略，通過(guò)施加持續(xù)激勵(lì)，采集系統(tǒng)響應(yīng)數(shù)據(jù)來(lái)迭代更新行動(dòng)和評(píng)價(jià)權(quán)值網(wǎng)絡(luò)的權(quán)值，實(shí)現(xiàn)控制器的學(xué)習(xí)。但是并不是所有的控制器參數(shù)都能通過(guò)學(xué)習(xí)獲得，在實(shí)施神經(jīng)網(wǎng)絡(luò)權(quán)值系數(shù)迭代學(xué)習(xí)之前需要根據(jù)一定的經(jīng)驗(yàn)和收斂性分析確定動(dòng)作和評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)權(quán)值、學(xué)習(xí)率等超參數(shù)。不同的學(xué)習(xí)率對(duì)系統(tǒng)穩(wěn)定性和控制精度有較大影響。文獻(xiàn)[13]提出了兩階段切換控制策略，在預(yù)先訓(xùn)練階段采用PID控制器輔助，并基于粗精度-高精度訓(xùn)練不斷迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)權(quán)值系數(shù)，運(yùn)行階段采用IDHP控制器，此方法減輕了訓(xùn)練階段控制的振蕩，提高了學(xué)習(xí)成功率。但是，現(xiàn)有的方法大多是事先設(shè)定學(xué)習(xí)率、神經(jīng)網(wǎng)絡(luò)初值等超參數(shù)，而事先設(shè)定超參數(shù)的方式無(wú)法適應(yīng)飛行器速度、大氣密度大幅變化以及變體飛行器氣動(dòng)特性等被控對(duì)象動(dòng)力學(xué)特性大范圍變化情況下的自主飛行控制。文獻(xiàn)[4]結(jié)合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)，提出了監(jiān)督Actor-Critic控制結(jié)構(gòu)，監(jiān)督結(jié)構(gòu)提供額外的信息來(lái)進(jìn)行評(píng)價(jià)反饋以“成形”最優(yōu)學(xué)習(xí)策略，加速收斂。Dias等提出一種針對(duì)飛行器容錯(cuò)控制的基于監(jiān)督器觸發(fā)在線自適應(yīng)學(xué)習(xí)控制。受文獻(xiàn)[4,14]啟發(fā)，本文提出一種自適應(yīng)調(diào)整學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)飛行控制方法，以適應(yīng)飛行器動(dòng)力學(xué)特性大范圍變化時(shí)的自主學(xué)習(xí)飛行控制。

本文的主要貢獻(xiàn)在于設(shè)計(jì)了一種基于梯度下降法的在線調(diào)整強(qiáng)化學(xué)習(xí)動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率超參數(shù)的算法。具體為：

1)在強(qiáng)化學(xué)習(xí)評(píng)價(jià)網(wǎng)絡(luò)、動(dòng)作網(wǎng)絡(luò)和模型網(wǎng)絡(luò)三層結(jié)構(gòu)的基礎(chǔ)上增加性能監(jiān)督器，提出了基于實(shí)時(shí)控制性能監(jiān)督評(píng)估的學(xué)習(xí)率在線調(diào)整框架；

2)利用小波分析方法構(gòu)造飛行控制器穩(wěn)定度實(shí)時(shí)量化評(píng)估指標(biāo)，在線評(píng)估不同學(xué)習(xí)率參數(shù)下控制系統(tǒng)穩(wěn)定度，為學(xué)習(xí)率參數(shù)實(shí)時(shí)調(diào)整提供依據(jù)；

3)將學(xué)習(xí)率在線調(diào)整轉(zhuǎn)化為非線性優(yōu)化問(wèn)題，基于梯度下降法實(shí)現(xiàn)了學(xué)習(xí)率參數(shù)在線優(yōu)化，提高了增量強(qiáng)化學(xué)習(xí)飛行控制律的成功率及在飛行器動(dòng)力學(xué)特性大范圍變化下的適應(yīng)性，減輕了IRL飛行控制算法對(duì)預(yù)先設(shè)定學(xué)習(xí)率參數(shù)的依賴。

1 增量強(qiáng)化學(xué)習(xí)飛行控制律設(shè)計(jì)

圖1 增量強(qiáng)化學(xué)習(xí)簡(jiǎn)略圖(實(shí)線表示前向信號(hào)流，虛線代表自適應(yīng)調(diào)整路徑)

1.1 問(wèn)題描述

利用強(qiáng)化學(xué)習(xí)來(lái)求解飛行控制問(wèn)題，首先要明確狀態(tài)轉(zhuǎn)移關(guān)系和價(jià)值函數(shù)。在高頻采樣假設(shè)條件下，基于離散時(shí)間模型描述非線性系統(tǒng)狀態(tài)轉(zhuǎn)移函數(shù)(,)∈×1，如式(1)所示。其中∈×1表示狀態(tài)向量，∈×1為動(dòng)作向量，和分別為狀態(tài)向量和動(dòng)作向量維數(shù)。

+1=(,)

(1)

式中：下標(biāo)表示當(dāng)前時(shí)刻，下標(biāo)+1表示下一時(shí)刻。

(2)

控制的目標(biāo)是使飛行狀態(tài)跟蹤參考指令信息，因此一步回報(bào)函數(shù)設(shè)計(jì)為下一步狀態(tài)與參考狀態(tài)偏差的二次型形式

(3)

式中：∈×為給定的正定矩陣，下一步狀態(tài)+1需要基于在線辨識(shí)模型進(jìn)行預(yù)測(cè)。的取值將影響強(qiáng)化學(xué)習(xí)控制律的收斂性，較大的能夠加快學(xué)習(xí)算法的收斂速度，而過(guò)大的容易使學(xué)習(xí)算法發(fā)散。

最優(yōu)化控制策略為使價(jià)值函數(shù)取最大值的控制策略，如下式所示

(4)

1.2 強(qiáng)化學(xué)習(xí)飛行控制問(wèn)題求解

基于最小化TD誤差原理來(lái)更新評(píng)價(jià)網(wǎng)絡(luò)權(quán)值系數(shù)。評(píng)價(jià)網(wǎng)絡(luò)更新的目標(biāo)是使誤差函數(shù)(5)最小。

(5)

其中,誤差定義為價(jià)值函數(shù)相對(duì)于狀態(tài)量偏導(dǎo)的時(shí)序差分誤差。

(6)

(7)

誤差函數(shù)相對(duì)于權(quán)值系數(shù)的梯度計(jì)算公式為

(8)

動(dòng)作網(wǎng)絡(luò)更新的目標(biāo)是最大化值函數(shù)，基于Bellman最優(yōu)性定理可以得到：

(9)

(10)

價(jià)值函數(shù)相對(duì)于動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)的梯度計(jì)算公式為：

(11)

1.3 增量模型在線辨識(shí)

在增量強(qiáng)化學(xué)習(xí)控制律中，利用增量模型來(lái)近似非線性系統(tǒng)在時(shí)刻運(yùn)行點(diǎn)(,)鄰域內(nèi)的模型。假設(shè)當(dāng)前時(shí)刻→，基于一階泰勒展開(kāi)，得到離散的近似線性化模型為

+1≈(,)+(,)Δ+(,)Δ

(12)

進(jìn)一步，得到增量式動(dòng)力學(xué)模型為

Δ+1≈-1Δ+-1Δ

(13)

其中,Δ=--1∈×1,Δ=--1∈×1分別為狀態(tài)量增量和控制量增量。

在增量強(qiáng)化學(xué)習(xí)算法中，利用實(shí)時(shí)測(cè)量得到的狀態(tài)量和控制輸入數(shù)據(jù)，在線辨識(shí)狀態(tài)轉(zhuǎn)移矩陣和控制效果矩陣。基于辨識(shí)的增量模型來(lái)預(yù)測(cè)下一步系統(tǒng)狀態(tài)，具體為

(14)

(15)

(16)

本文中參數(shù)矩陣應(yīng)用參考文獻(xiàn)[11]的遞推最小二乘方法(RLS)來(lái)進(jìn)行在線辨識(shí)。

進(jìn)一步，可以得到式(6)和式(11)中，狀態(tài)向量+1相對(duì)于上一步狀態(tài)量和上一步控制量的偏導(dǎo)為

(17)

(18)

2 固定學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)控制實(shí)例及問(wèn)題分析

以不同動(dòng)壓下飛行器參考攻角指令跟蹤飛行控制為例來(lái)驗(yàn)證增量強(qiáng)化學(xué)習(xí)控制律，說(shuō)明已有固定學(xué)習(xí)率算法存在的問(wèn)題，并提出改進(jìn)思路。將攻角和俯仰角速度作為系統(tǒng)狀態(tài)，升降舵輸入作為控制輸入。并作如下假設(shè)：1)假設(shè)舵面偏轉(zhuǎn)產(chǎn)生的控制力在攻角控制通道所起的作用可以忽略；2)假設(shè)飛行器機(jī)體本身產(chǎn)生的俯仰阻尼力矩足夠小，可以忽略不計(jì)；3)假設(shè)推力與阻力平衡，由推力產(chǎn)生的攻角控制分量可以忽略不計(jì)。

建立飛行器縱向平面俯仰姿態(tài)運(yùn)動(dòng)非線性動(dòng)力學(xué)模型為

(19)

式(19)中升力系數(shù)和俯仰力矩計(jì)算公式為

(20)

式中：0,0為零攻角升力和俯仰力矩系數(shù);,為升力系數(shù)、力矩系數(shù)相對(duì)于攻角的偏導(dǎo);,為升力系數(shù)、力矩系數(shù)相對(duì)于舵偏角的偏導(dǎo)。

外環(huán)采用PID控制，得到參考俯仰角速度指令：

(21)

式中：=-;,,分別為比例項(xiàng)、積分項(xiàng)和微分項(xiàng)系數(shù)。

影響IRL算法的參考指令跟蹤速度，過(guò)大的將使系統(tǒng)趨于不穩(wěn)定，引入可以減小常值跟蹤誤差，有助于減弱參考指令跟蹤振蕩。根據(jù)PID參數(shù)調(diào)整原則，通過(guò)數(shù)學(xué)仿真確定，本文中取=188,=02,=015。

令強(qiáng)化學(xué)習(xí)算法中狀態(tài)量、參考狀態(tài)量和動(dòng)作向量為

=[],=[],=[]

(22)

(23)

(24)

式中：函數(shù):2→和:2→分別為選取的光滑的基底函數(shù);,分別為評(píng)價(jià)網(wǎng)絡(luò)與動(dòng)作神經(jīng)網(wǎng)絡(luò)神經(jīng)元個(gè)數(shù)，也可以選用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高神經(jīng)網(wǎng)絡(luò)的非線性擬合能力。

為防止權(quán)值系數(shù)訓(xùn)練過(guò)程容易發(fā)散，選取具有有界性的雙曲正切函數(shù)tanh(),∈(0, ∞]與tanh(),∈(0, ∞]組成的多項(xiàng)式作為評(píng)價(jià)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)的基底函數(shù)。

=[[tanh()],[tanh()],

[tanh()]?[tanh()]]

(25)

=[[tanh()]?[tanh()]]

(26)

其中,?表示矩陣直積,下標(biāo),,,∈1,2,3,…,。

和的選取可以根據(jù)經(jīng)驗(yàn)和仿真數(shù)據(jù)分析確定，從而確定神經(jīng)元個(gè)數(shù),(基底函數(shù)的總個(gè)數(shù))和基底函數(shù)形式。神經(jīng)元個(gè)數(shù)太多容易導(dǎo)致過(guò)擬合，太少將使擬合精度不夠。因此,第一步，根據(jù)控制系統(tǒng)特性選取足夠多的神經(jīng)元;第二步，通過(guò)仿真剔除權(quán)值系數(shù)發(fā)散的神經(jīng)元;從而可以確定動(dòng)作網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)基底函數(shù)。本文中，取02,08,14,20,26,32;取02, 12, 24;取02, 32;取14, 26, 32。

進(jìn)一步，計(jì)算得到

(27)

(28)

(29)

參考文獻(xiàn)[12]，選取增量強(qiáng)化學(xué)習(xí)算法中的超參數(shù)，并根據(jù)經(jīng)驗(yàn)及仿真結(jié)果，設(shè)定為常值，具體數(shù)值見(jiàn)表1。飛行階段前20 s進(jìn)行在線訓(xùn)練，在舵控指令上疊加掃頻激勵(lì)信號(hào)作為舵控指令，以滿足充分激勵(lì)(PE)條件，用于充分激勵(lì)飛行器動(dòng)力學(xué)模態(tài)，加快控制律學(xué)習(xí)過(guò)程和模型辨識(shí)過(guò)程。掃頻信號(hào)的具體形式為：

=ej2π(+()2)

(30)

式中：初始頻率取為=0.001 Hz;調(diào)制率取為=0.5。

參考文獻(xiàn)[16]中飛行器的參數(shù)，取切換模態(tài)6下飛行器動(dòng)力學(xué)參數(shù)。取回報(bào)函數(shù)權(quán)重=[50]，取任意參考攻角指令為：0～30 s 為3°，30～80 s為5°，80～120 s 為4°。初始狀態(tài)取為=0, q=0，舵控指令限幅±10，飛行環(huán)境參數(shù)為0～50 s 動(dòng)壓為312.2 kg/(m·s)，50 s 以后動(dòng)壓變?cè)O(shè)為1311.2 kg/(m·s)。采用歐拉法進(jìn)行數(shù)學(xué)仿真，仿真步長(zhǎng)取為0.02 s，0～20 s 訓(xùn)練階段在舵控指令上疊加掃頻指令，并且動(dòng)作與評(píng)價(jià)網(wǎng)絡(luò)以較大學(xué)習(xí)率運(yùn)行，以增強(qiáng)學(xué)習(xí)算法的探索能力，見(jiàn)表1，20 s以后的運(yùn)行階段調(diào)整動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率為較小值，以充分利用已學(xué)習(xí)到的經(jīng)驗(yàn)。

表1 超參數(shù)設(shè)定值

仿真結(jié)果如圖2-3所示，可得到以下幾點(diǎn)結(jié)論：

圖2 固定學(xué)習(xí)率下飛行控制效果圖

圖3 固定學(xué)習(xí)率下評(píng)價(jià)網(wǎng)絡(luò)與動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)收斂結(jié)果

1)在20 s內(nèi)的訓(xùn)練過(guò)程中，評(píng)價(jià)和動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)較快收斂；

2)運(yùn)行階段，飛控能夠跟蹤不同于訓(xùn)練時(shí)刻的參考攻角指令；

3)在飛行器動(dòng)壓變化較大的情況下，基于預(yù)先設(shè)定學(xué)習(xí)率參數(shù)會(huì)導(dǎo)致IRL控制算法失效，評(píng)價(jià)網(wǎng)絡(luò)權(quán)值系數(shù)發(fā)散。

3 增量強(qiáng)化學(xué)習(xí)控制器自適應(yīng)學(xué)習(xí)率設(shè)計(jì)

飛行控制系統(tǒng)的穩(wěn)定性可以通過(guò)觀察飛行狀態(tài)的振蕩情況來(lái)進(jìn)行分析，工程上通常采用階躍響應(yīng)振蕩次數(shù)來(lái)作為飛行控制器設(shè)計(jì)輸入。因此，本文的思路是實(shí)時(shí)監(jiān)測(cè)飛行狀態(tài)跟蹤誤差的振蕩情況，根據(jù)飛行狀態(tài)振蕩程度迭代優(yōu)化行動(dòng)網(wǎng)絡(luò)學(xué)習(xí)率超參數(shù)。基于性能監(jiān)測(cè)的自適應(yīng)學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)算法的結(jié)構(gòu)如圖4。本文改進(jìn)的自適應(yīng)學(xué)習(xí)率調(diào)整部分用于在線優(yōu)化調(diào)整學(xué)習(xí)率參數(shù)。

圖4 自適應(yīng)學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)算法框架(實(shí)線表示前向信號(hào)流，虛線代表自適應(yīng)調(diào)整路徑)

3.1 基于小波分析的狀態(tài)信息振蕩程度監(jiān)測(cè)

小波分析是在20世紀(jì)80年代Morlet、Arens、Grossmannn等的研究基礎(chǔ)上發(fā)展起來(lái)的應(yīng)用數(shù)學(xué)領(lǐng)域成果。復(fù)Morlet小波在時(shí)頻兩域均具有良好的辨別能力，復(fù)Morlet小波母函數(shù)具有隨頻率參數(shù)改變而自動(dòng)調(diào)節(jié)時(shí)、頻分辨率的能力，在頻域內(nèi)，可將其視為一個(gè)窄帶濾波器。本文利用其特性，分析評(píng)估飛行控制性能。

：在平方可積的實(shí)數(shù)空間()，即能量有限的信號(hào)空間中，設(shè)()∈()，其傅里葉變換為()，若()滿足如下容許性條件：

(31)

則稱()為基本小波或母小波。

將基本小波()經(jīng)過(guò)伸縮和平移后，便可以得到小波函數(shù)族：

(32)

式中：為伸縮因子;為平移因子。

給定任意平方可積信號(hào)()，即()∈()，則經(jīng)過(guò)小波變換后，得到

(33)

式中：()為小波函數(shù)()的復(fù)共軛;(,)稱為小波變換系數(shù)。

在時(shí)域和頻域范圍內(nèi)，復(fù)Morlet小波函數(shù)的定義如式(34)和式(35)。

(34)

()=eπ(-)

(35)

式中：為中心頻率;為帶寬，需要根據(jù)實(shí)際信號(hào)特性來(lái)確定這兩個(gè)參數(shù)。

飛行狀態(tài)的振蕩幅值及振蕩次數(shù)反映了飛行控制系統(tǒng)的穩(wěn)定性和穩(wěn)定裕度。基于此思路，本文利用小波分析強(qiáng)大的時(shí)頻分析能力，以俯仰角速度跟蹤誤差為輸入，在線分析計(jì)算不同學(xué)習(xí)率下飛行器穩(wěn)定性指標(biāo)，然后基于梯度下降法迭代更新增量強(qiáng)化學(xué)習(xí)飛控算法的學(xué)習(xí)率。

3.2 動(dòng)作神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率自適應(yīng)調(diào)整策略

(36)

(37)

式中：，為小波分析輸入信號(hào)的起始和終止時(shí)刻;0<<1為遺忘因子，用于增大靠近當(dāng)前時(shí)刻的小波系數(shù)權(quán)值。

式(37)中為小波系數(shù)取最大值時(shí)所對(duì)應(yīng)的頻率值，計(jì)算公式為

(38)

得到飛控系統(tǒng)穩(wěn)定度評(píng)估指標(biāo)后，基于梯度下降法設(shè)計(jì)學(xué)習(xí)率的更新率

(39)

式中：上標(biāo)+1表示第+1步;為更新率步長(zhǎng)。

1)設(shè)置小波分析時(shí)間窗口Δ及學(xué)習(xí)率更新容許誤差；

7)利用式(39)的更新率計(jì)算得到第步的學(xué)習(xí)率參數(shù)；

步驟5設(shè)置閾值主要是為了防止小波誤差引起的學(xué)習(xí)率頻繁更新。

4 仿真校驗(yàn)

在這一部分，將采用第二節(jié)提到的飛行器非線性模型及不同仿真條件來(lái)驗(yàn)證文中提出的自適應(yīng)學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)控制算法。

4.1 基于小波分析的控制器穩(wěn)定性指標(biāo)合理性校驗(yàn)

通過(guò)數(shù)學(xué)仿真對(duì)比分析固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率下小波分析結(jié)果，校驗(yàn)控制系統(tǒng)穩(wěn)定性小波分析的合理性。采用本文第二節(jié)中相同的仿真條件，在50 s時(shí)飛行器的動(dòng)壓突變，動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率為0.02和自適應(yīng)學(xué)習(xí)率情況下小波系數(shù)如圖5和圖6所示。圖5a和圖6a分別為固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率下小波系數(shù)圖，圖5b和圖6b分別為式(38)最大小波系數(shù)對(duì)應(yīng)頻率下的小波系數(shù)。分析可知，固定學(xué)習(xí)率下小波系數(shù)在頻率4 Hz附近取值最大，并且隨著時(shí)間變化基本不衰減，而在自適應(yīng)學(xué)習(xí)率下小波系數(shù)較小，并且衰減很快。圖5和圖6對(duì)應(yīng)的時(shí)域軌跡曲線分別如圖2和圖7所示。對(duì)比分析可知，基于小波系數(shù)建立的評(píng)價(jià)函數(shù)能有效反映控制系統(tǒng)振蕩程度，為控制系統(tǒng)穩(wěn)定性實(shí)時(shí)評(píng)價(jià)提供性能指標(biāo)。

圖5 固定學(xué)習(xí)率下小波系數(shù)圖

圖6 自適應(yīng)學(xué)習(xí)率下小波系數(shù)圖

4.2 ALRIRL與IRL算法對(duì)比

A.動(dòng)壓大范圍變化下算法對(duì)比

圖7 自適應(yīng)學(xué)習(xí)率下飛行控制效果圖

圖8 自適應(yīng)學(xué)習(xí)率下權(quán)值系數(shù)收斂結(jié)果

圖9 自適應(yīng)學(xué)習(xí)率與評(píng)價(jià)函數(shù)變化結(jié)果

B.ALRIRL與IRL算法穩(wěn)定性對(duì)比

學(xué)習(xí)算法的收斂性和穩(wěn)定性對(duì)于評(píng)估在線學(xué)習(xí)算法至關(guān)重要。目前，基于強(qiáng)化學(xué)習(xí)的飛行控制算法穩(wěn)定性還沒(méi)有得到嚴(yán)格的證明。本文中采用常用的蒙特卡洛打靶法來(lái)評(píng)價(jià)控制器收斂效果。利用運(yùn)行階段(仿真時(shí)間大于20 s為起始到仿真結(jié)束)回報(bào)函數(shù)式(3)的累積值來(lái)衡量控制器的性能。采用與上一節(jié)相同的仿真條件，而初值,隨機(jī)生成，運(yùn)行仿真程序。如果一次運(yùn)行的累計(jì)回報(bào)值超過(guò)4000則認(rèn)為此次控制失敗，并進(jìn)行標(biāo)記。一次運(yùn)行累計(jì)回報(bào)值4000對(duì)應(yīng)俯仰角速度常值誤差為≈0.89°。

隨機(jī)生成初始狀態(tài),∈([-6 6],[-8 8])，運(yùn)行100次仿真，統(tǒng)計(jì)累計(jì)回報(bào)值來(lái)評(píng)價(jià)學(xué)習(xí)算法的穩(wěn)定性。在隨機(jī)初始狀態(tài)下，ALRIRL與IRL算法的累計(jì)回報(bào)值統(tǒng)計(jì)結(jié)果對(duì)比如圖10-a所示。由仿真結(jié)果可知，ALRIRL算法下，累計(jì)回報(bào)值分布區(qū)域更小，大部分在2000以內(nèi)，成功率由IRL的88%提高到99%，較大提高了學(xué)習(xí)算法的穩(wěn)定性。

飛行器飛行動(dòng)壓在50 s隨機(jī)變化，變化范圍為1.4～4.2倍，運(yùn)行100次仿真，統(tǒng)計(jì)累計(jì)回報(bào)值來(lái)評(píng)價(jià)學(xué)習(xí)算法的穩(wěn)定性。ALRIRL與IRL算法的累計(jì)回報(bào)值統(tǒng)計(jì)結(jié)果對(duì)比如圖10-b所示。由仿真結(jié)果可知，隨機(jī)動(dòng)壓變化下，ALRIRL算法累計(jì)回報(bào)值更小，大部分在2000以內(nèi)，成功率由IRL的0%提高到100%，大大提高了學(xué)習(xí)算法在動(dòng)壓突變情況下算法穩(wěn)定性。

圖10 ALRIRL與IRL算法累計(jì)回報(bào)值直方圖

5 結(jié) 論

對(duì)于預(yù)先設(shè)定動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率參數(shù)的IRL方法飛行控制失敗率較高，并且無(wú)法適應(yīng)飛行器動(dòng)力學(xué)參數(shù)大范圍變化情況下的姿態(tài)穩(wěn)定控制問(wèn)題，本文提出利用小波分析方法在線監(jiān)測(cè)IRL飛行姿態(tài)控制穩(wěn)定度，基于梯度下降法在線自適應(yīng)調(diào)整增量強(qiáng)化學(xué)習(xí)控制器學(xué)習(xí)率的方法。仿真實(shí)例表明，通過(guò)小波變換設(shè)計(jì)的飛行控制穩(wěn)定度評(píng)價(jià)指標(biāo)能夠有效地反映飛控系統(tǒng)的穩(wěn)定度。利用梯度下降法在線優(yōu)化調(diào)整學(xué)習(xí)率參數(shù)快速有效。本文提出的ALRIRL飛行控制律能夠有效提升強(qiáng)化學(xué)習(xí)飛行控制算法在隨機(jī)初值及隨機(jī)動(dòng)壓變化下的飛行成功率，減輕了強(qiáng)化學(xué)習(xí)飛行控制算法對(duì)于精確學(xué)習(xí)率參數(shù)的依賴。