999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自適應(yīng)學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)飛行控制

2022-03-25 02:50:04劉俊輝單家元榮吉利
宇航學(xué)報(bào) 2022年1期
關(guān)鍵詞:模型

劉俊輝,單家元,榮吉利,鄭 雄

(1.北京理工大學(xué)宇航學(xué)院,北京 100081;2.北京理工大學(xué)飛行器動(dòng)力學(xué)與控制教育部重點(diǎn)實(shí)驗(yàn)室,北京100081;3.中國(guó)運(yùn)載火箭技術(shù)研究院,北京100076)

0 引 言

近年來(lái),導(dǎo)彈、火箭等飛行器自主學(xué)習(xí)飛行控制問(wèn)題得到廣泛關(guān)注,未來(lái)復(fù)雜任務(wù)迫切需要增強(qiáng)彈/箭復(fù)雜飛行環(huán)境適應(yīng)能力及突發(fā)事件的應(yīng)對(duì)能力。跨域強(qiáng)對(duì)抗環(huán)境作戰(zhàn),未知環(huán)境與非預(yù)定任務(wù)場(chǎng)景下偵察、打擊或?qū)梗捎陲w行場(chǎng)景和任務(wù)變化,大氣密度、飛行速度、環(huán)境溫度、障礙物發(fā)生很大改變以及飛行器本體動(dòng)力學(xué)發(fā)生突變等,傳統(tǒng)的針對(duì)預(yù)先已知使用場(chǎng)景和作戰(zhàn)任務(wù)而進(jìn)行增益調(diào)度設(shè)計(jì)的飛行控制器需要各特征點(diǎn)下精確的系統(tǒng)模型,在未知、未探明環(huán)境中很難獲得,并且設(shè)計(jì)過(guò)程非常繁瑣,亟需突破以智能控制為核心的自主學(xué)習(xí)飛行控制技術(shù),以彌補(bǔ)程序化控制策略帶來(lái)的局限性,提升飛行器在復(fù)雜未知環(huán)境與突發(fā)事件下的自主性、強(qiáng)適應(yīng)性與魯棒飛行控制能力。

強(qiáng)化學(xué)習(xí)控制方法是一種不依賴于對(duì)象動(dòng)力學(xué)模型并對(duì)環(huán)境變化與模型時(shí)變特性具有較強(qiáng)魯棒性的控制方法,為飛行器自主飛行控制提供了有效可行的思路。強(qiáng)化學(xué)習(xí)方法起源于計(jì)算機(jī)領(lǐng)域,幾乎同一時(shí)期最優(yōu)控制領(lǐng)域?qū)W者Werbos, Bertsekas等開(kāi)展了類似的近似動(dòng)態(tài)規(guī)劃和神經(jīng)元?jiǎng)討B(tài)規(guī)劃的研究。這些方法的理論根基是1956年Bellman提出的動(dòng)態(tài)規(guī)劃方法。為了解決動(dòng)態(tài)規(guī)劃方法的維度災(zāi)難及逆向求解問(wèn)題,Werbos在1977年提出了近似/自適應(yīng)動(dòng)態(tài)規(guī)劃方法,該方法融合了強(qiáng)化學(xué)習(xí)和動(dòng)態(tài)規(guī)劃的思想。后續(xù),強(qiáng)化學(xué)習(xí)方法在計(jì)算機(jī)和控制領(lǐng)域分別迅速發(fā)展,并且在航空航天領(lǐng)域進(jìn)行了廣泛探索研究,包括直升機(jī)、運(yùn)載器、變體飛行器、制導(dǎo)系統(tǒng)的自適應(yīng)飛行控制。為了實(shí)現(xiàn)在線求解飛行控制律,通常采用時(shí)序差分法(TD)來(lái)求解強(qiáng)化學(xué)習(xí)問(wèn)題。TD結(jié)合了動(dòng)態(tài)規(guī)劃法和蒙特卡洛法(MC)的優(yōu)勢(shì),既不需要對(duì)象與環(huán)境的模型,也不用端到端的訓(xùn)練過(guò)程,可以實(shí)現(xiàn)飛行控制器實(shí)時(shí)迭代更新。

自適應(yīng)Actor critic designs(ACD)是一種基于TD的方法,結(jié)合Actor-Critic結(jié)構(gòu)、動(dòng)態(tài)規(guī)劃、和神經(jīng)網(wǎng)絡(luò)的自適應(yīng)/近似動(dòng)態(tài)規(guī)劃方法,是設(shè)計(jì)自適應(yīng)最優(yōu)飛行控制器的有效方法。ACD將策略評(píng)價(jià)(critic)和策略更新(actor)分離設(shè)計(jì),能適應(yīng)未知環(huán)境得到最優(yōu)控制策略。ACD方法可以分為:?jiǎn)l(fā)式動(dòng)態(tài)規(guī)劃(HDP)、雙啟發(fā)式動(dòng)態(tài)規(guī)劃(DHP)、全局雙啟發(fā)式動(dòng)態(tài)規(guī)劃(GDHP)。DHP與HDP方法的區(qū)別在于DHP評(píng)價(jià)網(wǎng)絡(luò)用于近似值函數(shù)相對(duì)于狀態(tài)的偏導(dǎo),而HDP的評(píng)價(jià)網(wǎng)絡(luò)用于近似值函數(shù)。GDHP方法是結(jié)合DHP與HDP的一種強(qiáng)化學(xué)習(xí)方法。但是這些方法都需要在線或離線辨識(shí)被控對(duì)象的精確模型。直接在線辨識(shí)對(duì)象的精確模型耗時(shí)較長(zhǎng),很難在線完成,而事先的離線辨識(shí)又由于環(huán)境或模型不確定性無(wú)法獲得對(duì)象的精確模型。文獻(xiàn)[11-12]通過(guò)輸入-輸出數(shù)據(jù)辨識(shí)被控對(duì)象增量模型,提出了基于增量模型的雙啟發(fā)式動(dòng)態(tài)規(guī)劃方法(IDHP),很好地解決了模型精度與在線實(shí)時(shí)計(jì)算的矛盾,并應(yīng)用于飛行控制器設(shè)計(jì)。相比于直接辨識(shí)被控對(duì)象模型的DHP方法,IDHP具有更快的在線學(xué)習(xí)速度和更高的控制精度。

IDHP自主學(xué)習(xí)飛行控制律分為控制律學(xué)習(xí)階段和飛行控制運(yùn)行階段。在控制律學(xué)習(xí)階段,IDHP基于一定的學(xué)習(xí)策略,通過(guò)施加持續(xù)激勵(lì),采集系統(tǒng)響應(yīng)數(shù)據(jù)來(lái)迭代更新行動(dòng)和評(píng)價(jià)權(quán)值網(wǎng)絡(luò)的權(quán)值,實(shí)現(xiàn)控制器的學(xué)習(xí)。但是并不是所有的控制器參數(shù)都能通過(guò)學(xué)習(xí)獲得,在實(shí)施神經(jīng)網(wǎng)絡(luò)權(quán)值系數(shù)迭代學(xué)習(xí)之前需要根據(jù)一定的經(jīng)驗(yàn)和收斂性分析確定動(dòng)作和評(píng)價(jià)神經(jīng)網(wǎng)絡(luò)權(quán)值、學(xué)習(xí)率等超參數(shù)。不同的學(xué)習(xí)率對(duì)系統(tǒng)穩(wěn)定性和控制精度有較大影響。文獻(xiàn)[13]提出了兩階段切換控制策略,在預(yù)先訓(xùn)練階段采用PID控制器輔助,并基于粗精度-高精度訓(xùn)練不斷迭代訓(xùn)練神經(jīng)網(wǎng)絡(luò)權(quán)值系數(shù),運(yùn)行階段采用IDHP控制器,此方法減輕了訓(xùn)練階段控制的振蕩,提高了學(xué)習(xí)成功率。但是,現(xiàn)有的方法大多是事先設(shè)定學(xué)習(xí)率、神經(jīng)網(wǎng)絡(luò)初值等超參數(shù),而事先設(shè)定超參數(shù)的方式無(wú)法適應(yīng)飛行器速度、大氣密度大幅變化以及變體飛行器氣動(dòng)特性等被控對(duì)象動(dòng)力學(xué)特性大范圍變化情況下的自主飛行控制。文獻(xiàn)[4]結(jié)合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí),提出了監(jiān)督Actor-Critic控制結(jié)構(gòu),監(jiān)督結(jié)構(gòu)提供額外的信息來(lái)進(jìn)行評(píng)價(jià)反饋以“成形”最優(yōu)學(xué)習(xí)策略,加速收斂。Dias等提出一種針對(duì)飛行器容錯(cuò)控制的基于監(jiān)督器觸發(fā)在線自適應(yīng)學(xué)習(xí)控制。受文獻(xiàn)[4,14]啟發(fā),本文提出一種自適應(yīng)調(diào)整學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)飛行控制方法,以適應(yīng)飛行器動(dòng)力學(xué)特性大范圍變化時(shí)的自主學(xué)習(xí)飛行控制。

本文的主要貢獻(xiàn)在于設(shè)計(jì)了一種基于梯度下降法的在線調(diào)整強(qiáng)化學(xué)習(xí)動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率超參數(shù)的算法。具體為:

1)在強(qiáng)化學(xué)習(xí)評(píng)價(jià)網(wǎng)絡(luò)、動(dòng)作網(wǎng)絡(luò)和模型網(wǎng)絡(luò)三層結(jié)構(gòu)的基礎(chǔ)上增加性能監(jiān)督器,提出了基于實(shí)時(shí)控制性能監(jiān)督評(píng)估的學(xué)習(xí)率在線調(diào)整框架;

2)利用小波分析方法構(gòu)造飛行控制器穩(wěn)定度實(shí)時(shí)量化評(píng)估指標(biāo),在線評(píng)估不同學(xué)習(xí)率參數(shù)下控制系統(tǒng)穩(wěn)定度,為學(xué)習(xí)率參數(shù)實(shí)時(shí)調(diào)整提供依據(jù);

3)將學(xué)習(xí)率在線調(diào)整轉(zhuǎn)化為非線性優(yōu)化問(wèn)題,基于梯度下降法實(shí)現(xiàn)了學(xué)習(xí)率參數(shù)在線優(yōu)化,提高了增量強(qiáng)化學(xué)習(xí)飛行控制律的成功率及在飛行器動(dòng)力學(xué)特性大范圍變化下的適應(yīng)性,減輕了IRL飛行控制算法對(duì)預(yù)先設(shè)定學(xué)習(xí)率參數(shù)的依賴。

1 增量強(qiáng)化學(xué)習(xí)飛行控制律設(shè)計(jì)

圖1 增量強(qiáng)化學(xué)習(xí)簡(jiǎn)略圖(實(shí)線表示前向信號(hào)流,虛線代表自適應(yīng)調(diào)整路徑)

1.1 問(wèn)題描述

利用強(qiáng)化學(xué)習(xí)來(lái)求解飛行控制問(wèn)題,首先要明確狀態(tài)轉(zhuǎn)移關(guān)系和價(jià)值函數(shù)。在高頻采樣假設(shè)條件下,基于離散時(shí)間模型描述非線性系統(tǒng)狀態(tài)轉(zhuǎn)移函數(shù)(,)∈×1,如式(1)所示。其中×1表示狀態(tài)向量,×1為動(dòng)作向量,和分別為狀態(tài)向量和動(dòng)作向量維數(shù)。

+1=(,)

(1)

式中:下標(biāo)表示當(dāng)前時(shí)刻,下標(biāo)+1表示下一時(shí)刻。

(2)

控制的目標(biāo)是使飛行狀態(tài)跟蹤參考指令信息,因此一步回報(bào)函數(shù)設(shè)計(jì)為下一步狀態(tài)與參考狀態(tài)偏差的二次型形式

(3)

式中:×為給定的正定矩陣,下一步狀態(tài)+1需要基于在線辨識(shí)模型進(jìn)行預(yù)測(cè)。的取值將影響強(qiáng)化學(xué)習(xí)控制律的收斂性,較大的能夠加快學(xué)習(xí)算法的收斂速度,而過(guò)大的容易使學(xué)習(xí)算法發(fā)散。

最優(yōu)化控制策略為使價(jià)值函數(shù)取最大值的控制策略,如下式所示

(4)

1.2 強(qiáng)化學(xué)習(xí)飛行控制問(wèn)題求解

基于最小化TD誤差原理來(lái)更新評(píng)價(jià)網(wǎng)絡(luò)權(quán)值系數(shù)。評(píng)價(jià)網(wǎng)絡(luò)更新的目標(biāo)是使誤差函數(shù)(5)最小。

(5)

其中,誤差定義為價(jià)值函數(shù)相對(duì)于狀態(tài)量偏導(dǎo)的時(shí)序差分誤差。

(6)

(7)

誤差函數(shù)相對(duì)于權(quán)值系數(shù)的梯度計(jì)算公式為

(8)

動(dòng)作網(wǎng)絡(luò)更新的目標(biāo)是最大化值函數(shù),基于Bellman最優(yōu)性定理可以得到:

(9)

(10)

價(jià)值函數(shù)相對(duì)于動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)的梯度計(jì)算公式為:

(11)

1.3 增量模型在線辨識(shí)

在增量強(qiáng)化學(xué)習(xí)控制律中,利用增量模型來(lái)近似非線性系統(tǒng)在時(shí)刻運(yùn)行點(diǎn)(,)鄰域內(nèi)的模型。假設(shè)當(dāng)前時(shí)刻→,基于一階泰勒展開(kāi),得到離散的近似線性化模型為

+1≈(,)+(,+(,

(12)

進(jìn)一步,得到增量式動(dòng)力學(xué)模型為

Δ+1-1Δ+-1Δ

(13)

其中,Δ=--1×1=--1×1分別為狀態(tài)量增量和控制量增量。

在增量強(qiáng)化學(xué)習(xí)算法中,利用實(shí)時(shí)測(cè)量得到的狀態(tài)量和控制輸入數(shù)據(jù),在線辨識(shí)狀態(tài)轉(zhuǎn)移矩陣和控制效果矩陣。基于辨識(shí)的增量模型來(lái)預(yù)測(cè)下一步系統(tǒng)狀態(tài),具體為

(14)

(15)

(16)

本文中參數(shù)矩陣應(yīng)用參考文獻(xiàn)[11]的遞推最小二乘方法(RLS)來(lái)進(jìn)行在線辨識(shí)。

進(jìn)一步,可以得到式(6)和式(11)中,狀態(tài)向量+1相對(duì)于上一步狀態(tài)量和上一步控制量的偏導(dǎo)為

(17)

(18)

2 固定學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)控制實(shí)例及問(wèn)題分析

以不同動(dòng)壓下飛行器參考攻角指令跟蹤飛行控制為例來(lái)驗(yàn)證增量強(qiáng)化學(xué)習(xí)控制律,說(shuō)明已有固定學(xué)習(xí)率算法存在的問(wèn)題,并提出改進(jìn)思路。將攻角和俯仰角速度作為系統(tǒng)狀態(tài),升降舵輸入作為控制輸入。并作如下假設(shè):1)假設(shè)舵面偏轉(zhuǎn)產(chǎn)生的控制力在攻角控制通道所起的作用可以忽略;2)假設(shè)飛行器機(jī)體本身產(chǎn)生的俯仰阻尼力矩足夠小,可以忽略不計(jì);3)假設(shè)推力與阻力平衡,由推力產(chǎn)生的攻角控制分量可以忽略不計(jì)。

建立飛行器縱向平面俯仰姿態(tài)運(yùn)動(dòng)非線性動(dòng)力學(xué)模型為

(19)

式(19)中升力系數(shù)和俯仰力矩計(jì)算公式為

(20)

式中:0,0為零攻角升力和俯仰力矩系數(shù);,為升力系數(shù)、力矩系數(shù)相對(duì)于攻角的偏導(dǎo);,為升力系數(shù)、力矩系數(shù)相對(duì)于舵偏角的偏導(dǎo)。

外環(huán)采用PID控制,得到參考俯仰角速度指令:

(21)

式中:=-;,,分別為比例項(xiàng)、積分項(xiàng)和微分項(xiàng)系數(shù)。

影響IRL算法的參考指令跟蹤速度,過(guò)大的將使系統(tǒng)趨于不穩(wěn)定,引入可以減小常值跟蹤誤差,有助于減弱參考指令跟蹤振蕩。根據(jù)PID參數(shù)調(diào)整原則,通過(guò)數(shù)學(xué)仿真確定,本文中取=188,=02,=015。

令強(qiáng)化學(xué)習(xí)算法中狀態(tài)量、參考狀態(tài)量和動(dòng)作向量為

=[],=[],=[]

(22)

(23)

(24)

式中:函數(shù):2和:2分別為選取的光滑的基底函數(shù);,分別為評(píng)價(jià)網(wǎng)絡(luò)與動(dòng)作神經(jīng)網(wǎng)絡(luò)神經(jīng)元個(gè)數(shù),也可以選用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高神經(jīng)網(wǎng)絡(luò)的非線性擬合能力。

為防止權(quán)值系數(shù)訓(xùn)練過(guò)程容易發(fā)散,選取具有有界性的雙曲正切函數(shù)tanh(),∈(0, ∞]與tanh(),∈(0, ∞]組成的多項(xiàng)式作為評(píng)價(jià)網(wǎng)絡(luò)和動(dòng)作網(wǎng)絡(luò)的基底函數(shù)。

=[[tanh()],[tanh()],

[tanh()]?[tanh()]]

(25)

=[[tanh()]?[tanh()]]

(26)

其中,?表示矩陣直積,下標(biāo),,,∈1,2,3,…,。

的選取可以根據(jù)經(jīng)驗(yàn)和仿真數(shù)據(jù)分析確定,從而確定神經(jīng)元個(gè)數(shù),(基底函數(shù)的總個(gè)數(shù))和基底函數(shù)形式。神經(jīng)元個(gè)數(shù)太多容易導(dǎo)致過(guò)擬合,太少將使擬合精度不夠。因此,第一步,根據(jù)控制系統(tǒng)特性選取足夠多的神經(jīng)元;第二步,通過(guò)仿真剔除權(quán)值系數(shù)發(fā)散的神經(jīng)元;從而可以確定動(dòng)作網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)基底函數(shù)。本文中,取02,08,14,20,26,32;取02, 12, 24;取02, 32;取14, 26, 32。

進(jìn)一步,計(jì)算得到

(27)

(28)

(29)

參考文獻(xiàn)[12],選取增量強(qiáng)化學(xué)習(xí)算法中的超參數(shù),并根據(jù)經(jīng)驗(yàn)及仿真結(jié)果,設(shè)定為常值,具體數(shù)值見(jiàn)表1。飛行階段前20 s進(jìn)行在線訓(xùn)練,在舵控指令上疊加掃頻激勵(lì)信號(hào)作為舵控指令,以滿足充分激勵(lì)(PE)條件,用于充分激勵(lì)飛行器動(dòng)力學(xué)模態(tài),加快控制律學(xué)習(xí)過(guò)程和模型辨識(shí)過(guò)程。掃頻信號(hào)的具體形式為:

=ej2π(+()2)

(30)

式中:初始頻率取為=0.001 Hz;調(diào)制率取為=0.5。

參考文獻(xiàn)[16]中飛行器的參數(shù),取切換模態(tài)6下飛行器動(dòng)力學(xué)參數(shù)。取回報(bào)函數(shù)權(quán)重=[50],取任意參考攻角指令為:0~30 s 為3°,30~80 s為5°,80~120 s 為4°。初始狀態(tài)取為=0, q=0,舵控指令限幅±10,飛行環(huán)境參數(shù)為0~50 s 動(dòng)壓為312.2 kg/(m·s),50 s 以后動(dòng)壓變?cè)O(shè)為1311.2 kg/(m·s)。采用歐拉法進(jìn)行數(shù)學(xué)仿真,仿真步長(zhǎng)取為0.02 s,0~20 s 訓(xùn)練階段在舵控指令上疊加掃頻指令,并且動(dòng)作與評(píng)價(jià)網(wǎng)絡(luò)以較大學(xué)習(xí)率運(yùn)行,以增強(qiáng)學(xué)習(xí)算法的探索能力,見(jiàn)表1,20 s以后的運(yùn)行階段調(diào)整動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率為較小值,以充分利用已學(xué)習(xí)到的經(jīng)驗(yàn)。

表1 超參數(shù)設(shè)定值

仿真結(jié)果如圖2-3所示,可得到以下幾點(diǎn)結(jié)論:

圖2 固定學(xué)習(xí)率下飛行控制效果圖

圖3 固定學(xué)習(xí)率下評(píng)價(jià)網(wǎng)絡(luò)與動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)收斂結(jié)果

1)在20 s內(nèi)的訓(xùn)練過(guò)程中,評(píng)價(jià)和動(dòng)作網(wǎng)絡(luò)權(quán)值系數(shù)較快收斂;

2)運(yùn)行階段,飛控能夠跟蹤不同于訓(xùn)練時(shí)刻的參考攻角指令;

3)在飛行器動(dòng)壓變化較大的情況下,基于預(yù)先設(shè)定學(xué)習(xí)率參數(shù)會(huì)導(dǎo)致IRL控制算法失效,評(píng)價(jià)網(wǎng)絡(luò)權(quán)值系數(shù)發(fā)散。

3 增量強(qiáng)化學(xué)習(xí)控制器自適應(yīng)學(xué)習(xí)率設(shè)計(jì)

飛行控制系統(tǒng)的穩(wěn)定性可以通過(guò)觀察飛行狀態(tài)的振蕩情況來(lái)進(jìn)行分析,工程上通常采用階躍響應(yīng)振蕩次數(shù)來(lái)作為飛行控制器設(shè)計(jì)輸入。因此,本文的思路是實(shí)時(shí)監(jiān)測(cè)飛行狀態(tài)跟蹤誤差的振蕩情況,根據(jù)飛行狀態(tài)振蕩程度迭代優(yōu)化行動(dòng)網(wǎng)絡(luò)學(xué)習(xí)率超參數(shù)。基于性能監(jiān)測(cè)的自適應(yīng)學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)算法的結(jié)構(gòu)如圖4。本文改進(jìn)的自適應(yīng)學(xué)習(xí)率調(diào)整部分用于在線優(yōu)化調(diào)整學(xué)習(xí)率參數(shù)。

圖4 自適應(yīng)學(xué)習(xí)率增量強(qiáng)化學(xué)習(xí)算法框架(實(shí)線表示前向信號(hào)流,虛線代表自適應(yīng)調(diào)整路徑)

3.1 基于小波分析的狀態(tài)信息振蕩程度監(jiān)測(cè)

小波分析是在20世紀(jì)80年代Morlet、Arens、Grossmannn等的研究基礎(chǔ)上發(fā)展起來(lái)的應(yīng)用數(shù)學(xué)領(lǐng)域成果。復(fù)Morlet小波在時(shí)頻兩域均具有良好的辨別能力,復(fù)Morlet小波母函數(shù)具有隨頻率參數(shù)改變而自動(dòng)調(diào)節(jié)時(shí)、頻分辨率的能力,在頻域內(nèi),可將其視為一個(gè)窄帶濾波器。本文利用其特性,分析評(píng)估飛行控制性能。

:在平方可積的實(shí)數(shù)空間(),即能量有限的信號(hào)空間中,設(shè)()∈(),其傅里葉變換為(),若()滿足如下容許性條件:

(31)

則稱()為基本小波或母小波。

將基本小波()經(jīng)過(guò)伸縮和平移后,便可以得到小波函數(shù)族:

(32)

式中:為伸縮因子;為平移因子。

給定任意平方可積信號(hào)(),即()∈(),則經(jīng)過(guò)小波變換后,得到

(33)

式中:()為小波函數(shù)()的復(fù)共軛;(,)稱為小波變換系數(shù)。

在時(shí)域和頻域范圍內(nèi),復(fù)Morlet小波函數(shù)的定義如式(34)和式(35)。

(34)

()=eπ(-)

(35)

式中:為中心頻率;為帶寬,需要根據(jù)實(shí)際信號(hào)特性來(lái)確定這兩個(gè)參數(shù)。

飛行狀態(tài)的振蕩幅值及振蕩次數(shù)反映了飛行控制系統(tǒng)的穩(wěn)定性和穩(wěn)定裕度。基于此思路,本文利用小波分析強(qiáng)大的時(shí)頻分析能力,以俯仰角速度跟蹤誤差為輸入,在線分析計(jì)算不同學(xué)習(xí)率下飛行器穩(wěn)定性指標(biāo),然后基于梯度下降法迭代更新增量強(qiáng)化學(xué)習(xí)飛控算法的學(xué)習(xí)率。

3.2 動(dòng)作神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率自適應(yīng)調(diào)整策略

(36)

(37)

式中:為小波分析輸入信號(hào)的起始和終止時(shí)刻;0<<1為遺忘因子,用于增大靠近當(dāng)前時(shí)刻的小波系數(shù)權(quán)值。

式(37)中為小波系數(shù)取最大值時(shí)所對(duì)應(yīng)的頻率值,計(jì)算公式為

(38)

得到飛控系統(tǒng)穩(wěn)定度評(píng)估指標(biāo)后,基于梯度下降法設(shè)計(jì)學(xué)習(xí)率的更新率

(39)

式中:上標(biāo)+1表示第+1步;為更新率步長(zhǎng)。

.

1)設(shè)置小波分析時(shí)間窗口Δ及學(xué)習(xí)率更新容許誤差;

7)利用式(39)的更新率計(jì)算得到第步的學(xué)習(xí)率參數(shù);

步驟5設(shè)置閾值主要是為了防止小波誤差引起的學(xué)習(xí)率頻繁更新。

4 仿真校驗(yàn)

在這一部分,將采用第二節(jié)提到的飛行器非線性模型及不同仿真條件來(lái)驗(yàn)證文中提出的自適應(yīng)學(xué)習(xí)率的增量強(qiáng)化學(xué)習(xí)控制算法。

4.1 基于小波分析的控制器穩(wěn)定性指標(biāo)合理性校驗(yàn)

通過(guò)數(shù)學(xué)仿真對(duì)比分析固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率下小波分析結(jié)果,校驗(yàn)控制系統(tǒng)穩(wěn)定性小波分析的合理性。采用本文第二節(jié)中相同的仿真條件,在50 s時(shí)飛行器的動(dòng)壓突變,動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率為0.02和自適應(yīng)學(xué)習(xí)率情況下小波系數(shù)如圖5和圖6所示。圖5a和圖6a分別為固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率下小波系數(shù)圖,圖5b和圖6b分別為式(38)最大小波系數(shù)對(duì)應(yīng)頻率下的小波系數(shù)。分析可知,固定學(xué)習(xí)率下小波系數(shù)在頻率4 Hz附近取值最大,并且隨著時(shí)間變化基本不衰減,而在自適應(yīng)學(xué)習(xí)率下小波系數(shù)較小,并且衰減很快。圖5和圖6對(duì)應(yīng)的時(shí)域軌跡曲線分別如圖2和圖7所示。對(duì)比分析可知,基于小波系數(shù)建立的評(píng)價(jià)函數(shù)能有效反映控制系統(tǒng)振蕩程度,為控制系統(tǒng)穩(wěn)定性實(shí)時(shí)評(píng)價(jià)提供性能指標(biāo)。

圖5 固定學(xué)習(xí)率下小波系數(shù)圖

圖6 自適應(yīng)學(xué)習(xí)率下小波系數(shù)圖

4.2 ALRIRL與IRL算法對(duì)比

A.動(dòng)壓大范圍變化下算法對(duì)比

圖7 自適應(yīng)學(xué)習(xí)率下飛行控制效果圖

圖8 自適應(yīng)學(xué)習(xí)率下權(quán)值系數(shù)收斂結(jié)果

圖9 自適應(yīng)學(xué)習(xí)率與評(píng)價(jià)函數(shù)變化結(jié)果

B.ALRIRL與IRL算法穩(wěn)定性對(duì)比

學(xué)習(xí)算法的收斂性和穩(wěn)定性對(duì)于評(píng)估在線學(xué)習(xí)算法至關(guān)重要。目前,基于強(qiáng)化學(xué)習(xí)的飛行控制算法穩(wěn)定性還沒(méi)有得到嚴(yán)格的證明。本文中采用常用的蒙特卡洛打靶法來(lái)評(píng)價(jià)控制器收斂效果。利用運(yùn)行階段(仿真時(shí)間大于20 s為起始到仿真結(jié)束)回報(bào)函數(shù)式(3)的累積值來(lái)衡量控制器的性能。采用與上一節(jié)相同的仿真條件,而初值,隨機(jī)生成,運(yùn)行仿真程序。如果一次運(yùn)行的累計(jì)回報(bào)值超過(guò)4000則認(rèn)為此次控制失敗,并進(jìn)行標(biāo)記。一次運(yùn)行累計(jì)回報(bào)值4000對(duì)應(yīng)俯仰角速度常值誤差為≈0.89°。

隨機(jī)生成初始狀態(tài),∈([-6 6],[-8 8]),運(yùn)行100次仿真,統(tǒng)計(jì)累計(jì)回報(bào)值來(lái)評(píng)價(jià)學(xué)習(xí)算法的穩(wěn)定性。在隨機(jī)初始狀態(tài)下,ALRIRL與IRL算法的累計(jì)回報(bào)值統(tǒng)計(jì)結(jié)果對(duì)比如圖10-a所示。由仿真結(jié)果可知,ALRIRL算法下,累計(jì)回報(bào)值分布區(qū)域更小,大部分在2000以內(nèi),成功率由IRL的88%提高到99%,較大提高了學(xué)習(xí)算法的穩(wěn)定性。

飛行器飛行動(dòng)壓在50 s隨機(jī)變化,變化范圍為1.4~4.2倍,運(yùn)行100次仿真,統(tǒng)計(jì)累計(jì)回報(bào)值來(lái)評(píng)價(jià)學(xué)習(xí)算法的穩(wěn)定性。ALRIRL與IRL算法的累計(jì)回報(bào)值統(tǒng)計(jì)結(jié)果對(duì)比如圖10-b所示。由仿真結(jié)果可知,隨機(jī)動(dòng)壓變化下,ALRIRL算法累計(jì)回報(bào)值更小,大部分在2000以內(nèi),成功率由IRL的0%提高到100%,大大提高了學(xué)習(xí)算法在動(dòng)壓突變情況下算法穩(wěn)定性。

圖10 ALRIRL與IRL算法累計(jì)回報(bào)值直方圖

5 結(jié) 論

對(duì)于預(yù)先設(shè)定動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率參數(shù)的IRL方法飛行控制失敗率較高,并且無(wú)法適應(yīng)飛行器動(dòng)力學(xué)參數(shù)大范圍變化情況下的姿態(tài)穩(wěn)定控制問(wèn)題,本文提出利用小波分析方法在線監(jiān)測(cè)IRL飛行姿態(tài)控制穩(wěn)定度,基于梯度下降法在線自適應(yīng)調(diào)整增量強(qiáng)化學(xué)習(xí)控制器學(xué)習(xí)率的方法。仿真實(shí)例表明,通過(guò)小波變換設(shè)計(jì)的飛行控制穩(wěn)定度評(píng)價(jià)指標(biāo)能夠有效地反映飛控系統(tǒng)的穩(wěn)定度。利用梯度下降法在線優(yōu)化調(diào)整學(xué)習(xí)率參數(shù)快速有效。本文提出的ALRIRL飛行控制律能夠有效提升強(qiáng)化學(xué)習(xí)飛行控制算法在隨機(jī)初值及隨機(jī)動(dòng)壓變化下的飛行成功率,減輕了強(qiáng)化學(xué)習(xí)飛行控制算法對(duì)于精確學(xué)習(xí)率參數(shù)的依賴。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产在线一二三区| 巨熟乳波霸若妻中文观看免费| 理论片一区| 麻豆a级片| 99久久这里只精品麻豆| 亚洲二三区| 亚洲综合激情另类专区| 91免费国产高清观看| 日本在线欧美在线| 国产成人精品视频一区视频二区| 精品三级在线| 国产精品久久久精品三级| 熟女日韩精品2区| 国内毛片视频| 在线国产你懂的| 久久天天躁夜夜躁狠狠| 国产一级毛片网站| 欧美日韩久久综合| 免费av一区二区三区在线| 丁香六月激情综合| 国产一级在线播放| 国产又大又粗又猛又爽的视频| 暴力调教一区二区三区| 日韩A∨精品日韩精品无码| 国产精品无码一区二区桃花视频| 国产精品美乳| 国产精品思思热在线| 2021国产乱人伦在线播放| 91破解版在线亚洲| 老司机精品久久| 国产午夜不卡| 露脸一二三区国语对白| 少妇精品在线| 三级视频中文字幕| 亚洲美女久久| 97亚洲色综久久精品| 在线精品自拍| 国产精品综合久久久| 毛片在线区| 四虎永久在线视频| 深夜福利视频一区二区| 在线播放91| 曰AV在线无码| 在线国产你懂的| 99精品欧美一区| 国产一区二区精品高清在线观看| 高潮爽到爆的喷水女主播视频 | 午夜福利免费视频| 四虎影视国产精品| 91区国产福利在线观看午夜| 日本在线亚洲| 综合色区亚洲熟妇在线| 国产成人综合久久精品尤物| 色悠久久久| jizz在线观看| 韩国福利一区| 亚洲黄色成人| 色亚洲激情综合精品无码视频| 免费A∨中文乱码专区| 中文天堂在线视频| 在线不卡免费视频| 国产成人AV男人的天堂| 亚洲熟女中文字幕男人总站| 欧美一级专区免费大片| 伊人狠狠丁香婷婷综合色| 日本精品αv中文字幕| 狠狠色综合久久狠狠色综合| 在线观看亚洲精品福利片 | 尤物精品视频一区二区三区| 亚洲国产在一区二区三区| 高清欧美性猛交XXXX黑人猛交| 中文字幕永久视频| 欧美成人A视频| 久久亚洲国产最新网站| 国产成本人片免费a∨短片| 日韩免费无码人妻系列| 国产一线在线| 国产精品3p视频| 91热爆在线| 婷婷色中文网| 国产亚洲视频免费播放| 久久久久九九精品影院 |