999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度Q網(wǎng)絡的飛行器增益調(diào)參技術(shù)研究

2022-11-03 03:46:26白文艷張家銘黃萬偉
航天控制 2022年5期
關(guān)鍵詞:動作

白文艷 張家銘 黃萬偉 張 遠,2

1.北京航天自動控制研究所,北京 100854 2.宇航智能控制技術(shù)國家級重點實驗室,北京 100854

0 引言

高超聲速飛行器(Hypersonic Vehicle)一般是指飛行馬赫數(shù)大于5的飛行器。由于其飛行高度和馬赫數(shù)跨度大、飛行環(huán)境復雜,氣動和氣熱特性變化劇烈,使得飛行器存在非線性強和不確定性大的特點[1-2]。傳統(tǒng)控制參數(shù)設(shè)計如增益預置法,是在選定特征點處對飛行器非線性模型進行小擾動線性化,隨后根據(jù)調(diào)度變量進行插值,是一種成熟的控制方法,易于工程實現(xiàn),方法簡單,但是該方法需要大量的增益調(diào)節(jié),還要滿足變量慢變的假設(shè),在非線性特性變化劇烈時性能較差。后來在增益預置法的基礎(chǔ)上,發(fā)展了線性變參數(shù)(LPV)方法,該方法降低了調(diào)參工作量,并可保證較好的穩(wěn)定性,具有工程實現(xiàn)性良好,設(shè)計相對簡單的優(yōu)點[3-6]。但是,隨著飛行包線范圍擴大,系統(tǒng)時變參數(shù)范圍隨之擴大,導致控制性能受到嚴重影響,難以滿足動態(tài)特性變化下的姿態(tài)控制。針對上述問題,研究在復雜環(huán)境下高超聲速飛行器的姿態(tài)控制參數(shù)自適應調(diào)節(jié)至關(guān)重要。

智能控制尤其是以強化學習、神經(jīng)網(wǎng)絡為主的控制方法是目前研究的熱點之一。在航空航天控制領(lǐng)域,智能控制已逐漸成為未來發(fā)展方向[7-8]。強化學習(Reinforcement Learning)的特點是是智能體(Agent)與環(huán)境狀態(tài)交互,通過不斷試錯的方式學習得到最優(yōu)策略,使累計回報期望最大,這一過程稱為馬爾科夫決策過程(Markov Decision Process,MDP)[9]。國內(nèi)外諸多學者研究應用強化學習于飛行器控制系統(tǒng)。文獻[10]使用了強化學習算法設(shè)計了運載火箭姿態(tài)控制器參數(shù);文獻[11]針對再入飛行器姿態(tài)控制問題,應用單網(wǎng)絡積分型強化學習(SNIRL)算法設(shè)計了姿態(tài)控制器。

本文提出采用基于深度 Q 網(wǎng)絡(Deep Q network, DQN)的強化學習算法實現(xiàn)飛行器動靜態(tài)增益自適應調(diào)節(jié)。利用強化學習與環(huán)境交互的優(yōu)點,充分利用飛行狀態(tài)等實時信息,在選定的特征點處,自動對控制增益調(diào)參,尋優(yōu)效率更高。

1 問題描述

本文所研究對象為高超聲速滑翔飛行器[12],采用乘波體造型,尾舵采用正常式氣動布局,頜下進氣采取超燃沖壓發(fā)動機。俯仰通道控制輸入為升降舵偏δφ,輸出為短周期模態(tài)下的攻角和俯仰角速率,其縱向運動模型為:

(1)

其中,V為飛行器的速度,θ為航跡角,ωz為俯仰角速率,α為攻角,H為飛行高度,x為飛行距離,m為飛行器的質(zhì)量,g為重力加速度,Jz為飛行器繞彈體系z軸的轉(zhuǎn)動慣量,T為發(fā)動機推力;L、D分別為飛行器所受升力和阻力,Mz為俯仰力矩,且有:

(2)

式中,CL、CD、Cm分別為升力系數(shù)、阻力系數(shù)和俯仰力矩系數(shù),均為攻角、側(cè)滑角、馬赫數(shù)及俯仰舵偏的函數(shù)組合;ρ為該垂直高度下的大氣密度,S為飛行器的橫截面積,bA為飛行器平均氣動弦長,S和bA可以認為是常數(shù)。

對高超聲速飛行器縱向模型進行小擾動線性化后得到:

(3)

式中,a1、a2、α3、b1、b2均為動力學系數(shù)。

此時俯仰、偏航、滾轉(zhuǎn)三通道之間的耦合作用影響較小,可以忽略,并考慮攻角作為輸出量,不考慮各通道間的交連項,選取縱向短周期狀態(tài)空間模型如下:

(4)

圖1所示為俯仰通道姿態(tài)控制系統(tǒng)結(jié)構(gòu)框圖:

圖1 俯仰通道姿態(tài)控制結(jié)構(gòu)

其中,Wφ為校正網(wǎng)絡傳遞函數(shù),Wsf為空氣舵伺服動態(tài)特性,kα和kω分別為攻角反饋系數(shù)和角速度反饋系數(shù)。

簡化后俯仰通道控制方程為:

δφ=kαΔα+kωΔωz1

(5)

傳統(tǒng)增益設(shè)計為人工離線調(diào)參,工程師依據(jù)經(jīng)驗在選定的彈道特征點處進行線性化并設(shè)計動靜態(tài)增益,選取合適的調(diào)度變量形成插值表,缺點是線性化使模型產(chǎn)生誤差,插值表也會造成特征點間的狀態(tài)誤差,且人工調(diào)試費時費力。

本文采取離散動作輸出的強化學習算法——深度Q網(wǎng)絡將飛行器作為智能體,與環(huán)境反饋并根據(jù)實時回報的機制調(diào)節(jié)增益。

2 基于深度 Q 網(wǎng)絡算法的增益調(diào)參方法

2.1 深度 Q 網(wǎng)絡算法原理

深度 Q 網(wǎng)絡算法(Deep Q Network, DQN)是Q學習的升級,也是基于值函數(shù)的強化學習算法的典型代表,主要應用于無模型的離散動作控制的場景[13]。

首先介紹經(jīng)典的Q學習算法,Q表是一張二維的表格,可以比較某個狀態(tài)下不同動作的價值,用Q值表示,通過訓練迭代更新,智能體選擇最大的Q值代表最優(yōu)策略。

Q表使用貝爾曼方程并采用兩個輸入:狀態(tài)和動作,即可得到表中單元格的Q值:

Qπ(s,a)=E[rt+1+γrt+2+γ2rt+3+…|
st=s,at=a]

(6)

隨后,進行 Q值更新:

Q(st,at)=(1-αQ)Q(st,at)+
αQ[rt+1+γmaxQ(st+1,at+1)]

(7)

其中,αQ為學習率,決定目標函數(shù)在合適的時間收斂到局部最小值;γ為折扣率,介于0~1之間,越接近1代表智能體更看重未來獎勵;r為回報函數(shù),即為執(zhí)行動作后給予的獎勵;Q(st,at)為當前時刻Q值,Q(st+1,at+1)為下一時刻Q值。

Q學習通過Q表的大小和形式?jīng)Q定了其只能應用于離散輸出的場景,而且狀態(tài)和動作空間不能過大,否則Q表面臨數(shù)據(jù)量過大的問題。

DQN將 Q學習中 Q表更新的過程用神經(jīng)網(wǎng)絡擬合,解決了Q表維數(shù)限制。狀態(tài)和動作作為神經(jīng)網(wǎng)絡的輸入,Q值作為輸出,通過神經(jīng)網(wǎng)絡計算當前狀態(tài)和未來狀態(tài)的Q值,不僅學習當前狀態(tài)下的經(jīng)驗,也學習到了歷史經(jīng)驗。即用一個函數(shù)Q(s,a,w)來表示Q(s,a),即用深度神經(jīng)網(wǎng)絡進行擬合,其中w為函數(shù)的參數(shù)。

Q(s,a)=Q(s,a,w)

(8)

DQN中存在2個結(jié)構(gòu)完全相同但是參數(shù)卻不同的網(wǎng)絡:Q估計網(wǎng)絡和Q目標網(wǎng)絡, Q估計網(wǎng)絡使用的是最新的參數(shù),而Q目標網(wǎng)絡參數(shù)使用的卻是很久之前的,Q(s,a,k)表示當前網(wǎng)絡的輸出,用來評估當前狀態(tài)動作對的值函數(shù);Q(s,a,k-1)表示目標網(wǎng)絡的輸出,因此當agent對環(huán)境采取動作a時,可以根據(jù)上述公式計算出Q,并根據(jù)LossFunction更新當前網(wǎng)絡參數(shù),每經(jīng)過一定次數(shù)的迭代,就將當前網(wǎng)絡的參數(shù)復制給目標網(wǎng)絡。這樣就完成了一次學習過程。

表1 給出了DQN算法的偽代碼

2.2 馬爾科夫決策模型設(shè)計

一個完整的馬爾科夫決策過程包含(S,A,P,r,γ),S為狀態(tài)集合,A為動作集合,P為狀態(tài)轉(zhuǎn)移概率,r為回報函數(shù),γ為折扣因子。

2.2.1 環(huán)境狀態(tài)

環(huán)境狀態(tài)S主要選取飛行狀態(tài)量如高度、馬赫、動壓,攻角偏差量,俯仰角速度偏差量等信息,為了充分利用可觀測的先驗歷史信息,提出多拍歷史信息量作輸入,更能體現(xiàn)出一段時間飛行器姿態(tài)控制的變化情況,從而映射到控制器參數(shù)的變化情況。選擇控制周期為步長的5倍,即連續(xù)5拍的信息量作為環(huán)境狀態(tài)集合∶

(9)

則環(huán)境狀態(tài)空間為40維。

2.2.2 動作選擇

姿態(tài)控制器的待調(diào)節(jié)參數(shù)向量為kp和kd2個調(diào)節(jié)參數(shù)。DQN算法為離散動作輸出的形式,以一定的調(diào)整變化值增減這2個參數(shù),調(diào)整步長為0.1。

2.2.3 回報函數(shù)-

強化學習通過試錯來探索最優(yōu)策略,獲取最大獎勵。

回報函數(shù)體現(xiàn)了智能體在訓練過程中所選策略的效果,針對飛行器姿控系統(tǒng),設(shè)計回報函數(shù)與狀態(tài)偏差、控制量有關(guān)。

(10)

其中,x=[ΔαΔωz1],u=δφ,Q為對稱半正定矩陣,R為對稱正定矩陣。

xTQx表征系統(tǒng)的控制效果,uTRu表征系統(tǒng)在控制過程中消耗的控制能量。

2.3 控制器設(shè)計

如圖2所示,將2.2設(shè)計的馬爾科夫模型加入到俯仰通道控制器中,根據(jù)DQN算法設(shè)計得到增益調(diào)參控制器。

圖2 DQN境益調(diào)參流程圖

綜上,具體設(shè)計步驟如下∶

1)建立帶有預設(shè)多種復雜非線性因素的飛行器姿態(tài)控制模型與姿態(tài)控制器結(jié)構(gòu);

選取N個平衡點。設(shè)飛行器姿態(tài)控制系統(tǒng)仿真試驗運行時間為T。

2)針對每一次飛行器姿態(tài)控制仿真實驗結(jié)果,設(shè)計交互學習的馬爾科夫模型。

環(huán)境狀態(tài)S"選取連續(xù)5拍狀態(tài)數(shù)據(jù)及變化率,更好地體現(xiàn)一段時間內(nèi)姿態(tài)控制參數(shù)隨環(huán)境狀態(tài)信息變化的情況。

姿態(tài)控制器共2個待調(diào)節(jié)參數(shù),以0.1的步長調(diào)整2個參數(shù)的增減。

回報函數(shù)設(shè)置狀態(tài)偏差為主要影響項,主要影響攻角偏差和俯仰角速率偏差。

3)根據(jù)每一次飛行器姿態(tài)控制仿真實驗結(jié)果對應的交互學習環(huán)境狀態(tài)、參數(shù)調(diào)整動作、回報函數(shù)以及歷史學習經(jīng)驗 Q值更新學習經(jīng)驗 Q值;

學習經(jīng)驗Q值記為Q(s,a,k),為環(huán)境狀態(tài)s、參數(shù)調(diào)整行動a、第k次的飛行器姿態(tài)控制仿真實驗時對應的學習經(jīng)驗Q值;在第k次的飛行器姿態(tài)控制仿真試驗結(jié)束時,已知第k-1次仿真試驗下所采取的參數(shù)調(diào)整動作為a(k-1),所對應的環(huán)境狀態(tài)為s(k-1),學習經(jīng)驗Q值為Q(s,a,k-1);根據(jù)步驟2,獲得第k次環(huán)境狀態(tài)s(k)與第k次學習獎勵r(k);更新學習經(jīng)驗Q值∶

Q(s,a,k)=(1-αQ)Q(s,a,k-1)+
αQ[r(k)+γmaxQ(st+1,at+1,k-1)]

(11)

4)利用每一次飛行器仿真實驗后更新的學習經(jīng)驗 Q值,選擇相應參數(shù)調(diào)節(jié)動作a,并獲得優(yōu)先行動集合∶

Ωa(k)={argmaxQ(s,a,k)}

(12)

argmax(f(x))是使得f(x)取得最大值所對應的變量點x(或x的集合),即得到最大Q值所對應的參數(shù)調(diào)節(jié)下的控制增益。

5)根據(jù)步驟4)選擇的參數(shù)調(diào)節(jié)動作,執(zhí)行飛行器姿態(tài)控制仿真實驗;若實驗結(jié)果達成結(jié)束條件,則輸出控制器參數(shù),否則,跳轉(zhuǎn)至步驟3,更新學習經(jīng)驗Q值。

3 訓練及仿真結(jié)果分析

根據(jù)第2章內(nèi)容進行智能體的訓練,采取3隱層的BP神經(jīng)網(wǎng)絡,激活函數(shù)為Relu,其他具體訓練參數(shù)配置如表2所示。

表2 訓練參數(shù)配置

式(10)的累積回報經(jīng)過1000次訓練迭代,回報函數(shù)值逐漸增大。隨著訓練的進行,控制增益逐漸收斂;圖3為隨著神經(jīng)網(wǎng)絡的更新,訓練集的擬合誤差。可以看出誤差范圍收斂在0.04左右;圖4所示第k次更新神經(jīng)網(wǎng)絡的訓練誤差值,具有線性遞減趨勢,表示隨著神經(jīng)網(wǎng)絡的更新訓練誤差逐漸減小。

取回報函數(shù)值最大的一組控制增益,將其注入俯仰通道姿態(tài)控制系統(tǒng),進行仿真驗證,得到攻角及俯仰角速率的時域和頻域特性曲線,其中式(4)中氣動參數(shù)a1=0.5709,a2=-0.9638,α3=0.062,b1=0.9552,b2=9.0689

圖3 訓練集擬合誤差

圖4 第k次更新訓練誤差

圖5 攻角響應曲線

圖6 俯仰角速率響應曲線

圖5~6為采用強化學習訓練的模型攻角及俯仰角速率的響應變化曲線、bode圖。可以看出時域頻域效果良好,經(jīng)過強化學習訓練后的增益使控制器在5s左右快速而平穩(wěn)達到期望值,符合指標要求。

4 結(jié)論

采用深度Q網(wǎng)絡的強化學習方法應用于飛行器俯仰通道姿態(tài)控制回路中,根據(jù)每一次飛行器姿態(tài)控制仿真實驗結(jié)果對應的交互學習環(huán)境狀態(tài)、參數(shù)調(diào)整動作、學習獎勵以及歷史學習經(jīng)驗Q值,更新學習經(jīng)驗Q值,選擇參數(shù)調(diào)節(jié)動作,實現(xiàn)飛行器姿態(tài)控制增益自動調(diào)節(jié)。針對傳統(tǒng)增益調(diào)度的缺點,強化學習算法能夠有效減小人工經(jīng)驗調(diào)參產(chǎn)生的偏差,獲得了良好的穩(wěn)態(tài)和動態(tài)性能,具有一定的工程意義。

猜你喜歡
動作
動作不可少(下)
巧借動作寫友愛
下一個動作
動作描寫要具體
畫動作
讓動作“活”起來
動作描寫不可少
非同一般的吃飯動作
動作喜劇電影周
電影故事(2015年30期)2015-02-27 09:03:12
神奇的手
主站蜘蛛池模板: 国产精品99在线观看| 中文字幕资源站| 国产成人高清在线精品| 午夜福利在线观看成人| 国模私拍一区二区三区| 波多野结衣一区二区三区四区| 亚洲黄色网站视频| 久久公开视频| 麻豆精品在线播放| 亚洲日韩图片专区第1页| 婷婷综合在线观看丁香| 欧美性精品| 亚洲热线99精品视频| 热这里只有精品国产热门精品| 国产精品亚洲а∨天堂免下载| 美女裸体18禁网站| 久久久噜噜噜久久中文字幕色伊伊 | 另类欧美日韩| 亚洲va视频| 国产永久在线视频| 成人免费视频一区| 毛片在线看网站| 无码视频国产精品一区二区| 国产91精选在线观看| 国产精品亚洲综合久久小说| 亚洲香蕉在线| 制服丝袜一区| 久久婷婷六月| 国产99热| 91在线视频福利| 日韩av资源在线| 国产精品自拍露脸视频| 高潮毛片无遮挡高清视频播放| 精品福利视频导航| 伊人色婷婷| 丁香综合在线| 亚洲看片网| 日韩国产精品无码一区二区三区| 97超爽成人免费视频在线播放| 99久久精品免费观看国产| 亚洲欧洲日韩综合| 久久久精品无码一区二区三区| 一区二区三区毛片无码| 亚洲最新在线| 午夜啪啪网| 国产在线专区| 99er这里只有精品| 国产人人射| 亚洲成aⅴ人片在线影院八| 99热这里只有精品2| 免费人成网站在线观看欧美| 国产福利2021最新在线观看| 亚洲精品久综合蜜| 2020久久国产综合精品swag| 九九久久99精品| 亚洲天天更新| 国产呦视频免费视频在线观看| 亚洲精品不卡午夜精品| 色婷婷狠狠干| 欧美视频在线不卡| 久久久久亚洲精品成人网| 99草精品视频| 成人永久免费A∨一级在线播放| 欧美日韩资源| 午夜无码一区二区三区| 国产福利在线免费观看| 日韩av在线直播| 精品在线免费播放| 99久久免费精品特色大片| 国产成人在线无码免费视频| 日韩不卡高清视频| 激情网址在线观看| 999精品色在线观看| 亚洲手机在线| 欧美三级视频在线播放| 国产精品欧美在线观看| 久久久久久久蜜桃| 亚洲性一区| 欧美日韩国产在线人| 韩日无码在线不卡| 亚洲视频二| 欧美日韩国产成人在线观看|