999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度神經網絡的無限時域型航天器追逃策略求解*

2020-01-09 03:48:00吳其昌張洪波
航天控制 2019年6期
關鍵詞:深度

吳其昌 李 彬 李 君 張洪波

1.國防科技大學空天科學學院,長沙 410073 2.中國運載火箭技術研究院,北京 100076

航天器在軌追逃問題是一種典型的雙方最優控制問題,微分對策理論[1]是求解此類問題的主流方法,國內外學者對其進行了深入的研究。一般而言,航天器的追逃運動模型通常維數較高,且方程通常為非線性形式,因此追逃問題的分析和求解都十分困難。Shen應用動力學分析方法研究了航天器追逃問題,提出追蹤航天器應該首先機動到目標航天器所在的軌道面后,再追逐目標航天器[2]。Jaga等在研究航天器追逃博弈的問題時,通過使用狀態依賴黎卡提方程將線性二微分博弈論擴展到有限時間非線性航天器追逃博弈中,導出了非線性控制律,結果表明在各場景下都優于線性控制律[3]。Venigalla等使用可達集對航天器交會和追逃博弈進行了研究,強調使用非最優機動來作為多航天器問題的控制方案,并驗證了可達集的準確性,找到了使用可達集來解決交會和追捕/逃避問題的必要條件[4]。Shen等將雙邊優化問題視為最優控制問題的擴展,把間接優化方法應用于追逃博弈問題,找到了一種快速有效的方法[5]。

人工神經網絡通過模擬人腦的工作方式搭建變量之間的映射,使得人工神經網絡具備了傳統方法不具備的非線性信息處理能力,從而具有生物神經網絡的某些特性,如學習、識別、控制等功能[6]。當前,將神經網絡應用于航天器的制導與控制已經有了少量的研究。Sanchez等人系統說明了如何將深度神經網絡應用于連續定常的非線性系統(例如航天器的著陸問題)的問題[7-8]。Izzo使用深度神經網絡設計了航天器在地球和火星之間轉移的最優軌道[9]。翎客航天使用狀態預測神經網絡,實現對RLV-T3小型可回收火箭的穩定控制[10]。

本文主要研究無限時域型航天器追逃博弈問題,即追逃航天器的對抗不局限于某一固定時間范圍內,且在研究過程中假設對抗雙方瞬時狀態信息完全已知。首先采用微分對策方法對追逃博弈問題進行求解,得到大量的訓練數據和測試數據,然后利用神經網絡能夠逼近任意非線性函數的特性,將當前時刻追逃航天器的相對運動狀態和在追逃過程中航天器對相對距離、相對速度以及燃料消耗的關注程度(確定支付函數)作為輸入,將追逃過程中兩航天器的機動加速度作為輸出,利用深度神經網絡對這些數據所包含的內在關系進行學習,得到一種基于深度神經網絡的航天器追逃博弈機動策略在線生成方法。

1 追逃博弈模型及求解

由于追逃博弈的兩航天器相對距離較近,通常選擇兩航天器附近的一條圓軌道作為參考軌道,從而可以利用CW方程描述兩航天器相對于參考軌道的運動狀態,如圖1所示。

圖1 追逃兩航天器的相對運動狀態

(1)

式中

(2)

兩航天器的支付函數定義為

(3)

其中,Q為半正定對稱矩陣,RP和RE為正定對稱矩陣。

追逃航天器最優控制策略可表示為

(4)

2 深度神經網絡設計

對于追逃博弈這類對抗性和實時性強的問題,采用數值方法進行求解時,由于問題復雜度高、算法收斂性差等問題導致計算耗時大,難以滿足實時規劃的要求。神經網絡作為一種通用的狀態估計器,可以充分逼近任意復雜的非線性關系,因而利用離線訓練得到的神經網絡生成控制指令能夠大大提高計算效率,使得實時生成航天器追逃博弈雙邊閉環最優控制成為可能。

2.1 神經網絡結構選擇

神經網絡由一些具有非線性特征的神經元組成,可劃分為輸入層、隱藏層和輸出層,其結構設計主要包括隱藏層層數、各隱藏層神經元個數以及神經元激活函數的確定。為簡化超參數的調整,本文令各隱藏層的神經元個數一致,并從最簡單的一層含10個神經元的隱藏層開始,通過不斷嘗試隱藏層層數與各層神經元個數的組合,比較其擬合結果及訓練速度,最終確定隱藏層數為3,神經元個數為60的組合。

在隱藏層神經元的激活函數選取中,首先采用了傳統的tanh函數和sigmoid函數,但在神經網絡層數較多時,都容易出現梯度消失的現象,進而導致訓練時間大大變長。因此,為有效提高訓練速度,隱藏層的激活函數最終選用ReLU函數[12]。ReLU函數的形式如式(6)所示,上述3種激活函數的函數及其導數的圖像如圖2所示。

(5)

圖2 三種激活函數及其導數的函數圖

由圖2可以看出,tanh函數和sigmoid函數在自變量過大或過小時,其導數都趨于0,這就是其容易出現梯度消失現象的原因;而ReLU函數的非負區間的梯度為常數,因此可以有效地避免梯度消失,有利于深層網絡的訓練,同時ReLU函數還能使一部分神經元的輸出為0,造成網絡的稀疏性,減少參數的相互依存關系,緩解過擬合問題的發生。此外ReLU函數也便于計算,可減小計算量,進而提升網絡的訓練速度。

2.2 數據預處理

神經網絡學習過程的本質就是學習數據的分布特性,一旦訓練數據與測試數據的分布不同,網絡的泛化能力就大大降低。另外,一旦每批訓練數據的分布各不相同,網絡就要在每次迭代都去學習適應不同的分布,大大降低網絡的訓練速度,因此通常需要先對數據進行預處理。本文采用Z-score標準化對數據進行預處理,其公式如下:

(6)

式中x為原數據,μ和σ分別為其均值和標準差,x′為處理后的數據。

2.3 神經網絡的訓練

本文采用4層深度神經網絡層數,層數較深,訓練時間比較長。在網絡的訓練過程中,采用小批量方法[13],通過并行化提高內存的利用率和訓練速度,使得梯度下降方向更加準確。此外,優化算法采用時下流行的Adam算法[14],該算法同時獲得了適應性梯度算法(AdaGrad)[15]和均方根傳播(RMSProp)[16]的優點,即為每1個參數保留1個學習率以提升在稀疏梯度上的性能(AdaGrad的優點),并基于權重梯度最近量級的均值為每1個參數適應性地保留學習率,在非穩態和在線問題上有很優秀的性能(RMSProp的優點),其更新公式如式(8)所示

(7)

(8)

其中,β1和β2是常數,用于控制指數衰減,mt是梯度的指數移動均值,vt是平方梯度,其更新公式如下:

(9)

其中,gt為一階導。Adam更新公式中的α,β1,β2和ε為常數,默認設置為α=0.001,β1=0.9,β2=0.999,ε=10-8。

表1 追逃兩航天器相對于參考軌道坐標系的初始狀態取值范圍

本文所研究的問題屬于回歸問題,因此訓練過程中用于評價深度神經網絡模型預測性能的指標(即損失函數)選用網絡輸出值與期望值的均方誤差。均方誤差越接近于0,神經網絡的性能越好。同時,為避免出現過擬合的現象,在損失函數中引入L2正則化項[17],對神經網絡的權重施加一定的約束,使其無法任意取值。損失函數如下所示:

(10)

3 仿真分析

選擇高度為500km的近地圓軌道為參考軌道,兩航天器相對于參考軌道坐標系的初始狀態的取值如表 1所示。式(4)給出的支付函數的權重矩陣的設置如下

其中,m,n和l都為正實數,且l>1。上述參數配置的物理意義是在追逃博弈過程中追逃兩航天器對相對距離、相對速度以及燃料消耗均加以關注,關注程度的大小由調整m,n和l的大小來進行控制。同時,因為逃逸航天器應比追蹤航天器更在意對抗中燃料的消耗,因此l>1。本文對m,n和l的大小設置如表2所示。

根據上述參數設置,取20種不同的追蹤航天器初始運動狀態,再分別選取20種不同的m,n和l的參數設置生成400條不同的軌跡,在這400條軌跡中每隔10s選取一個數據點生成訓練數據集;同樣的,在5種不同的m,n和l的參數設置下,由5種不同的追蹤航天器初始運動狀態生成的25條不同的軌跡,生成測試數據集。

搭建4層的深度神經網絡對數據集進行訓練,所得的預測結果與真實值之間的誤差如表3所示。在400條軌跡中任取一條軌跡,得到深度神經網絡擬合逃逸航天器機動策略的圖像,如圖3所示,圖中prediction表示神經網絡的預測結果,label表示神經網絡的標簽值,即網絡期望的輸出結果。訓練完畢后,基于神經網絡產生控制量是近實時的。

表2 m,n和l的取值范圍

由表3和圖3可以看出,深度神經網絡的預測結果與標簽值之間的絕對誤差很小,數量級為10-5。為更細致地看出預測結果和標簽值的區別,對ax的擬合結果以對數標度重新給出,如圖3(b)所示,可以看出,隨著追逃博弈不斷進行,兩航天器之間的機動加速度最終都會趨于0,同時導致深度神經網絡的預測結果與標簽值之間的相對誤差出現增大的趨勢。因此,本文未將相對誤差作為評價神經網絡性能的一個指標。

表3 訓練數據集中神經網絡預測結果與真實值之間的誤差

圖3 單條軌跡中神經網絡預測值與標簽值結果對比

從上述測試數據集中選取一種追逃航天器的初始相對狀態和m,l和n的取值,分別使用前述的微分對策理論和深度神經網絡來制定追逃航天器的機動策略,而后追逃航天器根據相應的策略展開對抗,對抗過程中兩航天器飛行軌跡如圖4所示,兩航天器相對運動狀態如圖5所示。

圖4 追逃兩航天器飛行軌跡

圖5 追逃航天器相對運動狀態隨時間變化曲線

由圖4可以看出,微分對策理論和深度神經網絡方法所求解出的飛行軌跡基本上是一樣,這說明了深度神經網絡方法的有效性。

由圖5可以看出,隨著追逃博弈過程的進行,微分對策理論和深度神經網絡方法所求解出的軌跡會逐漸呈現出差異,這是因為兩者所制定的機動策略差異雖然小,但卻始終存在,隨著追逃博弈的進行,累積的偏差會逐漸變大。但是,在微分對策理論和深度神經網絡方法所求解出的軌跡中,追逃兩航天器的相對運動狀態最終都會趨于0,并且2條軌跡的差異始終都較小,二者的變化規律基本一致,同樣證明了深度神經網絡方法的有效性。

4 結論

針對無限時域型航天器追逃博弈問題,首先利用微分對策理論得到追逃航天器在不同的相對運動狀態和對相對位置、相對運動以及燃料不同的關注程度下所采取的機動策略作為訓練數據,而后搭建深度神經網絡對其進行擬合,掌握其所隱含的內在規律。從擬合的效果看,深度神經網絡的預測值與真實值的偏差很小,數量級為10-5。最后在測試軌跡中對深度神經網絡進行實際應用,并與微分對策理論的結果作比較,結果表明雖然隨著追逃博弈的進行,兩者所對應的軌跡會逐漸出現偏差,但其所對應的變化規律基本一致,飛行軌跡基本吻合,證明了深度神經網絡預測的結果是有效的。

猜你喜歡
深度
深度理解不等關系
四增四減 深度推進
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
深度觀察
芻議深度報道的深度與“文”度
新聞傳播(2016年10期)2016-09-26 12:14:59
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
微小提議 深度思考
主站蜘蛛池模板: 国产精品亚洲一区二区三区在线观看| 天天视频在线91频| 91黄视频在线观看| 亚洲成在人线av品善网好看| 亚洲AV无码不卡无码| 一级一毛片a级毛片| 日韩高清欧美| 国内毛片视频| 国产www网站| 免费精品一区二区h| 欧美一级大片在线观看| 欧美第一页在线| 伊人国产无码高清视频| 亚洲欧美日韩色图| 国产精品视频猛进猛出| 国产成人91精品| 国产呦视频免费视频在线观看| 国产精品视频观看裸模| 国产一级裸网站| av在线5g无码天天| 香蕉视频国产精品人| 97精品伊人久久大香线蕉| 亚洲欧美一区二区三区蜜芽| 国产精品夜夜嗨视频免费视频| 亚洲精品在线观看91| 日韩无码真实干出血视频| 在线欧美a| 国产h视频免费观看| 欧美成人aⅴ| 亚洲中文在线看视频一区| 亚洲二三区| 亚洲一区二区三区国产精品| 免费在线色| 四虎精品黑人视频| 二级特黄绝大片免费视频大片| 国产成人精品18| 广东一级毛片| 精品福利网| 亚州AV秘 一区二区三区| 亚洲国模精品一区| 国产精品一区二区不卡的视频| 看国产毛片| 国产一级二级在线观看| 毛片免费视频| 91人妻在线视频| 久久人体视频| 国产精品私拍99pans大尺度| 国产成人夜色91| 亚洲精品免费网站| 国产精品久久久久久搜索| av在线无码浏览| 免费高清a毛片| 国产午夜无码片在线观看网站 | 国产成人成人一区二区| 国产欧美在线观看一区| 亚洲综合色吧| 亚洲三级视频在线观看| 久草中文网| 国产欧美自拍视频| 欧美午夜在线观看| 99精品伊人久久久大香线蕉| 亚洲日本中文字幕乱码中文| 欧美在线视频a| 亚洲第一福利视频导航| 精品一区二区三区自慰喷水| 国产高颜值露脸在线观看| 狠狠色狠狠综合久久| 熟妇人妻无乱码中文字幕真矢织江| 女人18毛片一级毛片在线 | 自慰高潮喷白浆在线观看| 国内精品久久九九国产精品| m男亚洲一区中文字幕| 999福利激情视频| 99视频在线观看免费| 国产手机在线观看| 色综合狠狠操| 狼友av永久网站免费观看| 国产又大又粗又猛又爽的视频| 美女裸体18禁网站| 香蕉精品在线| 国产第一页亚洲| 国产乱子伦视频三区|