高煜欣, 劉春生
(南京航空航天大學(xué)自動(dòng)化學(xué)院, 江蘇 南京 211106)
導(dǎo)彈防御系統(tǒng)作為國(guó)防系統(tǒng)的重要組成部分,被廣泛研究[1]。制導(dǎo)策略作為其重要的組成部分,不僅影響導(dǎo)彈的運(yùn)動(dòng)特性,同時(shí)還直接決定導(dǎo)彈控制系統(tǒng)的設(shè)計(jì)。當(dāng)前針對(duì)制導(dǎo)策略的研究已取得了許多成果,如比例導(dǎo)引法[2-4]、滑模制導(dǎo)法[5-7]、反步制導(dǎo)法[8-10]等。在制導(dǎo)過(guò)程中,由目標(biāo)機(jī)動(dòng)等因素引起的非理想制導(dǎo)因素廣泛存在,直接影響制導(dǎo)精度。因此,研究遭受不確定影響條件下的制導(dǎo)策略具有實(shí)際意義。
針對(duì)制導(dǎo)系統(tǒng)中的不確定因素,一種有效的方式是對(duì)其進(jìn)行估計(jì)與重構(gòu)[11-13]。文獻(xiàn)[11]針對(duì)部分動(dòng)態(tài)未知的制導(dǎo)系統(tǒng),結(jié)合神經(jīng)網(wǎng)絡(luò)逼近未知?jiǎng)討B(tài),設(shè)計(jì)了一類(lèi)前饋和反饋相結(jié)合的復(fù)合制導(dǎo)策略,實(shí)現(xiàn)機(jī)動(dòng)目標(biāo)的攔截。針對(duì)未知目標(biāo)機(jī)動(dòng),文獻(xiàn)[12]利用擴(kuò)張狀態(tài)觀(guān)測(cè)器估計(jì)目標(biāo)速度,設(shè)計(jì)比例導(dǎo)引滑模制導(dǎo)策略,成功攔截機(jī)動(dòng)目標(biāo)。考慮建模誤差與不確定項(xiàng),文獻(xiàn)[13]使用干擾觀(guān)測(cè)器估計(jì)未知因素,并結(jié)合反步控制與滑模理論,設(shè)計(jì)了一類(lèi)針對(duì)探導(dǎo)控一體化系統(tǒng)的制導(dǎo)方法,實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。考慮未來(lái)戰(zhàn)場(chǎng)跨空域、強(qiáng)電子對(duì)抗的作戰(zhàn)環(huán)境,目標(biāo)機(jī)動(dòng)等非理想制導(dǎo)因素往往難以測(cè)量與重構(gòu),顯然上述制導(dǎo)策略無(wú)法適用。
微分對(duì)策是一種研究雙方或多方最優(yōu)控制的理論,在導(dǎo)彈攔截制導(dǎo)問(wèn)題中得到了廣泛應(yīng)用[13-15],導(dǎo)彈和目標(biāo)機(jī)動(dòng)相互獨(dú)立,將其視為對(duì)抗雙方,利用偏微分方程組來(lái)描述制導(dǎo)策略的變化,一方尋求性能指標(biāo)最大化,另一方則尋求最小化,研究目標(biāo)機(jī)動(dòng)最壞情況下的制導(dǎo)策略。文獻(xiàn)[13]針對(duì)輸入輸出受限的導(dǎo)彈攔截系統(tǒng),提出了一類(lèi)前饋控制和微分對(duì)策相結(jié)合的制導(dǎo)策略,保證了成功攔截機(jī)動(dòng)目標(biāo)的同時(shí)滿(mǎn)足約束條件。為了處理帶有擾動(dòng)情況下的制導(dǎo)問(wèn)題,文獻(xiàn)[14]提出了一類(lèi)有限時(shí)域微分對(duì)策制導(dǎo)方案,建立時(shí)變性能函數(shù)并考慮終端約束,保證制導(dǎo)性能;在針對(duì)帶有防御彈的三方對(duì)抗問(wèn)題中[15],微分對(duì)策制導(dǎo)律可以實(shí)現(xiàn)導(dǎo)彈避開(kāi)防御彈的同時(shí)擊中目標(biāo)。上述研究取得了很好的成果,然而無(wú)論是文獻(xiàn)[13-14]的非線(xiàn)性系統(tǒng),還是[15]的線(xiàn)性系統(tǒng)均是仿射形式,在實(shí)際系統(tǒng)中,非仿射形式普遍存在,因其對(duì)控制的非仿射特征使得控制策略的設(shè)計(jì)變得困難。
目前,處理非仿射系統(tǒng)的思路主要分為兩類(lèi),一類(lèi)是利用輔助函數(shù)或中值定理,將系統(tǒng)轉(zhuǎn)化為仿射形式,從而便于控制器的設(shè)計(jì);另一類(lèi)是直接從原系統(tǒng)分離控制線(xiàn)性項(xiàng)。文獻(xiàn)[16]針對(duì)二階非仿射系統(tǒng),分離控制線(xiàn)性項(xiàng),提出一類(lèi)滑模控制策略。考慮中值定理,文獻(xiàn)[17]將非仿射非線(xiàn)性多智能體系統(tǒng)轉(zhuǎn)化為控制仿射形式,利用努斯鮑姆函數(shù)處理未知控制方向。此外,文獻(xiàn)[18-20]利用模糊技術(shù)、自適應(yīng)技術(shù)等實(shí)現(xiàn)了非仿射系統(tǒng)的控制。雖然上述成果成功克服了非仿射特性導(dǎo)致的控制策略設(shè)計(jì)困難問(wèn)題,然而鮮有考慮系統(tǒng)的最優(yōu)特性。
綜上所述,本文提出一類(lèi)基于微分對(duì)策的非仿射導(dǎo)彈學(xué)習(xí)滑模制導(dǎo)方法,將導(dǎo)彈與目標(biāo)視為對(duì)抗雙方,結(jié)合控制補(bǔ)償技術(shù),引入輔助控制輸入,分別設(shè)計(jì)自適應(yīng)滑模策略魯棒匹配擾動(dòng)、微分對(duì)策最優(yōu)控制策略處理非匹配部分,利用評(píng)價(jià)網(wǎng)絡(luò)并給出權(quán)值更新律,在線(xiàn)學(xué)習(xí)控制策略,在保證系統(tǒng)實(shí)現(xiàn)滑模控制的同時(shí)滿(mǎn)足滑動(dòng)模態(tài)的最優(yōu)性能。與傳統(tǒng)滑模制導(dǎo)方法相比,本文制導(dǎo)策略不僅可以有效處理非匹配擾動(dòng)、降低對(duì)目標(biāo)機(jī)動(dòng)信息的依賴(lài),而且可以滿(mǎn)足性能指標(biāo),有利于工程應(yīng)用。
考慮如下不確定非仿射非線(xiàn)性系統(tǒng):
(1)
式中:x(t)∈Rn為系統(tǒng)可測(cè)狀態(tài)向量;f(x(t),u(t))∈Rn×Rm→Rn為已知連續(xù)且對(duì)控制輸入u(t)∈Rm為非仿射形式的系統(tǒng)函數(shù);k(x(t))∈Rn×p為已知連續(xù)函數(shù);δ(t)∈Rp為由目標(biāo)機(jī)動(dòng)導(dǎo)致的系統(tǒng)不確定項(xiàng)。為方便表達(dá),省略時(shí)間常數(shù)t。
由于系統(tǒng)(1)的結(jié)構(gòu)表現(xiàn)為控制非仿射形式,使得控制器設(shè)計(jì)變得困難。因此,引入控制補(bǔ)償技術(shù)[21-22],構(gòu)建如下輔助系統(tǒng):
(2)

(3)

假設(shè) 1系統(tǒng)函數(shù)k(x)有界,即存在常數(shù)kM滿(mǎn)足=k(x)=≤kM。


(4)

本文的目的為設(shè)計(jì)輔助控制輸入vm使得系統(tǒng)(1)的所有信號(hào)有界,為實(shí)現(xiàn)該目標(biāo),控制輸入設(shè)計(jì)為如下形式:
vm=va+vb
(5)
式中:va為非連續(xù)滑模控制部分,用于處理未知輸入匹配部分并實(shí)現(xiàn)滑模控制;vb為連續(xù)最優(yōu)控制部分,用于實(shí)現(xiàn)存在未知輸入非匹配部分下的最優(yōu)控制。
本節(jié)設(shè)計(jì)va魯棒匹配擾動(dòng)部分,并且使得系統(tǒng)沿著如下積分滑模面進(jìn)入滑動(dòng)模態(tài)運(yùn)動(dòng):
(6)

滑模面(6)對(duì)時(shí)間求導(dǎo)有:
(7)
基于系統(tǒng)(3)和滑模面(6),設(shè)計(jì)如下自適應(yīng)滑模控制器va:
(8)
定理 1針對(duì)增廣系統(tǒng)(3),若設(shè)計(jì)非連續(xù)滑模控制器及自適應(yīng)律為(8),則增廣狀態(tài)將沿著預(yù)設(shè)的積分滑模面(6)進(jìn)入滑動(dòng)模態(tài)運(yùn)動(dòng)。

(9)
將式(9)求導(dǎo)并代入式(7)和控制器(8)可得
(10)

證畢

(11)
等效控制被抽象的應(yīng)用于式(3),從而實(shí)現(xiàn)如下增廣等效滑動(dòng)模態(tài)系統(tǒng):
(12)

觀(guān)察式(12)可以發(fā)現(xiàn),增廣等效滑動(dòng)模態(tài)系統(tǒng)仍然存在未知擾動(dòng),且為非匹配形式,使得控制器設(shè)計(jì)變得困難。為有效處理非匹配擾動(dòng),首先,考慮如下性能指標(biāo):
(13)

(14)

根據(jù)極大極小值原理,納什均衡解存在的必要條件是:
(15)
則利用貝爾曼最優(yōu)原理,可推導(dǎo)微分對(duì)策控制策略為
(16)
則將最優(yōu)控制式(16)代入式(14)有
(17)
為了能夠有效實(shí)施微分對(duì)策控制策略,設(shè)計(jì)如下評(píng)價(jià)網(wǎng)絡(luò)近似式(17)的解析解:
(18)
式中:W為神經(jīng)網(wǎng)絡(luò)理想權(quán)值;φ為設(shè)計(jì)的系數(shù)矩陣;ε為神經(jīng)網(wǎng)絡(luò)逼近殘差。如果定義:
(19)
則有
(20)

(21)

(22)
利用神經(jīng)網(wǎng)絡(luò)輸出估計(jì)式(17)解析解,則有
(23)
近似控制策略對(duì)和哈密頓函數(shù)分別為
(24)

(25)
假設(shè) 4理想權(quán)值有界WM,即=W=≤WM。殘差均有界,即滿(mǎn)足關(guān)系=ε=≤εM,=εHJI=≤εHM。

(26)
基于梯度下降,設(shè)計(jì)如下權(quán)值更新律:

(27)

(28)

證明考慮如下Lyapunov函數(shù):
(29)
首先對(duì)第一項(xiàng)求導(dǎo),得
(30)
接著,對(duì)第2項(xiàng)求導(dǎo)可得
(31)
考慮如下變換:
(32)

(33)
式中:
合理的T1和T2可以保證N1為正定矩陣,進(jìn)而有
(34)
根據(jù)規(guī)則(28),接下來(lái)分為兩種情況討論:
情況 1Θ=0
(35)

(36)
(37)
不難得到權(quán)值估計(jì)誤差有界,且滿(mǎn)足:
(38)
情況 2Θ=1
則式(34)變?yōu)?/p>
(39)

(40)
(41)

(42)
證畢
定理 3針對(duì)增廣系統(tǒng)式(3),滑模控制器設(shè)計(jì)為式(8),微分對(duì)策控制策略設(shè)計(jì)為式(24),則在整合學(xué)習(xí)滑模控制器(5)作用下,系統(tǒng)(1)的狀態(tài)有界。

(43)


(44)

證畢
本節(jié)驗(yàn)證所設(shè)計(jì)制導(dǎo)策略的有效性,將本文理論應(yīng)用于二維平面導(dǎo)彈攔截機(jī)動(dòng)目標(biāo)的場(chǎng)景中,運(yùn)動(dòng)示意圖如圖1所示,基于幾何關(guān)系,建立導(dǎo)彈-目標(biāo)相對(duì)運(yùn)動(dòng)關(guān)系:

圖1 導(dǎo)彈-目標(biāo)運(yùn)動(dòng)示意圖
(45)
導(dǎo)彈與目標(biāo)均表現(xiàn)為一階自動(dòng)駕駛儀系統(tǒng),滿(mǎn)足動(dòng)態(tài):
(46)
相關(guān)參數(shù)含義如表1所示。

表1 相關(guān)參數(shù)

(47)

結(jié)合滑模控制(8)與微分對(duì)策技術(shù)(24),制導(dǎo)策略vm設(shè)計(jì)為如下形式:
vm=-asgn()-k1==lsgn()-k2
(48)
由式(47)可以發(fā)現(xiàn),當(dāng)導(dǎo)彈足夠接近目標(biāo),即r→0時(shí),系統(tǒng)被破壞。事實(shí)上,在實(shí)際制導(dǎo)過(guò)程中,存在最小相對(duì)距離rmiss,即脫靶量。當(dāng)r≤rmiss時(shí),制導(dǎo)結(jié)束,導(dǎo)彈依靠慣性完成剩余任務(wù),視為攔截成功[27-28]。因此,本節(jié)驗(yàn)證所提算法能否實(shí)現(xiàn)對(duì)相對(duì)距離要求,且滿(mǎn)足如下必要條件:
(49)

導(dǎo)彈攔截軌跡圖如圖2所示,可以看到,在學(xué)習(xí)滑模控制策略(5)的作用下,經(jīng)過(guò)一段時(shí)間后,導(dǎo)彈能夠成功擊中目標(biāo)。相對(duì)距離曲線(xiàn)如圖3所示。從初始時(shí)刻的1 250 m左右,經(jīng)過(guò)大約4.8 s,減少至1.697 m,由文獻(xiàn)[29]可知,在合理脫靶量范圍內(nèi)。圖4、圖5則是刻畫(huà)導(dǎo)彈視線(xiàn)角速率和導(dǎo)彈目標(biāo)的相對(duì)速率圖,可以看到,在整個(gè)制導(dǎo)過(guò)程中,視線(xiàn)角速率始終在零點(diǎn)附近,相對(duì)速率始終為負(fù)值,顯然,保證攔截成功的必要條件(48)被滿(mǎn)足,則導(dǎo)彈可以成功攔截目標(biāo)。基于控制補(bǔ)償技術(shù),系統(tǒng)的輔助輸入曲線(xiàn)如圖6所示,圖中曲線(xiàn)逐漸收斂,且在合理范圍內(nèi)。在權(quán)值更新律(27)的作用下,神經(jīng)網(wǎng)絡(luò)權(quán)值估計(jì)值曲線(xiàn)如圖7所示。在局部放大圖中可以看出,經(jīng)過(guò)一段時(shí)間后,權(quán)值估計(jì)值曲線(xiàn)逐漸趨于穩(wěn)定,驗(yàn)證了權(quán)值估計(jì)誤差的有界性,從而保證了最優(yōu)微分對(duì)策控制策略的在線(xiàn)學(xué)習(xí)。綜上,本文所提出的控制策略能夠有效處理非仿射形式,并且使得導(dǎo)彈能夠成功攔截目標(biāo)。

圖2 攔截軌跡圖

圖3 相對(duì)距離圖

圖4 導(dǎo)彈視線(xiàn)角速率

圖5 導(dǎo)彈-目標(biāo)相對(duì)速率

圖6 導(dǎo)彈側(cè)向加速度

圖7 神經(jīng)網(wǎng)絡(luò)權(quán)值估計(jì)值
在導(dǎo)彈的制導(dǎo)過(guò)程中,導(dǎo)彈參數(shù)的測(cè)量誤差不可避免,這會(huì)導(dǎo)致導(dǎo)彈的彈道與理想彈道產(chǎn)生偏差。因此,進(jìn)行蒙特卡羅打靶試驗(yàn)驗(yàn)證制導(dǎo)精度,引入滿(mǎn)足正態(tài)分布N(0,0.1)的導(dǎo)彈視線(xiàn)角隨機(jī)測(cè)量誤差ΔθMT,進(jìn)行50次打靶試驗(yàn),并對(duì)導(dǎo)彈的彈著點(diǎn)數(shù)學(xué)期望進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表2所示。從表中可以看出,在存在測(cè)量誤差的情況下,50次打靶試驗(yàn)彈著點(diǎn)在本文考慮的二維攔截平面中x軸和y軸的期望彈著點(diǎn)和理想彈道(即無(wú)測(cè)量誤差)的彈著點(diǎn)非常接近。并且,圓偏差概率(circular error probable, CEP)[30]計(jì)算為1.86 m,可以保證導(dǎo)彈超過(guò)一半的概率彈著點(diǎn)位于圓內(nèi)。因此蒙特卡羅試驗(yàn)結(jié)果表明本文算法具有較高的制導(dǎo)精度。

表2 彈著點(diǎn)期望值統(tǒng)計(jì)
為進(jìn)一步體現(xiàn)本文所提算法的優(yōu)勢(shì),選擇比例導(dǎo)引算法與經(jīng)典積分滑模算法[31-32]進(jìn)行對(duì)比驗(yàn)證。顯然,針對(duì)非仿射制導(dǎo)系統(tǒng),兩類(lèi)對(duì)比方法無(wú)法直接應(yīng)用。因此,同樣引入控制補(bǔ)償技術(shù),構(gòu)建仿射增廣系統(tǒng),便于進(jìn)行對(duì)比試驗(yàn)。進(jìn)一步,考慮比例導(dǎo)引算法的實(shí)施需要目標(biāo)機(jī)動(dòng)信息,則在比例導(dǎo)引制導(dǎo)過(guò)程中,目標(biāo)機(jī)動(dòng)信息設(shè)置為實(shí)時(shí)可測(cè)。在傳統(tǒng)積分滑模制導(dǎo)過(guò)程中,針對(duì)不可測(cè)目標(biāo)機(jī)動(dòng)信息,與本文所提算法式(8)類(lèi)似采用自適應(yīng)控制策略,且相關(guān)參數(shù)與本文所提算法選取一致,對(duì)比試驗(yàn)仿真結(jié)果如圖8和圖9所示。

圖8 3種方法攔截軌跡圖
圖8刻畫(huà)了在3種制導(dǎo)方案下導(dǎo)彈攔截目標(biāo)的軌跡圖,可看出實(shí)施3種不同策略均可以使導(dǎo)彈逐漸靠近目標(biāo),并且本文所提學(xué)習(xí)滑模制導(dǎo)策略與經(jīng)典積分滑模制導(dǎo)策略曲線(xiàn)相似。然而,從相對(duì)距離圖(見(jiàn)圖9)中可以看出,3種制導(dǎo)策略作用下的脫靶量rmiss有所不同。為了方便對(duì)比,不同制導(dǎo)策略下的脫靶量在表3中列出。可以看出,理想制導(dǎo)環(huán)境下(即目標(biāo)機(jī)動(dòng)實(shí)時(shí)可測(cè))的比例導(dǎo)引制導(dǎo)策略的脫靶量最小。由于目標(biāo)未知機(jī)動(dòng)的非匹配形式,經(jīng)典積分滑模制導(dǎo)策略的脫靶量較大。然而,本文結(jié)合經(jīng)典積分滑模與微分對(duì)策理論提出的整合學(xué)習(xí)滑模制導(dǎo)策略,能夠在導(dǎo)彈初始條件與制導(dǎo)策略相同參數(shù)的前提下,有效降低脫靶量,制導(dǎo)效果與理想制導(dǎo)環(huán)境下比例導(dǎo)引制導(dǎo)效果接近且在合理范圍內(nèi),提升積分滑模的制導(dǎo)精度,表明微分對(duì)策控制部分能夠有效的處理非匹配未知目標(biāo)機(jī)動(dòng),大大降低了目標(biāo)突防逃逸的概率。另一方面,為體現(xiàn)本文算法的優(yōu)化特性,考慮本文所提制導(dǎo)策略與經(jīng)典積分滑模制導(dǎo)策略的過(guò)載能耗,選擇如下能耗指標(biāo)[33]:

表3 3種制導(dǎo)策略脫靶量

(50)
計(jì)算結(jié)果表明本文所題算法的過(guò)載能耗約為23.3,而經(jīng)典積分滑模的過(guò)載能耗約為42.9,顯然微分對(duì)策最優(yōu)控制部分的引入優(yōu)化了過(guò)載能耗,節(jié)省了約45%的耗能。因此,通過(guò)對(duì)比試驗(yàn)可以得出,與其他兩種制導(dǎo)方法相比,本文所題算法不僅可以有效的處理非仿射制導(dǎo)系統(tǒng),而且具有較好的制導(dǎo)性能,進(jìn)一步體現(xiàn)了所提算法的優(yōu)越性。
本文針對(duì)非仿射制導(dǎo)模型提出了一類(lèi)學(xué)習(xí)滑模制導(dǎo)方法,利用控制補(bǔ)償技術(shù),將系統(tǒng)轉(zhuǎn)化為增廣仿射形式;設(shè)計(jì)自適應(yīng)滑模控制部分,使得系統(tǒng)魯棒匹配擾動(dòng)部分的同時(shí),沿著預(yù)設(shè)積分滑模面進(jìn)入滑動(dòng)模態(tài)運(yùn)動(dòng);針對(duì)帶有非匹配擾動(dòng)部分的等效滑動(dòng)模態(tài)系統(tǒng),設(shè)計(jì)微分對(duì)策最優(yōu)控制策略,利用評(píng)價(jià)網(wǎng)絡(luò)學(xué)習(xí)近似哈密頓方程的解析解,給出權(quán)值更新律在線(xiàn)學(xué)習(xí)最優(yōu)控制策略;仿真結(jié)果表明,所提出的學(xué)習(xí)滑模策略,能夠使得目標(biāo)被成功攔截,驗(yàn)證了所提制導(dǎo)策略的有效性。實(shí)際制導(dǎo)過(guò)程中,受物理因素限制,執(zhí)行器存在承受上限,并且有限時(shí)間制導(dǎo)策略能夠提升作戰(zhàn)效率,如何處理飽和問(wèn)題以及實(shí)現(xiàn)目標(biāo)的有限時(shí)間攔截,將在后續(xù)的研究中進(jìn)一步討論。