程瑞鋒劉衛東 高立娥 康智強
1)(西北工業大學航海學院,西安 710072)
2)(西北工業大學,水下信息與控制重點實驗室,西安 710072)
3)(西安建筑科技大學機電工程學院,西安 710055)
(2017年5月24日收到;2017年10月11日收到修改稿)
相比空中追蹤,水下追蹤以海水為工作介質,受水聲物理場的制約[1],水下聲自導裝置獲取目標參量的周期相對較長.同時由于實際海洋環境隨時空變化的特性[2]和海洋自噪聲、艦船噪聲、生物發聲等環境噪聲[3]的存在,聲自導探測的目標信號通常伴有一定的混響和干擾[4].這些混響和干擾隨水文、環境條件及航行深度和追蹤相對距離等的改變會發生隨機變化,使水下追蹤器自導裝置對目標的探測精度受到嚴重影響,極易造成目標信號的丟失與誤判,實時、有效獲取目標參量成為水下追蹤導引面臨的首要難題.雖然微分對策通過“最壞”情況下的“最佳”控制性能設計,能有效處理動態對抗問題,但受實際追蹤系統中存在的非線性、時變、模型失配、干擾等因素影響[5],當目標機動頻繁時,剩余航行時間的估計誤差較大[6],且微分對策僅考慮了對抗時間與能耗的最優原則,無法保證動態對抗的過程約束.預測控制中的廣義預測控制(GPC)算法能有效處理過程約束,并結合辨識與自校正機理對機動目標進行實時監測,具有魯棒性強、能有效克服系統滯后等優點[7].但由于微分對策t的引入,對策現象或規律在連續變量空間呈現動態結構[8],阻礙了離散時間設計方法的應用,且廣義預測算法中離散時間的選取受采樣周期的影響較大,而水下追蹤器的自導探測無法保證在廣義預測的每個檢測周期都能俘獲目標信息,對目標探測周期的不合理選擇可能導致目標的漏檢和系統的不穩定[9].連續時間廣義預測控制(CGPC)算法屬于模型預測控制的一員,通過模型的泰勒級數展開得到預測模型,不需要進行模型的離散化,在采樣時間的選擇上較為靈活,不但繼承了GPC算法的眾多優點,而且擁有和GPC算法類似的調節參數,對外界擾動和參數攝動具有更強的魯棒性和自適應能力[10,11].
在水下追蹤博弈過程中,如果追蹤方能夠快速、準確地俘獲機動目標信息,便可在微分對策中處于優勢地位.因此,在追蹤器發現目標后,本文利用連續時間廣義預測算法,對自導俘獲的目標運動信息要素進行解算、預測,通過滾動優化反饋校正的學習預測功能,實施對自導探測有利提前角的快速調整控制,并利用滾動優化,將微分對策的初始時刻隨整個預測時段向前推移,實現對微分對策導引的實時補償校正,有效避免剩余時間的估計誤差.在確保復雜海洋環境下追蹤器獲得對機動目標最大概率俘獲的同時,將追蹤時間不確定情形的微分對策控制轉化為多個有限時域的微分對策滾動優化.通過動態規劃與預測優化的優勢互補,克服微分對策在對抗過程約束和隨機干擾方面的不足.在保證微分博弈追蹤全局漸近穩定的同時,解決了不確定性因素影響下如何平衡控制器設計的魯棒性與保守性的難題.
將復雜海洋環境下的追蹤博弈描述為一類具有干擾的非線性連續動態系統:

式中x∈X?Rn為狀態變量,X為狀態空間;y∈Rm為輸出狀態變量. 追蹤博弈雙方的決策控制變量u∈[?umax,umax]∈Uγ和v∈[?vmax,vmax]∈Vl,且γ≤n.f(x)∈Rn;g(x)∈Rn×γ;l(x)∈Rn×l;z(x)∈Rn×q為內部系統模型,h(x)∈Rn×m為輸出函數.初始狀態x(t0)=ζ,服從高斯分布N(m0,R0),R0為非負定矩陣;隨機干擾ω屬于給定概率空間(?,?,P),且與初始值x0互不相關[12].
將追蹤博弈考慮為生存型微分對策,相應二次型性能指標為


則(2)式中相關性能指標可進一步表示為

式中μ=(μ1,μ2,···,μl)T∈Rl為待定系數;L(t)為半正定時變矩陣,R1(t)和R2(t)為正定對稱時變矩陣. 設λ=(λ1,λ2,···,λn)T∈Rn是任意向量,利用文獻[14]哈密頓-雅可比方程對微分對策進行求解,構造系統((1)式)的哈密頓函數:

由于正規合成鞍點的每個策略都能充分考慮當前t時刻的狀態信息,使博弈雙方根據當前的對策局勢制定與調整策略,適用于對策局勢不斷變化的博弈問題.因此將水下追蹤問題轉化為尋找微分對策值?,使其滿足[15]

對應的正規合成鞍點為[u?(t,x),v?(t,x)]∈Uγ×Vl,由正規合成鞍點存在滿足的協態方程和橫截條件:

應用伴隨原理,定義追蹤過程中系統不加控制經有限時間即能達到零脫靶的狀態為零控追蹤狀態z(t)[16],推導可得相應的最優控制策略函數為

式中下標A與T分別表示追蹤器與機動目標對應的相關參數,NA,NT分別為追蹤器與機動目標微分對策最優導引對應的制導增益,x?為相應于正規合成鞍點的軌跡.
對策區間[t0,t]進行任意剖分:t0<t1<t2<···<tn=t記為I,且將每個區間記為Ij=(tj?1,tj](j=1,2,···,n). 選取任意變量δ>0,假設博弈雙方在任意t時刻均可以完全了解t?δ以前對方的全部信息,但不了解其對手在未來的行為,為了獲得各自的最優局部目標,博弈雙方將采用u?(t,x?)與v?(t,x?)在x?對應的界柵上展開最激烈的爭奪、對抗[17].因此,對于相同環境下性能相近的水下追蹤博弈,打破對抗均衡態勢的條件為:追蹤器在博弈中占有信息優勢地位,即追蹤器可獲知自身和機動目標過去所采取過的全部策略u(t)∈Uγ與v(t)∈Vl,而機動目標只能獲知t?δ時對策雙方的機動選擇u(t?δ)∈Uγ與v(t?δ)∈Vl.
由于海洋環境的復雜性和水聲物理場及水下智能體結構等因素的制約,在實際追蹤過程中,通常對抗雙方均不能獲得準確的狀態信息,博弈雙方具有不同的信息模式.雖然通過各自有限的觀測器和相應的濾波算法能實現狀態估計,但采用估計器估計系統狀態時,真實狀態的界是動態不確定的[18].為此,將連續時間廣義預測優化作為更新真實狀態界的方法,通過隨機干擾下系統輸出與追蹤器俘獲約束的實時預測調整,對追蹤器的最優控制進行滾動優化校正.
從非線性零和微分博弈的基本思想可以看出,由于各類不確定因素存在于整個追蹤過程中,單一的控制器無法調節復雜環境下的有效追蹤.具有顯式處理約束能力的連續時間廣義預測控制能對追蹤過程中的系統狀態輸出變量實施滾動預測優化,并對微分對策控制器進行實時補償校正,使追擊方在零和博弈中處于信息優勢地位.具有連續廣義預測校正的非線性追蹤博弈控制結構如圖1所示.

圖1 具有預測校正的非線性追蹤博弈控制結構Fig.1.Nonlinear tracking differential game control structure with CGPC corrector.
圖1中Tp為預測時域;yE(t)為滾動時域期望輸出;e(t,Tp)為預測時域實際輸出與期望輸出之間的偏差;Δu(t)為滾動時域的控制補償修正.假定系統輸出y(t)光滑連續,且其任意階導數存在,為滿足連續空間微分對策需要,采用CGPC對t+Tp時刻的追蹤博弈輸出狀態y(t,Tp)與最大目標俘獲期望輸出yE(t,Tp)的偏離進行補償校正[19].
由于CGPC算法的預測輸出計算以系統輸出信號的k階導數的仿真運算為基礎,因此先利用截斷Maclaurin級數進行模型預測計算:




式中t1為最小預測時域,t2為最大預測時域,Q∈Rm×m為正定矩陣,ρ為控制加權系數;


式中

將水下追蹤博弈雙方近似為同一水平面內的點質量模型,水下追蹤的相對運動關系可表示為

式中VA與VT分別為追蹤器和機動目標的速度;R與˙R分別為相對運動的距離和徑向速度;ηA與ηT為提前角,ηT=φT?q,ηA=φA?q;p=VT/VA;φA與φT分別為追蹤器的偏航角和機動目標的航向角;q與˙q分別為視線角和視線角速度.令VR=˙R,Vq=R˙q,取x=[R VRVq]為狀態向量,由(16)式求導并簡化處理可得

式中u=[uRuq]T,v=[vRvq]T分別為追蹤器和機動目標加速度沿視線方向與視線法向的對應分量.只考慮視線法向控制時當前t時刻對應的零控追蹤狀態z(t)可表示為

式中tf為追蹤終止時間,tgo為剩余航行時間.由于目標機動和干擾的影響,準確估計剩余航行時間十分困難[21].而滾動預測控制對終止時間不確定情形的最優控制具有良好的適應性,取超前預測時域為δ,則對有利提前角進行廣義預測與補償校正的同時,相應期望狀態?x?(t+δ)和零控估值?z(t+δ)的求解為

考慮到水下追蹤博弈控制的目的是保證相對距離減小的同時使視線角速率盡可能小,選取為系統的狀態轉移矩陣.由(9)式可得當前t時刻追蹤器具有預測估計的微分對策最優控制為

式中


滾動預測應用有效避免了微分對策導引對剩余航行時間的估計[22],但無法保證對目標的實時最大俘獲.而在追蹤博弈的過程中,抗除干擾、實時俘獲是追蹤器追蹤與命中目標的首要條件門.為實施有效追蹤,水下追蹤器采用自動調整提前角導引算法對機動目標進行實時俘獲.由于水下追蹤器的自導裝置與殼體固連,水下追蹤瞄準的過程實際對應追蹤器的姿態調整.水下追蹤器自導裝置波束的配置如圖2所示.

圖2 自導裝置波束配置Fig.2.Beam configuration of underwater acoustic homing device.
設追蹤器自導裝置的水平波束由7個波瓣組成,開始導引時零聲軸位于中間波瓣,當水平波瓣“抓住”目標后,先以中間波瓣對準目標.傳統的自動調整提前角算法只分析目標是否進入基準軸扇區后又離開,由于追蹤器運動的慣性作用,這種調整方法容易產生提前角超前現象[23].為消除此現象,在追蹤博弈過程中,根據廣義預測控制理論,采用ηA(t)與期望提前角ηE(t)的變化趨勢對不確定干擾下的ηA(t)進行補償校正,實現追蹤器姿態的及時調整.
由于目標機動、模型時變或干擾等不確定性因素的影響,追蹤的輸出不可能始終保證追蹤器具有最大俘獲概率,因此需要在實測輸出上加上誤差補償對自導俘獲進行反饋校正.由(16)式推導可得目標方位角輸出為

考慮自導搜索扇面俘獲約束,當自導扇面半角為θ時,ηA(t)應滿足

由于目標機動未知,追蹤器航行過程中的有利提前角實際上是一個角度范圍,在此范圍內,通過對相應時刻有利提前角的滾動預測調整,使追蹤器保持對機動目標的最大發現概率.根據概率論原理,參考圖3,t時刻追蹤器對機動目標俘獲概率最大的條件為:追蹤器的自導搜索扇面遮蓋的正負誤差絕對值相等,即將追蹤器自導搜索扇面中心線的前端點指向機動目標預定點所處的位置.

圖3 聲自導追蹤器有利提前角Fig.3.Optimal advance angle of acoustic homing tracker.
假定自導的單個波瓣扇面角不大于10°,由文獻[24]可知t時刻攔截器的有利提前角可近似為

式中ηE(t)為t時刻追蹤器的期望有利提前角;R(t)為當前時刻水下追蹤博弈雙方的相對距離;q(t)為當前時刻的目標舷角;VA為攔截器的速度;VT為機動目標速度;r為聲自導最大作用距離.將自導探測的目標方位角ηA(t)所處自導扇區的編號標記為目標位置NT(t);有利提前角ηE(t)所處的扇區編號標記為基準軸NB(t)[25].目標位置與基準軸偏差為ξ(t),則下一有限時段δ的基準軸變化趨勢為

式中Δη為對應δ時段內廣義預測控制Δu?(t)對自導扇面的調整角度.
為配合處于連續變量空間的微分對策控制,采用CGPC算法對t+δ時刻的追蹤博弈狀態與具有約束的當前時刻的有利提前角ηE(t+δ)的偏離進行滾動反饋補償校正.由(10)—(15)式推導可得

由此可得,含有t+δ預測信息的微分對策最優控制為

可見,在水下追蹤博弈過程中,對于任意給定的對策控制集(Uγ,Vl),由于采用了連續時間廣義預測控制,追蹤器可根據自身和機動目標在過去一段時域內所采取的所有控制策略和過程俘獲約束所預測的對手的額外信息,對未來t+δ時刻的狀態進行超前補償控制Δu(t),使追蹤器實現快速姿態調整,將機動目標鎖定在最大俘獲扇面之內,并在t時刻控制時可以惟一構造出追蹤博弈雙方的控制函數[uδ(t),vδ(t)],其中uδ(t)為追擊方的上δ控制策略,vδ(t)為目標的下δ控制策略,使追蹤器在追蹤博弈中處于信息優勢地位,為追蹤器迅速精準的追蹤提供有力保障.
為了驗證該導引策略的有效性,對水下具有未知機動能力的目標追蹤進行仿真分析.根據水聲物理場特性和自導裝置的測量精度,假定水下智能體對徑距和徑向速度的測量誤差為5%,對機動目標方位角的測量誤差為±2°.水下智能體速度為40 kn(1 kn=1.852 km/h),初始航向角為55°,機動目標的航速為35 kn,初始視線角為30°,初始相對距離為210 m.廣義預測控制器的參數為δ=0.3 s,t1=0,t2=1.5 s,Tp=3 s,為了驗證CGPC-NDG(微分對策控制算法)性能,將輸出量近似解耦為有利提前角偏差輸出與相對距離,比較輸出量隨時間的變化趨勢與微分對策控制算法的仿真結果,如圖4所示.
由圖4(a)目標方位角與有利提前角之間的偏差隨時間的變化趨勢可以看出,由于CGPC-NDG導引能對有利提前角偏差趨勢進行預測補償,在較短時間俘獲調整后,追蹤器可將機動目標鎖定在較小偏差范圍內,對目標機動實施超前校正,實現追蹤狀態的迅速調整,從而保證對機動目標的有效俘獲.圖4(b)相對距離變化趨勢表明,在目標機動改變時,NDG導引的相對位移變化緩慢.兩種算法下的追蹤軌跡仿真結果如圖5所示.

圖4 相關輸出隨時間的變化趨勢 (a)有利提前角偏差隨時間的變化趨勢;(b)相對距離隨時間的變化趨勢Fig.4.Variation trend of correlation output values with time:(a)Variation trend of the optimal advance angle;(b)variation trend of relative distance.

圖5 追蹤博弈軌跡Fig.5.Tracking trajectory of different guidance control.
由圖5可知,NDG導引算法的追蹤軌跡受目標機動的影響形成蛇形航跡.原因在于NDG導引只能對追蹤器自導俘獲的極值范圍進行約束,在追蹤中容易導致Bang-Bang控制,出現提前角超調現象,這不僅容易導致目標漏檢,而且造成部分航程的浪費.采用CGPC-NDG導引算法時,由于對目標機動具有預見性,不僅能對軌跡進行及時調整,使追蹤運動軌跡平滑,而且能有效提高追蹤器控制的穩定性,縮短追蹤導引航程,更快達到追蹤目的.由上述分析可知,相比NDG導引追蹤,由于CGPC算法的引入,實施CGPC-NDG導引控制時,追蹤器通過滾動反饋預測校正,能對未來時域目標機動的軌跡方向進行預判,并在滿足約束的條件下,控制智能體以幾乎零延遲的速度調整追蹤姿態,在確保精準追擊的同時,有效提高了控制系統的響應速度.
對基于連續時間框架設計的CGPC算法與離散廣義預測算法在水下微分博弈中的應用效果進行分析.設定GPC算法的采樣時間T=0.3 s,兩種預測算法對應的提前角偏差變化趨勢和調節追蹤器姿態變化的控制量隨時間的變化如圖6所示.

圖6 基于不同預測控制算法的有利提前角偏差變化趨勢(a)CGPC算法;(b)GPC算法Fig.6.Variation of the optimal advance angle for different predictive control algorithms:(a)CGPC algorithm;(b)GPC algorithm.
由圖6可知,由于采用了預測控制算法,追蹤器的有利提前角均能在短時間內被鎖定在較小的偏差范圍之內,但相比GPC導引,CGPC導引控制能在1 s內快速完成最佳有利提前角的調整,并在導引末端控制有利提前角偏差在零位附近微小波動,而GPC導引則需2 s才能完成調整,且在末端有利提前角偏差有發散趨勢.因此,CGPC導引具有更快的響應速度,能快速跟蹤機動目標變化和抑制干擾,更有利于精準追蹤導引的實現.分析兩種算法對應的控制量曲線,如圖7所示.
由圖7可知,CGPC導引的采樣時間選擇靈活,不受采樣周期的影響,能在較快的采樣時間條件下反映時間常數的變化過程.結合具有一致性的微分對策性能指標的滾動優化反饋控制,通過連續時間的有效控制,使導引末端的控制量逐漸趨于零位.而GPC控制性能受采樣時間的影響較大,不僅在初始段的調整力度大,而且在導引末端無法實現較好的收斂,不利于攔截器的控制穩定性.

圖7 不同預測控制算法對應的控制量變化曲線Fig.7.Variation of the control value for different predictive control algorithms.
將NDG,GPC-NDG與CGPC-NDG算法分別應用于終端交會角約束為零的水下追蹤博弈導引,并通過終端交會角偏差、脫靶量與交會時間進行導引性能分析與比較,結果見表1.

表1 不同導引律的追蹤博弈結果Table 1.Results of different tracking game guidance laws.
從追蹤博弈結果來看,采用CGPC-NDG算法的終端脫靶量和交會時間明顯優于其他兩種導引律.雖然GPC-NDG算法通過選取合適的檢測周期,對機動目標參數進行延遲補償與預判,其終端脫靶量和交會時間能夠滿足水下追蹤博弈要求,但檢測周期的選擇需要一定的先驗信息,而CGPCNDG算法克服了檢測周期選取造成的目標漏檢,通過連續時間滾動優化與反饋校正,推進水下微分對策動態博弈,使追蹤器實時保持對機動目標的最大發現概率,從而獲得優于GPC-NDG的追蹤博弈結果.
由性能分析和追蹤導引結果可知,GPC-NDG導引算法可靈活選擇采樣時間,對非最小相位系統也無需控制加權,能有效克服GPC設計方法的固有缺陷和微分對策導引的保守性,實現不確定干擾環境下探測方式受限時對水下機動目標的高精度最優在線追蹤與預測校正.
提出了一種應用于不確定水聲環境,在自導裝置探測周期長的情況下,實現對機動未知目標的高精度最優在線追蹤與預測校正的CGPC-NDG算法.該算法利用微分博弈動態對抗,使追蹤器對機動目標追蹤實施“最壞”情況下的“最佳”控制,有效克服目標機動難以預測的情形.同時,利用CGPC算法對目標機動偏離趨勢進行預測,并進行在線校正補償,將目標鎖定于追蹤器的最大俘獲自導扇面范圍之內,使追蹤器在微分博弈對抗中處于信息優勢地位,為提高追蹤的精準性與快速性提供必要保障.動態對抗與預測控制兩種算法的有效融合,使追蹤器以幾乎零延遲的速度,根據機動目標的運動軌跡調整自身姿態,實現對機動目標的有效追蹤.對不同算法控制下追蹤航跡和導引性能的仿真比較表明所提算法有效、可靠,對外界干擾具有強的魯棒性,具有一定的工程應用價值.
[1]Dong Z P,Wan L,Li Y M,Liu T 2015Int.J.Nav.Arch.Ocean7 817
[2]Qin J X,Katsnelson B,Li Z L,Zhang R H,Luo W 2016Acta Acustica41 145(in Chinese)[秦繼興,Boris Katsnelson,李整林,張仁和,駱文2016聲學學報41 145]
[3]Hu Z G,Li Z L,Zhang R H,Ren Y,Qin J X,He L 2016Acta Phys.Sin.65 014303(in Chinese)[胡治國,李整林,張仁和,任云,秦繼興,何利2016物理學報65 014303]
[4]Chen Y F,Li G J,Wang Z S,Zhang M W,Jia B 2013Acta Phys.Sin.62 084302(in Chinese)[陳云飛,李桂娟,王振山,張明偉,賈兵2013物理學報62 084302]
[5]Shojaei K,Dolatshahi M 2017Ocean Eng.133 244
[6]Zhang P,Fang Y W,Zhang F M,Xiao B S 2012Chinese J.Aeronaut.25 739
[7]Zhang Y,Xu Q,Sun M W,Chen Z Q 2015Acta Phys.Sin.64 010502(in Chinese)[張園,徐琦,孫明瑋,陳增強2015物理學報64 010502]
[8]Yu G F,Li D F,Qiu J M,Ye Y F 2016Control Decis.31 2013(in Chinese)[余高鋒,李登峰,邱錦明,葉銀芳2016控制與決策31 2013]
[9]Wei H,Gao F,Wang D K,Wen G H,Pan L D 2007J.Syst.Sim.19 27(in Chinese)[魏環,高峰,王東凱,聞光輝,潘立登2007系統仿真學報19 27]
[10]Yong K H,Farouq S M,Hark K Y 2012Chem.Eng.84 479
[11]Oksendal B,Sulem A 2014J.Optimiz.Theory Appl.161 22
[12]Kamel O,Tou fik R,Mohand O 2014ISA Trasac.53 76
[13]Chen Y,Zhang R M,Zhao X Y 2016Ocean Eng.15 123
[14]Zhang H G,Wei Q L,Liu D R 2011Acta??????47 207
[15]Fu Y,Chai Y 2015Control Theory Appl.32 196(in Chinese)[富月,柴佑2015控制理論與應用 32 196]
[16]Liu X D,Li K,Sun J,Fu X L,Zhang C H 2015Control Theory Appl.32 1640(in Chinese)[劉旭東,李柯,孫靜,符曉玲,張承慧2015控制理論與應用32 1640]
[17]Zhang P,Fang Y W,Hui X B 2013Acta Automatica Sin.39 391(in Chinese)[張平,方洋旺,惠曉濱 2013自動化學報39 391]
[18]Ping X B,Ding B C,Han C Z 2012Acta Automatica Sin.38 31(in Chinese)[平續斌,丁寶蒼,韓崇昭 2012自動化學報38 31]
[19]Krid M,Benamar F,Lenain R 2017Int.J.Control Autom.15 303
[20]Yan Z P,Liu Y B,Zhou J J,Zhang W,Wang L 2017Chin.Phys.B4 79
[21]Sarkar M,Nandy S,Vadal S R K 2016Math.Comput.Simulat.121 34
[22]Li H P,Yan W S,Shi Y 2017Syst.Control Lett.75 144
[23]Gao J,Liu C X 2015J.Northwest Polytechnical Univ.33 861(in Chinese)[高劍,劉昌鑫 2015西北工業大學報33 861]
[24]He J Z,Fu T P,Wu X H 2011Comput.Dig.Eng.39 21(in Chinese)[何建忠,傅調平,吳曉海 2011計算機與數字工程39 21]
[25]Fan H,Zhang Y W,Li W Z 2008J.Northwest Polytechnical Univ.26 743(in Chinese)[范輝,張宇文,李文哲2008西北工業大學學報26 743]