劉建生,程曉敏,丁 帥,宋麗瓊,侯宇辰
(北方自動控制技術(shù)研究所,太原 030006)
隨著無人技術(shù)、人工智能技術(shù)、大數(shù)據(jù)技術(shù)的發(fā)展,戰(zhàn)場感知越來越泛在化、集群作戰(zhàn)越來越自主化和協(xié)同化、作戰(zhàn)體系越來越云態(tài)化。傳統(tǒng)的防空火力控制技術(shù)已經(jīng)難以滿足新形勢下的作戰(zhàn)需求[1]。
在傳統(tǒng)武器裝備設(shè)計中,防空火力控制技術(shù)的實現(xiàn)方式主要是依據(jù)先驗知識,建立一系列數(shù)學模型在探測跟蹤、運動假定、時空配準、目標分配、決策生成、協(xié)同控制等方面進行預(yù)測、控制、評價,其整個控制過程是時不變參數(shù)、時不變結(jié)構(gòu),不具備有效利用大量在線數(shù)據(jù)、離線數(shù)據(jù)進行挖掘分析、關(guān)聯(lián)規(guī)則形成自學習、自修正的能力。這種能力缺失導致傳統(tǒng)火力控制技術(shù)存在諸多不足,主要體現(xiàn)在:目標運動假定模型單一,只涵蓋有限幾種經(jīng)典運動方程,對臨空攻頂、無人機蜂群、高機動等目標缺乏有效狀態(tài)空間模型;信息融合與傳感器緊耦合,不能有效處理信息的多樣性和不確定性;決策分析沒有真正的集數(shù)據(jù)、模型、知識于一體,只是運用模型和數(shù)據(jù)庫進行局部推理,缺少知識的提取、歸納、管理,不具備人工智能的基因;效能評估指標體系的構(gòu)建還是基于專家系統(tǒng),影響它的完備性、客觀性、時效性[2-5]。
綜上所述,通過引入大數(shù)據(jù)思想,有效利用歷史數(shù)據(jù)、仿真數(shù)據(jù)、實時在線數(shù)據(jù),針對傳統(tǒng)火力控制技術(shù)中時敏目標狀態(tài)空間模型構(gòu)建、大閉環(huán)校射、協(xié)同信息處理、控制決策、效能評估等薄弱環(huán)節(jié),運用數(shù)據(jù)挖掘、深度學習、神經(jīng)網(wǎng)絡(luò)等技術(shù),提升火控系統(tǒng)自修正、自學習能力,推動火力控制技術(shù)的創(chuàng)新升級,為武器裝備向無人化智能化方向發(fā)展提供技術(shù)支撐[6-7]。
2017 年3 月,美軍發(fā)布《美國陸軍機器人與智能系統(tǒng)戰(zhàn)略》,是美陸軍在應(yīng)用人工智能技術(shù)方面的戰(zhàn)略規(guī)劃,提出了戰(zhàn)略發(fā)展目標,描繪了機器人和智能系統(tǒng)的發(fā)展方向;2017 年4 月份,美軍方與谷歌公司開展了“加快國防部整合大數(shù)據(jù)和機器學習”的項目,重點推動美軍在深度學習、智能算法、軍用機器人等方面的技術(shù)革新;2018 年8 月,美國防部發(fā)布《2017-2042 年無人系統(tǒng)綜合路線圖》,該路線圖針對系統(tǒng)自主性梳理了4 項關(guān)鍵技術(shù),將人工智能和機器學習作為第一關(guān)鍵技術(shù)[8]。
國內(nèi)對人工智能在軍事領(lǐng)域的應(yīng)用研究也逐漸成為熱點,孫志軍等人利用深度學習方法,提高了雷達識別目標的準確率;張樂等人研究了基于自編碼神經(jīng)網(wǎng)絡(luò)的裝備體系評估指標方法;朱豐等人研究了基于深度學習的戰(zhàn)場態(tài)勢評估;劉忠采用深度學習技術(shù)開展了智能指揮控制方法的研究等;尤其在無人機和裝備故障診斷領(lǐng)域,人工智能算法已經(jīng)在武器裝備上進行工程實踐[9]。
本文主要探索大數(shù)據(jù)、數(shù)據(jù)挖掘、深度學習等技術(shù)與武器裝備火力控制的結(jié)合點,用大數(shù)據(jù)思維推動火力控制技術(shù)升級,從以“模型”為核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)+模型”為核心,注重火力控制各環(huán)節(jié)相關(guān)性的挖掘分析,以數(shù)據(jù)被動應(yīng)用轉(zhuǎn)變?yōu)橹R的學習管理,從而使得武器裝備在目標探測跟蹤、誤差自修正、分布式信息處理與控制決策、毀傷評估等方面,具備一定程度的感知推理、決策分析、自主控制等能力。

圖1 技術(shù)實現(xiàn)原理
基于大數(shù)據(jù)的目標狀態(tài)空間模型分析方法,是將數(shù)據(jù)驅(qū)動的思想引入傳統(tǒng)的模型識別,利用存儲的大數(shù)據(jù)信息中包含的多種目標屬性信息和運動狀態(tài)信息進行判斷、比對,有效地修正目標狀態(tài)空間模型的使用種類以及使用參數(shù)。同時根據(jù)誤差分析,對選擇的目標狀態(tài)空間模型進行有效性判定。最終,大幅提升對空間目標的跟蹤、解算精度,進而提升對目標的毀傷概率[10]。
初始模型庫的建立是根據(jù)一定的歷史數(shù)據(jù)和先驗知識,設(shè)計一個由有限模型數(shù)據(jù)組成的模型集。其中每個模型對應(yīng)某類目標的一種或者多種,包含有目標飛行特性、目標不同階段的運動特性、預(yù)測誤差等的數(shù)據(jù)集合。
目標狀態(tài)空間初始模型庫包含了不同類型目標在各個階段多種可能的運動狀態(tài)估計。它是根據(jù)每類目標不同階段的運動特點,由幾種典型的運動狀態(tài)估計擬合形成的。其中包括:勻速運動、勻加速度運動、變加速度運動、轉(zhuǎn)彎運動、俯沖運動、懸停機動等等。
基于模型的運動狀態(tài)估計對模型庫的依賴很大,一方面為了提高估計精度需要不斷增加模型數(shù)量,另一方面多模型組合也無法應(yīng)對越來越復雜的目標機動,以及越來越不確定的實戰(zhàn)空情[11]。
為解決上述問題,引入深度信念網(wǎng)絡(luò)(DBN)和目標運動數(shù)學模型相結(jié)合,通過使用訓練好的DBN模型產(chǎn)生運動狀態(tài)預(yù)測值修正基于模型的目標運動狀態(tài)估計,維持對目標高精度預(yù)測跟蹤。
基本原理如圖2 所示。

圖2 基于數(shù)據(jù)和模型的目標狀態(tài)空間自學習方法實現(xiàn)原理
1)實時觀測數(shù)據(jù)分別通過運動模型和深度信念網(wǎng)絡(luò)進行系統(tǒng)狀態(tài)估計,估計值進行時空配準、誤差評估分析,誤差評估分析可采用逆解法;
2)將相關(guān)時間內(nèi)的誤差進行統(tǒng)計分析,評估當前空情條件下的DBN 學習能力和模型組合預(yù)測能力,實時修正跟蹤參數(shù),保持對目標的高精度跟蹤;
3)能夠?qū)Ρ敬蔚膶W習進行知識歸納,形成知識存儲于數(shù)據(jù)庫中;
4)深度信念網(wǎng)絡(luò)訓練可以采用線下和線上學習,線下學習主要依據(jù)數(shù)據(jù)庫進行樣本稀疏學習。
雷達和光電探測設(shè)備是武器裝備的主要探測手段,它們的表現(xiàn)形式不同、數(shù)據(jù)精度、時空信息不一致,為綜合利用這些數(shù)據(jù),采用將單一數(shù)據(jù)源的特征提取后,研究特征空間中的融合算法[12-13]。
總體思路是運用修正的DS 證據(jù)理論實現(xiàn)決策層上的信息融合。由于神經(jīng)網(wǎng)絡(luò)是一種提取證據(jù)的有效方法,因此,在特征層上根據(jù)多頻譜傳感器提供特征向量的特點,分別選取合適的神經(jīng)網(wǎng)絡(luò)對目標進行初步的分類識別,即得到目標對每個類別屬性的隸屬度輸出。神經(jīng)網(wǎng)絡(luò)的每次輸出作為一條證據(jù),在決策層上用證據(jù)理論的方法把每次得到的證據(jù)不斷地結(jié)合起來,得出最后的融合識別結(jié)果。

圖3 分布式異類信息處理流程
基于D-S 證據(jù)理論的融合過程如圖4 所示。

圖4 多特征綜合識別流程
具體的融合處理步驟為:首先,分別對各數(shù)據(jù)源構(gòu)造基本概率分配函數(shù)并計算相應(yīng)的證據(jù)區(qū)間;然后,利用證據(jù)合成規(guī)則得到多數(shù)據(jù)源融合后的聯(lián)合證據(jù)區(qū)間;最后,依據(jù)一定的決策規(guī)則得到融合后的目標屬性。
將卷積神經(jīng)網(wǎng)絡(luò)學習與傳統(tǒng)火力控制技術(shù)相結(jié)合,挖掘火力控制各誤差環(huán)節(jié)的相關(guān)性以及誤差對脫靶量的影響值,最終實現(xiàn)系統(tǒng)自修正[14]。
彈目偏差主要與目標位置x,y,z、速度vx,vy,vz、加速度ax,ay,az、角加速度ωβ,ωε、炮口初速v0、空氣密度ρ、海拔高度H、橫風Fx和縱風Fy、修正值Cβ,Cω(若無修正則為零)這18 個變量有關(guān),因此,脫靶量值所需構(gòu)造的工作式應(yīng)當是如下的形式:

由于自變量的多樣性以及空間的復雜性,擬合的函數(shù)形式必將是一個含有多個變量,且階次較高的非線性函數(shù)。基于卷積神經(jīng)網(wǎng)絡(luò)對于解決多變量、高階目標函數(shù)問題一般都有較好的結(jié)果。將數(shù)據(jù)庫中的歷史數(shù)據(jù)作為學習的樣本集。具體實現(xiàn)過程如下:對訓練樣本集進行歸一化處理,這樣可以避免學習過程的連接權(quán)值過大的問題,得以保證學習訓練過程不會發(fā)生計算溢出問題。
輸入層18 個輸入神經(jīng)元表示18 個輸入變量,輸出層有2 個神經(jīng)元表示彈目偏差。

圖5 基于卷積神經(jīng)網(wǎng)絡(luò)的射擊諸元修正技術(shù)
自學習防空火力控制系統(tǒng)主要包含在線自學習系統(tǒng)和線下深度學習訓練。
在線自學習系統(tǒng)主要包括自主感知和自主攔截決策兩部分功能。自主感知能夠?qū)Ψ植际蕉嘣赐瑯?gòu)或異構(gòu)信息進行綜合處理,消除可能存在的冗余和矛盾信息,對目標運動狀態(tài)和類型進行判斷識別,形成對作戰(zhàn)環(huán)境相對完整一致的描述,為自主攔截決策提供準確信息支撐;研究基于強化學習的自主攔截決策技術(shù),較好地集成數(shù)據(jù)、模型和知識,有效彌補傳統(tǒng)控制決策協(xié)同機制、規(guī)則建模難度大、決策結(jié)果穩(wěn)定性差的問題,為武器平臺間協(xié)同作戰(zhàn)提供決策支持,決策結(jié)果主要包括協(xié)同探測、跟蹤、火力分配、攔截方式等[15]。
線下深度學習訓練方法主要進行模型訓練,為智能決策系統(tǒng)提供科學的模型。它利用訓練樣本庫進行卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)訓練,形成目標軌跡預(yù)測模型、目標類型識別模型;通過卷積神經(jīng)網(wǎng)絡(luò)估計值函數(shù)建立回報函數(shù)初始值,并通過逆向強化學習的方法對指揮決策范例庫數(shù)據(jù)進行強化學習完善回報函數(shù)[16]。

圖6 自學習防空火力控制系統(tǒng)原理
強化學習是智能體以“試錯”的方式進行學習,通過與環(huán)境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞。強化學習不同于連接主義學習中的監(jiān)督學習主要表現(xiàn)在信號上,強化學習中由環(huán)境提供的強化信號是對產(chǎn)生動作的好壞作一種評價標準。由于外部環(huán)境提供的信息很少,系統(tǒng)必須靠自身的經(jīng)歷進行學習。通過這種方式,在行動-評價的環(huán)境中獲得知識,改進行動方案以適應(yīng)環(huán)境[17]。
自主攔截決策的難點在于強化學習網(wǎng)絡(luò)和回報函數(shù)的建立。其基本流程如下:
1)隨機生成一個策略作為初始策略值;
2)通過比較“專家”的交互樣本和系統(tǒng)自身交互樣本的差別,學習得到回報函數(shù);
3)利用回報函數(shù)進行強化學習,提供系統(tǒng)決策水平;
4)若兩個策略的實際作戰(zhàn)效果基本相同,可停止學習,否則回到第2)步。
為保證訓練樣本庫中的數(shù)據(jù)具備良好的可信度、代表性和覆蓋性,數(shù)據(jù)來源主要依托單位在裝備型號研制過程中采集的靶場數(shù)據(jù)。裝備型號涵蓋警戒雷達、光電搜跟設(shè)備、防空高炮武器、防空導彈以及營連指揮控制系統(tǒng)等10 余種裝備;靶場數(shù)據(jù)主要包括S70 低速靶機、S300 高速靶機、無人機、殲7B 等目標飛行數(shù)據(jù),以及光電/雷達探測的視頻、圖像、數(shù)據(jù)等。訓練樣本庫中數(shù)據(jù)的數(shù)量和質(zhì)量能夠滿足模型訓練的要求[18]。

圖7 基于強化學習的自主協(xié)同決策實現(xiàn)
本文旨在提出一種設(shè)想對傳統(tǒng)防空火力控制技術(shù)進行技術(shù)升級,推動傳統(tǒng)火力控制技術(shù)的升級換代,有效解決末端防御正面臨的以下問題:如何應(yīng)對機動目標跟蹤預(yù)測建模?如何快速決策應(yīng)對臨空目標?如何快速形成武器平臺間自主協(xié)同決策?如何應(yīng)對飽和攻擊等一系列技術(shù)難題。研究形成的新方法新技術(shù)能指導未來新型防空武器火力控制系統(tǒng)、一體化協(xié)同作戰(zhàn)武器系統(tǒng),以及強激光/電磁炮等新概念武器的研制,提升武器的智能化作戰(zhàn)水平。