劉 欽 韓春雷 張 揚 劉美云 郭 良 劉 蔚
(中國電子科技集團公司第二十研究所 西安 710068)
面對敵方由大量巡航導彈、戰術彈道導彈及各種高性能作戰飛機組成的空襲兵力群的立體打擊威脅,戰場指揮員需要迅速做出準確、合理的對空指揮決策,一方面能夠降低我方防空彈藥消耗量,節省彈藥后殺傷更多的敵方空襲兵器;另一方面能提高防空作戰效能,最大程度殺傷空中來襲目標,盡可能使我方免受空中打擊而降低損失。
但是,隨著空襲環境的復雜化,空襲武器數量、類型多樣化,人類智能已無法在短時間內應對多目標、多對多的指揮決策計算和判斷。現代戰場對防空作戰指揮的實時性和高效性提出了更高的要求。為保證指揮員及時做出科學的決策,必須借助人工智能技術模擬人類智能,在數據和經驗中總結人類智慧,利用計算機進行高速計算實現實時決策。
本文從防空作戰的實際需求出發,針對人工智能在對空指揮決策中的應用進行論述,首先介紹了人工智能技術的概念;其次概括了人工智能在對空指揮決策中的技術優勢;然后,分別從威脅評估、目標分配、分布式架構、仿真驗證等方面對其應用情況進行詳細論述;最后,簡要介紹了人工智能技術在指控領域應用時需要解決的具體問題。
雖然人人都在論說“人工智能”,但是每個人心目中所想象的“人工智能”卻各不相同。人工智能的幾種經典的定義:
1)麥卡錫(John McCarthy)在1956年達特茅斯(Dartmouth)夏季學術討論會首次提出人工智能概念。人工智能就是“利用計算機技術從功能上來模擬人類智能”。
2)百度詞條中將人工智能解釋為,研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。
3)“人類智能”是“人工智能”的原型;“人工智能”是“人類智能”的某種人工實現。這是我們的認知。
從發展歷程看,人工智能可分為運算、感知和認知智能等三個發展階段。

圖1 人工智能技術發展歷程
1)運算智能以高速計算和存儲能力為代表。以科學運算、邏輯處理、統計查詢等形式化、規則化運算為核心。機器早已在這一級別超過人類。
2)感知智能是指觸覺、視覺、聽覺等感知能力。以圖像理解、自然語音處理為代表。機器已在這一級別接近人類。
3)認知智能是讓機器學會主動思考及行動,以期輔助或替代人類工作,以理解、推理和決策為代表。這一級別研究難度很大,進展緩慢。軍事領域的應用也主要集中在認知智能上,利用機器來代替人腦進行推理和決策。
從人工智能的分類圖上可以看出,人工智能技術體系龐雜,應用廣泛。以數學理論為基礎,以機器學習[1-2]為主要研究領域。雖然機器學習和人工智能還存在嚴格的概念上的區分,但是大量的可參考資料和研究成果幾乎已經將人工智能技術和機器學習技術畫上了等號。同時還包括神經網絡、深度學習和其它群體智能技術。深度學習作為機器學習技術的子領域,從2006年開始,對其研究關注和研究成果出現了爆炸式的增長,已然成為機器學習的主流。
由于防空態勢中的目標數量多,我方成員多,且各平臺具有同時跟蹤、攻擊多目標能力,是一個典型的多對多的復雜非線性問題。態勢中用于指揮決策的信息量巨大,很難從龐大的數據中尋求數據間的內在關系,沒有一個明確的數學解析式可用于計算,因此做出的決策往往不是準確的,因為不是最佳的。
人工智能中BP神經網絡類方法由于具有很好的函數逼近能力,通過學習訓練樣本,能較好地映射輸出與輸入間復雜的非線性關系,是目前應用得最為廣泛的神經網絡模型之一。

圖2 人工智能算法分類

圖3 人工智能、機器學習和深度學習的關系
由于戰場環境復雜,可獲得的用于決策的信息往往是有限的、不完全的,并且有些信息不明確,因此采用專家系統以及傳統統計方法等決策技術對此無能為力。
同時,傳統指揮決策算法多是基于專家經驗和規則的(在廣義上專家系統也是人工智能,只是沒有學習能力的人工智能)。這些規則和經驗是人類從以往決策實踐中總結出來的。從理論上來講,對于不同的戰場環境,總是存在以往設計的規則不能覆蓋的地方。換句話說就是人類無法窮盡所有的規則,這種情況需要具有學習能力和推理能力的人工智能系統來彌補,以應對復雜多變的戰場環境。
1)預測能力
態勢中用于決策的目標狀態總是滯后的,也就是說將雷達探測信息進行融合、識別處理后,進行決策時,目標位置早已發生改變。而指揮決策所需的目標狀態信息應該越新越好[3],這樣才能做出準確決策。神經網絡具有很好的預測能力,可以用來解決這一問題。
2)并行工作能力
傳統的指揮決策方法多是由專家經驗和邏輯規則組成,這種串行執行的邏輯規則使得決策嚴重滯后。具有并行工作方式的深度學習方法也可以加快決策制定速度。
傳統基于規則的算法中,當多條規則同時被滿足時,就會產生決策沖突。經過邏輯規則篩選后的態勢信息可能已不具備協調沖突能力。而在這種典型情況下,基本的態勢信息中可能富含更多用于解決沖突的信息。基于大數據學習的人工智能算法,可以將初始的態勢信息記憶在網絡權值中,通過對誤差項的修正不斷逼近最優決策,最大限度地保留原始數據中的有效信息。
對空指揮決策,除了經驗可以利用,還有大量的仿真、模擬、對抗演練的數據,這些數據中包含著寶貴的知識與智能。對這些數據的挖掘利用,提高指揮決策水平需要人工智能技術。
人工智能的真正挑戰在于解決那些對人來說很容易執行、但很難形式化描述的任務,對于這些問題,我們人類往往可以憑借直覺輕易地解決。在軍事領域,例如在防空作戰中,指揮員可以根據目標的態勢標繪,從主觀上判斷出目標的作戰意圖和威脅等級,進而可以給出針對該目標的攔截方案。
隨著深度學習的迅猛發展,其應用也越來越廣泛,特別在視覺識別、語音識別和自然語音處理等很多領域都表現出色。卷積神經網絡(Convolutional Neural Network,CNN)作為深度學習中應用最為廣泛的網絡模型之一,也得到了越來越多的關注和研究[4]。事實上,CNN作為一項經典的機器學習算法,早在20世紀80年代就已被提出并展開一定的研究。但是,在當時硬件運算能力有限、缺乏有效訓練數據等因素的影響下,人們難以訓練不產生過擬合情形下的高性能深度卷積神經網絡模型。所以,之前CNN的經典應用場景就是用于識別手寫數字。伴隨著計算機硬件和大數據技術的不斷進步,人們也嘗試開發不同的方法來解決深度CNN訓練中所遇到的困難,特別是Krizhevsky等專家提出了一種經典的CNN架構,論證了深度結構在特征提取問題上的潛力,掀起了深度結構研究的浪潮。而卷積神經網絡作為一種已經存在的、有一定應用案例的深度結構,也重新回到人們的視野中,得以進一步研究和應用。
基于深度學習算法的目標識別框架如圖4所示,其在訓練過程中自動生成特征提取器,而不再基于人工設計。特征提取器由一些特殊的神經網絡類型組成,權重可以在訓練過程中自動獲取。可見,深度網絡的特點和優勢就在于將人工設定特征提取轉變成自動生成特征。

圖4 基于深度學習算法的目標識別框架
步驟1:首先對于待識別的目標(某些型號的飛機和導彈),采集其不同飛行姿態下的序列圖像信息,并進行類別標簽的設定(機型和導彈型號的標定);
步驟2:將所采集的樣本數據進行劃分,一部分用于識別模型構建(訓練樣本),另一部分用于測試分析和系統性能的評估(測試樣本);
步驟3:通過識別模型(訓練所得的深度神經網絡),對所獲取的目標數據進行識別,能夠確信的目標類別信息直接輸出,不能夠完全確信和未知信息則可通過專家系統進行決策分析,同時可以添加新的目標樣本并進行深度學習網絡的更新,提升網絡的不斷自主學習性能。
基于智能算法的目標分類識別所需關鍵技術主要包含兩個模塊:數據集的采集與處理、識別模型構建與智能決策分析。
戰術意圖推理問題的核心是如何從相關數據中統計和學習先驗知識[5]。作戰意圖的分析需要采用推理知識庫,知識庫的構建需要一系列的邏輯規則。而邏輯規則由邏輯知識片段構成,它們可以由歷史數據或樣本數據的統計和挖掘來發現。構建描述基本邏輯關系、概率遷移邏輯、序列關系邏輯的邏輯知識片段模型,來表征觀測目標相關屬性、類型、狀態、行為模式以及戰場環境等態勢要素內部及其相互之間的邏輯關聯關系,從而形成基于動態貝葉斯網絡[6]、序列貝葉斯網絡、多實體貝葉斯網絡的規則知識體系。

圖5 作戰意圖推理規則發現流程
1)基本邏輯片段B-MFrag,表達隨機事件之間的相互邏輯關系。將邏輯片斷B-MFrags所表達的過程構造為BN模型中的隨機事件之間的邏輯關聯關系。
2)概率遷移邏輯片段PT-MFrag,描述隨機事件狀態概率遷移過程。將PT-MFrags邏輯片斷所表達的過程構造為SBN模型中子序列的馬爾可夫序列過程。
3)序列關系邏輯片段SR-MFrag,描述隨機事件狀態時序序列和根事件狀態空間的對應關系。將邏輯片斷SR-MFrags所表達的過程構造為SBN模型中根事件與子序列之間的分解關系。
威脅判斷是對敵方目標威脅程度的量化過程,是指揮控制決策的重要前提。傳統方法采用多屬性決策理論、層次分析法等方法,依靠專家經驗,主觀性較強,不具備自學習和自適應能力。
通過態勢分析以及外部情報獲得目標類型、目標作戰能力、目標干擾能力、目標意圖等定性指標;對于定性的指標通過貝葉斯網絡進行推理,構建評估模型,確定網絡節點參數,最后推理得到靜態威脅估計值。通過雷達實時測得目標的速度、高度、距離、航向角等定量指標。對于這些定量指標的變化關系,可以通過測得的樣本進行神經網絡訓練。首先需要對數據進行離散化,然后利用訓練樣本構建網絡,最后用訓練好的網絡對測試樣本進行測試輸出動態威脅度值。最終通過線性加權得到目標的綜合威脅度。

圖6 智能威脅評估框架
指揮決策由傳統威脅判定和目標分配到智能威脅判定和目標分配的過渡的途徑是“專家經驗”和“仿真數據”。因此,利用人工智能的兩個關鍵途徑是:
1)建立威脅判定和目標分配的規則庫,來完成對專家經驗的整理、積累和利用;
2)對模擬對抗數據的產生、積累、評價和利用,建立威脅判定和目標分配的數據庫。
這兩個資源是智能的來源,利用好了這兩個資源才能實現對空指揮決策人工智能技術。
以3層神經網絡模型為例,模型的輸入層為4個節點,表示每個目標的4個距離特征:d1、d2、d3、d4;隱藏層也有4個節點,為中間節點;輸出層有1個節點,采用softmax函數進行多分類輸出,輸出值為0、1、2、3其中之一,表示該目標該由哪條平臺進行打擊。
神經網絡模型的結構如圖7所示。

圖7 目標分配的神經網絡模型
神經網絡在沒有數據輸入時,其不同層之間的權值是隨機初始化的,在沒有數據訓練的情況下,測試輸出的正確性為0.25(隨機選擇)。在大量目標數據(專家經驗)訓練迭代下,神經網絡的權值對于結果擬合的越來越準確。其中擬合方法采用反向梯度下降法,通過反向梯度下降法來反向更新神經網絡的權值,讓錯誤結果得到修正。

圖8 基于強化學習的目標分配算法
針對短時間、強對抗的交戰環境能夠提供給機器學習的戰場指揮決策數據樣本量少,傳統機器學習方法難以有效應用的問題,研究與模型和數據無關的基于強化學習的目標分配方法,首先將敵我對抗系統中各仿真實體用Agent的思想自底向上對整個系統進行建模,通過Agent行為及其之間的交互關系來描述對抗系統的行為。其次將敵我雙方參與作戰的Agent種類及數量作為強化學習的狀態;將目標分配的方案作為強化學習的動作子集;將武器裝備打擊效能評估(先敵發射概率、目標擊毀概率)作為回報收益,來設計強化學習的研究方案。
在實現單平臺決策算法智能化后,需要關注平臺之間的協作,即群體智能的激發與涌現。多智能體系統[7](Multi-Agent System,MAS)與傳統的協同決策控制系統相比,其最大的優勢與特點是服務機制。將我方各節點映射為具備不同能力的智能體,每個智能體以服務資源的形式在決策控制網絡中掛起,服務資源主要包括探測、融合、評估、分配、武器攻擊等。該智能體不僅能夠求解自身的決策控制問題,還能夠為發出服務請求的其他節點智能體提供支持,服務請求包括精跟關注、導彈攻擊、電磁干擾等。

圖9 基于多智能體的決策控制系統體系結構
在和平時期,依靠打仗來積累帶標簽的數據是不合理的。考慮到成本問題,依靠實兵演練、模擬訓練等渠道的積累標簽數據是不現實的。現在限制AI在軍事領域應用的關鍵就在于:強對抗、短時間的戰場環境提供給機器的學習樣本數量太少,導致人工智能難以在對抗環境中施展。為了解決這一問題,可構建紅藍對抗博弈平臺,模擬典型的作戰場景,包括我方主要作戰兵力兵器,通信組網、指揮控制方式方法;以及敵方主要作戰兵力兵器及典型作戰樣式,以此來積累指控樣本數據。
威脅估計準不準、目標分配對不對,在傳統的指控領域也無法給出公認的度量。人工智能指揮控制算法的另一個亟待解決的問題是算法的有效驗證問題。目前的解決思路還是建立一個博弈對抗系統,在多組復雜仿真場景下對指揮控制的最終結果進行檢驗。即系統的作戰效能,包括決策執行后武器的攻擊效果,武器的命中概率、彈藥的消耗量、目標的毀傷情況等進行綜合判別。
人工智能技術已經應用在人類生活的方方面面,儼然已成為國際競爭的新焦點。但是,在軍事領域,尤其在指揮控制領域的研究才剛剛起步。由于樣本量和標簽數據的缺乏,導致不能直接使用其他領域的成熟算法。需要研究人員花費大量的精力去創新、改進算法,探索人工智能技術在指控領域的應用,形成能夠在線智能學習的、小樣本的無監督學習算法。