孫智孝,楊晟琦,樸海音,2,*,白成超,葛俊
1. 航空工業沈陽飛機設計研究所,沈陽 110035
2. 西北工業大學 電子信息學院,西安 710072
3. 哈爾濱工業大學 航天學院,哈爾濱 150001
目前機器智能已邁入深度學習時代,人工智能所賦能的空戰博弈研究已經取得了實質性進展。隨著智能空戰時代的到來,世界主要航空大國及相關研究機構均將著力點聚焦到了新一代智能空戰體系的探索和研究,加大了對自主無人系統裝備以及智能化技術的研發投入,全面推動航空裝備與人工智能技術的融合發展,涌現出一大批有代表性的研究成果。
美國國家航空航天局(National Aeronautics and Space Administration,NASA)在20世紀60至90年代持續專注研發基于專家規則的智能空戰系統,將人類在空戰領域的知識和經驗構建成知識庫,多次嘗試用人工智能系統替代飛行員去執行空戰決策[1-5]。除此之外,遺傳算法和遺傳模糊樹等啟發式方法也被應用到智能空戰領域[6-8],其中采用遺傳模糊樹的“阿爾法空戰”系統,首次驗證了基于人工智能的空戰決策機制具備戰勝人類飛行員的潛力[6]。近些年,隨著機器學習的爆發,以深度學習和深度強化學習為代表的自演進智能算法在空戰行為涌現方面表現出巨大優勢,諸多基于此類方法研發的智能空戰項目逐漸被提出[9-13]。比較有代表性的是美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)開展的人工智能近距空中格斗項目,該項目挑戰賽的冠軍隊伍采用深度強化學習方法在人機大戰中以大比分戰勝人類飛行員[12-13],證明了機器學習類方法在解決空戰決策問題方面潛力巨大。
雖然智能空戰領域的研究取得了諸多進展,但仍有很多技術難題需要攻克。在面對高動態、強實時、不確定、非完美的復雜空戰環境時,傳統的基于規則的專家系統已經無法滿足作戰需求。而新興的機器學習類方法雖然在能力涌現、自演進、自學習等方面具有優勢,但面對實際的工程落地,仍需突破諸如智能空戰的不確定性、可解釋性、安全性和可遷移性等瓶頸。
基于上述分析,本文重點梳理了智能空戰技術研究和應用的發展脈絡,分析了各個發展階段具有代表性的項目,總結了智能空戰決策相關的基礎理論,分析了智能空戰技術的研究脈絡,闡述了必須解決的技術難點和其中存在的挑戰,并展望了未來智能空戰的發展趨勢,為未來智能空戰系統工程化應用這一重要而又富有挑戰性的研究領域提供了發展建議和探索方向。
自20世紀60年代以來,智能空戰理論和工程實踐研究獲得了國內外學術界與工業界的持續關注。回顧其發展歷程,從表象上看,歷經了專家機動邏輯、自動規則生成、規則演進、機器學習及演示驗證等5個主要歷史階段(如圖1所示)。從本質上看,智能空戰研究正在從以人類經驗為主的傳統專家系統邁向以機器智能自我演進為特征的全新范式。這一認知清晰地勾勒出未來智能空戰系統技術探索的發展路線與技術挑戰,正所謂“由表及里”,即智能空戰之“形”。

圖1 智能空戰發展脈絡Fig.1 Development process of AI based air combat techniques
針對智能空戰的研究最早起步于20世紀60年代,Burgin和Owens自1969年起著手在NASA蘭利研究中心的資助下為該研究中心的微分機動模擬器(Differential Maneuvering Simulator, DMS)開發了名為自適應機動邏輯(Adaptive Maneuvering Logic,AML)的機動決策軟件[1],其采用的主要決策算法是基于IF-ELSE-THEN邏輯的專家系統。AML不僅可以模擬敵方的戰斗機與操控模擬器的飛行員進行實時對戰,同時也可以通過操控模擬對抗中交戰雙方的2架飛機來實現飛機及武器系統的參數研究等工作。
AML系統是智能空戰技術的首次系統性嘗試。NASA認為,空戰中機動決策過程存在高度實時性、不確定性,難以給出準確的求解模型,而經驗豐富的戰斗機飛行員熟知空中對抗的戰術態勢和機動要領,故可以借助專家系統基于空中對抗態勢做出相應的快速決策,從而實現無人機在自主空中對抗中的機動決策功能[2],因此AML系統的主要研究基礎是專家系統。
AML系統開發耗時近20年,雖然是人類歷史上第一次用人工智能替代飛行員的大膽嘗試,但受限于當時的技術條件,仍存在諸多缺憾。例如① 提升AML的規則庫耗時冗長且非常依賴飛行員對決策結果的評估;② 系統需將飛行員對機動動作的偏好選擇以硬編碼的形式寫入決策算法中等[1-2]。
20世紀90年代,由于新型的高性能飛機開始服役,為了應對大幅拓展且快速變化的空戰戰術環境,NASA蘭利研究中心繼而支持開發了戰術引導研究與評估系統(Tactical Guidance Research and Evaluation System,TGRES)[3]。該系統由戰術決策生成器(Tactical Decision Generator,TDG)[4]、戰術機動模擬器(Tactical Maneuvering Simulator,TMS)[5]以及微分機動模擬器(Differential Maneuvering Simulator,DMS)3個主要部分組成。而帕拉丁(PALADIN)系統是TGRES項目中以AML為基礎開發的基于知識的戰術決策生成器。與AML不同的是,PALADIN并不依靠飛行員的經驗建立知識庫,而是依據飛機本身數據以及空戰戰術的對抗仿真結果建立知識庫,從而可以為缺少實戰經驗的新型飛機提供豐富的決策支持。除此之外,PALADIN系統的規則庫采用了模塊化設計思路,從而將運算速率大幅提升了90~100倍[4]。
對比AML系統,在PALADIN系統的研究過程中,洛克希德·馬丁公司和艾姆斯研究中心也積極參與,代表了智能空戰從先期的理論研究逐漸轉向大規模的跨域系統工程研究。與AML相比,PALADIN系統最大的創新在于嘗試了對空戰動力學和策略搜索空間進行數學建模,研究領域從純空戰機動決策跨越到載荷調度和武器使用。最為關鍵的是,其規則推理邏輯可以基于仿真手段通過TDG模塊自動生成,這打破了人類對空戰既有知識的認知邊界,給出了全新的形式化的空間知識表達[4]。
2016年6月,辛辛那提大學與美國空軍研究實驗室(Air Force Research Laboratory,AFRL)共同披露了“阿爾法空戰”系統[6],該系統在模擬空戰中戰勝了有著豐富經驗的退役美國空軍上校基恩·李。其核心算法采用遺傳模糊理論體系,基于人類專家知識構建了多個并行模糊推理機,根據其映射關系確定輸入輸出連接,進行實時決策,解決了需要連續實時決策的高維復雜問題。“阿爾法空戰”系統的初始策略結構主要依賴人類的先驗知識建模,由于目前人類對空戰機理的認識具有一定程度上的局限性,其解空間搜索能力很大程度上受限于人類設計好的結構[6]。作為運用人工智能技術求解空中對抗博弈問題領域的里程碑成果,“阿爾法空戰”系統成功將演化計算應用于求解復雜空中對抗問題,在策略參數研究方面做出了積極的探索。
雙邊對抗學習系統[7]是波音公司和西英格蘭大學開展的機動對抗人工智能程序,該系統與“阿爾法空戰”系統同樣基于“先進仿真、集成、建模框架”(Advanced Framework for Simulation, Integration and Modeling,AFSIM)[8]進行開發,但研究的重點在于通過大規模遺傳算法進行對抗自博弈,以期來驗證智能空戰決策能夠脫離人類知識限制,依靠機器智能創造出全新的空中對抗戰術策略。雙邊對抗學習系統與“阿爾法空戰”系統類似,也將態勢—機動對編碼為基因形式,通過大量隨機態勢生成海量對抗樣本,從而驅動遺傳算法在龐大的對抗博弈樹空間中尋求適應度的最佳值。與“阿爾法空戰”系統的區別在于,雙邊對抗學習系統明確指出,其對抗訓練并非針對某個特定的想定場景來進行,在環境適應性上更加魯棒。
“阿爾法空戰”系統及雙邊對抗學習系統所代表的規則演進類方法首先驗證了基于人工智能的空戰決策機制具備戰勝飛行員的能力,同步說明了相關技術途徑是可行的。其次,開發“阿爾法空戰”系統歷經長達數十年的基礎條件準備,比如AFRL的AFSIM仿真系統作為基礎智能對抗仿真平臺,支撐了多個先進研究項目的研制,這說明支撐智能空戰研究相關的仿真基礎持續建設投入是必要的。最后,雙邊對抗學習系統證明了不需要人類的介入,單純在機動層面,機器智能也具備創造全新的對抗機動戰術的能力與潛力。
規則演進階段相比于專家機動邏輯階段和規則自動生成階段在智能化程度上有了很大的提升,但在技術應用中仍遇到了一些困難。例如依賴人類先驗知識進行初始設計的問題仍然存在,這將導致訓練更容易過擬合到人類已知的戰術策略。此外,規則演進類方法一般基于常規的遺傳算法或遺傳模糊系統,其自學習能力與機器學習類方法相比仍存在一定的差距。
2010年,麻省理工學院公開了空中對抗自適應動態規劃(Approximate Dynamic Programming,ADP)系統[9-10]。ADP的主要思想是通過線性或者非線性的結構近似地表達所處狀態的效用函數,并通過值迭代或者策略迭代方法生成決策策略。該系統隨后在其“渡鴉”飛行對抗環境中開展了博弈測試,證明了ADP能夠脫離人類給定的策略規則完全自行學到有效且完整的平面對抗戰術。通過分析ADP,可以發現其具有如下特點:① ADP能夠在環境中探索學習到大量有效策略,如果模型抽象得當,理論上有可能創造出人類未知的空中對抗策略;② ADP只能解決平面對抗離散動作優化問題,因而很難直接應用于實際的空戰系統;③ ADP需要對手空戰策略模型,而這些模型在實際情況中往往難以獲得。
2010年,斯坦福大學吳恩達(Andrew Y. Ng)團隊開發了直升機機動飛行學習系統[11]。基于逆強化學習實現了無人直升機的控制策略生成,同時具備在一定外界擾動環境下的魯棒性,從實機測試結果可以看出該控制策略飛行表現要優于飛手的控制,更加穩定可靠。但與空戰對抗問題相比,直升機機動控制問題要相對簡單,因此很難認為這種方式可以直接應用于智能空戰系統。
本階段與空戰應用背景結合更緊密的是人工智能近距空中格斗項目—“阿爾法狗斗”。該項目挑戰賽由DARPA戰略技術辦公室主辦,旨在對人工智能“狗斗”算法進行演示驗證。最終經過激烈角逐,蒼鷺系統公司成為了冠軍。在最后的人機大戰中,F-16飛行教官Banger以0:5的結果慘敗[12]。根據公開的信息可知,蒼鷺系統公司采用了深度強化學習技術及多智能體分布式訓練系統架構。從試驗數據回放來看,AI獲勝的關鍵在于其卓越的瞄準能力和敏捷的機動操縱能力,而對創造性戰術的理解能力卻比較欠缺。簡而言之,AI在“態”的精度和“感”的速度上占得先機,但在“勢”的判斷和“知”的預測上還不具備優勢[13]。
除此之外,2020年11月,Red6與EpiSci公司通過技術模擬實現了智能算法與有人教練機的空中對抗。該教練機利用Red6公司提供的機載戰術增強現實系統以投影的形式在飛行員頭盔視野中顯示戰場環境,相應的,智能算法方面搭配了EpiSci公司提供的戰術AI系統以進行戰斗中的戰術動作選擇。同年晚期,美國U-2偵察機也裝備了人工智能輔助決策系統—Artoo,此智能輔助決策系統具備控制偵察機的傳感器系統執行相關任務的能力,例如探測并識別導彈發射裝置,以及控制傳感器和戰術導航系統的使用等。
2019年3月15日,美國空軍戰略發展規劃與實驗辦公室(Strategic Development Planning and Experimentation,SDPE)為自主無人作戰算法驗證平臺(Skyborg)項目發布了能力信息征詢書[14]。擬在2023年推出Skyborg作為人工智能空中對抗實驗驗證平臺。Skyborg將直接支撐《2018年美國人工智能戰略》[15]和2019年發布的《人工智能倡議》[16],即在滿足緊迫業務的同時,保持美國在智能空中對抗領域的領導地位。Skyborg由2個系統組成:第1個是R2-D2型人工智能系統,它將作為副駕駛員乘坐載人戰斗機,像盧克·天行者一樣,在不久的將來,空軍飛行員可以通過語音命令與該智能系統開展交互;第2個是可以自主駕駛無人飛行器的人工智能系統,類似波音的“忠誠僚機”或者奎托斯防御公司的XQ-58A瓦爾基里。
從AML開始,歷經近50年的技術積累,雖然美國空軍在2019年預判現有能力已足夠開發統一的智能空戰平臺,但觀其發展部署現狀,即SDPE辦公室仍舊在為其原型作戰平臺形成早期作戰能力而努力,可以看出現有的智能化能力及水平還難以在實戰裝備上落地。不可否認,雖然智能化技術在Skyborg驗證機上的應用部署意義重大,對于推動智能空戰對抗實戰化應用具有里程碑價值,但是仍然存在諸多問題與挑戰:① 智 能化程度該如何定義;② 人機權限該如何劃分;③ 任務類型如何選擇;④ 是否具有一定的普適性;⑤ 學習能力如何提高;⑥ 漸進學習的機制如何構建等等。
隨著航空科學技術的發展,現代空戰逐漸演化為以空空導彈為主要進攻手段,依托綜合態勢感知與戰術決策,在人類飛行員的操縱下,進行的多回合、高復雜度、強風險性空中對抗。一個完整的交戰過程涉及多個復雜的認知決策環節,如態勢理解、戰術機動和攻擊占位等。其決策的智能化程度、精準度以及適配度直接決定了空戰的勝負。目前,空戰決策主要依賴人類飛行員完成,為后續達成媲美乃至超越人類的空戰水平,打破人類固有戰術認知與生理機能限制,發展先進的智能空戰自主決策技術是確保制勝未來空天戰場的核心關鍵。
同時由于空戰具有高動態性、強實時性、不確定性和非完美信息等特點,該問題通常被建模為非完美信息下的多優化目標動態博弈問題。目前針對智能空戰決策問題的研究主要涵蓋3大方向:用于建模及求解空戰攻防博弈問題的博弈理論、將空戰問題建模為多目標決策優化問題以及對應的優化理論、具有自學習能力可以不斷進化的人工智能決策技術(如圖2所示)。這些方法是實現全自主空戰認知決策的核心關鍵技術,即智能空戰之“魂”。

圖2 部分智能空戰決策典型方法Fig.2 Partial typical methods of intelligent air combat decision
博弈論是研究多個理性決策者之間競爭與合作關系的數學理論和方法[17],將博弈論應用于軍事作戰方向已是國內外主要的研究熱點,尤其是針對高動態強對抗條件下的博弈問題。基于博弈理論的空戰問題研究主要有微分博弈[18]和影響圖博弈[19]。其中,微分博弈是博弈論的重要分支,屬于動態博弈范疇,適用于解決空戰中追逃博弈問題;影響圖博弈是創造一種基于專家知識的概率拓撲結構和參數學習方式來代替飛行員,能以可控的、可解釋的以及可理解的方式求解空戰決策問題[19]。
1) 微分博弈
微分博弈一般用于求解近距空戰中格斗雙方的機動占位決策問題[20]。在使用航炮作戰的近距空戰中,一方需要占據敵方的尾后向以獲取攻擊占位,其對手則需要通過有效機動盡快擺脫攻方的攻擊鎖定。在以紅外空空導彈為主攻武器的現代近距空戰中,即使先進紅外格斗導彈發射無須以占據敵方尾后位作為先決條件,但敏捷占位仍是空戰博弈必須解決的重要問題。文獻[21]將微分博弈應用至一對一視距內空戰的自主機動決策環節,基于空戰雙方的相對幾何關系、相對速度等信息,構建了一種用于描述雙方空戰優勢的分數矩陣。通過將分數矩陣結合微分博弈,形成了一種分層決策架構。其頂層的行為決策用于輸出宏觀的機動意圖,如進攻、防守等;底層的機動決策用于輸出具體的機動指令,如指令過載、橫滾角速率等。
經過改進的微分博弈算法也可以應用到超視距空戰的機動決策求解過程中[22]。超視距空戰有2個目標,一是結合導彈攻擊區進行機動占位以盡可能地使敵方落入己方導彈攻擊區內;二是通過機動占位使己方盡可能地逃離敵方導彈攻擊區,這種問題描述使得超視距空戰的機動決策也可以被建模成經典的追逃博弈問題。文獻[22]提出了動態逃逸區的概念,通過適時地進行動力學逃逸,可以幫助戰斗機逃脫已發射導彈的攻擊。動態逃逸區和微分博弈相結合后,使得被攻擊方不僅能獲知規避導彈的最晚時機,而且能得到實施安全逃逸的連續實時指示信息。
2) 影響圖博弈
為更好地利用人類專家知識進行空戰博弈決策結構建模,文獻[19,23-28]提出了影響圖博弈求解方法。影響圖是一種有向無環圖,用于描述一種概率決策結構,通過將影響決策的隨機變量進行拓撲排序以構建層次決策能力,從而簡化最終決策隨機變量后驗概率計算難題。考慮到其概率決策結構由人類專家建立,因此這種方法使決策過程天然具備透明性、可追溯、可理解等優良特性[23]。
經典的影響圖博弈最初只考慮單一的決策者,文獻[24]將其擴展到多決策者情況,并且在后續的研究中提出了基于非合作博弈理論的多決策者博弈的影響圖實現[25-26]。另一方面,文獻[27]將影響圖博弈概念擴展到動態多階段決策問題中,但是并未引入博弈理論。文獻[19]將動態多階段決策問題和博弈理論相結合,提出非零和多階段影響圖博弈,用于描述一對一空戰中的飛行員的序貫決策行為。文獻[28]在考慮了非完全對手信息的情況下,將影響圖與狀態估計方法結合,采用無跡卡爾曼濾波對信念狀態進行預測估計,同時為了滿足空戰實時性要求,采用滾動時域控制求解建立的模型。
雖然應用博弈理論可以解決諸多空戰決策的相關問題,但隨著空戰決策需求的不斷提高及研究的不斷深入,博弈論的相關方法也暴露出很多缺陷:
1) 首先是真實空戰問題的建模復雜性,由于真實空戰環境信息量巨大,狀態瞬息萬變,各決策方法存在耦合復雜的作用關系,且信息存在不確定、不完備性,如何精確合理地對真實空戰問題進行建模是進行空戰決策的首要瓶頸。
2) 其次是隨著博弈個體及決策空間的增長帶來的維度爆炸問題,由于決策過程需要將博弈中每個參與者對其他參與者的行為進行評估,因此對于大量博弈參與者的決策問題會帶來巨大的決策空間維度,直接影響求解的效率及精度。
3) 最后是最優策略求解的困難性,面對復雜動態的空戰決策問題無法求得納什均衡的解析解,因此如何高效、準確地進行最優策略的數值求解是需要解決的另一瓶頸。
空戰決策問題也可以被形式化為多目標優化問題,并使用經典數值優化算法進行求解,如動態規劃、遺傳算法、貝葉斯推理、統計學優化等算法均在空戰決策領域得到了一定程度的應用[9,29-35]。
文獻[9]提出了一種基于近似動態規劃的空戰策略尋優算法。近似動態規劃與經典動態規劃的區別是,該方法無須在每個離散狀態下進行預期累計獎賞的展開計算,而通過構建一個連續函數逼近器來近似表示未來時刻的累計獎賞,因此具有更短的計算時間。文獻[29]將空戰博弈看作為一個馬爾可夫過程,利用貝葉斯推理計算空戰態勢,并根據態勢評估結果自適應調整機動決策因素的權重,使目標函數更加合理。然后針對空戰博弈具有高度動態性和大量不確定性的特點,采用模糊邏輯建立了4個機動決策因素的函數,可有效提高機動決策結果的魯棒性和有效性。文獻[30]提出了一種非線性模型預測跟蹤控制器來解決無人機的追逃博弈問題,該控制器可對固定翼無人機的三維規避機動進行編碼,將追逃控制問題建模為代價優化問題,通過梯度下降解決軌跡優化和追逃博弈。文獻[32]使用人工免疫機制解決空戰機動選擇問題,將敵機當作抗原,通過相對位置速度表征,將機動動作當作抗體,利用遺傳算法和進化算法模仿免疫系統應對抗原的自適應能力,這種機制使得智能體具有較強的記憶能力,能記錄過往成功的經歷以便在相似場景下快速反應。文獻[33]在上述基礎上將序列關聯數據挖掘和戰術免疫機動系統模型相結合,以適應更加動態的戰場變化。文獻[34]提出了一種基于統計原理的無人戰斗機魯棒機動決策方法。為了降低無人戰斗機作戰機動決策的敏感性對典型機動庫進行了改進,設計了空戰態勢參數的魯棒隸屬度函數。然后將統計方法引入到魯棒機動決策中,并對無人戰斗機對抗機動和非對抗機動兩種典型空戰情況進行了仿真,結果表明該決策方法在引導無人機向有利態勢發展方面具有較強的魯棒性和優化能力。文獻[35]通過可達集理論和目標狀態權重的自適應調整機制對目標意圖進行預測,同時在態勢函數中引入魯棒設計,在一定程度上克服了不完全對手信息的問題,結合目標意圖預測通過模糊邏輯進行機動決策。
基于優化理論的空戰決策方法在多個細分應用領域均有涉及,但由于空戰狀態空間的連續性和復雜性,大多數數值優化方法在求解這種高維度、大規模的問題時,其計算性能往往無法滿足空戰決策的實時性需求[36]。因此,這類方法大多用于離線的空戰策略優化研究。
人工智能類的空戰決策方法主要包括基于規則的專家系統和基于深度神經網絡的自演進機器學習類方法。其中,基于深度神經網絡的自演進機器學習類方法主要以深度學習和深度強化學習2種形式為主。
1) 基于規則的專家系統
基于規則的專家系統采用類似IF-ELSE-THEN的謂詞邏輯構建產生式規則[37-39],明確地定義決策系統“什么情況下該做什么”,是人工智能的初級形態。由于專家系統易于工程化且決策行為具有完全可解釋的優點,使其在工程中得到了更為廣泛的應用,但也存在一定局限:① 對于基于規則的專家系統而言,空戰規則是其核心,而現有智能空戰產生式規則的設計主要依賴人類空戰專家完成。考慮到完整的空戰規則集合不僅包括進攻和防守等基礎戰術,更重要的是需要明確界定各種邊界條件以防止出現未定義的情況,從而對決策結果產生未知影響;② 由于空戰狀態空間維度較為龐大,規則設計過程中往往會面臨“維數災難”問題[40]。即使一對一空戰規則能夠通過較為理想的設計覆蓋實戰情況,但隨著交戰智能體數量的線形增長,規則設計的復雜度呈指數級增長,建模具有該復雜度的空戰智能體僅僅依靠單純的人工手段是不可能完成的;③ 基于規則的算法其自主決策能力存在很明顯的認知上限,其行為表現不會超出設計者預先設定的能力,因此空戰智能體的行為缺乏多樣性,更無法演化出不同于人類做法的創新性戰術行為。
一些研究將專家系統和其他方法相結合以彌補基于規則的專家系統方法的不足。例如文獻[41]將專家系統和模糊貝葉斯網絡相結合構建了混合策略決策系統,彌補了純規則方法帶來的行為局限性。文獻[37]將專家系統和滾動時域控制相結合,彌補了基于規則的專家系統適應性差的缺點。
2) 基于深度學習的空戰行為克隆
深度學習是近年來人工智能領域的研究熱點方向之一,其理論和方法在諸多領域取得了廣泛應用,在諸如計算機視覺[42]、自然語言處理[43]和用戶推薦系統[44]等復雜問題中取得了巨大成功。直接通過專家標注的數據監督訓練空戰決策智能體的方式被稱為行為克隆[45]。顧名思義,具有空戰經驗的飛行員在仿真器中親身參與空戰決策,仿真系統將每個決策時刻下的狀態和對應的飛行員決策動作記錄下來作為訓練樣本,然后進行離線訓練,通過神經網絡強大的擬合能力,擬合出空戰態勢和此態勢下所需的決策動作之間的函數關系,這相當于機器在克隆飛行員的動作。在應用部署時,將實時空戰狀態輸入訓練好的神經網絡模型進行前向傳播,輸出決策指令。空戰行為克隆的算法框架如圖3所示。其典型研究包括文獻[46-48],一般而言,這種方法能夠使智能體快速學會基本戰術機動行為。

圖3 空戰行為克隆算法框架Fig.3 Algorithm framework of air combat behavior cloning
空戰行為克隆是一種數據驅動的機器學習方法,無需對空戰動力學的內在機理進行完善的數學建模,其不足包括:① 訓練數據完全來源于飛行員手動標注,因此訓練出的深度神經網絡空戰決策能力無法超過產生標注的某個飛行員;② 若采用多個飛行員標注數據完成算法訓練,將導致訓練梯度沖突,往往導致訓練難以收斂;③ 監督學習需要一定數量的訓練樣本,受限于標注專家的精力和時間成本,工程上往往無法提供所需的標注量。但是,行為克隆對空戰博弈策略的演化建立了一個基于專家認知的初始基準,雖然無法通過該方法直接訓練得到可以直接應用的智能體,但該方法可以看作是深度強化學習自我博弈學習方式的空戰知識初始化手段,能夠顯著加快強化學習算法的收斂速度和學習效率,這一觀點已在棋類博弈[49]、星際爭霸2[50]等多個相關領域得到了證實。
3) 基于深度強化學習的自博弈對抗
深度強化學習是近年來人工智能領域最為成功的方法之一[51-52],谷歌的DeepMind團隊在Atari游戲環境中通過深度學習和強化學習的有機融合,提出了深度Q網絡(Deep Q Network,DQN)[53],率先實現了人類專家級別的操控水平。深度強化學習一般被形式化為馬爾可夫決策過程求解問題:智能體從當前環境獲取觀測,產生決策動作并與環境進行交互,環境根據智能體的表現反饋獎賞給智能體,智能體收到獎賞后不斷修正自己的行為,好的獎賞將會激勵智能體繼續做出一致行為,相反,則將懲罰智能體使其避免做出類似行為。深度強化學習智能體通過大量上述試錯模式,以最大化預期獎賞的方式進行學習和進化,以獲取最優策略。空戰強化學習的算法框架如圖4所示。

圖4 空戰強化學習算法框架Fig.4 Algorithm framework of air combat reinforcement learning
與之類似,空戰智能體也可以在仿真環境中通過與對手不斷地自博弈對抗,演化出足以匹敵人類飛行員甚至超越人類頂尖水平的空戰戰術。文獻[54]將空戰優勢函數作為獎賞函數,通過模糊邏輯方法將狀態空間泛化和連續化,提出了模糊Q學習。文獻[36,55]采用DQN實現了無人機近距機動動作學習。文獻[56-57]提出了啟發式思想與強化學習相結合的思路,將專家知識作為啟發信號,通過強化學習進行先驗知識以外的探索,實現了空戰策略啟發式探索和隨機式探索結合的效果。文獻[58]解決了多智能體空戰的決策問題,提出了多智能體分層策略梯度算法,通過自博弈對抗學習使智能體涌現出專家級的空戰戰術策略(如圖5所示);此外,還模仿人類分層解決問題的能力,構建了一種分層決策網絡用來處理復雜的離散/連續混雜機動動作。

圖5 智能體通過強化學習涌現空戰戰術[58]Fig.5 Agents learning emerging air combat tactics through reinforcement learning[58]
綜上,深度強化學習通過和空戰環境的持續交互,可以開展自我對弈從而生成全新的戰術模式,甚至是人類從未見過的全新戰術[58]。由于其策略一般由深度神經網絡擬合,因此深度強化學習空戰算法的工程化落地必須解決一系列關鍵技術,如算法從仿真環境向真實物理世界的遷移、神經網絡的可解釋性和安全性保障等[59-61]。
人工智能技術與空戰問題的交叉融合,為高動態、不確定、非完美信息條件下的空戰博弈問題求解帶來了新的途徑。以深度強化學習為代表的人工智能方法,不僅在棋類博弈、德州撲克等實際問題求解上呈現出超越人類的表現[49,62],而且揭示了這一全新模式可以創造出替代人類飛行員遂行完整空戰任務的全新空中對抗形態。可以預見,在不遠的將來,空戰對抗模式必將發生深刻變革,這一變革必然帶來智能空戰技術演化創新所涉及的全新需求與巨大挑戰,如非完美信息的博弈[62]、多智能體協同[63]與遷移學習[64]等。面向求解這些問題的科學探索與工程實踐,清晰地指明了智能空戰技術的未來發展方向和前進道路,即智能空戰之“道”。
1) 智能空戰需求發展——從平臺能力建設到體系協同建設
縱觀以往空戰的發展歷程可以看出,各代戰斗機的研發均以提高單機作戰效能為主,通過提高戰斗機在空戰過程觀察、判斷、決策行動(OODA)各環節的能力來提高整體作戰效能。隨著信息化時代的繁榮以及智能化時代的到來,空戰逐步向體系博弈對抗發展,各平臺間的信息交互成為體系建設的基石,而智能則貫穿于整個空戰博弈體系對抗的OODA過程之中。未來空戰將以博弈體系建設為中心,重點發展智能態勢感知體系、智能態勢認知體系、智能博弈對抗決策體系以及分布式異構平臺協同作戰體系。
2) 智能空戰應用發展——從“飛行員助手”到“空戰專家”
隨著未來先進作戰思想和武器裝備的不斷發展,未來空戰環境也逐漸向強對抗、高動態、強干擾、強不確定性等高度復雜環境轉變,對智能空戰技術的需求也從飛行員助手向空戰專家演變,人工智能技術相比于人類飛行員在信息獲取、反應時間、計算速度、技戰術動作等方面具有絕對優勢,可突破人類固有戰術認知與生理機能限制,將在未來空戰中占據主導地位。隨著計算機科學、機器學習技術、大數據等新技術的快速迭代,與軍事作戰研究融合愈發緊密的智能技術必定引發空戰體系、裝備及相關技術的一系列革新,也必將引發未來智能空戰形態的進一步變革。
3) 智能空戰技術發展—從以人類智能為主到以機器智能為主
智能空戰技術正在由傳統的博弈理論和優化理論向具有自學習能力的人工智能理論發展。傳統方法以飛機本體為中心,由人類主導構建空戰對抗的過程模型,求解空戰策略。受限于人類的認知邊界、模型的表達能力以及策略的求解能力,得出的空戰策略往往無法超越人類的固有認知。而下一代具有自學習能力的人工智能方法可以通過自博弈訓練的方式學習到超越人類認知的空戰策略,是一種全新的以機器智能為主的發展模式。與此同時,該模式面臨著不確定性、可解釋性、可遷移性以及可協同性的問題,這些將成為未來機器智能空戰模式的重點發展方向。
1) 空天戰場的深度不確定性
未來空天戰場將面臨要素多元化、對抗狀態隨機化、決策博弈智能化、態勢信息片段化等典型的深度不確定性挑戰。其中不確定狀態下的非完美信息[65-66]空戰決策能力將成為應對該挑戰的關鍵突破點。非完美信息會直接影響對敵方目標進行有效的識別、定位、預測及攻擊等一系列作戰行為,將導致空戰決策缺乏足夠的信息基礎,從而降低決策響應及準確程度。故如何在非完美信息博弈中實現對敵方的智能搜索、意圖預測及戰術推理,做到“找得到、猜得準、打得贏”,是在未來高動態不確定空戰背景下必須解決的核心問題。
2) 智能空戰策略的解釋性與安全性
人工智能的可解釋性是指人工智能算法能夠以人類可理解的方式進行解釋或表達[67],智能空戰策略的解釋性旨在生成人類可理解的空戰策略。基于深度神經網絡的人工智能算法的輸入與輸出映射關系復雜,以目前的技術手段還無法完整了解整個神經網絡模型的內部運作方式。這導致當人工智能算法出現錯誤決策時,我們無法清晰地獲知算法出錯的原因,從而無法對算法做出精準的修正[68-69]。因此,為了使人類能夠充分理解智能空戰算法決策的內在邏輯,從而使飛行員充分信任智能空戰系統,就必須深入研究人工智能方法的解釋性。同時,智能空戰算法應能充分理解安全高度、安全飛行包線及失速邊界等飛行安全要求,避免因遭受欺騙或干擾而導致的錯誤決策行為。因此,對于智能空戰問題來說,能否突破智能算法的解釋性和安全性技術將直接影響人工智能在空戰領域的成熟落地。
3) 從虛擬仿真到真實飛行的遷移
從虛擬仿真到真實環境的遷移學習(Simulation to Reality,Sim2Real)[61,64]是強化學習中的難點問題之一。在智能空戰問題中,直接使用算法驅動全尺寸真機開展訓練,存在以下問題。① 樣 本效率問題:強化學習算法在解決智能體控制問題時所需要的樣本量一般會達到千萬數量級[70],在現實環境中采集如此數量級的實戰樣本需要龐大的成本;② 訓練過程安全性問題:由于強化學習需要通過智能體在環境中進行大范圍的隨機采樣來進行試錯,因而在某些時刻其行為會嚴重影響飛行安全。如果在虛擬仿真環境中進行強化學習算法的訓練,以上兩個問題均可迎刃而解。但是,由于虛擬仿真環境相對于真實物理環境始終存在誤差,導致在虛擬仿真環境中學習到的最優策略無法直接應用在真實物理環境中。因此,研究智能空戰策略從虛擬仿真環境到真實飛行環境的遷移學習成為了智能空戰工程實踐過程中必須解決的技術難題。
4) 智能空戰策略的協同性
現代空戰具備典型的體系化、層次化和協同化特征,因此未來的智能空戰系統也理應具備多智能體協同空戰聯合策略求解能力。在多智能體系統中每個智能體的策略不僅取決于自身,還取決于其它智能體的策略,導致智能體的策略學習具有不穩定性,這使得多智能體系統的策略學習變得更加復雜[71]。在更大規模的多智能體空戰對抗博弈過程中,基于規則的專家系統和傳統的優化理論方法難以較好地處理“維數災難”和策略不穩定問題,而基于深度神經網絡的自演進機器學習類方法為解決此類問題提供了新的可能[72]。多個智能體能否自組織并演化出媲美甚至超越人類的協作策略,是多智能體協同空戰算法必將面對的技術難題。
通過對上述智能空戰發展趨勢的幾點思考,可以看出人工智能技術與空戰領域的融合既是當前的研究熱點,也是未來的發展方向。將會對后續航空裝備需求想定、體系發展、裝備迭代以及技術革新等多個方面產生深遠影響,有望成為制勝未來空天戰場的核心能力:
1) 機器主導的認知型智能將是未來空戰單體智能的發展方向
未來空戰中的單體智能形態將經歷從“以人為主導的規則型智能”到“人有限參與的機器學習型智能”再到“以機器為主導的認知型智能”的演化路線。早期以專家系統為代表智能空戰技術,嚴重依賴人類對空戰的認識,屬于知識驅動的規則型智能。近幾年智能空戰技術正向著數據驅動的機器學習型智能方向邁進,這種以深度神經網絡為代表形式的智能,通過對大量空戰數據樣本的訓練,在人為加入獎懲機制的情況下能夠涌現出類人的決策行為,甚至創造全新戰術。其具備持續學習的能力,能夠通過訓練執行多類型任務,具有較強的戰場適應能力,屬于人工智能在空戰領域發展的過渡階段。而在未來,隨著人工智能技術的進一步發展,以腦認知科學為基礎,以模仿人類核心思維模式為目標的認知型智能將成為智能空戰技術未來的核心,有望適應空戰高動態、強實時、不確定和非完美的復雜環境,驅動智能空戰技術邁入高級階段。
2) 群體智能將是未來空中作戰體系的主流形態
單個平臺的作戰效能存在一定局限,為了提高執行復雜、困難任務的作戰效能,作戰平臺需要以集群的形式組織在一起共同執行任務。未來空中集群作戰體系形態無論是人機混合智能集群還是全自主智能集群,都對群體智能的實戰化應用提出了迫切需求。在該模式下,多個作戰平臺有機地組織在一起,相互產生“化學反應”,實現作戰能力涌現,將獲得“1+1>2”式的顛覆性的作戰能力。在機器智能技術充分提高了參戰個體的智能化程度后,可以預見,群體智能將逐漸在未來空中作戰體系中占據重要的位置。
3) “智能×”將成為“三化融合”航空裝備設計的新理念
“+智能”是指在不突破原有裝備形態的基礎上,引入新的智能維度對其加以改造,從而實現原有裝備的功能拓展和性能增強。以Su-35“決斗”系統和美國忠誠僚機為例,Su-35“決斗”系統實現了基于專家系統的空戰智能增強決策模式,能夠面向飛行員提供實時智能戰術建議。在忠誠僚機中,無人僚機按有人長機的命令執行任務,實現有人機為主導的作戰編隊能力增強。“+智能”設計理念雖然引入了智能增能,但本質上仍然以機械化、信息化裝備實體為先導。而“智能×”是以智能化為引領,形成機械化、信息化和智能化高度融合的具有跨代特征的先進形態,最大限度地發揮出裝備的機械潛能和信息優勢,有望更充分地適應未來的裝備發展與作戰需求。
4) “高智能”有望成為未來無人制空作戰裝備的跨代特征
航空裝備的跨代發展是需求牽引與技術推動共同作用的結果[73]。在隱身四代機和未來高性能制空作戰裝備的參與下,未來空戰任務必將對驅動戰斗機遂行跨代空戰的智能主體提出更高要求。受限于人類生理、心理限制,飛行員的態勢感知能力、決策質量和操作準確度均難以保持長時間的巔峰狀態;另一方面,人類反應時間存在上限,進一步限制了飛機的快速響應能力。而以人工智能為核心的下一代無人制空作戰裝備,有望全面超越人類的決策效率與準確性,極大地提高作戰效能。在機器主導的認知型智能技術推動下,“高智能”有望成為未來無人制空作戰裝備的跨代特征,引領新一輪空中對抗裝備根本性變革。
本文闡述了智能空戰技術研究和應用的發展脈絡,回顧了主流空戰自主決策問題的建模與求解方法,揭示了智能空戰技術正逐漸從基于規則的專家系統全面邁向基于深度神經網絡的自演進機器學習方法這一根本發展趨勢。進一步分析得出了以深度強化學習為代表的人工智能算法是在目前技術條件下創造出具有合理、可靠且豐富多樣戰術行為的空戰智能體的關鍵途徑,強調了未來在智能空戰科學研究及工程實踐中正在或即將面對的技術挑戰:包括智能空戰的不確定性、解釋性、安全性、遷移性以及協同性等,為未來智能空戰技術研究勾勒出一條可行的探索路徑,為人工智能理論與航空科學技術的跨領域交叉融合提供了新的發展思路。