許 雄,吳若無,汪 亞,韓 慧,曾勇虎,汪連棟
(電子信息系統復雜電磁環境效應國家重點實驗室,河南洛陽471003)
電磁環境模擬技術原本是一項支撐性的工程技術,其因實驗科學而生,又根據不同應用需求而變。從戰略需求角度來說,隨著電磁頻譜戰概念的深入發展,不同作戰力量和不同作戰任務的實施、評估等都需要針對不同對象的電磁環境模擬場景的支持;從領域需求角度來說,不論是裝備研究論證領域,還是系統試驗鑒定亦或是聯合訓練演習領域,都需要不同類型的電磁環境模擬手段的支持;從能力需求角度來說,小型的單體電子裝備或是組合的信息系統,甚至是大型的作戰集群,都需要不同規模的電磁環境模擬技術的支持。
通常,按模擬對象來說,針對偵察/對抗類系統一般主要模擬的是偵察類電磁環境;針對探測/導彈類系統則一般主要模擬的是干擾類電磁環境。按模擬手段來說,主要有數學仿真、半實物仿真、實裝模擬等三大類。按模擬規模來說,主要有天線口面、有限區域、廣域場景等不同規模大小的電磁環境。
面對未來無人化、智能化作戰的需求,人們提出了體系對抗的概念。體系一般也稱為“系統之系統”,那么體系對抗也就是指多種系統組合成的一個群體與另一個相當的群體之間的相互博弈對抗。在網絡信息體系條件下研究體系對抗,必然需要一種戰場環境,而這個環境的核心就是復雜電磁環境。面向體系對抗,要求電磁環境模擬的對象門類齊全、手段綜合、規模宏大,典型的就是針對廣域動態場景下的模擬,這也給模擬技術提出了巨大的挑戰。
電磁環境模擬技術發展到現在,仍面臨著諸多共性的樸素問題,如模擬得像不像、真不真、對不對?能否靈活改變模擬場景?模擬的水平怎么樣、有多厲害?當然,要回答這些問題仍具有很大的困難。因為電磁環境是不好定量衡量和評價的,所以模擬水平同樣不好衡量,也不易提高;而且受限于當前的模擬理念和硬件水平,不同的場景是沒那么方便控制或復現的。
不過挑戰與機遇往往是并存的。正是體系對抗的需求,促使人們重新看待模擬這項技術。體系對抗條件下的電磁環境因廣域、動態、對抗而極具不確定性。因而當前模擬技術中最容易被忽略的一點——場景驅動,也可稱為戰術仿真便成了阻礙模擬水平提升的關鍵瓶頸。那么該如何創新模擬技術以縮小差距來滿足未來需求呢?作者認為應該從場景驅動角度入手突破,使傳統的由腳本驅動模擬向新型的自主決策優化模擬方向改變,進而可推動模擬的關注點由“真不真”向“強不強”的方向發展,這樣才能滿足未來體系對抗的需求。
本節將具體提出廣域場景下電磁環境模擬技術研究的目標愿景,并在該愿景的牽引下,建立起可行的總體技術框架。
在傳統的大規模電磁環境模擬情境中,場景驅動所涉及的對電磁環境的動態管理控制通常是基于一定的交戰規則,在專家知識的幫助下,以戰術腳本的形式呈現。既然是腳本,也就相對固定,不易靈活變更,因而每一次模擬只能局限于某一種特定的具體場景。但對于未來的體系對抗來說,不僅現有的專家知識一定是不夠的,而且由于對抗進程中的不確定性因素眾多,單一腳本一定無法呈現最優的對抗結果。
已有分析表明,體系對抗研究需要一套可以進行智能化戰術推演的先進仿真平臺。該平臺需要電磁環境模擬具備一定的智能博弈決策、自主學習演進等能力。其一,要求電磁環境模擬具有智能博弈決策能力,主要是指各個模擬的環境要素特別是各個輻射源及其裝備載體能夠具有一定的智能水平、能夠擁有一定的戰術變化能力,進而在廣域場景下,能夠根據不同的環境狀態做出符合一定規則的決策動作;其二,要求電磁環境模擬具有自主學習演進能力,主要是指各個輻射源能夠從與環境交互的過程中學習到更新的規則和知識,以發現更優的策略和戰術動作。
因此,面向體系對抗的電磁環境模擬技術的發展目標愿景可歸納為如下三個方面:
1)打造出一個具備廣域場景下大規模仿真能力的電磁態勢推演平臺;
2)訓練成一群具備智能博弈對抗和自主學習演進能力的異構智能體;
3)開發好一套具備多智能體的分布式協同控制能力的智能指控系統。
電磁態勢推演平臺基于建模與仿真的技術而建,用于提供大量的仿真或真實演習數據;異構智能體利用其提供的這些數據進行訓練提升,逐漸形成具備智能博弈對抗和自主學習演進的能力;之后通過指控系統,實現指定任務下的多智能體協同決策指揮與戰術效果評估,獲得模擬體系對抗中全體作戰對手的能力。
為了實現上述目標愿景,需要在已有模擬技術體系基礎上,充分借鑒當前各種前沿信息技術,探索一種新的模擬技術框架,如圖1所示。

圖1 模擬技術框架
在上述框架中,首先引入深度學習(DL)、強化學習(RL)等人工智能技術,用于改造各種傳統的環境仿真要素,訓練出各類異構智能終端;再引入云計算、邊緣計算等先進數據處理技術,用于改造傳統的指控網絡及其各類仿真設施,以適應多智能體協同控制的需要。進而實現電磁環境模擬具備智能博弈對抗和自主學習演進的能力目標。換個角度說,深度學習、強化學習是從軟件方面改變了模擬方式;而云計算、邊緣計算則是從硬件方面配合提升了模擬能力。這種概念可稱為“深度強化學習+云邊結合”的技術框架。
該框架也充分秉承了信息技術中自適應和分布式等先進的理念。可以預期,經過后續各項創新研究成果的積累,在這種技術框架下所開展的電磁環境模擬將不再僅僅是一項支撐技術,而可視為一項能夠用于研究電磁頻譜戰新概念、開發智能博弈對抗新算法、進行戰術優化設計和輔助決策指揮的核心技術。
為實現上述技術框架的概念,當前需要重點攻克若干類的關鍵技術,下文將分別具體闡述。
建模與仿真技術在體系對抗研究中具有重要作用。電磁態勢仿真推演平臺是首先需要解決的一個關鍵問題。它需要在已有的各類功能仿真和信號仿真模型的基礎上,增加更強的可知可控能力,能夠進行戰術推演,方便接入各類智能體,并用于生成各類數據供其學習訓練和效果評估,同時支持訓練過程的數據存儲與分析等。其表現形式如圖2所示。

圖2 仿真推演表現形式示意
與傳統的仿真系統不同,該推演平臺需要重點關注訓練需求的知識表示和建模、戰術任務的數字化分解以及體系對抗效能的實時預測評估等;需要考慮各種電磁行為建模、場景實時仿真、電磁態勢顯示、推演控制等多種關鍵技術的集成方法;需要從可擴展的系統架構、合適的基礎模型、專業的對抗規則庫等方面著手設計開發,為智能體訓練提供一個良好的仿真環境。從數據源來說,還既要支持多類智能體與規則化數字決策系統的對抗訓練,又要支持基于LVC(實裝、虛擬、構造)仿真的人機對抗訓練,這樣才能充分融合更專業的關于決策指控的領域知識,以便進一步滿足體系對抗所需要的戰術仿真推演評估需求。
有了強大的電磁態勢仿真推演平臺,就可以開展智能體訓練了。在深度學習方法成熟之前,傳統的強化學習方法主要用于相對簡單的智能體技術研究。因現實中眾多智能體所面臨的環境要素比較復雜,所以無法利用常規的函數進行擬合。而深度學習的出現則展示了其優秀的表征能力,再聯合起強化學習出色的決策能力,便有了當前基于深度強化學習的通用人工智能模型。于是,針對電磁環境模擬所需的智能體,可以有如圖3所示的訓練模型。

圖3 深度強化學習訓練模型
基于深度強化學習的智能博弈對抗,主要是指將以深度學習和強化學習為代表的機器學習方法引入各個電磁力量之間的博弈對抗行為表征建模的技術。更具體地說,是結合深度強化學習方法,利用相關數據、知識和規則等,訓練電磁行動實體進行電磁態勢感知、決策行動等。相關的關鍵技術主要包含深度逆向強化學習、多智能體深度強化學習、分層強化學習和元深度強化學習等。
與其他領域的智能體相比,這里需要重點關注雷達智能體、導引頭智能體、干擾機智能體、通信電臺智能體、導航智能體等各類電子信息系統的建模與訓練。從本質上說,這與認知雷達、認知電子戰和認知無線電裝備領域的新型算法研究不謀而合。因而相關智能體的成功訓練也可為這些先進裝備的發展提供參考。
對于體系對抗而言,僅僅有單個智能體顯然是不夠的,因而必然要利用多智能體深度強化學習方法來完成各種異構智能體之間的聯合感知、聯合行動。而此時用于訓練輸入的電磁環境狀態數據量則會呈爆炸性增長,從而導致訓練時間可能難以承受地延長,甚至訓練過程無法收斂。于是就需要引入專家知識,開展電磁態勢認知理論研究,以用少量的物理量進行電磁環境表征,再利用大數據處理技術,達到實現降低電磁環境狀態數據維數的目的。
可以說電磁態勢認知是開展多智能體訓練的前提條件與關鍵環節。這里需要重點關注電磁頻譜作戰的新概念、新模式;關注電磁態勢估計理論、電磁態勢認知內涵、態勢要素體系及關聯關系、態勢知識表示、態勢理解框架及表現模式等研究內容。從數據處理角度來說,多種異構傳感器實時產生的大數據作為輸入,需要經過態勢感知計算、態勢理解計算、態勢預測計算之后,才能共同形成態勢表征輸出數據。其輸入輸出關系如圖4所示。

圖4 電磁態勢計算過程示意
這里的態勢表征輸出主要包含了三個方面,也可看作是三類視圖,分別是關于平臺和裝備情況的資源視圖、關于集群和任務情況的能力視圖以及關于全局和優劣情況的決策視圖。這樣就基本能夠達到降低環境狀態數據維數的目的,以支持多智能體的學習訓練。
在電磁態勢仿真推演平臺上,多智能體決策支持系統可以通過直接控制各個智能體,進行電磁態勢感知和電磁決策行動的戰術推演,但這在實際中卻并不好實現。那么就需要依托高性能的指揮信息系統來實現對各個異構智能終端的交互控制。由于體系對抗所涉及的裝備類型眾多、規模龐大,因而必須要充分發揮云計算和邊緣計算的互補優勢,構建一個靈活開放可重構的指控網絡體系框架,讓異構智能終端的數據盡可能就地完成邊緣計算以減少網絡傳輸負擔,決策支持系統則利用云計算平臺完成基于知識庫的判斷決策、行動籌劃等戰術類數據處理。云邊結合的框架如圖5所示。

圖5 云邊結合框架示意
這里首先就需要考慮云計算平臺的架構和部署問題,其次是要重點考慮各個智能體算法在邊緣計算節點中的部署實現問題。同時,還要關注云平臺和各節點之間數據、信息的高效傳輸問題。該問題可以通過基于建模與仿真高層體系結構(HLA)、試驗與訓練使能體系結構(TENA)等技術來著手解決。這些技術已在LVC仿真中得到應用驗證,能夠為云邊結合架構的綜合集成提供支撐。
體系對抗研究需求對當前電磁環境模擬技術提出了巨大挑戰。在引入人工智能技術、大數據、云計算等前沿技術的基礎上,本文提出了基于“深度強化學習+云邊結合”的電磁環境模擬技術框架,并闡述了四類主要的關鍵技術,期望通過電磁態勢仿真推演平臺來訓練出一個多智能體決策支持系統及一群異構智能終端,最終實現智能化而不再是腳本化的電磁環境模擬,逐漸扭轉人們常問“模擬得像不像”這種無解問題的局面,促使模擬能力向不斷演進增強的方向發展。
當然,在研究的過程中還要摒棄“人工智能無所不能”的極端觀點。決策指揮控制可以說是一門人類獨有的科學和藝術,一定是需要專家知識的參與。同時,模擬仿真的準確性、可信性是個永恒的挑戰,只能在研究中不斷積累提高。