999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

未知博弈范式下的通用電磁對抗策略自動生成研究

2023-12-11 02:43:00王浩智董志誠
電子與信息學報 2023年11期
關鍵詞:利用智能優化

汪 清 陳 琪 王浩智 張 峰 董志誠

①(天津大學電氣自動化與信息工程學院 天津 300072)

②(中國電科智能科技研究院 北京 100049)

③(西藏大學信息科學技術學院 拉薩 850000)

1 引言

在現代電子戰中,雷達和通信系統是軍事裝備的重要系統[1]。電子戰系統通過雷達、通信等作戰設備,增強在戰場上獲取有利信息的能力,輔助指揮平臺和人員分析戰場形勢,實現對敵方勢力的打擊和對己方勢力的保護。通過干擾、中斷、偽裝、欺騙等方式,電子戰系統在電磁空間中追蹤、攔截、操縱、分辨甚至消除對手的行為。在此過程中,不同的作戰設備存在合作與非合作行為,這些在電子戰中廣泛存在的競合關系可以通過博弈論來進行建模[2]。博弈論被廣泛應用于雷達和通信的功率分配、干擾抑制、編碼方式、波形設計等[3–5]。文獻[3]研究了無線信道環境下利用零和博弈 (Zero-Sum Game)模型分析發射機的功率分配方案,提高保密通信能力,并給出純策略納什均衡 (Nash Equilibrium, NE)的存在條件和混合策略NE的結構。文獻[4]將功率分配、頻譜分配和波束形成的聯合問題建模為非合作博弈,推導了NE存在性和唯一性的條件。文獻[5]結合凸優化方法和非合作博弈論技術,研究了多靜態多輸入多輸出 (Multi-Input Multi-Output, MIMO)雷達網絡功率分配方案。然而,傳統的博弈優化方法通常適用于小規模的決策,難以解決復雜戰場帶來的高維非凸計算問題。

隨著機器學習的發展,許多工作將博弈論和深度強化學習(Deep Reinforcement Learning, DRL)等方法結合,用于研究電磁對抗的決策問題[6–9]。DRL結合了深度學習[10]和強化學習[11],用數據驅動算法近似求解博弈中的非凸優化問題,可以顯著降低計算復雜度。在DRL中,智能體反復與環境進行交互,通過從觀測數據中學習,迭代地改進其策略。文獻[6]研究了針對認知干擾的雷達篩選脈寬分配,將問題構建為擴展式博弈,并提出一種基于強化學習的最佳干擾雷達的策略方法。文獻[7] 研究了信息不完全的動態博弈下,頻率捷變雷達與收發分時干擾機之間的競爭問題,并采用神經虛擬自博弈方法尋找近似NE。為了同時提高干擾方和抗干擾方的智能水平,文獻[8]設計了合作訓練和非合作測試范式,并在測試階段通過竊聽來評估危險程度。文獻[9]討論了基于DRL的動態頻譜抗干擾方法,以應對開放頻譜環境下智能設備面臨的動態干擾攻擊挑戰。近年來,一些工作在電磁空間對抗決策中考慮了對手認知、逆強化學習等方法,對敵方策略等進行建模,以推理對手的可能模型[12–14]。基于DRL的算法相較于傳統算法,有效降低了求解電磁對抗博弈均衡的復雜度。從單智能體強化學習發展而來的多智能體強化學習 (Multi-Agent Reinforcement Learning, MARL)中,多個智能體在同一個環境中進行交互和學習,智能體之間存在競爭關系(如圍棋和撲克)、合作關系(如多智能體通信)以及兩種關系的混合。MARL的最簡單形式是獨立強化學習 (Independent Reinforcement Learning, In-RL),其中每個智能體將與所有其他智能體的交互視為其局部環境的一部分。然而電磁對抗場景下局部環境的非平穩和非馬爾可夫性可能會導致許多算法失去收斂保證[15],并且所發現的對抗策略可能會過度擬合到其他智能體的策略,尤其是在大規模復雜系統中,算法的泛化能力較差。此外,當算法面臨一項新任務,例如在新的地圖環境中實現一個新的作戰目標或完成一個以前訓練過的目標時,強化學習算法需要重新學習優化策略,收斂速度較慢。

在電磁對抗環境中,對手策略未知、地圖環境復雜和信息動態變化等導致了博弈多樣化和任務需求未知。自動課程學習 (Auto-Curriculum Learning, ACL)[16,17]通過在模型訓練過程中引入更多的變化和復雜性,使模型學會更通用的策略,從而避免過擬合。設計自動課程的一種有效方法是遵循博弈論理論,利用迭代最佳響應計算[18]、自博弈 (Self-Play)[19,20]和基于進化的訓練[21]等博弈論原理,在有限環境(如零和博弈)的大規模系統中取得了有效成果。這些方法的關鍵是迭代地訓練不斷增長的玩家策略群體,通過啟發式方法或NE等博弈論解概念來解釋群體進化。PSRO(Policy Space Response Oracle)[18]通過模擬所有玩家策略匹配的結果來構建一個更高層次的元博弈,再根據現有元博弈的策略分布(通過元求解器計算的近似納什均衡)為每個玩家訓練新的策略,再將這些策略添加至種群中。除遵循博弈論理論外,可以利用元學習(Meta-Learning)從環境交互數據中自動發現自動課程。元學習也被稱為“學會學習 (learning to learn)”,通過基于梯度的方法對模型參數進行學習,在解決未知任務方面表現出良好的泛化能力[22-24]。目前,元學習的研究主要是針對單智能體的應用,在多智能體方向研究較少。文獻[25]提出了神經自動課程算法,用于解決二人零和博弈。利用元學習方法,可以從電磁空間博弈對抗產生的數據中自動發現自動課程,而無需顯式的博弈規則,為開發通用的多智能體電磁對抗算法,提升對復雜未知博弈的泛化性能具有重要意義。此外,遺傳算法 (Genetic Algorithm, GA)作為一種無梯度方法,通過交叉、變異等方法,使種群得到進化[26]。GA與強化學習結合,可以有效避免算法因參數值選擇影響而陷入局部收斂[27]。NeuroCrossover使用基于強化學習的GA算法進行智能遺傳位點選擇,利用交叉信息協同注意模型和n步近端策略優化智能地為進化過程交叉選擇合適的遺傳位點[28]。RL-GA算法將Q學習方法嵌入改進的遺傳算法中,通過選擇進化算子指導群體搜索,用于解決電磁探測衛星調度問題[29]。然而,GA在具有連續狀態和動作空間的復雜環境中可能會存在樣本效率低,需要更多迭代次數以達到收斂的問題,且多適用于優化問題模糊的情況。

本文針對電磁空間博弈對抗在復雜環境中泛化性能差的問題,為實現在未知博弈范式下的通用電磁對抗策略自動生成,提出一種基于種群的多智能體電磁對抗算法 (Population-Based Multi-Agent Electronic Countermeasures algorithm,PMAEC)。PMAEC算法將電磁博弈對抗的自動課程優化問題建模為元博弈,并分解為內部優化問題和外部優化問題;通過元學習技術優化元求解器,計算最佳響應來擴充種群;并在MaCA平臺上驗證算法性能。算法訓練得到的元求解器和策略種群能夠引入更復雜、多樣化的電磁對抗情境,使模型能夠逐步適應和對抗不同類型的電磁空間零和博弈環境,從而增強應對電磁空間中敵對行為的能力。

2 基于種群的自動課程學習模型

本章基于多智能體電磁博弈對抗環境,構建電磁對抗元博弈優化問題模型,利用自動課程學習調整模型,更新元博弈種群,并將整體優化目標分解為內部最佳響應目標和外部元求解器目標。

2.1 多智能體電磁博弈對抗環境

電子戰系統通過操控能夠收、發電磁信號的雷達、通信等作戰設備,實現對敵方勢力的打擊和對己方勢力的保護。由CETC-TFAI團隊開發的多智能體對抗平臺 (Multi-agent Combat Arena,MaCA)[30]可以模擬電磁空間對抗,是一種包含同構和異構無人機多智能體的分布式決策與控制技術研究平臺。MaCA環境支持紅、藍雙方應用智能算法操控無人機戰隊,在設定的地圖中進行博弈對抗,以促進多智能體在電磁對抗環境中的作戰能力。對抗場景示意圖如圖1所示,圖中所示的地圖示例為異構地圖,其中圓圈是探測機的視野范圍,連線代表攻擊機的攻擊次數和攻擊方向。

圖1 MaCA電磁對抗作戰場景示意圖

在MaCA環境中,紅、藍雙方均具備兩種預設無人機單元:探測機(探測智能體)和攻擊機(攻擊智能體),其中探測智能體模擬L, S波段雷達全向探測,并可以進行多頻點切換;攻擊智能體可以對敵軍進行探測、偵察、打擊、干擾等,可以模擬L,S, X頻段的干擾機進行瞄準式、阻塞式電子干擾,也能夠模擬X波段雷達指向性探測,并且支持多頻點切換。攻擊智能體能對敵軍無人機進行導彈攻擊,可以進行無源偵測,具備模擬多站無源協同定位和輻射源個體特征識別的能力。紅、藍雙方的目標均是在有限時間內消滅所有敵方智能體,取得勝利,因此可以建模為一個零和博弈。

在對抗過程中,紅、藍雙方分別根據對戰場環境的觀測采取動作,以戰勝對方,這一交互可以用馬爾可夫決策過程 (Markov Decision Process,MDP)表示。MDP可以用5元組〈S,Aq,Pq,Rq,N,γ〉,q ∈{R,B}描述,其中S為狀態空間,Aq為動作空間,Pq為狀態轉移函數,Rq為獎勵函數,N為無人機單元集合,γ為折損因子,R和B表示紅方和藍方。在MaCA中,紅藍雙方智能體的狀態包括無人機存活狀態、位置及航向,雷達開關及頻點,雷達觀察到的敵方單位,導彈剩余數目,攻擊敵方單位列表以及上一時刻的獎勵和動作;動作由航向、雷達開關及頻點、干擾開關及頻點、導彈發射開關及目標組成;在一輪比賽結束后,獲勝的隊伍獲得獎勵r,失敗的隊伍的獎勵為 -r。

MARL可以用來解決MaCA電磁對抗的決策問題,但由于電磁對抗的非合作性,對手信息通常是部分可知且動態變化的。一般的MARL方法,如InRL將對手視為環境的一部分,得到的策略可能會過擬合,泛化性較差。并且強化學習算法在面對一項新任務時需要重新學習,收斂速度較慢。例如,電磁博弈中的一方可能會學會快速找出如何擊敗敵方,但當面對一個新的地圖時,之前得到的策略不再適用,需要重新開始學習擊敗敵方的方式。因此,本文將電磁博弈對抗建模為元博弈,采用基于種群的ACL方法,將可以得到泛化能力更強的電磁對抗策略種群。

2.2 電磁對抗元博弈問題建模

元博弈 (meta-game)又被稱為博弈的博弈,是一種經驗博弈分析方法[31,32]。在電磁對抗空間中,由于地圖環境的動態變化、敵方無人機單元的非合作性質等,針對單一任務的強化學習算法容易出現過擬合問題。在元博弈中,智能體在多個博弈任務上進行學習和迭代,交互的雙方采用模型池中不同參數的策略進行博弈。相比于提升單個策略,元博弈旨在尋找群體中最好的策略或策略分布。ACL通過不同的學習任務挑戰來塑造智能體的學習模型以鼓勵探索和泛化[9]。基于種群的ACL對模型的性能進行評估,調整模型參數,更新元博弈策略種群,得到優化的模型和種群。

考慮包含K個符合分布P(G)的電磁對抗零和博弈G={Gk}k=1,2,...,K,G封裝了博弈玩家的所需信息(如動作、獎勵函數等)。在MaCA中,電磁對抗的策略聚合成智能體種群,種群中的每個個體都代表了解決問題的一個可能解。將種群中策略i的收益定義為W(?i,?j), 則策略j的 收益為 -W(?i,?j)。收益W(?i,?j)和 -W(?i,?j)對應紅(藍)方獲勝的回合獎勵r和失敗的回合獎勵 -r。本文基于元博弈M進行更新,在每次迭代t ∈T中,元博弈的一方定義為一個策略種群Φt=Φ0∪{?1BR,?2BR,...,?tBR},其中Φ0為初始隨機種群,?tBR為t時刻的最佳響應策略。為便于標記,本文只考慮單一種群情況,即雙方玩家共享Φt。將t時刻單一種群生成的元博弈記作Mt,即種群中所有策略對應的收益矩陣,其構成元素為W(?i,?j),??i,?j ∈Φt。

在第t次迭代中,一方基于Mt,利用元求解器求解一個在種群上的元分布σt,即Φt中的混合策略。這類元求解器通常依賴人工設計,如均勻分布[9]或納什均衡及其變體[33,34],而本文僅通過和博弈引擎交互來主動學習這些分布。通過神經網絡將元求解器fθ:Mt →[0,1]t參數化,其中θ為網絡參數。元求解器將元博弈Mt作為網絡的輸入,輸出為元分布σt=fθ(Mt) 。元分布σt是對種群Φt中每個策略的概率分布。

在電磁對抗零和博弈中,偏離NE策略的一方的收益會減小,而可利用度 (exploitability)可以用來衡量策略質量。可利用度指在預期中相對于最壞情況下的對手策略所達到的少于博弈價值的量,衡量了敵方從己方未采用納什均衡策略中獲利的程度[35]。因此,博弈雙方的目標可以定義為最小化可利用度,即對于任何潛在對手的最差表現。目標函數是找到一個自動課程,在T輪最佳響應迭代后返回一個元策略和種群 〈σt,Φt〉,使得元博弈的可利用度最小,即

其中 Exp(·)表示可利用度。在多種群情況下,Exp表示每個玩家擁有不同種群和最終元策略,在單種群情況下只涉及一個種群的偏差激勵。在電磁對抗零和博弈中,當可利用度達到零時,意味著性能不能再得到提升。

本文的目標是得到一個訓練好的最優策略種群和優化的元求解器,因此可以將優化目標分解成外部目標和內部目標。其中外部目標為整體優化問題,即最小化可利用度,得到優化的元求解器。而為了實現整體目標,需要迭代計算最佳響應策略更新種群,因此可以定義為內部優化目標。基于玩家在式(1)中的整體學習目標,最小化博弈的可利用度,可以得到元求解器fθ,因此定義外部目標

根據以θ為參數的元求解器fθ,獲得輸出元分布σt ∈?|Φt-1|后,需要進一步求解σt的最佳響應策略,以使得種群更加“強壯”。定義內部目標

對該雙層優化問題,其外部優化是一個元博弈,可利用度根據內部優化得到的最佳響應策略構成的策略種群計算。內部優化可以通過多種方法計算,如強化學習、進化策略等[25],本文采用基于元梯度的方法計算最佳響應。

3 基于種群的多智能體電磁對抗方法

本章介紹了PMAEC算法的整體框架,結合元學習技術和ACL,通過元梯度下降更新元求解器模型,并計算最佳響應策略,對策略種群進行迭代更新,以適應不同難度的博弈挑戰。

3.1 PMAEC算法整體框架

基于種群學習的多智能體電磁對抗方法(PMAEC)整體框架如圖2所示。圖中列舉了不同的電磁對抗零和博弈的示例,代表不同的作戰地圖、智能體種類等。PMAEC算法的前向過程如圖中的黑色箭頭所示,基于圖中的元博弈Mt,由元求解器fθ輸出在當前種群Φt上的元分布σt,根據式(9)計算得到新的最佳響應并擴充至策略種群中,迭代更新得到新的元博弈矩陣Mt+1。在T輪最佳響應迭代后,得到MT,返回元策略和種群 〈σt,Φt〉,根據式(1)計算使得元博弈的可利用度最小。元博弈對應的策略種群Φ也不斷迭代更新(如圖中的灰色箭頭所示),其中不同大小和顏色的圓圈代表迭代更新的策略。PMAEC算法的反向傳播通過元梯度下降實現(如圖中的藍色箭頭所示),根據外部和內部優化問題,本章的3.2節和3.3節將分別介紹元求解器和最佳響應策略的反向傳播過程。

圖2 PMAEC算法流程圖

3.2 元求解器模型優化

根據外部優化目標式(5)和式(6),優化元求解器,可以通過如下定理得到元梯度計算公式。

定理1 元梯度θ的推導過程是非平凡的,在一個博弈分布p(G) 下,將最終可利用度W(?TBR+1,〈σT,ΦT〉) 記為WT+1,則θ的元梯度為

證明 假設在t+1 時刻,策略池Φt中有t個策略,即

經過所有T輪迭代后,得到策略種群ΦT并計算最終元策略的可利用度

在分布P(G)已知的情況下,可以通過鏈式法則得到θ的元梯度,如式(10)、式(11)、式(12)和式(13)所示。其中,式(13)可以通過迭代應用式(11)、式(12)進一步分解,即梯度通過多次迭代進行后向傳播。證畢

在前向傳播過程中,種群添加T個新策略;在后向傳播過程中,元梯度遍歷完整的T次最佳響應迭代,并通過所有軌跡進行反向傳播,其中每次迭代包含多步梯度更新。因此,梯度?ΦT/?θ需要收集WT-1到W1的信息,這樣可以確保每個策略都對優化θ有影響,但帶來了計算問題。由于軌跡較長,計算元梯度時會因多個黑塞矩陣(Hessian matrix)乘積而變得低效,也容易受到梯度爆炸、梯度消失的影響。參考文獻[33]的方法,PMAEC算法通過使用一個較小的窗口(即n

3.3 最佳響應策略優化

式(23)、式(24)、式(25)可以擴展到多步梯度的情況。式(13)可以通過調用之前的梯度項來迭代計算

PMAEC算法的訓練偽代碼如算法1所示。

4 仿真分析

為驗證提出的PMAEC算法在電磁空間零和博弈上的性能,本文在MaCA平臺進行仿真實驗。本章介紹了實驗環境、元求解器網絡架構、參數結構以及實驗結果與分析。

4.1 實驗環境描述

本文使用的仿真軟件環境為Python 3.10和Pytorch框架,仿真硬件平臺為具有12th Gen Intel(R) Core(TM) i9-12900K 3.20GHz處理器、NVIDIA GeForce RTX 3090顯卡、64GB內存的服務器。MaCA實驗環境為無人機編隊對戰環境,支持自定義作戰場景、無人機數量及種類、無人機屬性、獎勵值等,具有高復雜度和自由度。在模擬作戰過程中,攻擊單元可獲得小范圍觀測視野信息,且無法與隊伍成員共享信息;探測單元可獲得大范圍觀測視野信息并進行共享。MaCA環境為紅、藍雙方的智能博弈對抗算法提供了設定地圖場景支持,本實驗采用的地圖包括同構智能體和異構智能體兩種地圖,大小均為 1000×1000。在同構智能體地圖中,紅藍雙方各有10個相同的攻擊單元;在異構地圖中,紅藍雙方各有2個探測單元、10個攻擊單元。

算法1 基于種群的多智能體電磁對抗算法(PMAEC)

由于PMAEC算法定義的元博弈矩陣Mt的大小為 (t×t) ,而元求解器fθ輸出大小為 (t×1)的向量,且t的值會隨著每次迭代增加,因此網絡fθ需要處理變長輸入。PMAEC算法采用基于門控循環單元 (Gate Recurrent Unit, GRU)[36]的元求解器模型來實現這一特性。具體來說,模型采用“多層感知機 (Multi-Layer Perception, MLP)+GRU”的結構對每行特征的列向量進行聚合,即N×N →N×N×64→N×64。根 據“G R U+逐 行 拼接+MLP”的結構,元求解器模型可以得到最終結果N×64→64,N×(64+64)→N×1,具體結構如圖3所示。

圖3 基于GRU的元求解器結構

PMAEC算法的參數如表1所示。

表1 PMAEC算法參數列表

4.2 仿真結果與性能分析

為了驗證PMAEC算法能否在不同的電磁對抗零和博弈環境中學習到可以有效求解博弈的自動課程,分別在異構和同構兩種電磁對抗地圖上對PMAEC算法的有效性進行驗證,如圖4和圖5所示,實驗采用的對比算法為PSRO[18]和Self-Play[25]。自博弈算法訓練智能體對抗其自身的歷史版本,因為不同對手導致不同的轉移方程和狀態空間,可以將對手集合直接映射到任務集合,因此自博弈可以被視為ACL的一種特殊形式,通過學習對手序列(即任務)最大化表現和魯棒性。在電磁對抗零和博弈中,可利用度越接近0說明越接近博弈的納什均衡,均衡策略質量越高。針對多智能體電磁對抗環境的特點,根據式(1),使用可利用度來衡量異構和同構電磁對抗環境下的策略表現。圖4和圖5的結果表明,通過學習一個有效的元求解器,PMAEC算法能夠在沒有明確的博弈論解概念的情況下解決博弈。在訓練過程中可利用度隨著訓練的深入逐漸降低,并且在60次迭代時達到收斂。同時,相比于其他算法,PMAEC算法具有更快的收斂速度和更好的穩定性。例如,在異構地圖中,PMAEC算法在40次迭代時就能夠收斂到0上下,而PSRO和Self-Play的最終可利用度在0.05上下。PMAEC算法經過訓練,可以得到適應不同地圖的元求解器fθ和策略種群,因此根據可利用度的計算公式(2),PMAEC算法在不同地圖中表現差異較大。對比算法PSRO和Self-Play基于虛擬博弈 (fictitious play)[37]方法計算策略分布σt,將種群中策略均值作為混合策略,而非通過神經網絡參數化的元求解器求解混合策略分布。經過均值化后,種群中的策略差異性減小,且T越大差異性越小,因此對比算法在不同地圖下的表現差異性較小。表2計算了異構和同構地圖中,3種算法在訓練過程中的可利用度的均值和標準差,可以看出PMAEC的表現均優于PSRO和Self-Play。

表2 可利用度均值和標準差對比

圖4 異構地圖對抗環境訓練階段可利用度變化

圖5 同構地圖對抗環境訓練階段可利用度變化

如算法1所示,PMAEC算法基于給定的博弈分布G ~P(G) 進行訓練,訓練好的元求解器fθ(即元訓練階段下獲取的知識經驗),在未知博弈地圖上測試可以得到相較于對比算法更低的最終可利用度,即博弈元求解器可以從低維度博弈泛化至高維度,或從異構地圖泛化至同構地圖,實現未知博弈范式下的通用電磁對抗策略自動生成,能夠應對復雜的電磁空間博弈對抗環境變化。為了驗證PMAEC算法的泛化性能,分別考慮3種情況:在10維(即博弈的策略維度為10)異構對抗地圖上訓練,在更高維度的異構對抗地圖上進行測試;在10維同構對抗地圖上訓練,在更高維度的異構對抗地圖上進行測試;在相同維度的異構地圖訓練,在同一維度的同構地圖測試,可以直觀地表現任務內訓練得到的自動課程對新任務的適用性。圖6繪制了20次PSRO迭代后,在不同策略維度上測試的最終可利用度。在超過訓練維度的其他測試維度上,PMAEC算法的表現均優于PSRO和Self-Play基線。同樣地,在同構地圖上進行了相似的泛化性能實驗,實驗結果如圖7所示,PMAEC算法的表現優于對比算法。此外,圖8展示了在相同維度下,異構地圖訓練得到的模型在同構地圖上測試的表現。因訓練過程中沒有元求解器fθ,PSRO和Self-Play使用的是在同構地圖中測試得到的結果進行對比。結果表明PMAEC算法得到的對抗策略種群可以很好地泛化到不同的電子對抗地圖。

圖6 異構地圖在不同策略維度測試的最終可利用度

圖7 同構地圖在不同策略維度測試的最終可利用度

圖8 不同維度下異構地圖泛化到同構地圖的最終可利用度

如圖2所示,PMAEC算法的反向元梯度通過最佳響應過程的多次迭代進行傳播。為了驗證反向傳播窗口大小對決策質量的影響,通過控制每次計算元梯度前在種群中添加的策略數量,改變最佳響應迭代次數(即窗口大小),得到如圖9和圖10所示的結果,其中的變量最佳可利用度是指算法在訓練迭代過程中得到的可利用度的最小值。考慮到計算成本,本文將窗口大小 (window size)設置為1,3,5,分別進行實驗。隨著窗口尺寸增大,即考慮更多的最佳響應迭代次數時,有更多策略被添加至種群用于計算元梯度,從而對θ的優化產生影響,因此由元求解器fθ得到更優的混合策略。根據可利用度的計算公式(2),PMAEC算法隨著窗口尺寸增大實現了更低的可利用性,訓練得到的元求解器可以得到適應更復雜的策略的納什均衡。

圖9 異構地圖反向傳播窗口大小對最佳可利用度的影響

圖10 同構地圖反向傳播窗口大小對最佳可利用度的影響

為驗證元求解器的結構對PMAEC算法表現的影響,在兩種對抗地圖下分別進行了不同神經網絡結構的對比實驗,如圖11、圖12所示。除了PMAEC算法中采用的GRU元求解器結構之外,本實驗還采用了3種對比的結構,分別是不同尺寸的卷積網絡結構(Conv, Conv-L)[38]和PSRO結構。實驗結果表明元求解器架構的效果很大程度上取決于具體博弈,不同的博弈可能需要不同的元求解器架構。例如,在同構地圖中,4種模型結構的表現相當;在異構地圖中,Conv和GRU表現較好。此外,網絡結構的尺寸增加并不代表性能的提高。

圖11 異構地圖環境下不同模型對可利用度的影響

圖12 同構地圖環境下不同模型對可利用度的影響

5 結束語

本文針對電磁對抗難以泛化到復雜、多樣的博弈環境的問題,提出一種基于種群的多智能體電磁空間博弈對抗算法PMAEC。該算法結合自動課程和元學習等相關知識,通過元博弈構建電磁對抗策略種群的交互,并將優化問題分解為外部和內部優化;采用元學習優化求解最佳響應的元求解器,使算法能夠在新的復雜博弈環境中收斂到更低的可利用度。仿真結果表明,PMAEC算法在收斂速度、可利用度性能和對環境的泛化性上都有更好的表現。

猜你喜歡
利用智能優化
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
利用一半進行移多補少
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
主站蜘蛛池模板: 色综合中文字幕| 国产欧美日韩视频怡春院| 亚洲天堂高清| 亚洲国产成人久久精品软件| 中文字幕在线欧美| 精品在线免费播放| 亚洲制服丝袜第一页| 久久青青草原亚洲av无码| 香蕉综合在线视频91| 久久久久亚洲AV成人网站软件| 91色在线视频| 四虎永久免费地址| 国产波多野结衣中文在线播放 | 无码'专区第一页| 久久青草免费91线频观看不卡| AⅤ色综合久久天堂AV色综合| 亚洲综合第一页| 免费观看成人久久网免费观看| 国产欧美视频在线| 日韩在线欧美在线| 青青草原国产| 欧美色图第一页| 99热这里只有精品免费国产| 最新亚洲av女人的天堂| 亚洲色图欧美视频| 91久久国产综合精品女同我| 97se亚洲综合在线天天| 香蕉综合在线视频91| 国产一区自拍视频| 国产精品任我爽爆在线播放6080 | 久久国产毛片| 一本大道香蕉久中文在线播放| 99国产精品一区二区| 美美女高清毛片视频免费观看| 成人福利免费在线观看| 亚洲精品在线影院| 亚洲综合天堂网| 欧美成人区| 亚洲V日韩V无码一区二区| 精品国产自在现线看久久| 国产福利观看| 国产永久在线视频| 五月天香蕉视频国产亚| 极品性荡少妇一区二区色欲 | 国产综合精品一区二区| 成年人久久黄色网站| 人妻无码中文字幕一区二区三区| 一本视频精品中文字幕| 99热这里只有精品免费| 久久青青草原亚洲av无码| 亚洲第一网站男人都懂| 国产高清色视频免费看的网址| 亚洲欧美日本国产专区一区| 国产9191精品免费观看| 97久久免费视频| 国内精品久久久久鸭| 最近最新中文字幕免费的一页| 国产人免费人成免费视频| 欧美性精品| 亚洲综合色婷婷中文字幕| 国产粉嫩粉嫩的18在线播放91| 成人一级黄色毛片| 国产99视频精品免费观看9e| 91网在线| 国产伦片中文免费观看| 国产在线视频导航| 免费不卡在线观看av| 免费观看成人久久网免费观看| 日本成人一区| 色欲国产一区二区日韩欧美| 国产欧美日韩va| 99视频精品全国免费品| 97成人在线视频| 国产精品太粉嫩高中在线观看| 99久久人妻精品免费二区| 亚洲精品另类| 久久性视频| 伊人无码视屏| 色噜噜在线观看| 国产欧美网站| 专干老肥熟女视频网站| 9啪在线视频|