基于分層強化學習的多智能體博弈策略生成方法

2024-09-19 00:00:00暢鑫李艷斌劉東輝

無線電工程 2024年6期

摘要：典型基于深度強化學習的多智能體對抗策略生成方法采用“分總” 框架，各智能體基于部分可觀測信息生成策略并進行決策，缺乏從整體角度生成對抗策略的能力，大大限制了決策能力。為了解決該問題，基于分層強化學習提出改進的多智能體博弈策略生成方法。基于分層強化學習構建觀測信息到整體價值的決策映射，以最大化整體價值作為目標構建優(yōu)化問題，并推導了策略優(yōu)化過程，為后續(xù)框架結構和方法實現的設計提供了理論依據；基于決策映射與優(yōu)化問題構建，采用神經網絡設計了模型框架，詳細闡述了頂層策略控制模型和個體策略執(zhí)行模型；基于策略優(yōu)化方法，給出詳細訓練流程和算法流程；采用星際爭霸多智能體對抗（ＳｔａｒＣｒａｆｔＭｕｌｔｉ-ＡｇｅｎｔＣｈａｌｌｅｎｇｅ，ＳＭＡＣ）環(huán)境，與典型多智能體方法進行性能對比。實驗結果表明，該方法能夠有效生成對抗策略，控制異構多智能體戰(zhàn)勝預設對手策略，相比典型多智能體強化學習方法性能提升明顯。

關鍵詞：分層強化學習；多智能體博弈；深度神經網絡

中圖分類號：ＴＮ９２９．５文獻標志碼：Ａ開放科學（資源服務）標識碼（ＯＳＩＤ）：

文章編號：１００３－３１０６（２０２４）０６－１３６１－０７

０引言

策略生成技術是指通過計算或學習，生成用于指導決策策略的方法和技術。隨著人工智能技術的不斷發(fā)展，策略生成技術被廣泛應用于解決各種復雜的問題。策略通常是一個映射，將環(huán)境的狀態(tài)映射到可能的行動或決策，以最大化某種目標函數（如累積獎勵、成功率等）。相比于利用并且依靠專家經驗和領域知識的策略生成方法，基于海量數據的智能決策降低了知識門檻，并且過程更加客觀，避免主觀因素影響［１］，特別是在零和對抗場景中［２－３］。因此，當前智能博弈策略生成技術已經廣泛應用于無人機協同對抗［４］、通信智能抗干擾［５］和智能協同欺騙［６］等電磁頻譜作戰(zhàn)任務中。

當前，主流策略生成技術采用深度強化學習方法［７］，根據方法結構和應對受控體數量，可以分為集中式方法和分布式方法。集中式方法統(tǒng)一匯集觀測信息并完成所有受控實體的動作映射。特別是基于ＤｅｅｐＱＮｅｔｗｏｒｋ（ＤＱＮ）方法的集中式方法在電磁頻譜規(guī)劃等場景中獲得良好表現［８－１０］，得益于結構良好的可擴展和改進性，能夠適應多種狀態(tài)形式的觀測數據，如圖形化的頻譜瀑布圖［１１］、長短時高維數據［１２］等。但是，隨著受控數量的增加，集中式方法神經網絡的神經元數量將成指數上升，使得參數優(yōu)化效率變慢，策略生成性能變差，并且資源需求量大幅增加。

針對該缺點，“集中式訓練，分布式執(zhí)行”成為解決當前問題的主流理念。分布式方法分別構建對應受控個體的觀測到動作的映射網絡，再構建擬合網絡用于擬合個體動作價值到整體價值的映射。將整體“大網絡”拆分成多個“小網絡”，避免了維度爆炸。但是，該方法的難點在于由個體動作價值擬合整體價值。作為經典方法Ｖａｌｕｅ-ＤｅｃｏｍｐｏｓｉｔｉｏｎＮｅｔ-ｗｏｒｋｓ（ＶＤＮ）直接將個體動作價值相加得到對整體價值。但是，并非所有個體都具有相同權重的動作價值。特別是在異構博弈對抗環(huán)境中，由于受控個體能力不同，權重必然不同。文獻［１３］中，“ＱＭＩＸ”多智能體強化學習方法采用超神經網絡的方法對于整體價值進行了估計，使得個體動作價值到整體價值的映射具有非線性特性，有利于對整體價值的估計。文獻［１４］中，“Ｑｔｒａｎ”方法在此改進思路上進一步延伸，通過構建等價函數、改進值分解等方法，提高了方法的適應性，獲得更優(yōu)的效果。但是，該思路在全局信息的利用上存在缺點。個體只采用部分可觀察信息決策，協同能力是在訓練過程中由整體價值分解得到的，以損失反饋的形式對各個體策略施加影響。在執(zhí)行過程中，難以實時利用全局信息或者由各實體觀測信息整合得到融合信息，影響決策性能。

針對該缺點，以分層強化學習為核心的博弈策略生成方法成為研究重點［１５］。該思路通過構建頂層控制單元和個體執(zhí)行單元形成層級支配控制。頂層控制單元匯總個體信息并產生控制信息，控制個體基于部分可觀測信息決策。相比于典型多智能體深度強化學習方法，分層強化學習通過任務分配和組合形成整體策略。智能體在訓練過程中能夠避免智能體策略同時更新，使得單一個體對于體系內其他個體的策略擬合效率更高。文獻［１６］在通信抗干擾領域中采用了該思想。首先，頂層控制模塊識別出當前通信干擾樣式，再針對性調用抗干擾樣式。但是個體策略的抗干擾樣式需要提前人為設計。文獻［１７］頂層控制單元和個體執(zhí)行單元均采用神經網絡，個體策略也由數據訓練得到。上述２種方法主要解決單一受控個體面對多任務情況下的策略生成問題，針對異構多智能體問題需要對策略生成框架改造。

基于分層強化學習，本文提出改進的多智能體博弈策略生成方法。首先，基于深度神經網絡，構造融合觀測信息的頂層策略控制模型，完成控制信息的生成。在結構上，具有根據全局信息產生控制信息的能力。在訓練過程中，能夠引導個體決策模型的生成。然后，將個體的部分觀察信息和控制信息映射為個體動作價值。最后，融合個體動作價值形成全局價值，并利用獎賞函數對整個神經網絡參數進行優(yōu)化，達到博弈策略優(yōu)化的目的。

后續(xù)研究思路如下。首先，基于分層強化學習構建觀測信息到整體價值的決策映射，以最大化整體價值作為目標構建優(yōu)化問題，并推導了策略優(yōu)化過程，為后續(xù)框架結構和方法實現的設計提供了理論依據；然后，基于決策映射與優(yōu)化問題構建，采用神經網絡設計了模型框架，詳細闡述了頂層策略控制模型和個體策略執(zhí)行模型；再次，基于策略優(yōu)化方法，給出詳細訓練流程和算法流程；最后，采用典型星際爭霸多智能體對抗（ＳｔａｒＣｒａｆｔＭｕｌｔｉ-ＡｇｅｎｔＣｈａｌ-ｌｅｎｇｅ，ＳＭＡＣ）環(huán)境，與典型多智能體方法進行性能對比，驗證方法性能，并總結全文。

１策略生成原理

博弈對抗策略的實質是完成觀測信息到動作空間的影射，影射過程即為策略，而利用該過程得到動作即為決策。基于深度神經網絡的策略生成方法中的策略具象化是神經網絡結構和網絡參數。本文網絡結構具體分為策略控制網絡和策略執(zhí)行網絡。在網絡結構確定的情況下，對網絡參數進行優(yōu)化即對策略優(yōu)化。基于此理念，本節(jié)詳細推導策略映射、優(yōu)化問題構建和策略優(yōu)化方法。

１．１決策映射與優(yōu)化問題構建

通過全局信息生成控制信息，并以控制信息對各智能體的策略形成過程施加影響，提高各智能體之間的協同能力。對于策略控制網絡模型ｆ０用于完成融合信息ｏ０到控制信息Ｉ的映射：

Ｉ＝ｆ０，θ０（ｏ０），（１）

式中：Ｉ＝｛Ｉｎ｝，ｎ∈［１，Ｎ］表示擬合得到的控制信息，Ｉｎ表示對應Ｎ個受控智能體；ｏ０表示各個智能體整合得到的全局信息，是多維矩陣形式［ｏ１，…，ｏｎ，…，ｏＮ］，ｏｎ表示各智能體的觀測空間，即部分可觀測空間，ｎ∈［１，Ｎ］；θ０表示深度神經策略控制網絡參數。

在控制信息的影響下，能夠降低智能體對其他智能體策略估計的難度，降低了個體策略生成的難度。對于策略執(zhí)行網絡ｆｎ用于實現控制信息Ｉ和部分可觀測空間ｏｎ到離散動作價值Ｑｎ的影射。為了協同能力的提升，各個智能體均均等的拿到所有控制信息。

Ｑｎ＝ｆｎ，θｎ（Ｉ，ｏｎ），（２）

式中：Ｑｎ表示第ｎ個智能體離散動作價值的集合｛ｑａ１，ｑａ２，…，ｑａｍ｝，θｎ表示深度神經策略執(zhí)行網絡參數。θ０和θｎ構成整個模型的網絡參數θ。

從Ｑｎ中選擇最大值所對應的離散動作ａｍ′［１８］：

ａｍ′ ＝ａｒｇｍａｘｍＱｎ，（３）

式中：ｍ∈［１，Ｍ］，Ｍ為離散動作數量。

１．２策略優(yōu)化方法

面對多智能體策略生成問題，整體價值最大化是策略生成與優(yōu)化的目標。多智能體整體價值Ｑｔｏｔａｌ表示各個智能體價值的累加［１９］：

Ｑｔｏｔａｌ＝ ΣＮｎ＝１Ｑｎ，ａｍ′ ，（４）

式中：Ｑｎ，ａｍ′ 為第ｎ個智能體對應的最大離散動作價值。

在各智能體動作在博弈環(huán)境中與對手策略交互之后，獲得的全局獎賞值為ｒ。采用時序差分方法對離散動作價值進行更新：

Ｑｔｏｔａｌ（Ｏ，ａ）← Ｑｔｏｔａｌ（Ｏ，ａ）＋ α［ｒ＋ｍａｘａ′∈ＡＱｔｏｔａｌ（Ｏ′，ａ′）－Ｑｔｏｔａｌ（Ｏ，ａ）］，（５）

式中：α 表示折扣系數，Ｑｔｏｔａｌ（Ｏ，ａ）表示在當前ｔ時刻觀測空間Ｏ和各智能體所選動作對應的整體價值，ｍａｘａ′∈ＡＱｔｏｔａｌ（Ｏ′，ａ′）表示在后續(xù)ｔ＋１時刻觀測空間Ｏ′下各智能體對應的離散動作價值中的最大值求和得到整體價值。

用于網絡參數θ 更新的目標損失函數Ｌ定義為：

進行Ｋ次決策后，將每次差值求取平均值得到目標損失函數。通過最小化目標損失函數更新網絡參數θ。

２框架結構

本節(jié)給出基于分層強化學習的模型框架，并逐層詳細闡述控制模型。

２．１基于分層強化學習的模型框架

基于策略生成原理，基于分層強化學習的模型框架如圖１所示。

根據模型框架的結構，其計算過程可以闡述如下：

首先，頂層控制模型產生控制信息。全局信息由個體部分可觀察信息組成，頂層策略控制模型基于全局信息產生控制信息，對應式（１）。

然后，個體策略執(zhí)行模型產生個體動作價值。執(zhí)行模型依據個體信息給出對應離散動作的動作價值，使得框架可以根據動作價值的最大值選擇需要執(zhí)行的動作，對應式（２）和式（３）。

最后，根據個體動作價值形成整體價值。對執(zhí)行模型產生的所有個體的最大動作價值進行累加，形成整體價值，對應式（４）。通過對整體價值的迭代優(yōu)化實現策略優(yōu)化，對應式（５）和式（６）。

２．２頂層策略控制模型

頂層策略控制模型采用深度神經網絡，包含輸入層、隱藏層和輸出層三部分。為了不失一般性并且突出本框架能力，觀測信息和離散動作空間結構采用一維矩陣，頂層策略控制模型中各層均采用全連接神經網絡，并采用ＲｅＬＵ作為激活函數。特別需要說明，本文核心在于闡述并驗證改進方法的優(yōu)秀性能，弱化了特征工程，如觀測信息為高維數據矩陣等形式，可針對實際工程需求的特異性采用卷積神經網絡（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）、長短期記憶（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）網絡和Ｔｒａｎｓｆｏｒｍ等神經網絡結構，對本框架進一步改造。頂層策略控制模型如圖２所示。

全局信息由個體觀測信息拼接組成，形成一維矩陣。全局信息矩陣維度為Ｎ×ｏｄｉｍ，其中ｏｄｉｍ為個體觀測信息維度。輸入層的維度與全局信息維度一致。隱藏層用于將全局信息映射為原始控制信息。輸出層用于將原始控制信息按照控制信息維度要求進行特征提取，用于控制個體策略執(zhí)行模型。控制信息為一維矩陣，維度為Ｎ×Ｉｄｉｍ，其中Ｉｄｉｍ為對應各個體的控制信息維度。

２．３個體策略執(zhí)行模型

個體策略執(zhí)行模型的構建邏輯與頂層策略控制模型一致，均采用全連接神經網絡，并采用ＲｅＬＵ作為激活函數，同樣包含輸入層、隱藏層和輸出層三部分。個體策略執(zhí)行模型如圖３所示。

該模型輸入分為兩部分，分別是控制信息和融合標志位的個體信息。融合標志位的個體信息由個體標志位ｎ和部分可觀測信息ｏｎ構成。加入個體標志位目的是明確區(qū)分當前單體，有助于從控制信息中明確自己對應的信息特征。控制信息和個體信息經過輸入層后，隱藏層提取輸入信息中包含的特征，用于支撐輸出層生成對應離散動作的動作價值，維度為Ｍ。

３方法實現

本節(jié)基于訓練流程和算法流程詳細描述了方法實現。

３．１訓練流程

訓練流程采用環(huán)形結構，不斷迭代優(yōu)化博弈策略。除了優(yōu)化過程，還不斷對策略性能進行評估，并保存最優(yōu)參數作為最優(yōu)博弈策略。具體而言，環(huán)形訓練流程包括５個階段，分別為決策、交互、訓練、評估和更新，如圖４所示。

在決策階段，基于分層強化學習的模型，輸入觀測信息，得到動作價值，并選擇最大動作價值對應的離散動作。

在交互階段，在博弈環(huán)境中，利用得到的離散動作與對手策略進行交互。通過交互獲得下一步觀測信息和當前獎賞，構建包含當前觀測數據、執(zhí)行動作、當前獎賞和動作執(zhí)行后得到的下一步觀測信息，將上述４個元素保存為經驗，并存儲在內存空間中，命名為經驗池Ｒ。

在訓練階段，隨機從經驗池中抽取多條經驗數據，采用目標損失函數計算損失誤差，并且采用累加求和的方法估計誤差，使得參數尋優(yōu)的過程相對穩(wěn)定。

在評估階段，將對當前得到的策略參數進行蒙特卡洛測試驗證。通過與對手策略進行多輪對抗，得到平均總獎賞。除此之外，如果當前訓練得到的策略參數所對應的平均總獎賞優(yōu)于歷史最優(yōu)參數，可以將當前參數保留，作為最優(yōu)策略。

在更新階段，將訓練階段得到的策略參數裝載于基于分層強化學習的模型框架，用于在下一次迭代過程中進行決策并與環(huán)境進行交互。

３．２算法流程

基于訓練流程，本文提出了如算法１所示的基于分層強化學習的多智能體博弈策略生成訓練算法。

４實驗結果與分析

實驗結果與分析由實驗場景、實驗過程、參數設置和結果分析四部分組成。

４．１實驗場景

本文采用ＯｐｅｎＡＩ和暴雪公司基于“星際爭霸２”構造的ＳＭＡＣ環(huán)境中名為“３Ｚ２Ｓ”的場景開展實驗［２０］。ＳＭＡＣ是一個用于研究多智能體強化學習的環(huán)境。這個環(huán)境基于即時戰(zhàn)略游戲“星際爭霸２”提供了一個多智能體競技場，可以用來評估和比較不同的多智能體強化學習算法。ＳＭＡＣ環(huán)境提供了豐富的地圖和任務，涵蓋了多種不同的游戲場景和挑戰(zhàn)，旨在推動多智能體強化學習技術的發(fā)展，并且為研究人員提供一個標準化的評測平臺。在“３Ｚ２Ｓ”場景中，本文方法與基線策略方法分別控制５個異構Ａｇｅｎｔ對抗，在對抗中ＳＭＡＣ環(huán)境將給出對應獎賞值并自動評判是否獲勝。

除此之外，本實驗在Ｗｉｎｄｏｗｓ１０操作系統(tǒng)開展，采用的主要設備為處理器、內存和圖像處理器。處理器規(guī)格為Ｉｎｔｅｌ（Ｒ）Ｃｏｒｅ（ＴＭ）ｉ７１０７００Ｋ，機帶內存容量為８０ＧＢ，圖像處理器為ＲＴＸ２０７０ＳＵＰＥＲ。

４．２實驗過程

本文實驗過程與經典多智能體強化學習方法驗證實驗的過程保持一致［１３－１４］。

在實驗中，共設置了１０６步的訓練周期，每５０００步為一個周期，分為訓練階段和評估階段。在訓練階段，共進行了５０００步訓練，期間進行了神經網絡參數的優(yōu)化更新。每當完成了５０００步的訓練，即進行一次性能評估。在性能評估階段，與基線策略進行了２４回合的對抗。

在評估指標方面，使用了勝率和平均獎賞。對于勝率，統(tǒng)計了與“３Ｚ２Ｓ”場景的基線策略進行對抗獲勝的次數，然后除以總回合數２４，得到了勝率。而對于平均獎賞，則是累加了２４回合對抗中ＳＭＡＣ給出的獎賞，再除以總回合數２４，得到了平均獎賞。

除此之外，在實驗過程中，將ＱＭＩＸ和ＶＤＮ方法作為對照組，在“３Ｚ２Ｓ”場景中分別計算了它們的勝率和平均獎賞。以驗證本方法在性能方面的表現，并與已有的方法進行比較。

４．３參數設置

方法參數分為２類：一類為在策略優(yōu)化過程的學習參數；另一類為構成模型的深度神經網絡參數。學習參數包括獎賞折扣參數、學習率和批量大小，分別設置為０．９９、５×１０－４和３２。模型的深度神經網絡參數如表１所示。

４．４結果分析

勝率曲線如圖５所示。通過圖中對比可以直觀發(fā)現，在初始階段，本方法可獲得高于ＱＭＩＸ和ＶＤＮ的勝率。二者較慢的原因是由于全局信息間接反饋，并且初始階段數據量較少，個體策略無法穩(wěn)定生成，從而其他個體也無法有效通過估計其他個體的策略生成協同策略。除此之外，本文方法相比于２種典型方法能夠更快達到勝率穩(wěn)態(tài)，更高效地形成博弈對抗策略。

平均獎賞曲線如圖６所示。通過圖中曲線對比可以看出，平均獎賞曲線圖與勝率曲線圖的趨勢近似，本文方法在效率上明顯超過典型方法。

為了客觀評估本方法，給出與２種典型方法的指標評估，指標包括勝率均值、勝率方差、勝率最大值、平均獎賞均值、平均獎賞方差和平均獎賞最大值。評估結果如表２所示。

對于勝率，本文方法能夠獲得最大勝率均值。雖然勝率方差低于ＶＤＮ方法，但是能夠獲得最大勝率。對于平均獎賞，對比均值和方差，本文方法的均值最高并且方差最低，充分說明了本文方法的穩(wěn)定性。除此之外，在勝率和平均獎賞上，本文方法的最大值均為三者之中最高，有效地說明了本文方法的高效性。

５結束語

針對典型多智能體深度強化學習方法對于全局信息利用不重復導致個體策略生成慢的問題，本文提出了一種基于分層強化學習的多智能體博弈策略生成方法，通過構建頂層策略控制模型，完成全局信息的提取和控制信息的映射，從而實現層次化分解策略。個體策略執(zhí)行模型在控制信息的引導下，完成部分可觀測信息到動作價值函數映射。將典型方法被動優(yōu)化群體值函數的擬合參數轉化為主動將群體策略分解為個體策略，便于快速生成協同策略的目標。實驗驗證表明，本文所提方法在于基線策略對抗勝率達到１００％，相較典型方法ＶＤＮ和ＱＭＩＸ，本文方法勝率最高且方差較低。本文所提方法結構簡潔、可解釋性強，能夠針多受控體有效、高效地生成并優(yōu)化博弈策略。本方法采用個體離散動作價值相累加的方法估計整體價值。雖然結構簡單且計算復雜度低，但是對于各智能體的特性能力缺少較多關注，限制了整體能力。然而，利用超神經網絡估計整體價值的計算復雜度高，并且給策略生成效率帶來了挑戰(zhàn)。在后續(xù)研究中，重點應放在從個體價值相整體價值的估計上，給出能夠平衡計算復雜度和策略效果的估計方法。

參考文獻

［１］ＦＥＮＧＳ，ＳＵＮＨＷ，ＹＡＮＸＴ，ｅｔａｌ．ＤｅｎｓｅＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＳａｆｅｔｙＶａｌｉｄａｔｉｏｎｏｆＡｕｔｏｎｏｍｏｕｓＶｅｈｉｃｌｅｓ［Ｊ］．Ｎａｔｕｒｅ，２０２３，６１５：６２０－６２７．

［２］ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．ＨｕｍａｎｌｅｖｅｌＣｏｎｔｒｏｌＴｈｒｏｕｇｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５１８：５２９－５３３．

［３］ＶＩＮＹＡＬＳＯ，ＢＡＢＵＳＣＨＫＩＮＩ，ＣＺＡＲＮＥＣＫＩＷＭ，ｅｔａｌ．ＧｒａｎｄｍａｓｔｅｒＬｅｖｅｌｉｎＳｔａｒＣｒａｆｔＩＩＵｓｉｎｇＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１９，５７５：３５０－３５４．

［４］暢鑫，李艷斌，趙研，等．基于ＭＡ２ＩＤＤＰＧ算法的異構多無人機協同突防方法［Ｊ］．河北工業(yè)科技，２０２２，３９（４）：３２８－３３４．

［５］ＣＨＡＮＧＸ，ＬＩＹＢ，ＺＨＡＯＹ，ｅｔａｌ．ＡｎＩｍｐｒｏｖｅｄＡｎｔｉｊａｍｍｉｎｇＭｅｔｈｏｄＢａｓｅｄｏｎＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇａｎｄＦｅａｔｕｒｅＥｎｇｉｎｅｅｒｉｎｇ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０２２，１０：６９９９２－７００００．

［６］ＣＨＡＮＧＸ，ＬＩＹＢ，ＺＨＡＯＹ，ｅｔａｌ．ＡＭｕｌｔｉｐｌｅｊａｍｍｅｒＤｅｃｅｐｔｉｖｅＪａｍｍｉｎｇＭｅｔｈｏｄＢａｓｅｄｏｎＰａｒｔｉｃｌｅＳｗａｒｍＯｐｔｉｍｉｚａｔｉｏｎＡｇａｉｎｓｔＴｈｒｅｅｃｈａｎｎｅｌＳＡＲＧＭＴＩ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０２１，９：１３８３８５－１３８３９３．

［７］ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．ＰｌａｙｉｎｇＡｔａｒｉｗｉｔｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［ＥＢ／ＯＬ］．（２０１３－１２－１９）［２０２４－０１－０６］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１３１２．５６０２．

［８］ＨＡＳＳＥＬＴＨＶ，ＧＵＥＺＡ，ＳＩＬＶＥＲＤ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｗｉｔｈＤｏｕｂｌｅＱｌｅａｒｎｉｎｇ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｈｉｒｔｉｅｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｐｈｏｅｎｉｘ：ＡＡＡＩ，２０１６：２０９４－２１００．

［９］ＳＣＨＡＵＬＴ，ＱＵＡＮＪ，ＡＮＴＯＮＯＧＬＯＵＩ，ｅｔａｌ．ＰｒｉｏｒｉｔｉｚｅｄＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ［ＥＢ／ＯＬ］．（２０１５－１１－１８）［２０２４－０１－０６］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５１１．０５９５２．

［１０］ＷＡＮＧＺＹ，ＳＣＨＡＵＬＴ，ＨＥＳＳＥＬＭ，ｅｔａｌ．ＤｕｅｌｉｎｇＮｅｔｗｏｒｋＡｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ：ＪＭＬＲ，２０１６：１９９５－２００３．

［１１］ＬＩＵＸ，ＸＵＹＨ，ＪＩＡＬＬ，ｅｔａｌ．ＡｎｔｉｊａｍｍｉｎｇＣｏｍｍｕｎｉｃａｔｉｏｎｓＵｓｉｎｇＳｐｅｃｔｒｕｍＷａｔｅｒｆａｌｌ：ＡＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＬｅｔｔｅｒｓ，２０１８，２２（５）：９９８－１００１．

［１２］ＮＡＰＡＲＳＴＥＫＯ，ＣＯＨＥＮＫ．ＤｅｅｐＭｕｌｔｉｕｓｅｒＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＤｉｓｔｒｉｂｕｔｅｄＤｙｎａｍｉｃＳｐｅｃｔｒｕｍＡｃｃｅｓｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１９，１８（１）：３１０－３２３．

［１３］ＲＡＳＨＩＤＴ，ＳＡＭＶＥＬＹＡＮＭ，ＷＩＴＴＣＳＤ，ｅｔａｌ．ＭｏｎｏｔｏｎｉｃＶａｌｕｅＦｕｎｃｔｉｏｎＦａｃｔｏｒｉｓａｔｉｏｎｆｏｒＤｅｅｐＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０２０，２１（１）：７２３４－７２８４．

［１４］ＳＯＮＫ，ＫＩＭＤ，ＫＡＮＧＷＪ，ｅｔａｌ．ＬｅａｒｎｉｎｇｔｏＦａｃｔｏｒｉｚｅｗｉｔｈＴｒａｎｓｆｏｒｍａｔｉｏｎｆｏｒＣｏｏｐｅｒａｔｉｖｅＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［ＥＢ／ＯＬ］．（２０１９－０５－１４）［２０２４－０１－０６］．ｈｔｔｐ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０５．０５４０８．

［１５］ＳＨＩＷＳ，ＬＩＪＬ，ＷＵＨＱ，ｅｔａｌ．ＤｒｏｎｅｃｅｌｌＴｒａｊｅｃｔｏｒｙＰｌａｎｎｉｎｇａｎｄＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｆｏｒＨｉｇｈｌｙＭｏｂｉｌｅＮｅｔｗｏｒｋｓ：ＡＨｉｅｒａｒｃｈｉｃａｌＤＲＬＡｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓＪｏｕｒｎａｌ，２０２０，８（１２）：９８００－９８１３．

［１６］ＬＩＵＳＹ，ＸＵＹＦ，ＣＨＥＮＸＱ，ｅｔａｌ．ＰａｔｔｅｒｎａｗａｒｅＩｎｔｅｌｌｉｇｅｎｔＡｎｔｉｊａｍｍｉｎｇＣｏｍｍｕｎｉｃａｔｉｏｎ：ＡＳｅｑｕｅｎｔｉａｌＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１９，７：１６９２０４－１６９２１６．

［１７］ＫＵＬＫＡＲＮＩＴＤ，ＮＡＲＡＳＩＭＨＡＮＫＲ，ＳＡＥＥＤＩＡ，ｅｔａｌ．ＨｉｅｒａｒｃｈｉｃａｌＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＩｎｔｅｇｒａｔｉｎｇＴｅｍｐｏｒａｌＡｂｓｔｒａｃｔｉｏｎａｎｄＩｎｔｒｉｎｓｉｃＭｏｔｉｖａｔｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｂａｒｃｅｌｏｎａ：ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓＩｎｃ．，２０１６：３６８２－３６９０．

［１８］ＮＯＣＥＤＡＬＪ，ＷＲＩＧＨＴＳＪ．ＮｕｍｅｒｉｃａｌＯｐｔｉｍｉｚａｔｉｏｎ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，２００６．

［１９］ＳＵＴＴＯＮＲＳ，ＢＡＲＴＯＡＧ．ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎ［Ｍ］．Ｃａｍｂｒｉｄｇｅ：ＭＩＴＰｒｅｓｓ，１９９８．

［２０］ＳＡＭＶＥＬＹＡＮＭ，ＲＡＳＨＩＤＴ，ＷＩＴＴＣＳＤ，ｅｔａｌ．ＴｈｅＳｔａｒＣｒａｆｔＭｕｌｔｉａｇｅｎｔＣｈａｌｌｅｎｇｅ．［ＥＢ／ＯＬ］．（２０１９－０２－１１）［２０２４－０１－０６］．ｈｔｔｐ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０２．０４０４３．

作者簡介

暢鑫男，（１９９０—），博士，高級工程師。

劉東輝女，（１９９０—），博士，講師。主要研究方向：復雜系統(tǒng)管理、策略優(yōu)化等。

基金項目：中國博士后科學基金（２０２１Ｍ６９３００２）；國家自然科學基金（７１９９１４８５，７１９９１４８１，７１９９１４８０）

無線電工程2024年6期

無線電工程的其它文章: 變電站多尺度異常入侵目標輕量化檢測方法; 基于虛擬成像原理的組合相機視場拼接與波段配準方法; 口岸城市末端無人機精準配送與投遞模型; 無人機輸電線路巡檢照片號牌文字識別方法; 高通量衛(wèi)星隨機接入控制技術研究; IoT-MEC網絡中服務功能鏈主動重構方法