999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于多步競(jìng)爭(zhēng)網(wǎng)絡(luò)的多智能體協(xié)作方法

2022-05-14 03:28:00厲子凡方寶富
計(jì)算機(jī)工程 2022年5期
關(guān)鍵詞:動(dòng)作智能方法

厲子凡,王 浩,方寶富

(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,合肥 230601)

0 概述

多智能體協(xié)作是指多個(gè)智能體之間相互合作完成一項(xiàng)任務(wù)或者分別完成復(fù)雜任務(wù)的某項(xiàng)子任務(wù)。目前,基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[1]的多智能體協(xié)作成為研究熱點(diǎn),已在多智能體協(xié)同控制[2]、交通控制[3]、資源調(diào)度[4]、自動(dòng)駕駛[5-6]、游戲AI[7]等領(lǐng)域得到廣泛應(yīng)用。將DRL與多智能體系統(tǒng)(Multi-Agent System,MAS)相結(jié)合,稱為多智能體深度強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Reinforcement Learning,MADRL)[8]。

多智能體決策系統(tǒng)中主要存在環(huán)境非平穩(wěn)、智能體數(shù)量增加導(dǎo)致的維數(shù)災(zāi)難和多智能體信用分配等問題,這些問題對(duì)MADRL 而言是巨大的挑戰(zhàn)。分散式方法[9-11]令每個(gè)智能體只學(xué)習(xí)自己的個(gè)體動(dòng)作值函數(shù),并將其他智能體看作是環(huán)境的一部分,然后直接應(yīng)用單智能體深度強(qiáng)化學(xué)習(xí)(Single-Agent Deep Reinforcement Learning,SADRL)算法學(xué)習(xí)策略。這樣可以避免維數(shù)災(zāi)難,但由于其他智能體的策略在不斷變化,智能體學(xué)習(xí)到的策略也會(huì)隨之不斷變化,從而出現(xiàn)非平穩(wěn)特性。集中式方法[12-14]考慮所有智能體信息直接學(xué)習(xí)聯(lián)合動(dòng)作值函數(shù),可以減輕非平穩(wěn)性帶來的不利影響,但隨著智能體數(shù)量的增加,參數(shù)空間會(huì)呈指數(shù)級(jí)增長(zhǎng),聯(lián)合動(dòng)作值函數(shù)將難以有效學(xué)習(xí)并用于智能體數(shù)量較多的環(huán)境,導(dǎo)致拓展性較差。

近些年來,結(jié)合了分散式方法和集中式方法各自優(yōu)勢(shì)的值分解方法[15-17]成為主流方法。值分解方法先分散地學(xué)習(xí)每個(gè)智能體的個(gè)體動(dòng)作值函數(shù),然后集中利用個(gè)體動(dòng)作值擬合聯(lián)合動(dòng)作值函數(shù)。在此方法框架下,聯(lián)合動(dòng)作值函數(shù)的計(jì)算復(fù)雜度隨智能體數(shù)量呈線性增長(zhǎng),同時(shí)也考慮了所有智能體的信息,在環(huán)境平穩(wěn)性和智能體拓展性之間取得了較好的平衡。然而,現(xiàn)有的一些值分解方法忽視了智能體策略網(wǎng)絡(luò)的重要性,而將研究的重點(diǎn)集中到了聯(lián)合動(dòng)作值函數(shù)的學(xué)習(xí)上。此外,在學(xué)習(xí)聯(lián)合動(dòng)作值函數(shù)時(shí)也沒有充分利用經(jīng)驗(yàn)池中保存的完整歷史軌跡,仍然以單智能體常用的單步更新方式學(xué)習(xí)。

本文提出基于多智能體多步競(jìng)爭(zhēng)網(wǎng)絡(luò)(Multiagent Multi-step Dueling Network,MMDN)的多智能體協(xié)作方法,借鑒值分解思想,在集中式訓(xùn)練分散式執(zhí)行(Centralized Training with Decentralized Execution,CTDE)[18]框架的基礎(chǔ)上,將動(dòng)作評(píng)估與狀態(tài)估計(jì)解耦,利用整條歷史軌跡估計(jì)時(shí)間差分目標(biāo),以集中式端到端的方式訓(xùn)練智能體分散策略。

1 相關(guān)工作

基于MADRL 的多智能體協(xié)作方法大致可以分為分散式方法、集中式方法、值分解方法3 類。

分散式方法直接應(yīng)用SADRL 算法建模智能體,每個(gè)智能體僅學(xué)習(xí)個(gè)體動(dòng)作值函數(shù),將其他智能體看作是環(huán)境的一部分。2017 年,TAMPUU 等[9]將深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)[19]應(yīng)用到多智能體環(huán)境。同年,GUPTA 等[11]進(jìn)一步將異步優(yōu)勢(shì)行動(dòng)者-評(píng)論家(Asynchronous Advantage Actor-Critic,A3C)算 法[20]、深度確 定性策 略梯度(Deep Deterministic Policy Gradient,DDPG)算 法[21]、置 信域策略優(yōu)化(Trust Region Policy Οptimization,TRPΟ)算法[22]應(yīng)用到多智能體環(huán)境。由于無法解決非平穩(wěn)性的問題,分散式方法在復(fù)雜協(xié)作場(chǎng)景中往往無法發(fā)揮作用。

集中式方法中每個(gè)智能體均利用所有智能體的信息學(xué)習(xí)聯(lián)合動(dòng)作值函數(shù),這樣可以減輕非平穩(wěn)性帶來的不利影響,但是存在拓展性的問題,難以用于智能體數(shù)量較多的環(huán)境。反事實(shí)多智能體(Counterfactual Multi-Agent,CΟMA)策略梯度算法[13]是基于行動(dòng)者-評(píng)論家(Actor-Critic,AC)框架的算法,所有智能體的Actor 網(wǎng)絡(luò)與一個(gè)中心化Critic 網(wǎng)絡(luò)連接。中心化Critic 網(wǎng)絡(luò)使用特殊的反事實(shí)模塊輸出聯(lián)合優(yōu)勢(shì)函數(shù)值。由于只有一個(gè)中心化的Critic,因此CΟMA 在異構(gòu)智能體場(chǎng)景中往往無效。多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算 法[12]在DDPG 的基礎(chǔ)上為每個(gè)智能體建立一個(gè)中心化的Critic,在訓(xùn)練階段使用所有智能體的信息而非個(gè)體信息以緩解非平穩(wěn)性,并為每個(gè)智能體保留多個(gè)子策略。MADDPG 不能直接應(yīng)用于具有離散動(dòng)作空間的環(huán)境。

值分解方法兼具分散式方法和集中式方法的優(yōu)勢(shì),可在環(huán)境平穩(wěn)性和智能體拓展性之間取得平衡。但是值分解方法基于一定的限制條件,多用于完全協(xié)作的多智能體任務(wù)。值分解網(wǎng)絡(luò)(Value-Decomposition Network,VDN)算法[15]將聯(lián)合動(dòng)作值函數(shù)分解為每個(gè)智能體個(gè)體動(dòng)作值函數(shù)的簡(jiǎn)單和,從而將一個(gè)復(fù)雜的學(xué)習(xí)問題分解為多個(gè)局部的更易學(xué)習(xí)的子問題。單調(diào)值函數(shù)分解(QMIX)算法[16]引入超網(wǎng)絡(luò)[23]來學(xué)習(xí)聯(lián)合動(dòng)作值函數(shù)與個(gè)體動(dòng)作值函數(shù)之間的非線性關(guān)系,并限制聯(lián)合動(dòng)作值函數(shù)和個(gè)體動(dòng)作值函數(shù)滿足單調(diào)約束。值函數(shù)變換分解算法(QTRAN)[17]直接學(xué)習(xí)聯(lián)合動(dòng)作值函數(shù),并構(gòu)造了多個(gè)損失函數(shù)用于優(yōu)化,但該方式難以求解優(yōu)化問題,并且在復(fù)雜任務(wù)中很難取得較好的效果。

2 基于MMDN 的多智能體協(xié)作

2.1 去中心化部分可觀察馬爾科夫決策過程

完全合作的多智能體任務(wù)可以被描述為去中心化部分可觀察馬爾科夫決策過程(Decentralized Partially Οbservable Markov Decision Process,Dec-PΟMDP)[24]。Dec-PΟMDP 可以定義為一個(gè)九元組G=<N,S,U,P,r,Ο,Z,n,γ>,其 中,N={1,2,…,n}表 示有限數(shù)量智能體集合,S表示環(huán)境狀態(tài)集合,s∈S表示環(huán)境真實(shí)狀態(tài),U表示聯(lián)合動(dòng)作空間,Ο表示聯(lián)合觀察集合,Z表示觀察概率函數(shù),γ∈[0,1]表示折扣因子。在每一個(gè)時(shí)間步內(nèi),每個(gè)智能體i∈N={1,2,…,n}選擇一個(gè)動(dòng)作ui∈Ui組成聯(lián)合動(dòng)作u∈U,環(huán)境通過狀態(tài)轉(zhuǎn)移方程P(s′|s,u):S×U×S→[0,1]得到下一步狀態(tài)s′,r(s,u):S×U→R 表示獎(jiǎng)勵(lì)函數(shù)。

在一個(gè)部分可觀察的環(huán)境中,每個(gè)智能體僅能根據(jù)觀察函數(shù)Z(s,u):S×U→Ο得到自己的觀察信息οi∈Ο。每個(gè)智能體有自己的動(dòng)作-觀察歷史τi∈T≡(Ο×Ui)*,并以此 遵循隨 機(jī)策略πi(ui|τi):T×U→[0,1]。聯(lián)合策略π擁有一個(gè)聯(lián)合動(dòng)作值函數(shù):τ∈TN表示一個(gè)聯(lián)合動(dòng)作觀察歷史。

2.2 個(gè)體全局最大條件

值分解的核心是將聯(lián)合動(dòng)作值函數(shù)Qtot看作是由每個(gè)智能體的個(gè)體動(dòng)作值函數(shù)Qi線性或非線性組合而成的(如式(1)所示),直接對(duì)聯(lián)合動(dòng)作值函數(shù)進(jìn)行優(yōu)化,通過梯度傳播端到端地更新個(gè)體動(dòng)作值函數(shù)。

在值分解框架下,通常將個(gè)體全局最大(Individual Global Max,IGM)[17]作為智能體執(zhí)行分散策略的條件。該條件確保了對(duì)聯(lián)合動(dòng)作值函數(shù)和個(gè)體動(dòng)作值函數(shù)的動(dòng)作選擇保持一致,遵循CTDE框架。

定義1對(duì)于一個(gè)聯(lián)合動(dòng)作值函數(shù)Qtot(τ,u):TN×U→R,如果存在個(gè)體動(dòng)作值函數(shù)[Qi(τi,ui):T×Ui→滿足式(2),那么在τ下[Qi]對(duì)Qtot滿 足IGM 條件[17]。在這種情況下,Qtot(τ,u)可以分 解為[Qi(τi,ui)]。

2.3 多智能體多步競(jìng)爭(zhēng)網(wǎng)絡(luò)

在強(qiáng)化學(xué)習(xí)中,時(shí)間差分學(xué)習(xí)直接從歷史經(jīng)驗(yàn)中學(xué)習(xí)而無需學(xué)習(xí)環(huán)境的完整知識(shí),可以基于其他狀態(tài)的估計(jì)值來更新當(dāng)前狀態(tài)的價(jià)值函數(shù),更新規(guī)則如下:

其中:α∈(0.1]表示學(xué)習(xí)步長(zhǎng);t表示時(shí)間步;δt表示t時(shí)刻的時(shí)間差分誤差。

智能體決策具有一定的連續(xù)性,若要估計(jì)當(dāng)前決策對(duì)所有未來決策的影響,需要對(duì)較長(zhǎng)的決策序列進(jìn)行整體考慮,即從經(jīng)驗(yàn)池中取出整條軌跡時(shí),可以利用當(dāng)前時(shí)間步及之后n步的數(shù)據(jù)進(jìn)行學(xué)習(xí)。動(dòng)作值函數(shù)可以用來評(píng)估當(dāng)前的決策對(duì)未來的效益,聯(lián)合動(dòng)作值函數(shù)Qtot由個(gè)體動(dòng)作值函數(shù)Qi構(gòu)建,對(duì)Qtot進(jìn)行更新可以端到端地訓(xùn)練Qi。基于Q 學(xué)習(xí)的n步回報(bào)[25]可表示如下:

值得注意的是,n步學(xué)習(xí)可以減少更新目標(biāo)時(shí)的偏差,但會(huì)引入高方差[26]。

為了緩解這一問題,本文引入λ-回報(bào)[27]作為時(shí)間差分目標(biāo)的估計(jì)。λ-回報(bào)可以平均不同n的n步回報(bào),同時(shí)通過調(diào)節(jié)參數(shù)λ可以權(quán)衡方差和偏差[28]。λ-回報(bào)定義如下:

其中:λ∈[0,1]是調(diào)節(jié)平均程度的參數(shù)。當(dāng)λ=1 時(shí),退化到蒙特卡洛方法;當(dāng)λ=0 時(shí),退化到一步時(shí)間差分方法。換言之,λ越大,考慮的軌跡越長(zhǎng);λ越小,考慮的軌跡越短。式(6)的等價(jià)寫法更能體現(xiàn)這一性質(zhì)。

將λ-回報(bào)代入時(shí)間差分學(xué)習(xí)的更新規(guī)則后,可以推導(dǎo)出如式(7)所示的聯(lián)合動(dòng)作值函數(shù)更新規(guī)則:

為了實(shí)現(xiàn)上述更新過程,本文設(shè)計(jì)如圖1 所示的MMDN 結(jié)構(gòu),其由3 個(gè)部分組成:1)估計(jì)優(yōu)勢(shì)函數(shù)的智能體網(wǎng)絡(luò);2)估計(jì)狀態(tài)值函數(shù)的價(jià)值網(wǎng)絡(luò);3)估計(jì)聯(lián)合動(dòng)作值函數(shù)的混合網(wǎng)絡(luò)。

圖1 MMDN 結(jié)構(gòu)Fig.1 Structure of MMDN

其中:Q(τ,u)表示動(dòng)作值函數(shù);V(τ)表示狀態(tài)值函數(shù)。優(yōu)勢(shì)函數(shù)用于衡量動(dòng)作的優(yōu)劣,因?yàn)樵谕粻顟B(tài)下狀態(tài)值V(τ)是一個(gè)固定的值,所以在優(yōu)勢(shì)函數(shù)和動(dòng)作值函數(shù)上根據(jù)貪婪策略選取最優(yōu)動(dòng)作是等價(jià)的,即智能體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,由2 個(gè)多層感知機(jī)(Multilayer Perceptron,MLP)和1 個(gè)門控 循環(huán)單 元(Gated Recurrent Unit,GRU)組成,激活函數(shù)為ReLU,其中表示智能體i在t時(shí)刻由GRU 產(chǎn)生的隱藏狀態(tài)。

圖2 智能體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of agent network

價(jià)值網(wǎng)絡(luò)用于估計(jì)全局狀態(tài)的優(yōu)劣,將全局狀態(tài)st作為網(wǎng)絡(luò)輸入,將全局狀態(tài)值V(τt)作為輸出。MMDN 使用智能體網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)共同估計(jì)動(dòng)作值函數(shù),因此式(8)存在不可辨識(shí)的問題[29],即當(dāng)V和A加減同一個(gè)常數(shù)時(shí),Q是不變的,但V和A卻可能發(fā)生很大的變化。為緩解這一問題,本文在實(shí)施過程中采用式(9)計(jì)算動(dòng)作值:

其中:α是價(jià)值網(wǎng)絡(luò)的權(quán)重參數(shù);β是智能體網(wǎng)絡(luò)的權(quán)重參數(shù);Qi(τi,ui;α,β)表示智能體個(gè)體動(dòng)作值函數(shù)的參數(shù)化估計(jì);|U|表示動(dòng)作空間大小。將使用全局信息估計(jì)的全局狀態(tài)值函數(shù)V(τ;α)代替使用每個(gè)智能體觀察估計(jì)的局部狀態(tài)值函數(shù)Vi(τi;α),這樣做可使Qi(τi,ui;α,β)在訓(xùn)練過程中聚合全局信息,幫助智能體更快更好地學(xué)習(xí)策略。在測(cè)試過程中,價(jià)值網(wǎng)絡(luò)不參與決策,以滿足集中式訓(xùn)練分散式執(zhí)行框架。價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,其由3 個(gè)MLP 組成,激活函數(shù)為ReLU。

圖3 價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of value network

混合網(wǎng)絡(luò)用于擬合聯(lián)合動(dòng)作值函數(shù),將每個(gè)智能體的個(gè)體動(dòng)作值作為輸入,將聯(lián)合動(dòng)作值作為輸出。本文同樣利用超網(wǎng)絡(luò)訓(xùn)練混合網(wǎng)絡(luò)的權(quán)重參數(shù)。混合網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。超網(wǎng)絡(luò)是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)的神經(jīng)網(wǎng)絡(luò),w1和w2即超網(wǎng)絡(luò)利用全局狀態(tài)s學(xué)習(xí)的權(quán)重,w1和w2之間的激活函數(shù)為ELU,兩個(gè)MLP 之間的激活函數(shù)為ReLU。個(gè)體動(dòng)作值經(jīng)由兩層權(quán)重層非線性計(jì)算得到聯(lián)合動(dòng)作值。

圖4 混合網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of mixing network

為了有足夠多的訓(xùn)練數(shù)據(jù),本文設(shè)置一個(gè)額外的經(jīng)驗(yàn)池存儲(chǔ)一個(gè)情節(jié)中所有智能體的歷史軌跡。一個(gè)情節(jié)指從任務(wù)開始到任務(wù)結(jié)束或達(dá)到終止條件的整個(gè)過程,因此每個(gè)情節(jié)中的軌跡都是連續(xù)的,以方便GRU 的訓(xùn)練。

MMDN 通過最小化如式(10)所示的損失函數(shù)端到端地更新所有模塊的網(wǎng)絡(luò)權(quán)重參數(shù):

算法1MMDN 訓(xùn)練算法

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

選擇聚焦多智能體微觀管理的對(duì)抗場(chǎng)景的SMAC[30]作為基準(zhǔn)測(cè)試環(huán)境,所有方法需要對(duì)每個(gè)智能體進(jìn)行細(xì)粒度控制,以評(píng)估單個(gè)智能體能否學(xué)會(huì)同其他智能體協(xié)作完成對(duì)戰(zhàn)任務(wù)。

基于MMDN 的多智能體協(xié)作方法與基于CΟMA[13]、VDN[15]、QMIX[16]、QTRAN-base[17]、QTRAN-alt[17]的多智能體協(xié)作基線方法在8m、2s3z、2s_vs_1sc、MMM、3s5z、1c3s5z 等6 個(gè)場(chǎng)景中進(jìn)行性能評(píng)估。所有方法均與內(nèi)建的啟發(fā)式游戲AI 進(jìn)行對(duì)抗并計(jì)算勝率,內(nèi)建的AI 的難度等級(jí)設(shè)置為非常困難。實(shí)驗(yàn)環(huán)境的詳細(xì)信息和算法復(fù)現(xiàn)可以參考文獻(xiàn)[30]。

在所有場(chǎng)景的訓(xùn)練過程中,每個(gè)智能體分散地使用-貪婪策略選擇執(zhí)行動(dòng)作。隨著訓(xùn)練過程的進(jìn)行,在50 000 個(gè)時(shí)間步中從1.0 線性衰減到0.05,并在以后的訓(xùn)練過程保持不變。折扣因子λ設(shè)置為0.99。優(yōu)化器選用RMSprop,學(xué)習(xí)率設(shè)置為0.000 5。當(dāng)一方獲勝或達(dá)到最大時(shí)間步后,一個(gè)情節(jié)終止。所有場(chǎng)景中的最大情節(jié)數(shù)為20 000,經(jīng)驗(yàn)池包含最近的4 000 條完整歷史軌跡。每次更新過程從經(jīng)驗(yàn)池中均勻地采樣32 個(gè)批量樣本,并在完整的歷史軌跡上訓(xùn)練。每次訓(xùn)練完100 個(gè)情節(jié)后暫停訓(xùn)練并獨(dú)立地運(yùn)行20 個(gè)情節(jié)進(jìn)行評(píng)估,每個(gè)智能體分散地使用貪婪策略選擇目標(biāo)動(dòng)作。測(cè)試勝率指算法控制的智能體在一定時(shí)間內(nèi)擊敗所有敵方單位的情節(jié)數(shù)占總測(cè)試情節(jié)數(shù)的百分比。目標(biāo)網(wǎng)絡(luò)的權(quán)重參數(shù)為每200 個(gè)情節(jié)更新一次。

3.2 實(shí)驗(yàn)結(jié)果與消融研究

圖5 給出了6 種方法在6 個(gè)場(chǎng)景中的評(píng)估結(jié)果。在每個(gè)場(chǎng)景中每種方法按照不同的隨機(jī)種子運(yùn)行5 次,取5 次結(jié)果的均值。從圖5 的實(shí)驗(yàn)結(jié)果可以看出:

圖5 在6 種不同場(chǎng)景中的勝率結(jié)果Fig.5 Results of win rates in six different scenarios

1)CΟMA 的表現(xiàn)相對(duì)而言劣于其他基于值函數(shù)的方法,在異構(gòu)環(huán)境中均為最差。這也許與其僅有一個(gè)中心化Critic 不能很好地處理異構(gòu)智能體信息有關(guān)。

2)QTRAN-alt 綜合而言是基于值函數(shù)的方法中性能表現(xiàn)最差的,明顯劣于其他方法,在3s5z 和1c3s5z 兩個(gè)復(fù)雜場(chǎng)景中完全無效。

3)QTRAN-base 相比QTRAN-alt 表現(xiàn)較好,但在兩個(gè)復(fù)雜場(chǎng)景中也是幾乎失效的,原因在于QTRAN相比于VDN 和QMIX 額外增加了兩個(gè)損失函數(shù)以確保聯(lián)合動(dòng)作值函數(shù)和個(gè)體動(dòng)作值函數(shù)滿足文獻(xiàn)[17]中定理1 或定理2 的條件,這樣做使得優(yōu)化問題的復(fù)雜度也增加到Ο(|S|·|U|n),其中,|S|表示狀態(tài)空間數(shù)量,|U|表示動(dòng)作空間數(shù)量。相比之下VDN 和QMIX 的優(yōu)化 復(fù)雜度 從Ο(|U|n)降低到Ο(n|U|)[31]。SMAC 盡管是一個(gè)離散動(dòng)作空間的環(huán)境,但是其狀態(tài)空間是非常大的,這就造成了QTRAN 的優(yōu)化復(fù)雜度遠(yuǎn)高于其他方法,可能出現(xiàn)在計(jì)算上難以解決該優(yōu)化問題,而且場(chǎng)景越復(fù)雜,算法性能表現(xiàn)越差。

4)QMIX 和VDN 的表現(xiàn)接近,在比較復(fù)雜的場(chǎng)景中QMIX 表現(xiàn)更好,在比較簡(jiǎn)單的場(chǎng)景中VDN表現(xiàn)更好。筆者認(rèn)為這是由線性分解和非線性分解的表征能力導(dǎo)致的差異。在復(fù)雜場(chǎng)景中,線性分解表征能力受限,不足以很好地學(xué)習(xí)聯(lián)合動(dòng)作值函數(shù),而在簡(jiǎn)單場(chǎng)景中,線性分解和非線性分解的表征能力沒有較大區(qū)別,但是非線性分解使用神經(jīng)網(wǎng)絡(luò)需要額外的訓(xùn)練,線性分解只需直接進(jìn)行計(jì)算。

5)MMDN 相比于基線方法,獲得了最好的性能表現(xiàn),尤其是在復(fù)雜的場(chǎng)景中性能提升非常明顯。

對(duì)MMDN 進(jìn)行進(jìn)一步的消融研究,在場(chǎng)景2s_vs_1sc 和3s5z 中驗(yàn)證每個(gè)模塊的有效性。

消融實(shí)驗(yàn)1探究將動(dòng)作評(píng)估與狀態(tài)估計(jì)解耦的有效性。MMDN 取消多智能體競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)后可被視 為引入λ-回報(bào)的QMIX,記 作QMIX(λ)。VDN+DN 可以視為使用線性混合網(wǎng)絡(luò)且λ=0 的MMDN。圖6 結(jié)果表明,采用多智能體競(jìng)爭(zhēng)網(wǎng)絡(luò)后方法的性能均得到了提升,這說明將動(dòng)作評(píng)估與狀態(tài)估計(jì)解耦有利于智能體做出更好的決策,提升方法的性能表現(xiàn)。

圖6 消融實(shí)驗(yàn)1 的結(jié)果Fig.6 Results of ablation experiment 1

消融實(shí)驗(yàn)2探究不同的λ值對(duì)MMDN 性能的影響。分別選取λ等于0、0.4、0.8 和0.99 進(jìn)行測(cè)試。圖7 的結(jié)果表明,不同的λ值會(huì)對(duì)算法產(chǎn)生不同的影響。λ具有平衡偏差和方差的作用,若λ值取得太大,則多步估計(jì)的權(quán)重較高,不能緩解高方差;若λ值取得太小,則多步估計(jì)的權(quán)重較低,具有較大偏差。因此,在本文中選取λ=0.8。

圖7 消融實(shí)驗(yàn)2 的結(jié)果Fig.7 Results of ablation experiment 2

消融實(shí)驗(yàn)3探究V和A的不可辨識(shí)問題。圖8的結(jié)果表明,采用式(9)近似動(dòng)作值函數(shù)比直接采用式(8)效果更好,場(chǎng)景越復(fù)雜性能差異越明顯,說明式(9)確實(shí)可以緩解因不可辨識(shí)導(dǎo)致的訓(xùn)練不穩(wěn)定問題。

圖8 消融實(shí)驗(yàn)3 的結(jié)果Fig.8 Results of ablation experiment 3

4 結(jié)束語(yǔ)

本文提出一個(gè)基于MMDN 的多智能體協(xié)作方法,融合多智能體競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)、值分解思想和多步時(shí)間差分學(xué)習(xí),將動(dòng)作評(píng)估與狀態(tài)估計(jì)解耦,充分利用整條歷史軌跡學(xué)習(xí)聯(lián)合動(dòng)作值函數(shù),權(quán)衡估計(jì)偏差與多步采樣帶來的方差,并且在環(huán)境平穩(wěn)性和智能體拓展性之間取得較好的平衡,有利于訓(xùn)練與學(xué)習(xí)多智能體協(xié)作策略。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。下一步將對(duì)多智能體競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)做進(jìn)一步改進(jìn)并拓展到連續(xù)動(dòng)作空間,同時(shí)引入?yún)f(xié)作圖、智能體通信等機(jī)制,提升其在更為復(fù)雜的多智能體協(xié)作任務(wù)中的性能表現(xiàn)。

猜你喜歡
動(dòng)作智能方法
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動(dòng)作描寫要具體
畫動(dòng)作
動(dòng)作描寫不可少
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
非同一般的吃飯動(dòng)作
主站蜘蛛池模板: 日本不卡免费高清视频| 久久人妻xunleige无码| 精品无码日韩国产不卡av | 国产午夜福利亚洲第一| 亚洲视频免费播放| 四虎永久免费地址| 国产精品va免费视频| 91成人在线观看| 午夜天堂视频| 成人免费一区二区三区| 人妻丰满熟妇αv无码| 免费女人18毛片a级毛片视频| 中文字幕有乳无码| 亚洲日韩精品无码专区97| 国产菊爆视频在线观看| 国产精品私拍在线爆乳| 中文一级毛片| 欧美精品在线免费| 亚洲国产中文精品va在线播放 | 久久6免费视频| 国产主播福利在线观看| 自拍偷拍一区| 欧美一区二区人人喊爽| 免费不卡在线观看av| 日韩av高清无码一区二区三区| 日本在线亚洲| 欧美一级特黄aaaaaa在线看片| 亚洲一级无毛片无码在线免费视频| 久久免费观看视频| 亚洲无码高清一区| 精品国产一区二区三区在线观看| 一级毛片在线播放免费| 国产精品中文免费福利| 国产成人AV男人的天堂| 在线观看精品国产入口| 国产精品无码久久久久久| 亚洲香蕉在线| 亚洲第一中文字幕| 国产高清色视频免费看的网址| 免费啪啪网址| 伊人网址在线| 日本欧美成人免费| 国产在线日本| 日韩中文欧美| 亚洲第一区欧美国产综合| 亚洲最新网址| 青青青草国产| 色视频久久| 欧美激情第一区| 在线观看网站国产| 天天摸天天操免费播放小视频| 五月丁香伊人啪啪手机免费观看| AV老司机AV天堂| 国产sm重味一区二区三区| 中文一区二区视频| 色综合天天操| 久久美女精品| 人人91人人澡人人妻人人爽| 小说 亚洲 无码 精品| 国产视频入口| 亚洲精品亚洲人成在线| 人妻少妇久久久久久97人妻| 国产成人三级| 手机在线看片不卡中文字幕| 国产精品护士| 亚洲成人黄色在线| 国产欧美综合在线观看第七页| 成年人视频一区二区| 国产精品亚洲综合久久小说| 日本免费精品| 大学生久久香蕉国产线观看| 国产草草影院18成年视频| 国产香蕉在线视频| 一区二区三区成人| 亚洲三级成人| 东京热高清无码精品| 伊人色婷婷| 国产自产视频一区二区三区| 成人国产精品2021| 午夜国产精品视频| 亚洲最大福利视频网| 亚洲a级在线观看|