999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于元權值學習方法的智能博弈對抗研究

2022-11-15 07:54:34徐志雄王鋒
軍事運籌與系統工程 2022年2期
關鍵詞:策略方法模型

徐志雄 王鋒

(陸軍邊海防學院,陜西 西安710100)

1 引言

近年來,DARPA 發布游戲AI 技術征詢啟事并資助《星際爭霸》游戲AI 研究,美國海軍陸戰隊研發“雅典娜”戰爭游戲,蘭德公司探索人工智能輔助任務規劃,從中可以看出,美軍正在關注智能博弈對抗技術的發展,為獲取未來智能化戰爭中的決策優勢提供理論支撐和技術儲備。這對我軍發展軍事人工智能具有重要的借鑒意義。國內采用智能方法進行指揮決策問題研究也取得很多成果。文獻[1][2]基于模型分析和仿真評估研制了聯合作戰方案生成與評估系統、空軍戰役智能決策支持系統。文獻[3]~[5]從信息、決策、資源和結構四個方面對方案進行建模,可以對方案執行效果實時跟蹤。文獻[6]基于多Agent 智能技術和行動方案生成專家系統開發了作戰計劃協同制定系統。文獻[7]研究了制導航彈的任務規劃系統,提出了一種任務規劃系統的設計方案,但并未對該方案予以實現和驗證。文獻[8]提出了基于陸軍指揮所模型的作戰計劃獨立生成方法,研究了基于大數據的軍事情報分析與服務系統體系結構。文獻[9]開發了人工智能程序“CASIA-先知v1.0”,利用知識和數據驅動的系統架構,構建了戰術團隊的智能作戰行為模型。

目前,國內大部分研究工作采用有監督或半監督的機器學習方法。然而當前我軍缺乏實戰數據,且作戰裝備訓練數據數量有限,這一現實條件限制了以深度學習為代表的機器學習方法在作戰實體行為建模問題上的進一步應用。相比之下,以強化學習方法為代表的人工智能技術在作戰實體博弈行為建模應用方面有了長足發展,為下一步突破作戰實體智能決策的“瓶頸”提供了可能。

2 基于加權梯度更新的無模型元深度強化學習方法

2.1 算法設計思路

基于深度強化學習方法的智能博弈對抗是利用以深度強化學習為代表的智能技術,訓練出具有認知能力的智能體,可對環境進行感知與認知,利用規則和學到的經驗知識,通過與對手的對抗性博弈,實現對最優行為的選擇。

作戰博弈對抗過程中,基于強化學習方法的指揮作戰實體,在參與博弈過程中不斷試錯,與戰場環境持續交互,通過行動探索學習決策經驗,從而循環更新自身策略網絡來不斷調整其作戰行動。強化學習訓練得到的策略網絡,可以理解為作戰人員決策經驗知識的隱性表達,是指揮決策思維過程的表征。然而,在此過程中還存在諸多難題。傳統深度強化學習模型在解決博弈對抗決策問題時,初始策略模型是從隨機初始化后的網絡上開始訓練的,由于復雜戰場環境下的狀態和動作維度高,采樣低效,且訓練時作戰行動的效果反饋稀疏或反饋不準確,即在采取一定的戰術決策后,無法對當前決策進行及時、準確的評價,需要進行到一定階段后,才會得到一個整體的反饋信息。這導致基于傳統深度強化學習方法的初始策略模型的優化存在冷啟動問題。針對這一問題,提出基于歷史行動軌跡梯度的元深度強化學習方法,通過為初始策略模型提供一種高效的網絡初始化辦法來解決冷啟動問題,提高學習效率和模型性能。

元學習的最新進展為深度強化學習方法提供了一種新的學習方式。通過在任務分布上進行訓練,學習元知識,元深度強化學習方法可以憑借很少的交互數據解決新的任務。目前基于梯度的元學習方法不僅在強化學習領域取得了很大成功,而且在監督學習任務上也獲得了顯著成效。

基于梯度的元學習方法的核心思想是通過利用多個歷史行動軌跡中的梯度特征學習來得到網絡初始化參數和初始化模型,以便策略模型能夠高效地解決新任務[10~15]。然而,目前已經提出的基于梯度的元深度強化學習中普遍存在的問題是,訓練得到的初始的基于梯度的網絡模型可能會偏向于某些任務,特別是元訓練階段性能較好的一些任務。在這種情況下,最終訓練得到的實際上是有偏的基于梯度的網絡模型。有偏的初始化模型對新任務的泛化能力差,特別是那些與元訓練任務有較大差別的新任務。針對這一問題,本文提出了一種通用的元權值(Meta Weight Learning,MWL)學習方法,通過直接最小化不同任務間的性能差異來訓練一個無偏的初始網絡模型,使基于梯度的元深度強化學習方法對新的任務有更強的泛化能力,同時提供一種更加高效的網絡初始化辦法來解決策略模型訓練前期冷啟動問題,提高學習效率和模型性能。

本文提出的基于元權值學習的無模型元學習算法(Meta Weight Learning based Model-Agnostic Meta-Learning,MWL-MAML)的網絡架構是在基于梯度的無模型元學習方法基礎上,結合元權值學習機制構建而成。此外,本文還設計了一種端到端的訓練方法,來高效地訓練權值和網絡模型初始化參數。

2.2 無模型元學習算法

本文以無模型元學習(Model-Agnostic Meta-Learning,MAML)[16]為視角,重點研究元深度強化學習的目標。MAML 的目標是在從策略πθ下采集得到的K條軌跡中學習之后找到一個策略πφ,該策略能夠最小化新任務分布D(T)上的預期損失。具體來說,MAML 通過使用損失函數的梯度來優化策略πφ的參數φ:

式(1)中,θ,φ分別代表策略πθ、策略πφ的參數,β是元學習率,表示K條軌跡的平均損失函數。

2.3 基于元權值學習的無模型元學習方法

MAML 算法更新目標函數中的平均方法實際上并不能解決策略模型在某些任務上過優化的問題,訓練最終得到的仍然是一個有偏的初始化網絡模型[17]。

為了解決這一問題,本文提出了一種加權梯度更新機制來最小化初始網絡模型對任意給定任務的偏差。

具體來說,給每個軌跡一個梯度更新的權重。為了滿足權重歸一化的條件,假設第k條軌跡的權重為:

MAML 算法中目標函數更新為:

本文通過梯度更新權重代替人工設置權重。權重的更新目標是將w的值設置為在下一次迭代中使目標函數的值最小化的值w*。在上一時間步的權重值基礎上執行一個梯度下降步驟,梯度計算為:

因此,下一時刻權值更新估計為:

式(6)中,δ是權值w的學習率。需要注意的是,梯度的計算要根據批次測試集上的損失大小,依據更新目標函數來完成。具體地說,由MAML訓練的初始網絡模型可能偏向于某些任務,并且可能無法有效地解決與元訓練任務有很大偏離的新任務,而本文提出的MWL-MAML 算法通過對不同訓練任務的軌跡在更新時賦予權值來提高對不同任務的適應性。MAML 和MWL-MAML 算法的更新過程比較如圖1 所示。

圖1 MAML 和MWL-MAML 方法參數更新過程比較

MWL-MAML 的訓練思想是對初始網絡模型進行無偏訓練,通過直接最小化模型在元訓練階段中不同任務上損失的不平衡性,使得元學習器能夠學習一個無偏的初始網絡模型,而不會在某些特定的任務上產生過優化問題。MWL-MAML 算法的端到端的訓練方法見表1。

表1 MWL-MAML 算法流程

MAML 旨在找到對任務變化敏感的模型參數,當模型參數在訓練任務的損失梯度方向上改變時,參數的微小變化將對任何從D(T)中采樣的任務產生很大的影響,MWL-MAML 的目標就是增強這種模型參數的敏感性,并在參數空間中找到一組參數,使得模型不僅能夠適應不同任務,而且能夠高效地解決所有任務(使用很少的交互數據)。

本文提出的MWL-MAML 算法只使用了學習過程中采集的軌跡數據,并沒有為MAML 算法中引入額外的需要精調的超參數,這確保了提出的方法能夠完全基于歷史軌跡來自動調整學習方向,一定程度上減少了人工調整帶來的不確定性。通過從歷史軌跡的梯度特征中最大化提煉知識來調整未來的學習方向,提高學習效率。

3 無人化裝備博弈對抗驗證

本節選用無人坦克作戰行動序列優化問題進行實驗測試。以國際公測平臺Robocode 為實驗平臺,分別利用多種基于學習算法的智能坦克(紅方)和基于專家系統的規則坦克(藍方)進行對戰,采用2V2 無人坦克對戰模式,來驗證本文所提方法在博弈對抗任務中的有效性和健壯性。

3.1 對抗場景

Robocode[18~20]是由美國IBM 發布的先進仿真實驗平臺。在Robocode 中,無人坦克分為3 個部件:機身(Vehicle)、炮塔(Gun)、雷達(Radar)。

仿真對戰場景為1 200×1 200 單位像素的2D環境,坦克自身大小為36×45 個單位像素。

Robocode 中一場戰斗開始時,每一個機器人都能得到100 個單位能量,在不同的狀態下,如撞墻、撞到機器人、打中敵人和被敵人打中時,機器人的能量都會發生改變,而且不同的狀態都有不同的能量轉換規則。

(1)發射炮彈能量大?。禾箍藱C器人在開始時能以不同的能量發射炮彈,炮彈能量在0.1~3 之間。

(3)當坦克機器人被敵人炮彈打中時:如果敵人炮彈的能量小于等于1,能量損傷度計算公式為4×power;如果敵人炮彈能量大于1,則能量損傷度計算方式為4× power +2×(power-1)。

(4)本文為每回合每輛坦克設置的炮彈數量為100。

每個回合開始時,紅藍雙方坦克位置隨機分配,雙方坦克能量值均為100,若其中一方坦克能量值低于0,則坦克被摧毀,回合結束并重新初始化開始下一輪。

3.2 紅藍對抗智能設計

紅藍無人坦克對抗模式包含了2V2 紅藍坦克協同對戰模式。用2V2 坦克協同對戰模式來驗證基于歷史行動軌跡梯度的策略模型優化方法的有效性。采用的學習算法有近端策略優化(PPO)算法、MAML(基于探索的無模型元學習)算法、EMAML 算法以及MWL-MAML 算法。藍方坦克為一系列基于專家系統的規則坦克的集合,每次對抗時,敵方坦克從集合中隨機選取一種規則坦克進行對戰,集合中的坦克有Walls 坦克、Fire 坦克、Spinbot 坦克、Crazy 坦克以及JuniorRobot 坦克。坦克對抗設計見表2。

表2 坦克對抗設計

Walls 坦克運動的基本規則是躲藏在戰場邊緣進行隨機移動,雷達對戰場進行分區域掃描,一旦掃描到敵方坦克,獲取當前幀的敵人位置和自己位置以及射擊的角度、子彈的速度,當有足夠多的數據后,根據當前的位置和角度,獲取最有可能打中敵方的攻擊方式。Fire 坦克的對戰策略是在對戰前期保持車身靜止不動,同時雷達和炮管協同轉動,轉動范圍是0~360°,一旦發現目標就采取攻擊,發射炮彈,當自身受到攻擊時,立刻進行隨機移動。Spinbot 坦克的對戰策略是始終進行圓周運動,如果運動過程中受到攻擊,立即變化圓周運動的方向和半徑大小,同時雷達和炮管協同轉動,轉動范圍是0~180°,一旦發現目標立即采取攻擊。Crazy 坦克的對戰策略是在對戰的過程中一直保持高速的隨機運動,同時保持機身的加速度時刻處于變化之中,同時雷達和炮管協同轉動,發現目標時立即射擊。JuniorRobot 坦克的對戰策略是保持機身始終以蹺蹺板的運動方式移動,當它看不到任何敵人坦克時,會保持在機身左右兩端旋轉雷達,當發現敵方坦克時,立刻轉動炮管開火。

3.3 算法參數設置

對于MWL-MAML 方法,超參數的具體設置見表3。

表3 MWL-MAML 方法中超參數設置

此外,PPO,MAML,E-MAML 方法的超參數設置見文獻[21]~[23]。

訓練和測試時,MWL-MAML 算法坦克、EMAML 算法坦克、MAML 算法坦克、PPO 算法坦克分別與基于專家系統的規則坦克進行對戰。每次從集合中隨機選取一種規則坦克,每種對戰設置為50 000 回合,以100 回合為一個學習周期,共有500個學習周期,每個學習周期結束后記錄一次算法坦克得分。每個學習周期結束后,清零雙方得分,開始下一個學習周期的得分統計。

3.4 仿真結果分析

根據前面設置的實驗場景進行實驗。坦克總得分由坦克存活得分和炮彈擊中得分相加而來,每一個學習周期記錄一次坦克總得分。綜合四種算法實驗結果,得到四種算法坦克得分結果如圖2 所示。

圖2 四種算法坦克得分對比

由圖2 可知,四種算法中,MWL-MAML 算法的最終平均得分最高。收斂速度方面,MWLMAML 算法和MAML 算法略高于E-MAML 算法,明顯快于PPO 算法。表4 記錄了四種學習算法收斂后的平均得分和標準差。MWL-MAML 算法相比PPO 算法、MAML 算法、E-MAML 算法而言,平均得分提高了48.7%,14.1%,7.1%;在算法穩定性上,標準差分別減小了22.8%,10.8%,4.5%??梢钥闯觯跉v史行動軌跡梯度的策略模型優化方法有效地提高了基于學習算法坦克對抗策略的勝率,即使在2V2 坦克對戰想定中,狀態和動作空間維度急劇增大的情況下,仍然能夠提升學習效率和算法性能。

表4 2V2 坦克對戰想定下算法平均得分和標準差

圖3 為2V2 坦克對戰想定下四種學習算法的臨界差分圖(Critical Difference Diagrams),可以看出,MWL-MAML 的平均得分確實高于其他比較算法。

圖3 四種學習算法平均得分臨界差分圖

仿真顯示,在紅方與藍方坦克對戰時(選取Crazy 坦克作為對手進行測試),紅方坦克最終學習得到了兩種博弈對抗策略:當紅方坦克處于對抗優勢時(能量值較高且彈藥充足),紅方兩輛坦克能夠迅速針對敵方一輛坦克采取前后夾攻的策略進行攻擊;當紅方坦克處于對抗弱勢時(能量值較低或彈藥缺乏),紅方兩輛坦克能夠主動找到戰場邊緣處進行防守,同時雷達能夠分區域掃描,協同防御藍方坦克。

綜合以上實驗結果表明,基于歷史行動軌跡梯度的策略模型優化方法進一步提高了深度強化學習方法的健壯性和學習效率。該方法對優化無人坦克博弈對抗策略具有重要作用,坦克作戰能力得到有效提升。

4 結束語

本文提出了一種基于元權值學習的無模型元學習算法,用少量交互數據就能高效訓練新任務,提升對新任務的泛化能力。同時,引入了端到端的訓練方法,直接通過從多個歷史行動軌跡的梯度特征,來學習訓練初始網絡參數,優化初始策略模型,解決模型訓練存在的冷啟動問題。實驗結果表明,該算法提升了模型前期采樣效率,縮短了訓練時長,同時提升了模型最終性能。

猜你喜歡
策略方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久黄色毛片| 狠狠干欧美| 久久久久夜色精品波多野结衣| 少妇高潮惨叫久久久久久| 久久久久亚洲Av片无码观看| 色综合天天视频在线观看| 国产鲁鲁视频在线观看| 亚洲国产精品日韩专区AV| 亚洲精品波多野结衣| 看av免费毛片手机播放| 国产视频你懂得| 亚洲天堂色色人体| 91午夜福利在线观看| 精品综合久久久久久97超人| 伊人成人在线视频| 国产一在线观看| 无码一区18禁| 婷婷激情五月网| 国产成人精品免费视频大全五级| 国产呦视频免费视频在线观看| 2021最新国产精品网站| 国产欧美视频综合二区 | 91无码视频在线观看| 欧美日韩中文字幕二区三区| 欧美另类精品一区二区三区| 国产一级毛片在线| 午夜日b视频| 亚洲国产黄色| 亚洲日产2021三区在线| 亚洲不卡网| 精品在线免费播放| 午夜国产不卡在线观看视频| 色欲色欲久久综合网| 香蕉综合在线视频91| 国产精品无码久久久久AV| 日韩区欧美国产区在线观看| 久久婷婷色综合老司机| 99视频有精品视频免费观看| 免费人成在线观看成人片| 72种姿势欧美久久久大黄蕉| 黄色网在线免费观看| 在线观看亚洲天堂| 免费一级毛片完整版在线看| 国产欧美另类| 波多野结衣无码AV在线| 91在线日韩在线播放| 国产免费自拍视频| 色偷偷av男人的天堂不卡| 免费在线看黄网址| 亚洲天堂777| 日韩黄色精品| 天天操天天噜| 制服丝袜国产精品| 久久99久久无码毛片一区二区| 日韩美女福利视频| 97久久人人超碰国产精品| 最新国产在线| 久久大香香蕉国产免费网站| 国产福利小视频高清在线观看| 中文无码日韩精品| 亚洲一区波多野结衣二区三区| 婷婷综合缴情亚洲五月伊| 中文字幕66页| 制服丝袜在线视频香蕉| 亚洲无码熟妇人妻AV在线| 欧美视频在线播放观看免费福利资源| 日日拍夜夜嗷嗷叫国产| 女人一级毛片| 人妻无码AⅤ中文字| 久久亚洲日本不卡一区二区| 国产农村精品一级毛片视频| 免费国产在线精品一区| 亚洲区视频在线观看| 手机看片1024久久精品你懂的| 日韩免费视频播播| 国产乱肥老妇精品视频| 国产性精品| 亚洲一区免费看| 在线看免费无码av天堂的| 日本一区二区三区精品视频| 91色综合综合热五月激情| 日本不卡在线|