999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能博弈對抗中的對手建模方法及其應用綜述

2022-05-15 06:34:44魏婷婷袁唯淋羅俊仁張萬鵬
計算機工程與應用 2022年9期
關鍵詞:智能策略方法

魏婷婷,袁唯淋,羅俊仁,張萬鵬

國防科技大學 智能科學學院,長沙410073

近年來,人工智能技術的進步引領智能博弈對抗領域飛速發展。2017年,AlphaGo戰勝人類頂級選手[1],標志著人工智能在完全信息下的博弈對抗學習中取得了成功,圍棋這一難題被徹底攻破。隨后,研究人員將目光轉向了不完全信息下的大規模博弈對抗,2019年,由Facebook 人工智能實驗室和卡耐基梅隆大學共同研發的撲克AI 程序Pluribus 在六人無限注德州撲克比賽中擊敗了全球頂尖職業選手[2]。2019 年10 月,DeepMind使用多智能體強化學習(multi-agent reinforcement learning,MARL)方法訓練的AlphaStar在星際爭霸Ⅱ中取得大師級水平[3],成果發表在Nature雜志上,智能博弈對抗研究進展如圖1 所示。智能博弈對抗技術在國土安全和軍事指揮與控制領域都扮演著重要的角色。從民事應用來看,智能博弈對抗技術的應用范圍廣泛,涵蓋了軍事規劃與指揮、反恐與國土安全、信息安全、即時策略游戲(real-time strategy,RTS)等實際問題。在軍事指揮與控制領域攻防對抗中,隨著博弈對抗規模的擴大,對抗空間呈現指數級增長,多方協同與環境耦合的問題凸顯,戰爭系統具有強非線性和高動態等復雜特性,解析計算和隨機逼近最佳策略都存在巨大挑戰,智能博弈對抗的策略學習需要著力研究對手行為建模和協同演化策略學習方法,以不斷提升對抗能力。

圖1 智能博弈對抗研究進展Fig.1 Progress of intelligent game confrontation research

對手建模研究在過去二十年取得了重大進展,是指在對抗環境下,考慮如何對除自己以外其他智能體進行行為建模,是一種典型的行為預測技術[4]。智能博弈對抗策略學習的許多相關研究都關注于開發能夠與其他智能體有效交互的自主智能體,對手建模作為其中最重要的方法之一,通過構建模型來分析或預測交互環境中其他智能體的各種值得關注的屬性(如行動、目標、策略類型),進而推理它們的行為。目前不同研究領域存在著各種建模方法,它們的基本假設均不相同,以滿足其各自實際應用中的需要。在攻防對抗場景中,由于環境是部分可觀測的,博弈中存在諸多的不確定性,通過對對手進行建模,識別其意圖并加以利用,可以更有效地輔助決策。在多智能體系統(multi-agent system,MAS)中,通過對智能體建模,可以推測智能體動作、目標、策略等相關屬性,為輔助決策提供關鍵信息。在軍事應用中,指揮控制命令的生成必須以敵我雙方的作戰態勢為依據,因此建立一個準確的敵方行為預測模型對于分析其意圖尤其重要,基于此,己方才能最大限度地達到軍事目的,以限制或操縱敵方。

對手建模的研究已經逐步從理論落地到實際應用。2004年,DARPA啟動的實時對抗智能決策項目(real-time adversarial intelligence and decision-making,RAID),旨在根據當前可用的信息估算未來戰爭態勢。2017 年,DARPA提出了馬賽克作戰概念[5],期望運用智能技術來提升決策的快速性和有效性,通過對手建模,分析敵方策略,采用相應措施干擾敵方并增加敵方決策復雜度。2019 年,美國國防高級研究計劃局(DARPA)的空戰演進計劃(air combat evolution,ACE)開始著手將AI飛行員由虛擬仿真推向實機對抗[6]。對手建模在競技類游戲和軍事仿真推演等領域的應用前景廣闊,因此研究對手模型建立與利用具有重要意義。

1 對手建模內涵

對手建模研究由來已久,最早在博弈論框架下進行相關研究,是博弈論范式下的子課題,許多對手建模的方法受到博弈理論的啟發而提出。博弈論是在現實世界競爭中人類行為模式的基石,研究理性參與者決策的相互作用及其均衡問題,使得個體通過競爭與合作實現自身利益最大化。在博弈論中,納什均衡[7]是博弈的最優解,可利用性衡量的是一個策略與納什均衡策略之間的距離,其大小表征了納什策略可利用性的強弱。對手建模以可觀測的歷史數據作為輸入,最終得到關于智能體某些屬性的預測,如圖2所示。

圖2 對手建模過程Fig.2 Process of opponent modeling

建立對手模型的目的是智能體能夠適應對手并利用其弱點來提高智能體的決策能力,即使已知均衡解,利用準確的對手模型仍有可能獲得更高的獎勵。為了易于處理問題,對手建模研究通常假設對手遵循固定的策略,與平穩假設相反的策略稱為非平穩策略。Albrecht等人從總體上歸納了對手建模方法[8],主要分為以下幾類:策略重構[9-10],即建立模型對對手的行動做出明確的預測來重建對手的決策過程;基于類型的推理[11],假設對手有幾種已知類型中的一種,并使用在實時交互過程中獲得的新觀察來更新信念;分類方法[12],模型將類別標簽(例如,“攻擊性”或“防御性”)分配給對手,并采用對該特定類別的對手有效的預計算策略;規劃行動意圖識別[13],使用層次化規劃庫或域理論,預測智能體的目標和可能行為;遞歸推理[14-15],對嵌套信念進行建模(例如,“我相信你相信我相信……”)并模擬對手的推理過程來預測他們的行動,遞歸持續推理其他智能體的可能模型并預測其可能行為,但是往往遞歸層次難以分析,理性假設太強。

由于非平穩環境下的博弈對抗愈演愈烈,平穩假設會嚴重限制系統的適用性和準確性,迫切地需要對動態的對手策略進行建模,以此為基礎進行反制策略的研究。本文旨在從非平穩角度出發,對現有的對手建模方法及其應用進行總結歸納。

1.1 面臨的挑戰

通常情況下,博弈對抗中的智能體被認為是完全理性的,但在撲克、星際爭霸等不完美信息動態博弈對抗中,智能體所處的環境是部分可觀測的,人類參與者往往具有有限理性,無法做出最佳的策略。決策任務中對手策略的不固定性帶來的非平穩問題一直是博弈論、強化學習等領域研究的熱點,現有的方法大多數是通過學習其他智能體的模型來預測它們的行為,從而消除非平穩行為。

根據智能體所處環境特性的不同,進行對手建模時所考慮的條件以及建模的方式往往也不同。現有的一些研究工作往往將其他智能體看作是環境的一部分,不考慮由智能體主體參與引起的非平穩,忽略其他智能體的影響,優化策略的同時假設了一個平穩的環境,將非平穩問題視為隨機波動進行處理。當對手策略固定的情況下,將對手也視為平穩環境的一部分是一種有效簡化方法,然而,在對手策略是學習型緩慢變化或動態切換變化時,需要充分考慮環境的非平穩性。在多智能體場景下,將智能體視為非平穩環境的一部分并不合理,因此,考慮環境的非平穩性,針對能夠自主學習的對手,有必要進行對手建模,以預測對手的行為和評估對手的能力。

從環境可觀測性和對手行為變化程度兩個維度對對手建模方法進行分析,目前應對“對手”的主要方法分為五類[16]:忽略(ignore)、遺忘(forget)、目標對手最佳反應(respond to target models)、學習對手模型(learn models)和心智理論(theory of mind,ToM)。博弈對抗環境根據可觀測性按遞增順序分為四類:局部獎勵、對手動作、對手動作與獎勵、完整先驗知識。環境的部分可觀察性對于智能體學習帶來了很大的不確定性,如存在欺騙利用的環境中,有些獎勵可能是虛假的。此外,在對抗交互中,對手也在不斷地適應和學習,因此對手改變其行為的能力也是一個重要的考慮方面,按其行為變化劇烈程度由低到高分為:固定策略(no adaptation)、緩慢改變(slow adaptation)、劇烈變化(drastic or abrupt adaptation)。不同的方法均對對手做了類似的假設,有些方法假設對手策略固定,那么在非平穩環境無法適用。由環境可觀測性、對手行為變化程度和智能體應對變化的能力組成的博弈對抗空間復雜性如圖3所示。

圖3 博弈對抗空間復雜性Fig.3 Complexity of game confrontation space

1.2 建模方式分類

目前的大部分研究將對手建模方法分為隱式建模和顯式建模[17],具體建模過程及區別如圖4所示。

圖4 顯式對手建模與隱式對手建模Fig.4 Explicit and implicit opponent modeling

顯式建模通常直接根據觀測到的對手歷史行為數據進行推理優化,通過模型擬合對手行為策略,掌握對手意圖,降低對手信息缺失帶來的影響,并且對其他方法的適配兼容效果更好。隱式建模則直接將對手信息作為自身博弈模型的一部分處理對手信息缺失的問題,通過最大化智能體期望回報的方式將對手的決策行為隱式引進自身模型,構成隱式建模方法。顯式模型提供了一種直接的方式來表示智能體的行為,但在沒有一定的先驗知識的情況下,建立精確的模型需要大量的樣本。對于不完美信息領域,由于對手信息的缺乏,使得顯式建模難以實現。隱式建模則是編碼智能體某些方面的行為特征,而不做出明確的預測。

2 對手建模方法

隨著深度神經網絡的興起,對手建模研究結合諸多領域,涌現出很多前沿的多智能體對手建模方法。本文基于現有的研究,將一些前沿的對手建模方法做如下分類:(1)基于策略表征的學習方法。由于深度學習技術的成熟使得網絡表征能力變強,許多研究使用深度強化學習預測對手行為策略,通過正則化的方法提高泛化能力,使用元學習的手段在少量交互的條件下快速適應對手。(2)基于認知建模的推理方法。心智理論是現實生活中人類進行交互的認知理論科學,在人對抗交互中,對抗雙方都會對對方行為模型產生認知,研究者開發了機器心智理論;在有限理性研究中,基于層次理論賦予智能體K級推理能力;在對手具有信念的前提下,通過遞歸推理的方法應對對手。(3)基于貝葉斯的優化方法。貝葉斯推理為對手建模與利用提供了理論基礎,已知對手策略先驗分布和對弈觀察的情況下,貝葉斯推理可以得到對手策略空間的后驗分布,進而推斷后驗策略并加以利用。對手建模方法層次與典型的前沿對手建模方法分別如圖5和表1[18-34]所示,以下分別進行詳細介紹。

表1 典型前沿對手建模方法Table 1 Typical cutting-edge opponent modeling methods

圖5 對手建模方法層次Fig.5 Hierarchy of opponent modeling methods

2.1 基于策略表征的學習方法

2.1.1 基于深度強化學習的方法

對手建模的兩個關鍵問題是選擇對手特征參數進行建模以及如何使用這些預測信息,深度學習由于具有強大表征能力,結合博弈論、認知心理學,涌現出許多優異的對手建模方法,并且解決了研究領域諸多問題。基于深度學習的方法[35]解決了依賴專家知識人工提取特征的問題,通過擬合能夠學習到高度靈活的模型,可以達到自動執行認知建模的目的,以此來預測人類的行為。一種深度強化學習對手網絡方法(deep reinforcement opponent network,DRON)[18]在DQN(deep Q-network)[19]的基礎上提出,包含一個預測Q值的策略學習模塊和一個推斷對手策略的對手學習模塊,根據過去的觀察隱式地預測對手的屬性,在此基礎上還使用了混合專家網絡改進Q 值估計的方法。DRON 將神經網絡應用于對手建模,結合強化學習以解決更復雜的決策問題,其能夠處理不完全信息博弈問題,但需要建立在大量的歷史數據基礎之上。深度策略推理方法(deep policy inference Q-network,DPIQN)和引入LSTM[36]循環神經網絡的深度循環策略推理方法(deep recurrent policy inference Q-network,DPIRQN)[20]通過制定輔助手段來額外學習這些策略特征,直接從其他智能體的原始觀察中進行學習,無需像DRON一樣采用手工特征(handcrafted features),即人工選取的特征。

2.1.2 基于正則化強化學習的方法

神經網絡的擬合能力非常強,但是也容易造成過擬合,在測試集上的錯誤率會很高。正則化(regularization)是一類通過限制模型復雜度,從而避免過擬合,提高泛化能力的方法,包括引入一些約束規則、增加先驗、提前停止等。一種正則化最大熵目標對手模型(regularized opponent model with maximum entropy objective,ROMMEO)[22]將MARL形式化為概率推理問題,通過引入相關項(記為ρ)可以防止建立的對手模型偏離實際,用對手模型和先驗之間的KL(Kullback-Leibler)散度作為ρ的正則化器,通過設定對手過往行為的先驗經驗分布,對偏離經驗分布的情況,KL散度將對ρ做出嚴重懲罰(由于方程中的目標可以看作是一個智能體的策略和對對手模型進行正則化的最大熵目標,此目標稱為正則化最大熵目標對手模型),雖然ROMMEO 實現了理論上的推導,但其驗證場景為完美信息博弈,對于實際的不完美信息博弈問題的求解效果未知。

2.1.3 基于元學習的方法

元學習(meta-learning或learning-to-learn)[37]是機器學習領域的新趨勢,它利用訓練階段的經驗來學習如何學習,獲得對新環境或新任務進行概括的能力,元學習在對手建模中的應用也有一些初步的研究成果。來自卡耐基梅隆大學和OpenAI的研究團隊提出策略動態自適應的方法[23]使用元學習算法MAML[38]來處理多智能體交互中的非平穩問題,研究如何在非平穩環境中,快速學習到相應的策略,該方法將非平穩環境視為一系列靜態任務,訓練智能體利用連續任務之間的依賴關系,但僅在少數對抗環境中取得了比基準算法性能好的效果。雖然多數結合元學習的方法訓練效果一般,但作為一種新的對手建模求解思路,其建模方法本質是學會對手學習,進而求解最佳響應。對手建模問題本質上是跟誰打(who to battle)和怎么打(how to battle)的問題,對手利用框架(learning to exploit,L2E)[24]通過元學習的方法進行隱式對手建模,提出了一個多樣性正則化的策略生成算法,可以自動產生難被利用的(hard-to-exploit)和多樣化(diverse)的對手,提高了算法的魯棒性和泛化能力,但其對最初生成的智能體性能要求較高。

2.2 基于認知建模的推理方法

2.2.1 基于心智理論的方法

博弈論無法解釋有限理性人的博弈決策行為,研究者借鑒人類心智理論,進行了機器心智理論的相關探索。心智理論是腦神經科學與認知科學領域中面向信息交互的認知行為理論,是認知推理智能的主要表現形式。認知科學領域的許多研究表明,人類經常利用這種能力來理解和預測他人的行為,甚至通過遞歸地推理他人如何使用這種能力理解自己的行為,進而演化出更高階的心智理論。相關研究工作已經表明,借鑒人類心智理論模型開發多智能體系統不僅可以提升AI的推理和決策能力層級,還有望改進當前人工智能領域存在不可解釋性的重要缺陷。DeepMind的研究人員提出了心智理論神經網絡(theory of mind neural network,ToMnet)[25]方法,使用元學習的方法構建了一個強大的先驗模型,來提高對對手未來行為的預測,智能體具備思考和判斷的能力,能產生對手信念并對其進行判斷,提高了AI的可解釋性。在一些游戲中,研究人員證明了一階和二階心智理論具有實質性的作用,而高階心智理論卻具有較低的投資回報率[39-40]。

2.2.2 基于認知層次的方法

智能體能產生對手信念,反之對手也能產生對智能體的信念,從而出現了信念嵌套。認知層次(cognitive hierarchy,CH)[41]模型無需求解博弈中的納什均衡,增強了可解釋性的同時,實現了對手建模算法從“感知”到“認知”的過渡。認知層次模型指出參與者具有思考步數,K步思考能力即認知層次為K,其大小代表了認知層次的高低,K級智能體可以推理得到低于K級的對手的推理邏輯和策略分布,并且可以對所有低于K級認知層次的對手做出最優反應。雖然理論上CH可以對低于自身層次的任何對手做出響應,但如何針對對手策略進行更加準確地預測以及迭代步數的選擇仍需繼續探索。Level-K迭代推理模型[26]賦予了智能體K級推理能力,對對手的行為預測的基礎上進行K輪的迭代推理,與認知層次的區別在于K級的智能體對K-1 級做出最佳響應,針對對手層次的假設也直接限制了智能體對其他層次對手的響應能力。

2.2.3 基于遞歸推理的方法

遞歸推理表示了一種認知層次的高低,將遞歸推理應用于對手建模研究有助于建立具備推理對手行為、目標和信念的智能體。UCL的研究團隊提出了MARL的概率遞歸推理(probabilistic recursive reasoning,PR2)[27]框架,首次將遞歸推理引入MARL 決策中,是對手建模的一個新的思路。傳統的對手建模方法可以被看作是0級遞歸推理,由于對對手更高級別的策略響應都要建立在0 級對手的基礎之上,因此0 級對手的選取是進行迭代推理、預測智能體行為的基礎模型,該模型直接影響更高層次的智能體的性能。Level-0 迭代模型[42]利用博弈領域的知識進行特征的選取,為0級對手提供了一種可靠的描述方式,針對具體的模型,需要調整相關特征權重以避免過擬合,防止預測性能降低。

對手意識(opponent awareness)在一些研究中被用來表征對對手的認知建模,本質上是采用相關理論對策略梯度進行推導求解。對手學習意識的學習(learning with opponent-learning awareness,LOLA)[28]則通過引入新的學習規則對對手策略參數更新進行預測,并對預測的行為做出最佳相應,通過對對手狀態-動作軌跡的觀察采用最大似然估計以求得對手策略參數的估計值,對手建模技術的引入解決了對抗環境下對手策略參數未知的問題,但對于風格復雜多變的對手,往往應對困難。倫敦大學學院(University College London,UCL)的研究團隊使用RL2[43]提出學會對手學習方法(LeMOL)[29]采取多智能體強化學習的框架,使用對手模型彌補了分散式訓練中無法訪問其他智能體策略的缺點,同基線算法集中式MADDPG[44]相比,性能有一定提升。

2.3 基于貝葉斯的優化方法

由于現實博弈中納什均衡的難計算、對手風格多變以及對手弱點可利用的特點,需要為其建立魯棒性高的方法,貝葉斯推理為對手建模與利用提供了很好的理論基礎。在給定先驗分布和對弈觀察的情況下,根據貝葉斯推理可以得到對手策略空間的后驗分布推斷對手的后驗策略,用β表示對手的行為策略,給定一個O=Os∪Of的觀察集,其中Os是導致攤牌的回合的觀察集,Of是導致折疊棄牌的回合的觀察集,Hs和Hf分別表示攤牌和棄牌的情況,根據貝葉斯規則可以得到:

貝葉斯方法的建模效果與先驗知識有關,對于更難對付的對手,如果有更加完備的先驗知識,對抗效果將更好。在得到對手行為策略分布之后,如何進行決策響應也是一個關鍵的環節,一種基于貝葉斯概率的模型[30],將博弈動態不確定性與對手策略的不確定性分離開來,使用貝葉斯最佳響應(Bayesian best response,BBR)、最大后驗響應(max a posteriori response,MAP)和湯普森響應(Thompson’s response)3種應對策略,其平均收益和平均勝率均不低于納什策略和當時先進的對手建模技術,并且能夠在短時間內快速適應對手并加以利用。深度貝葉斯策略重用(deep Bayesian policy reuse,deep BPR+)[32]在BPR+[34]上面增加了一個對手建模網絡,同時結合策略蒸餾[45]的方法,算法包含策略重用和新策略學習兩個階段,提高了學習新策略的效率和對對手策略判斷的準確性。基于模型的對手建模MBOM[33]將想象的對手策略與真實的對手進行相似性比較,將多種策略進行混合,以求得對手的最佳響應,該方法結合遞歸推理與貝葉斯推理來預測對手的學習,在競爭和合作環境中,MBOM對于固定策略、持續學習和具有推理能力的對手都有很好的適應能力。

3 對手建模方法典型應用分析

對手模型的建立對于處理復雜情況下的博弈對抗來說是非常必要的(如電子游戲、撲克等),是利用次優對手的關鍵。本章介紹序貫博弈對抗(德州撲克)、即時策略博弈對抗(星際爭霸)和元博弈中對手建模方法的具體應用。

3.1 序貫策略博弈

在德州撲克的機器博弈中,對手建模可以有效評估對手策略、找出對手弱點,利用對手的弱點往往能取得比納什均衡策略更高的收益。與圍棋不同,撲克由于對手手牌信息的私有性導致牌局信息不完美可知,求解空間復雜,難以搜尋均衡解,隨著冷撲大師Libratus[46]和Pluribus先后在雙人無限撲克和多人無限撲克中戰勝人類頂級玩家,德州撲克已然被當作大規模不完美信息動態博弈的重要測試環境。對手建模是德州撲克智能博弈中一個重要的研究方向,與斗地主、麻將等計算機撲克相比,參與者的目的不止是贏,更是希望在比賽結束時從對手那里贏得盡可能多的籌碼,德州撲克中參與者采用的策略以及暴露出的弱點可以加以利用,因此建立一個清晰的模型來預測對手的行為尤為重要。

在德州撲克中進行對手建模,一般包括手牌范圍建模和行為習慣建模兩部分,首先要進行對手策略類型及風格類型分析與手牌評估,然后基于已有的樣本數據擬合最優解。傳統的方法主要有策略偏向、決策樹、貝葉斯推理、神經網絡、多智能體投票建模等方法[47-50]。對手建模結合深度學習技術,與多領域知識融合,形成了以神經演化算法[51]為代表的前沿技術。傳統的基于規則的方法大多依賴于專家知識,結合深度學習的前沿對手建模技術可以在不具備相關領域知識的情況下取得不錯的效果,擬合性能良好,但大多屬于隱式建模方法,模型可解釋性不足。

3.1.1 特定對手最佳響應

在實際的博弈當中,博弈過程中的博弈者的類型是多種多樣的,將博弈者的策略進行抽象歸納是一種常用的方法[52]。在德州撲克游戲中,博弈過程中的博弈者類型可以分為以下5種,分別為進攻型、常規型、防守型、嚇唬型以及狡詐型[53],每種類型都有其優勢與劣勢。在實際的博弈當中,在同一博弈狀態下,針對不同類型的博弈者可以做出不同策略,要做到這一點,對于對手模型的建立就很有必要了,德州撲克中的對手建模框架如圖6所示。

對手當前策略的信念可以被編碼成一種策略,先驗或者后驗信念可以總結為一個函數,該函數即為信息集到行動的映射,即預期的對手策略。對手模型本身可以作為一種策略,也包含了對抗被對手利用的反制策略,這種反制策略的有效性在關于限制納什反應的研究中得到了證明。然而在一些情況下,對手模型只是基于少量觀察樣本而構建的,所以重點是研究如何與實際情況中的對手進行對抗。限制性納什響應反制策略(restricted Nash response,RNR)[54]是德州撲克中一種典型的對手建模的方法,可以在特定對手模型最佳策略和納什均衡之間找到具有魯棒性的反制策略,最大化利用對手的同時最小化損失。RNR通過選擇一個參數來表示整個對手模型的準確度,并且存在過擬合、需要大量觀測以及對訓練對手的選擇較為敏感的缺陷。數據偏差響應(data biased responses,DBR)[55]方法通過對每個信息集賦予一個置信度,從而建立一個更為可靠的魯棒反制策略對手模型。

3.1.2 神經演化學習

基于納什均衡的方法[56]在多智能體博弈領域取得了成功,但它們缺乏有效的建模和利用對手的能力。基于循環神經網絡LSTM 和模式識別樹(PRTs)的對手模型[51],通過進化優化構建基于模式識別樹和LSTM神經網絡的對手模型,然后將此類模型與決策方法集成,以建立能夠利用對手弱點以調整其行為的撲克智能體。通過這種方法,構建了一個德州撲克自適應系統(adaptive system of Hold’em,ASHE),包括RPT、LSTM 估計器和決策方法,方法的核心是對手模型,它包含PRT 和兩個LSTM估計器。RPT本質上是一個特征提取器,收集對手在每一場游戲中的策略信息,從不同的博弈狀態中提取有用的統計特征,作為輸入傳給LSTM 估計器。LSTM估計器的精度決定了方法的性能,其將估計的攤牌勝率和對手棄牌率輸入到決策方法,該方法基于統計估計每個可能動作的期望收益,并相應地選擇最佳動作。該撲克智能體可以適應在訓練中從未見過的對手,并且能夠有效地利用對手的弱點,這種方法可以拓展到其他不完美信息博弈問題建模和利用弱的對手。

3.1.3 策略集成學習

集成學習(ensemble learning)[57]是指將多個分類器(可以為同質,也可以為異質)組合成一個比單個分類器更強大的系統,即便某一個分類器得到了錯誤的預測,其他的分類器也可以將錯誤糾正回來,因此集成學習系統可以博采眾長,具有比單個分類器更高的預測性能以及更好的泛化能力。在德州撲克中,集成學習方法[58]在對手策略建模中的作用為將特征映射到決策,即用于發現它們之間的復雜關系。集成學習系統首先訓練了幾個專家,每個專家針對一個特定的參與者進行訓練。通過隨機選擇所有參與者的專家并進行交叉驗證,對未知對手行為預測的準確率比單個分類器的結果更高。因此,集成學習可以為基于已有異構分類模型快速構造通用的對手模型提供支撐,提高對未知對手的預測性能,提高模型泛化能力,對手建模集成學習框架如圖7所示。

圖7 對手建模集成學習框架Fig.7 Framework of opponent modeling for ensemble learning

不完美信息不確定性條件下,基于不同范式構建的初級決策模型具有不同偏好,在模型精確性、安全性、魯棒性方面的各有優缺點。多范式多目標可解釋性策略集成方法的研究建立在構建初級決策模型的基礎上,需要考慮如何在盡可能保留可解釋性決策依據的同時,一方面提高決策收益,另一方面降低決策模型的對手可利用度。

3.2 即時策略博弈

在星際爭霸為代表的多智能體博弈對抗中,對手建模為智能體的開發提供了新的思路。即時策略博弈相較于棋類游戲更為復雜,狀態空間更大,決策時間要求更快,除了不完美信息帶來了很大的不確定性外,還要考慮動作的連續性、多異構智能體合作[59]等諸多問題。星際爭霸中涉及對手建模的算法主要包括經典機器學習方法和虛擬對弈方法。經典的機器學習方法通常需要大量的歷史交互數據進行特征擬合,但高質量的樣本數據往往稀缺,難以支撐復雜深層網絡的收斂需求;虛擬對弈是求解大規模不完美信息博弈的有效算法,在策略優化過程中無需先驗知識,通過構建對手策略池進行虛擬對弈,提升策略質量。以下分別進行介紹上述兩種對手建模方法。

3.2.1 經典機器學習方法

經典的機器學習方法對手建模的思路通常為用數據擬合行為策略特征,由于星際爭霸I 保存了回放的功能,可以下載游戲日志,傳統的方法一般通過保存的游戲數據進行研究。一種基于數據挖掘的策略博弈對手建模方法[60]使用機器學習識別對手的策略,以及預測對手行為,通過將游戲日志編碼為特征向量,將對手策略預測轉換為了分類問題。一種類似的方法[61]也是從回放數據中學習不能直接建模作戰模型參數,估計的模型優于手工提取的模型。用于星際爭霸的一種聚類方法[62]使用K-Means 算法將參與者的策略從有限的策略集中進行分類。對抗層次任務網絡(adversarial hierarchical task network,AHTN)[63]規劃將極小極大值搜索算法與分層任務分解(hierarchical task decomposition,HTN)相結合,已成功應用于RTS游戲,但是并沒有考慮對手的因素,AHTNCO方法[64]在此基礎之上引入對手建模,通過對手策略來模擬對手行為,采用對手策略生成最小節點,直到找到第一個可行的動作,再執行該動作并生成最大節點。

3.2.2 虛擬對弈方法

虛擬對弈(fictitious play,FP)[65]近年來被用來解決星際爭霸、DOTA2 等大規模不完美信息博弈問題。FP是一種傳統的基于對弈的不完美博弈均衡求解方法,每個參與者在對弈中保持兩個策略:平均策略(average strategies)和最優反應策略(best response),每個參與者在對弈中不斷地采取對手平均策略的最優反應策略,則其平均策略在兩人零和博弈中收斂至納什均衡。根據從對手策略池中不同“挑選對手”和“應對對手”的方法,虛擬對弈衍生出神經虛擬自對弈、種群訓練(populationbased training,PBT)等變體,如圖8所示。

圖8 虛擬對弈衍生變體示意圖Fig.8 Variants of fictitious play

虛擬自對弈(fictitious self-play,FSP)[66]將博弈論和機器學習的方法相結合,分別通過基于強化學習方法和基于樣本的監督學習逼近最佳響應和平均策略。神經虛擬自對弈方法(neural fictitious self-play,NFSP)[67]將FSP與神經網絡近似函數相結合,是一個在不完美信息中不需要先驗知識就能學習到近似納什均衡的端到端的強化學習技術。NFSP中的最佳反應依賴于深度Q學習的計算,收斂時間長。來自浙大的研究團隊提出了異步神經虛擬自對弈(asynchronous neural fictitious self play,ANFSP)[68]方法,以更快更穩地接近近似納什均衡,該方法在德州撲克和第一人稱射擊游戲(FPS)中均取得了不錯表現。FSP 的變體優先虛擬自對弈的方法(prioritized fictitious self-play,PFSP)[3]已經成功應用于AlphaStar,DeepMind 創新性地提出聯賽訓練(league training)的概念,即保留所有訓練中產生的歷史版本,并將每一代訓練的AI 都放到訓練池中進行互相對抗,全方位提升了AI 的水平,這種基于種群的訓練方法是對手建模的一種方式。

3.3 元博弈方法

策略空間響應Oracles(policy-space response oracles,PSRO)[69]作為博弈論與強化學習算法結合的產物,通過模擬所有參與者策略配對的結果,構建了一個更通用的博弈,即元博弈(meta-game),其根據已有的元博弈策略的分布為每個參與者訓練新策略,然后將這些新策略添加策略池中,并進行迭代,如圖9所示。

圖9 元博弈策略學習框架Fig.9 Framework of meta-game strategy learning

PSRO 使用混合元策略,可以防止對特定策略的響應過度擬合,并且能夠產生安全利用對手的魯棒反策略。由于一般性博弈(如多人博弈)中納什均衡難以計算,DeepMind 研究人員提了出納什均衡的替代解α-Rank[70]作為元求解器,將PSRO 擴展到了多人博弈[71]。PSRO極具概括性,可以將FSP的思想融入MARL,成為了一種通用的算法框架。一種管道PSRO(pipeline PSRO,P2SRO)[72]方法通過并行化來解決大規模不完美信息博弈策略學習收斂速度慢的問題。

4 研究展望

4.1 有限理性對手建模

通常情況下博弈參與者被認為是絕對理性的,然而在現實的場景中人類參與者往往無法做出最佳策略,即對手行為偏離博弈中的均衡解。MARL 模型中一般假設的是完全理性的智能體,實際上個體的認知是有限制的,進行決策時也會受個人偏好等諸多方面的影響。在重復博弈過程中,高水平的參與者逐漸適應對手的打法后,試圖“操控”博弈過程時也會表現出非理性行為。例如:通過設計巧妙的“陷阱”,暫時放棄短期的最優收益,誘使對手做出錯誤的決策,以獲得長期的收益。開展對有限理性參與者的建模,有助于機器心智理論的研究,提高機器智能可解釋性。

4.2 策略欺騙性對手建模

欺騙與反欺騙是一種廣泛存在的對抗形式,在人工智能領域更是屢見不鮮,如:圖靈測試、電磁對抗、Deepfake技術等,但在博弈對抗中欺騙的研究方興未艾。納什策略往往過于保守,實現低可利用性的同時卻降低了對對手弱點的利用,因此尋求安全性和對手利用之間的平衡點仍然是值得研究的問題[73-74]。以撲克游戲為例,參與者可以通過采用詐唬的手段混淆對手的認知,欺騙對手從而達到贏得對局的目的。欺騙方法研究是博弈學習中的難點,如何有效地利用欺騙手段并識別對手的欺騙,有待繼續深入研究[75]。

4.3 可解釋性對手建模

可解釋人工智能(explainable artificial intelligence,XAI)是一個新興的多學科研究領域。2016 年,DARPA提出“可解釋人工智能”項目,計劃構建一類方法,使之“能夠解釋它們的基本原理,描述它們的優缺點,并傳達關于它們未來行為的解讀”。從模型安全角度考慮,對手模型的可解釋性極其關鍵,為最優決策提供安全性支撐。當前關于對手建模與利用的人工智能方法,在推理結果的可解釋性上表現不足。研究如何使智能系統的行為對人類更透明、更易懂、更可信將是未來的熱點方向之一。

5 結束語

己方策略的制定必須以博弈對抗各方的行動策略為前提,建立一個準確的對手行為模型以預測對手意圖尤其重要。對手建模作為多智能體博弈對抗的理論基礎和技術支撐之一,與博弈論和強化學習方法相互結合,以解決復雜環境下的智能博弈決策問題在推測敵對智能體動作、目標、策略等相關屬性的同時,降低智能體策略的可利用性,最大程度安全利用對手,為博弈策略制定提供支撐。本文著眼于智能博弈對抗需求,以對手建模理論為核心,闡述對手建模必要性,總結分類現有對手建模方式,分析智能博弈對抗中的對手建模前沿關鍵技術、典型應用以及存在的主要挑戰。對手建模結合博弈理論和強化學習的研究雖然已經成果豐碩,但如何向具有“有限理性、欺騙性、可解釋性”等特點的復雜應用場景中遷移,仍是未來值得深入研究的問題。

猜你喜歡
智能策略方法
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99久久精品免费视频| 日韩天堂在线观看| 国产精品3p视频| 亚洲天堂色色人体| 国产亚洲视频免费播放| 伊人久久精品无码麻豆精品| 最新日韩AV网址在线观看| 亚洲首页国产精品丝袜| 视频二区中文无码| 亚洲婷婷在线视频| 无码日韩视频| 亚洲欧洲一区二区三区| 欧美人人干| 日韩福利在线视频| 久久久91人妻无码精品蜜桃HD| 人人妻人人澡人人爽欧美一区| 白浆免费视频国产精品视频| 亚洲av无码人妻| 亚洲第一综合天堂另类专| 国产一区二区三区夜色| 久久精品国产亚洲麻豆| 欧美中文一区| 激情综合婷婷丁香五月尤物| 97青草最新免费精品视频| 亚洲第一色视频| 成人毛片在线播放| 国产尤物jk自慰制服喷水| 日韩成人在线网站| 国产精品福利在线观看无码卡| 在线看AV天堂| 国产视频自拍一区| 国产精品免费入口视频| 亚洲无码在线午夜电影| 亚洲综合狠狠| 四虎国产精品永久一区| 天天爽免费视频| 国产精品爆乳99久久| 色综合久久无码网| 国产高清国内精品福利| 色综合热无码热国产| 欧美精品一区在线看| 亚洲欧美日韩色图| 国产精品久久久久久影院| v天堂中文在线| 一级毛片免费观看不卡视频| 91久久夜色精品国产网站| 亚洲日韩精品综合在线一区二区| 国精品91人妻无码一区二区三区| 亚洲欧美成人影院| 国产在线观看第二页| 青青草a国产免费观看| 美女啪啪无遮挡| 欧美精品成人一区二区视频一| 国产精品网址你懂的| 亚洲色图综合在线| 熟妇人妻无乱码中文字幕真矢织江| 日韩av无码精品专区| 99福利视频导航| 亚洲天堂久久| 国产一区在线视频观看| 一本大道香蕉久中文在线播放| 亚洲精品成人7777在线观看| 一级毛片高清| 看国产毛片| 亚洲国产天堂在线观看| 亚洲成综合人影院在院播放| 一级毛片免费不卡在线| 在线亚洲精品自拍| 一级爱做片免费观看久久| 国产午夜无码专区喷水| 亚洲国产精品一区二区第一页免 | 色婷婷天天综合在线| 久久久91人妻无码精品蜜桃HD| 国产精品无码AV片在线观看播放| 四虎成人精品| 欧美亚洲国产一区| 欧美福利在线观看| 欧美a在线视频| 欧美性久久久久| 十八禁美女裸体网站| 91福利在线观看视频| 专干老肥熟女视频网站|