999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識與數(shù)據(jù)互補(bǔ)的戰(zhàn)術(shù)級兵棋行為決策框架設(shè)計(jì)與實(shí)現(xiàn)

2023-08-03 12:23:42張宏軍郝文寧王之騰
指揮與控制學(xué)報(bào) 2023年2期
關(guān)鍵詞:數(shù)據(jù)挖掘動作

劉 滿 張宏軍 程 愷 郝文寧 王之騰

近年來,以深度強(qiáng)化學(xué)習(xí)為代表的AI 技術(shù)在Atari[1]、圍棋[2-3]、王者榮耀[4]、星際爭霸Ⅱ[5]等游戲中取得了巨大的成功,顯示了強(qiáng)大的態(tài)勢感知和空間探索能力.同時(shí),軍事智能化的需求也在推動AI 技術(shù)在軍事決策領(lǐng)域的應(yīng)用,戰(zhàn)術(shù)級兵棋以隨機(jī)的方式模擬戰(zhàn)爭中的動態(tài)過程,能夠?yàn)檐娛轮悄軟Q策技術(shù)提供貼近真實(shí)戰(zhàn)爭的決策背景和試驗(yàn)環(huán)境.然而,深度強(qiáng)化學(xué)習(xí)在解決軍事決策問題上存在兩個(gè)明顯不足:一是端到端的黑箱模型限制了模型的可解釋性,使其難以形成人在回路的指揮控制方式,同時(shí)人們也不知道決策模型的推理過程;二是深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的參數(shù)只適用于特定場景的狀態(tài)到動作的映射,當(dāng)作戰(zhàn)場景有較大改變,深度神經(jīng)網(wǎng)絡(luò)難以遷移并適應(yīng)新的作戰(zhàn)場景.另外,軍事決策環(huán)境也面臨狀態(tài)空間巨大、多實(shí)體協(xié)同、長時(shí)依賴、不完全信息等難以解決的問題.在戰(zhàn)術(shù)級兵棋的決策環(huán)境中,深度強(qiáng)化學(xué)習(xí)僅僅解決了少量棋子聯(lián)合控制的問題[6-7].因此,鑒于深度強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用方面面臨的重重困難,從其他技術(shù)角度探索軍事智能決策的應(yīng)用仍然值得研究.

傳統(tǒng)的計(jì)算機(jī)生成兵力(computer generated forces,CGF)是作戰(zhàn)仿真中重要的技術(shù)之一,模仿真實(shí)的作戰(zhàn)實(shí)體,對仿真中的虛擬實(shí)體進(jìn)行行為控制.它借鑒了很多AI 領(lǐng)域的技術(shù),如有限狀態(tài)機(jī)[8-10]、規(guī)則系統(tǒng)[11-13]、軟計(jì)算技術(shù)[14-16]、自動規(guī)劃[17-19]等方法,這些方法基本上都是基于專家知識進(jìn)行構(gòu)建,從定性分析的角度進(jìn)行決策,能夠按照人類邏輯決策運(yùn)行,具有適應(yīng)范圍廣、邏輯清晰、可解釋性強(qiáng)的優(yōu)點(diǎn),但是這類方法的決策邏輯來源于專家知識的程序化,其“條件-結(jié)果”式模式映射個(gè)數(shù)有限,導(dǎo)致行為模式比較固定,缺乏靈活性和魯棒性.

隨著大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,一些學(xué)者嘗試使用人工復(fù)盤數(shù)據(jù),從量化分析的角度對兵棋的行為進(jìn)行決策.石崇林從兵棋數(shù)據(jù)的采集、處理、分析3 個(gè)角度,介紹了兵棋數(shù)據(jù)處理的一些方法,并集成這些方法設(shè)計(jì)了兵棋推演數(shù)據(jù)分析原型系統(tǒng)[20].PAN 等通過分析地形因素和復(fù)盤數(shù)據(jù)中的威脅因素,并用權(quán)重因子對信息素加權(quán),以合成值估計(jì)敵方棋子可能的位置,得到top-3 的預(yù)測準(zhǔn)確率為70%[21].張可等有效整合了兵棋專家知識的模糊推理和兵棋復(fù)盤數(shù)據(jù)的學(xué)習(xí),從而提高了地圖關(guān)鍵點(diǎn)的推理質(zhì)量[22].劉滿等通過挖掘兵棋歷史推演數(shù)據(jù),提取多個(gè)位置評價(jià)的指標(biāo),利用多指標(biāo)綜合評價(jià)軟優(yōu)選算法和兵棋基本規(guī)則輸出棋子的下步行動[23].量化分析有效整合了復(fù)盤數(shù)據(jù)中的歷史信息和當(dāng)前的態(tài)勢信息,以綜合評估的結(jié)果支持量化決策,具有較高的靈活性和魯棒性,但是這種決策方法需要大量高質(zhì)量的人工復(fù)盤數(shù)據(jù),這一條件往往很難滿足.

鑒于以上兩類行為決策方法的優(yōu)缺點(diǎn),本文創(chuàng)新性地將它們結(jié)合起來,進(jìn)行優(yōu)勢互補(bǔ),提出了知識與數(shù)據(jù)互補(bǔ)的行為決策框架,用于兵棋多實(shí)體的指揮控制.該框架集成了知識推理和數(shù)據(jù)挖掘的方法,不需要人工復(fù)盤數(shù)據(jù),將知識、數(shù)據(jù)與學(xué)習(xí)融為一體,形成基于知識驅(qū)動的決策算法處理宏觀動作,基于數(shù)據(jù)挖掘的軟決策算法處理微觀動作,通過自對抗復(fù)盤數(shù)據(jù)進(jìn)行迭代學(xué)習(xí),提升決策模型能力.基于這一決策框架,編程實(shí)現(xiàn)了一個(gè)能夠自主決策的兵棋AI.該兵棋AI 先后多次參加全國性戰(zhàn)術(shù)級兵棋比賽,在2021“廟算杯”人機(jī)對抗測試賽1 中取得總成績第3 名,圖靈測試第2 名,展現(xiàn)了較好的對抗能力和決策靈活性.

1 相關(guān)工作

1.1 戰(zhàn)術(shù)級兵棋環(huán)境及其行為決策特點(diǎn)

兵棋是運(yùn)用規(guī)則、數(shù)據(jù)和階段描述實(shí)際或假定的態(tài)勢,對敵對雙方或多方的軍事行動進(jìn)行模擬的統(tǒng)稱[24-25],是分析戰(zhàn)爭的重要手段.戰(zhàn)術(shù)級兵棋是指單方兵力規(guī)模在營及以下的兵棋系統(tǒng),其智能決策主要內(nèi)容是根據(jù)盤面上的不完全態(tài)勢,判斷決策出作戰(zhàn)實(shí)體的行動.該實(shí)體行動具有4 個(gè)明顯的特點(diǎn):規(guī)則性、目標(biāo)性、位置依賴和高度協(xié)同.規(guī)則性是指實(shí)體行動必須遵循兵棋系統(tǒng)的所有規(guī)則;目標(biāo)性是指實(shí)體行動必須以作戰(zhàn)目標(biāo)為導(dǎo)向;位置敏感是指作戰(zhàn)實(shí)體必須依靠合適的地形地物才能保護(hù)自己并發(fā)揮武器效能;高度協(xié)同是指各作戰(zhàn)實(shí)體間必須相互配合協(xié)同作戰(zhàn).因此,戰(zhàn)術(shù)級兵棋智能決策是“多實(shí)體在兵棋規(guī)則的限制下,高度協(xié)同配合,在合適的時(shí)間,棋子能夠移動到具有戰(zhàn)術(shù)優(yōu)勢的地點(diǎn),對敵人實(shí)施打擊,最終完成作戰(zhàn)目的”.可以看出戰(zhàn)術(shù)級兵棋行為決策具有很強(qiáng)的領(lǐng)域性和專業(yè)性,傳統(tǒng)方法多是基于知識推理的方法實(shí)現(xiàn)兵棋實(shí)體的行為自主決策.

1.2 基于知識推理的決策算法

兵棋行為決策中的知識是指人類在長時(shí)間的兵棋推演中認(rèn)識和總結(jié)的行為規(guī)律和制勝方法,它能以戰(zhàn)法、策略等形式用文字概略描述出來,但是沒有明確的界定,不同人的理解和描述是有區(qū)別的.編程人員可以和兵棋專家合作,以計(jì)算機(jī)語言的形式,將這些戰(zhàn)法和策略進(jìn)行梳理、分解,形成領(lǐng)域知識庫,并以邏輯推理的形式模仿專家的推理進(jìn)行決策.

基于知識的推理是AI 技術(shù)最早期的經(jīng)典方法之一,通過專家知識構(gòu)建的規(guī)則庫,用邏輯的方式實(shí)現(xiàn)決策,是符號主義的代表.在作戰(zhàn)仿真中,CGF 技術(shù)在作戰(zhàn)實(shí)體行為決策的研究中大量應(yīng)用了基于知識推理的算法,如有限狀態(tài)機(jī)(finite state machine,FSM)[8]、行為樹(behavior tree,BT)[10]、決策樹(decision tree,DT)[11]、規(guī)則推理(rule based reasoning,RBR)[9]、分層任務(wù)網(wǎng)絡(luò)(hierarchical task network,HTN)[13]等,用于作戰(zhàn)實(shí)體的行為決策.這些算法中,FSM 和BT 的知識庫設(shè)計(jì)和模型構(gòu)建都比較簡單,易于維護(hù),在CGF 和游戲的行為控制中得到廣泛應(yīng)用[10,26-28].

FSM 是具有基本內(nèi)部記憶功能的抽象機(jī)器模型,表示有限離散狀態(tài)以及這些狀態(tài)之間的轉(zhuǎn)移的數(shù)學(xué)模型[29],其在任意時(shí)刻都處于有限狀態(tài)集合中的某一個(gè)狀態(tài),當(dāng)滿足轉(zhuǎn)移條件中的某一確定事件時(shí),FSM會從當(dāng)前狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài).FSM 有著簡單的優(yōu)勢,采用狀態(tài)機(jī)來實(shí)現(xiàn)AI 更符合思維的樸素表達(dá).對于一些決策邏輯簡單的AI,用狀態(tài)機(jī)更加便捷,但是面對一些復(fù)雜的AI 邏輯時(shí),隨著狀態(tài)的增多,其狀態(tài)轉(zhuǎn)移列表將極度膨脹,導(dǎo)致設(shè)計(jì)難度急劇增加.

BT 是適用于控制決策的分層節(jié)點(diǎn)樹,以解決可伸縮性問題[28].行為樹中有葉節(jié)點(diǎn)和組合節(jié)點(diǎn),同時(shí)把行為劃分成了很多層級,低層級的行為為葉結(jié)點(diǎn),低層級的行為能夠組合成較高層級的行為,以組合結(jié)點(diǎn)表示.行為樹在執(zhí)行的時(shí)候,會執(zhí)行深度優(yōu)先搜索,依次達(dá)到末端的葉節(jié)點(diǎn),從而選擇出葉結(jié)點(diǎn)(底層級行為).

BT 是FSM 的改進(jìn),將狀態(tài)高度模塊化,減少了狀態(tài)轉(zhuǎn)移條件,使?fàn)顟B(tài)變成一個(gè)行為,從而使模型設(shè)計(jì)更加容易.行為樹具有面向?qū)ο蟮奶卣?行為模塊間的藕合度相對較低,許多通用的子模塊在新建行為樹時(shí)可以被重用以減少工作量.但是當(dāng)決策邏輯復(fù)雜時(shí),行為樹的組織結(jié)構(gòu)會迅速擴(kuò)張,這會造成行為樹的可讀性降低[30].

1.3 基于數(shù)據(jù)挖掘的軟決策算法

兵棋數(shù)據(jù)按產(chǎn)生的方式可以分為想定數(shù)據(jù)、環(huán)境數(shù)據(jù)、規(guī)則數(shù)據(jù)、復(fù)盤數(shù)據(jù)和態(tài)勢數(shù)據(jù).想定數(shù)據(jù)是指一場兵棋推演對地圖類型、實(shí)體、作戰(zhàn)目標(biāo)等規(guī)定的初始化數(shù)據(jù);環(huán)境數(shù)據(jù)是指兵棋系統(tǒng)對戰(zhàn)場環(huán)境的量化表示而產(chǎn)生的數(shù)據(jù),如地圖數(shù)據(jù)等;規(guī)則數(shù)據(jù)是指兵棋系統(tǒng)對作戰(zhàn)實(shí)體作戰(zhàn)性能、作戰(zhàn)規(guī)則等描述而產(chǎn)生的數(shù)據(jù);復(fù)盤數(shù)據(jù)是指兵棋推演系統(tǒng)在推演過程中記錄下來的推演數(shù)據(jù).態(tài)勢數(shù)據(jù)是指在兵棋推演過程中產(chǎn)生的描述戰(zhàn)場動態(tài)情況的瞬時(shí)數(shù)據(jù).想定數(shù)據(jù)、環(huán)境數(shù)據(jù)、規(guī)則數(shù)據(jù)是兵棋系統(tǒng)固有數(shù)據(jù),是靜態(tài)不變的,復(fù)盤數(shù)據(jù)隨著兵棋推演的增多而不斷增加,是增量數(shù)據(jù),態(tài)勢數(shù)據(jù)是比賽過程中的實(shí)時(shí)動態(tài)數(shù)據(jù).這些兵棋數(shù)據(jù)蘊(yùn)含了大量兵棋行為決策的知識,可以通過數(shù)據(jù)挖掘等方法將它們轉(zhuǎn)化為支持決策的量化數(shù)據(jù).

文獻(xiàn)[23]提出了兵棋數(shù)據(jù)挖掘與融合的方法,提取了多個(gè)與棋子位置選擇相關(guān)的指標(biāo),通過多指標(biāo)綜合評價(jià)優(yōu)選算法決策出棋子的移動位置.通過對復(fù)盤數(shù)據(jù)挖掘得到敵方位置部署的先驗(yàn)知識,并與當(dāng)前態(tài)勢數(shù)據(jù)融合,得到敵方位置部署.同時(shí)通過對復(fù)盤數(shù)據(jù)的挖掘也能得到我方棋子未來位置的先驗(yàn)知識.將這些信息與環(huán)境數(shù)據(jù)、規(guī)則數(shù)據(jù)進(jìn)一步融合計(jì)算,得到評估位置的多個(gè)指標(biāo):敵情指標(biāo)、我情指標(biāo)和環(huán)境指標(biāo).不同棋子在位置選擇時(shí)對這些指標(biāo)的偏好不同,可以用人工設(shè)定的加權(quán)系數(shù)對這些指標(biāo)進(jìn)行綜合.

為了解決多指標(biāo)綜合評價(jià),并最終選擇棋子移動位置,提出了多指標(biāo)綜合評價(jià)優(yōu)選算法.

對多個(gè)標(biāo)準(zhǔn)化之后的指標(biāo)進(jìn)行綜合,令

其中,ui為第i 個(gè)終點(diǎn)位置的加權(quán)綜合評價(jià)值;vij為第i 個(gè)位置的第j 個(gè)標(biāo)準(zhǔn)化指標(biāo)值;ωj為第j 個(gè)指標(biāo)值的加權(quán)系數(shù).

將綜合評價(jià)值轉(zhuǎn)換為能夠調(diào)控?zé)岫鹊母怕手?并依據(jù)概率的大小來選擇方案:

基于數(shù)據(jù)挖掘的軟決策方法充分利用了兵棋數(shù)據(jù)特別是態(tài)勢數(shù)據(jù)中的信息,優(yōu)選出的棋子移動位置兼顧了質(zhì)量與變化,配合規(guī)則推理,使兵棋AI 的決策具有高度的靈活性.

但是,兵棋對抗推演是小眾的競技項(xiàng)目,大量高質(zhì)量的人工復(fù)盤數(shù)據(jù)集很難得到,這一前提條件限制了該算法的應(yīng)用范圍.

2 知識與數(shù)據(jù)互補(bǔ)的兵棋AI 框架

2.1 兵棋實(shí)體動作分類和分層決策

在決策領(lǐng)域,按問題的量化程度,決策可以分為定性決策和定量決策.定性決策是指決策問題的諸因素不能用確切的數(shù)據(jù)表示,只能進(jìn)行定性分析的決策.定量決策是指決策問題能量化成數(shù)學(xué)模型并可進(jìn)行定量分析的決策.戰(zhàn)術(shù)級兵棋的具體原子動作可以表示為動作名稱和動作參數(shù)的聯(lián)合,根據(jù)有無動作參數(shù)和動作參數(shù)的復(fù)雜程度,可以將棋子的動作分為宏觀動作和微觀動作.宏觀動作是指動作的組合、參數(shù)未知的虛動作或簡單參數(shù)的動作.微觀動作是指具有復(fù)雜參數(shù)的動作.一般來說,宏觀動作不需要求解復(fù)雜的動作參數(shù),可以從定性決策的角度,以態(tài)勢信息為判斷條件,利用專家知識和兵棋規(guī)則推理得出;而微觀動作需要求解復(fù)雜的動作參數(shù),如機(jī)動終點(diǎn)、機(jī)動路線、射擊目標(biāo)等,可以從定量決策的角度,對兵棋數(shù)據(jù)進(jìn)行數(shù)學(xué)計(jì)算,利用量化評估的方式選出離散的動作參數(shù).可見,宏觀動作和微觀動作并沒有明顯的區(qū)分界限,二者關(guān)注動作的方式不一樣,宏觀動作關(guān)注的是動作名稱,即要不要執(zhí)行某個(gè)動作,而微觀動作關(guān)注的是動作的復(fù)雜參數(shù),即動作的具體指向內(nèi)容.

對于兵棋多agent 宏觀動作決策,既要考慮集體行為,也要考慮個(gè)體行為,本文提出FSM 與BT 分層決策的方法.FSM 建模兵棋多agent 作戰(zhàn)任務(wù)的轉(zhuǎn)換,可以從整場戰(zhàn)爭的角度優(yōu)化決策模型;BT 建模單個(gè)agent 在給定任務(wù)條件下動作的輸出,完成單個(gè)agent在特定任務(wù)條件下的局部優(yōu)化.圖1 展示了FSM 和BT 分層的多agent 宏觀動作決策流程,FSM 根據(jù)整場比賽的情況進(jìn)行任務(wù)轉(zhuǎn)移,輸出作戰(zhàn)任務(wù),單個(gè)agent 根據(jù)作戰(zhàn)任務(wù),考慮局部態(tài)勢情況,通過行為樹決策輸出動作.

圖1 FSM 和BT 分層的多agent 宏觀動作決策框架Fig.1 The multi-agent macro-action decision-making framework based on FSM and BT

FSM、BT 這種行為模型大量地依賴領(lǐng)域相關(guān)人員參與構(gòu)建,能夠較好地模擬人類頂層的推理思維,適宜兵棋智能對抗中宏觀動作的決策.但是,包含復(fù)雜參數(shù)的微觀動作,需要對態(tài)勢數(shù)據(jù)、地圖數(shù)據(jù)充分響應(yīng),基于知識的推理算法難以處理.常用的解決思路是基于方案設(shè)計(jì),即領(lǐng)域?qū)<姨崆邦A(yù)想多種情況,并充分分析地圖,將復(fù)雜的參數(shù)(如機(jī)動終點(diǎn))提前以腳本的形式固化下來,形成多套方案供決策模型選擇.但是這種做法使模型輸出的行為缺乏靈活性,同時(shí)決策模型也難以遷移到其他推演想定.

2.2 知識與數(shù)據(jù)互補(bǔ)的行為決策算法

基于數(shù)據(jù)挖掘的軟決策算法具有靈活的優(yōu)勢,但是需要人工高質(zhì)量的復(fù)盤數(shù)據(jù);基于知識驅(qū)動的決策算法利用兵棋專家的領(lǐng)域知識進(jìn)行決策,無需人工復(fù)盤數(shù)據(jù),但是難以處理復(fù)雜的參數(shù)決策.本文將這兩種算法結(jié)合起來,提出了知識與數(shù)據(jù)互補(bǔ)的行為決策方法.

圖2 展示了知識與數(shù)據(jù)互補(bǔ)的行為決策算法框架,在構(gòu)建知識庫時(shí),專家將不再對地圖具體點(diǎn)進(jìn)行分析,而是根據(jù)戰(zhàn)場進(jìn)程,設(shè)定agent 的任務(wù)區(qū)域和任務(wù)區(qū)域內(nèi)選點(diǎn)的指標(biāo)權(quán)重.基于知識驅(qū)動的決策算法對整場推演進(jìn)行戰(zhàn)術(shù)籌劃,使用FSM 對多agent任務(wù)進(jìn)行決策,使用BT 對agent 動作進(jìn)行決策,輸出動作名稱、任務(wù)區(qū)域和指標(biāo)權(quán)重.在任務(wù)區(qū)域和指標(biāo)權(quán)重給定的條件下,利用基于數(shù)據(jù)挖掘的軟決策算法,計(jì)算出棋子在任務(wù)區(qū)域內(nèi)的移動終點(diǎn).當(dāng)然,也可以使用數(shù)據(jù)計(jì)算的方法得到其他動作參數(shù),如機(jī)動路線、射擊目標(biāo)等.綜合動作名稱和動作參數(shù),就可以解析出原子動作命令.另外,基于數(shù)據(jù)挖掘的軟決策算法需要復(fù)盤數(shù)據(jù)作為支撐,本文使用隨機(jī)數(shù)據(jù)讓決策模型先運(yùn)行起來,從而得到自我對戰(zhàn)的復(fù)盤數(shù)據(jù),進(jìn)而通過迭代優(yōu)化,提升復(fù)盤數(shù)據(jù)質(zhì)量,進(jìn)而優(yōu)化整個(gè)決策模型的質(zhì)量.

圖2 知識與數(shù)據(jù)互補(bǔ)的行為決策框架Fig.2 The behavioral decision-making framework based on complementary knowledge and data

知識與數(shù)據(jù)互補(bǔ)的行為決策算法,將全局規(guī)劃、行動推理交給基于知識驅(qū)動的決策算法處理,將動作參數(shù)的計(jì)算和優(yōu)選交給基于數(shù)據(jù)挖掘的軟決策算法處理,分別發(fā)揮了兩種算法的優(yōu)勢,實(shí)現(xiàn)了兵棋AI在無人類復(fù)盤數(shù)據(jù)指導(dǎo)下的靈活決策.表1 對3 種決策算法進(jìn)行了對比,可以看出知識與數(shù)據(jù)互補(bǔ)的行為決策算法具有以下幾個(gè)優(yōu)點(diǎn):

表1 3 種決策算法比較Table 1 Comparison of 3 kinds of decision-making algorithms

1)大大減輕了專家構(gòu)建知識庫的工作量.專家不再需要仔細(xì)分析地圖上每個(gè)點(diǎn)的戰(zhàn)術(shù)價(jià)值,只需要預(yù)想比賽進(jìn)程,大致設(shè)定任務(wù)區(qū)域,并設(shè)定選擇位置的原則(指標(biāo)權(quán)重).

2)決策具有靈活性.因?yàn)檐浉怕蕛?yōu)選機(jī)制,基于數(shù)據(jù)挖掘的軟決策可以靈活確定棋子移動位置.

3)可移植性較高.不同對抗想定條件下,一般使用的策略是不同的,如進(jìn)攻戰(zhàn)斗的策略和防御戰(zhàn)斗的策略不同.基于知識驅(qū)動的決策算法需要根據(jù)不同的想定進(jìn)行針對性設(shè)計(jì),但是基于數(shù)據(jù)挖掘的軟決策算法是通用的.

4)決策效果較好.利用專家知識確定的區(qū)域進(jìn)行全局位置優(yōu)化,利用多指標(biāo)評估的方法進(jìn)行局部位置優(yōu)化,決定了最終棋子的移動位置戰(zhàn)術(shù)價(jià)值較好,從而保證了最終決策效果較好.

2.3 知識與數(shù)據(jù)互補(bǔ)的兵棋AI 框架設(shè)計(jì)

OODA 環(huán)理論(observe,orient,decide,act)提供了一種以觀察、判斷、決策、行動循環(huán)來描述對抗的方法[31],被廣泛應(yīng)用于軍事決策過程模型的研究.反映到?jīng)Q策行為模型中,觀察和行動是與外界環(huán)境交互的過程,分別完成了模型的輸入(戰(zhàn)場態(tài)勢)和輸出(作戰(zhàn)行動).判斷和決策運(yùn)行于模型的內(nèi)部,完成了決策生成的過程.

本文基于知識與數(shù)據(jù)互補(bǔ)的決策算法,依照OODA 環(huán)的流程,設(shè)計(jì)了戰(zhàn)術(shù)級兵棋AI 框架,分為4個(gè)層次:數(shù)據(jù)資源層、數(shù)據(jù)處理層、決策支持層和決策算法應(yīng)用層,整體結(jié)構(gòu)如圖3 所示.

圖3 知識與數(shù)據(jù)互補(bǔ)的兵棋AI 框架Fig.3 The wargame AI framework based on complementary knowledge and data

數(shù)據(jù)資源層主要是收集、處理和存儲兵棋智能決策相關(guān)的大量基礎(chǔ)數(shù)據(jù).如作戰(zhàn)想定數(shù)據(jù)、戰(zhàn)場環(huán)境數(shù)據(jù)、軍事規(guī)則數(shù)據(jù)、戰(zhàn)場態(tài)勢數(shù)據(jù)和復(fù)盤數(shù)據(jù)集等.

數(shù)據(jù)處理層主要是對數(shù)據(jù)資源層的數(shù)據(jù)進(jìn)行處理加工,分為兩個(gè)類別:靜態(tài)數(shù)據(jù)挖掘和動態(tài)數(shù)據(jù)融合.靜態(tài)數(shù)據(jù)挖掘提取與決策相關(guān)的數(shù)據(jù),獲取先驗(yàn)的“量化知識”.通過數(shù)據(jù)融合的方法,在比賽過程中對態(tài)勢數(shù)據(jù)作出實(shí)時(shí)響應(yīng),更新“量化知識”;最后,通過綜合計(jì)算得到支持決策的多個(gè)指標(biāo)數(shù)據(jù).

決策支持層主要提供決策算法應(yīng)用層需要的元素.分為指標(biāo)數(shù)據(jù)和專家知識庫.指標(biāo)數(shù)據(jù)由數(shù)據(jù)處理層計(jì)算得出,用于支撐基于數(shù)據(jù)挖掘的軟決策算法.專家知識庫主要是存放作戰(zhàn)決策中不易被量化、用程序描述的決策邏輯,分為條件庫、任務(wù)庫、超參數(shù)庫和動作函數(shù)庫.

決策算法應(yīng)用層使用知識與數(shù)據(jù)互補(bǔ)的行為決策算法,輸出動作名稱和動作參數(shù),調(diào)用動作函數(shù)即可生成棋子原子動作指令.

兵棋AI 決策按照OODA 環(huán)循環(huán)執(zhí)行,調(diào)用相關(guān)算法模塊,完成態(tài)勢接收和動作輸出.感知和行動主要完成接收并整理態(tài)勢和原子動作命令的生成和輸出.判斷過程調(diào)用動態(tài)數(shù)據(jù)融合,完成指標(biāo)數(shù)據(jù)的計(jì)算.決策過程調(diào)用知識與數(shù)據(jù)互補(bǔ)的行為決策算法,輸出動作名稱和動作參數(shù).

知識與數(shù)據(jù)互補(bǔ)的兵棋AI 框架是有機(jī)統(tǒng)一的系統(tǒng),包括但不限于以上列舉的決策算法,提供了一個(gè)將數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、多屬性決策、知識推理等多種算法有機(jī)組合,實(shí)現(xiàn)兵棋多agent 協(xié)同控制的框架.在這個(gè)框架的指導(dǎo)下,可以針對不同兵力規(guī)模、多種想定進(jìn)行針對性的兵棋AI 設(shè)計(jì).該框架具有以下幾個(gè)顯著的優(yōu)勢:

1)各類算法的包容性.OODA 環(huán)的決策流程,是以功能為牽引,在各功能的實(shí)現(xiàn)上,可以應(yīng)用多種算法.特別是提供了一種將基于知識驅(qū)動的決策算法和基于數(shù)據(jù)挖掘的軟決策算法高效融合的思路.

2)兵力規(guī)模的可擴(kuò)展性.只要根據(jù)不同兵力規(guī)模設(shè)計(jì)相適應(yīng)的有限狀態(tài)機(jī),復(fù)用其他模塊,就可將該AI 模型擴(kuò)展到不同的兵力規(guī)模.

3)多種想定的適應(yīng)性.兵棋想定主要是對兵棋系統(tǒng)的地圖、兵力、作戰(zhàn)目標(biāo)等戰(zhàn)爭要素進(jìn)行設(shè)定.該兵棋AI 框架能夠讀取特定想定的基礎(chǔ)數(shù)據(jù),進(jìn)行相應(yīng)的計(jì)算,對各種想定適應(yīng)性較強(qiáng).

4)人機(jī)混合的融合性.FSM 對分隊(duì)作戰(zhàn)任務(wù)進(jìn)行控制,BT 對agent 行為進(jìn)行控制,這種分層設(shè)計(jì)符合軍事指揮的層次結(jié)構(gòu).因此,針對人機(jī)混合智能,可以用人類決策代替FSM,由指揮員給各個(gè)分隊(duì)或單個(gè)agent 下達(dá)任務(wù),單個(gè)agent 根據(jù)具體任務(wù)自主決策,其他模塊無需改變,因此,其人機(jī)混合的融合性較好.

5)決策結(jié)果的高效性.基于該框架實(shí)現(xiàn)的兵棋AI,在全國智能兵棋競賽和第3 方組織的測評中,都取得較好成績,驗(yàn)證了此類AI 框架決策的高效性.

3 兵棋AI 設(shè)計(jì)和編程實(shí)現(xiàn)

3.1 基于知識驅(qū)動的決策模型和知識庫設(shè)計(jì)

將分隊(duì)作為一個(gè)整體,專家根據(jù)特定想定的內(nèi)容,對整個(gè)推演過程按照作戰(zhàn)階段、階段目標(biāo)等進(jìn)行劃分,確定作戰(zhàn)任務(wù)名稱,而后設(shè)計(jì)轉(zhuǎn)移條件和轉(zhuǎn)移關(guān)系.分隊(duì)作戰(zhàn)任務(wù)是一個(gè)對象或函數(shù),它遍歷所有的棋子調(diào)用當(dāng)前任務(wù)下的行為樹函數(shù).分隊(duì)中的每個(gè)棋子根據(jù)分隊(duì)任務(wù)設(shè)計(jì)行為樹,對態(tài)勢信息和自身的狀態(tài)進(jìn)行綜合判斷,輸出棋子的動作名稱、任務(wù)區(qū)域、指標(biāo)權(quán)重等.所有作戰(zhàn)任務(wù)形成作戰(zhàn)任務(wù)庫,所有轉(zhuǎn)移條件形成條件庫,所有經(jīng)驗(yàn)參數(shù)放在超參數(shù)庫中.可以為不同的作戰(zhàn)想定設(shè)計(jì)特定的有限狀態(tài)機(jī),但作戰(zhàn)任務(wù)庫、轉(zhuǎn)移條件庫和超參數(shù)庫可以復(fù)用.

對于行為樹中用到的作戰(zhàn)區(qū)域,可以通過計(jì)算的方法得到.用已知的奪控點(diǎn)和棋子坐標(biāo)為定位點(diǎn),通過設(shè)置相對距離,求出區(qū)域列表,也可以對區(qū)域進(jìn)行集合運(yùn)算.圖4 展示了載人戰(zhàn)車下車區(qū)域計(jì)算示意圖,以裝甲車起始位置和主要奪控點(diǎn)為定位點(diǎn),求出兩個(gè)環(huán)形區(qū)域,兩個(gè)環(huán)形區(qū)域的交疊區(qū)(藍(lán)色區(qū)域)為下車區(qū)域,這個(gè)區(qū)域離起始點(diǎn)和奪控點(diǎn)都比較近,便于戰(zhàn)車快速到達(dá),也便于棋子后續(xù)奪控任務(wù)的實(shí)施.

圖4 戰(zhàn)車下車區(qū)域求法示意圖Fig.4 Schematic diagram for parking area of the combat vehicle

3.2 基于數(shù)據(jù)挖掘的軟決策算法和多指標(biāo)構(gòu)建

以具體的例子介紹指標(biāo)的構(gòu)建和軟決策算法的使用.對于圖4 中給出的下車區(qū)域,使用基于數(shù)據(jù)挖掘的軟決策算法求出具體的下車位置.

首先需要構(gòu)建待選區(qū)域的評價(jià)指標(biāo),構(gòu)建了5個(gè)與下車位置評估相關(guān)的指標(biāo),如表2 所示,指標(biāo)權(quán)重的絕對值表示它們在綜合指標(biāo)中的重要程度,權(quán)重的正負(fù)決定了指標(biāo)標(biāo)準(zhǔn)化的方式.

表2 下車待選點(diǎn)的評價(jià)指標(biāo)和權(quán)重Table 2 The evaluation index and weight of the pre-parking point to be selected

正向標(biāo)準(zhǔn)化,表示指標(biāo)值越大,標(biāo)準(zhǔn)化后的值也越大,公式為:

其中,vij為第i 個(gè)位置的第j 個(gè)指標(biāo),分別表示所有六角格第j 個(gè)指標(biāo)的最大值和最小值.最終第j 個(gè)指標(biāo)值大小被規(guī)范在[0,1]之間.

反向標(biāo)準(zhǔn)化,表示指標(biāo)值越大,標(biāo)準(zhǔn)化后的值越小,轉(zhuǎn)化公式為:

經(jīng)過標(biāo)準(zhǔn)化處理后,不同尺度大小的指標(biāo)規(guī)范在同一量綱下,便于比較和后續(xù)處理.

對評價(jià)指標(biāo)標(biāo)準(zhǔn)化之后,使用式(1)~式(3)對待選位置進(jìn)行軟優(yōu)選,最終得出下車位置.

根據(jù)不同情況下兵棋位置選擇的需要,總共構(gòu)建約20 個(gè)評價(jià)指標(biāo),并人工設(shè)置對應(yīng)的指標(biāo)權(quán)重供基于數(shù)據(jù)挖掘的軟決策算法模塊使用.

3.3 兵棋AI 編程實(shí)現(xiàn)

本文基于戰(zhàn)術(shù)級兵棋即時(shí)策略推演平臺“廟算·智勝”[32]編程實(shí)現(xiàn)了一個(gè)分隊(duì)級兵棋AI.該分隊(duì)級兵棋AI 使用python 語言,采用結(jié)構(gòu)化、對象化的思想進(jìn)行編程.兵棋AI 能夠運(yùn)行之后,還需要對決策模塊進(jìn)行優(yōu)化:

1)優(yōu)化知識數(shù)據(jù).開啟自對戰(zhàn)模式,收集復(fù)盤數(shù)據(jù)并離線增量更新知識數(shù)據(jù).如果有其他復(fù)盤數(shù)據(jù)集,也可以基于這個(gè)復(fù)盤數(shù)據(jù)集更新知識數(shù)據(jù).

2)優(yōu)化超參數(shù).專家根據(jù)機(jī)機(jī)對抗的復(fù)盤回放,觀察兵棋AI 的動作執(zhí)行效果.針對AI 決策效果弱的地方,調(diào)整超參數(shù)庫中的任務(wù)區(qū)域和指標(biāo)權(quán)重,使兵棋AI 在移動位置選擇上策略更優(yōu).同時(shí),也可以調(diào)整行為樹的結(jié)構(gòu),優(yōu)化行為決策.

實(shí)現(xiàn)的兵棋AI 支持3 張地圖共5 個(gè)想定,每個(gè)想定單獨(dú)設(shè)計(jì)了有限狀態(tài)機(jī)和行為樹,所有想定共用任務(wù)庫、條件庫、超參數(shù)庫和動作函數(shù).將此分隊(duì)級兵棋AI 命名為“道·思”.

4 兵棋AI 實(shí)現(xiàn)和對抗性能

“道·思”參加了全國“先知·兵圣-2019”戰(zhàn)術(shù)級人機(jī)對抗挑戰(zhàn)賽分隊(duì)級比賽,取得前8 名.2021 年7月,基于該框架改進(jìn)的兵棋AI 參加中科院自動化所主辦的“廟算杯”人機(jī)對抗測試賽,總成績排名全國第31.

隨后,“道·思”參與了“廟算·智勝”人機(jī)對抗平臺組織的AI 綜合能力測評.測評對象為國內(nèi)主要的5 個(gè)兵棋AI 團(tuán)隊(duì)開發(fā)的分隊(duì)級兵棋AI.測評按照背靠背機(jī)、人機(jī)(48 名優(yōu)秀級選手)對抗,通過主觀和客觀評估手段,對智能體的智能性、適應(yīng)性、靈活性等能力特點(diǎn)給出多維度量化的綜合評價(jià).

表3 給出了5 支AI 隊(duì)伍的人機(jī)對抗勝率和機(jī)機(jī)對抗勝率.總體看,“道·思”在5 支隊(duì)伍中的排名處于中等,顯示了較好的策略水平.測試中使用了臨機(jī)想定,可以發(fā)現(xiàn)1 號AI 和2 號AI 的成績下降較大,5 號AI 的成績提升較大.說明3 號AI 和5 號AI 對不同想定適應(yīng)更強(qiáng),體現(xiàn)出更強(qiáng)的智能性.“道·思”在狀態(tài)機(jī)和行為樹的設(shè)計(jì)上對特定想定作了優(yōu)化,使任務(wù)區(qū)域的范圍限定較小,對臨機(jī)想定的適應(yīng)性不是太強(qiáng),但是依然展現(xiàn)了較好的遷移能力.

表3 分隊(duì)級兵棋AI 對抗勝率Table 3 The confrontation winning rate of unit-level wargame AI

參與對抗人員每場比賽之后,都會兵棋AI 對手打分,匯總情況如表4 所示,“道·思”在9 項(xiàng)評分中,取得3 項(xiàng)最高分,可見其智能性得到人類玩家的肯定.“道·思”在戰(zhàn)法新穎、靈活多變、勇猛激進(jìn)3 項(xiàng)高于平均分,在沉著穩(wěn)妥這項(xiàng)低于平均分,反映出“道·思”基于數(shù)據(jù)挖掘,可以較好地分析態(tài)勢和地形,能夠主動進(jìn)攻,戰(zhàn)法比較主動.“道·思”在策略高明、武器運(yùn)用、兵力協(xié)同3 項(xiàng)高于平均分,在反應(yīng)迅速、地形利用2 項(xiàng)上低于平均分,可見基于狀態(tài)機(jī)、行為樹、動作函數(shù)、多指標(biāo)綜合評價(jià)軟優(yōu)選等技術(shù)的結(jié)合使AI 整體的策略、武器使用、兵力配合上表現(xiàn)優(yōu)秀.但是基于數(shù)據(jù)挖掘的計(jì)算量較大,反應(yīng)速度相對其他AI 隊(duì)伍偏慢.另外,“道·思”傾向于主動進(jìn)攻,而不是在隱蔽地形防守,因此,在地形利用上的評分也相對較低.

表4 人類選手給每個(gè)分隊(duì)級兵棋AI 的主觀評分Table 4 The subjective evaluation of unit-level wargame AI by the human players

通過智能兵棋競賽結(jié)果和技術(shù)交流,總體感到目前國內(nèi)智能兵棋決策技術(shù)處于不斷進(jìn)步之中,雖然深度強(qiáng)化學(xué)習(xí)算法具有最好的通用性,但是多agent 控制帶來的技術(shù)困難,使之在兵棋智能博弈領(lǐng)域的應(yīng)用有限,相關(guān)技術(shù)正在不斷突破中[6-7].目前,對抗性能最好的兵棋AI 依然是依靠專家經(jīng)驗(yàn)和精細(xì)的程序控制,雖然特定場景下表現(xiàn)出了優(yōu)異的性能,但是學(xué)習(xí)能力和靈活性缺乏.本文提出的知識與數(shù)據(jù)互補(bǔ)的行為決策算法具有部分學(xué)習(xí)能力和靈活性,但是局限性也比較明顯.一是學(xué)習(xí)能力較弱.對復(fù)盤數(shù)據(jù)進(jìn)行迭代學(xué)習(xí),其本質(zhì)是挖掘?qū)κ值臍v史策略,并不能優(yōu)化到最優(yōu)點(diǎn),這種學(xué)習(xí)方式與機(jī)器學(xué)習(xí)算法有本質(zhì)區(qū)別.二是算法通用能力不足.基于知識驅(qū)動的決策算法需要構(gòu)建專家知識庫,具有很強(qiáng)的領(lǐng)域性,因此,算法通用性很差,需要大量的人工作業(yè).三是對抗性能不優(yōu)異.基于數(shù)據(jù)挖掘的軟決策算法減少了知識推理的工作量,增加了算法的通用性和靈活性,但是其性能的提升依賴于復(fù)盤數(shù)據(jù)集,當(dāng)沒有真實(shí)比賽的數(shù)據(jù)集而只依靠有限的自對抗數(shù)據(jù)集,對抗性能表現(xiàn)并不突出.

5 結(jié)論

本文針對沒有人類高質(zhì)量復(fù)盤數(shù)據(jù)的條件下,將基于知識驅(qū)動的決策算法和基于數(shù)據(jù)挖掘的軟決策算法結(jié)合,提出了知識與數(shù)據(jù)互補(bǔ)的行為決策算法,并以該算法為核心,提出了知識與數(shù)據(jù)互補(bǔ)的兵棋AI 框架,最后編程實(shí)現(xiàn)了一個(gè)分隊(duì)級兵棋AI,對抗結(jié)果顯示,該兵棋AI 具有較高的靈活性,能夠遷移到臨機(jī)想定,對抗效果也較好,對軍事智能決策的發(fā)展有一定參考價(jià)值.

下步將從3 個(gè)方面作深入研究,一是設(shè)計(jì)更為通用的FSM 和BT 決策體系,并研究HTN 等自動規(guī)劃算法,使模型的可遷移能力更強(qiáng);二是優(yōu)化基于數(shù)據(jù)挖掘的軟決策體系,提升計(jì)算效率,同時(shí)利用深度神經(jīng)網(wǎng)絡(luò)的感知能力對評價(jià)指標(biāo)進(jìn)行計(jì)算.三是研究超參數(shù)的自動優(yōu)化方法,減少專家工作量,同時(shí)提升模型決策能力.

猜你喜歡
數(shù)據(jù)挖掘動作
下一個(gè)動作
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
動作描寫要具體
畫動作
讓動作“活”起來
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
動作描寫不可少
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
非同一般的吃飯動作
主站蜘蛛池模板: 日本人妻一区二区三区不卡影院 | 亚洲精品你懂的| 亚洲精品国产成人7777| 久热这里只有精品6| 2022国产91精品久久久久久| 久久免费视频6| 国产美女视频黄a视频全免费网站| 四虎永久免费地址在线网站| 国产SUV精品一区二区| 六月婷婷综合| 日本爱爱精品一区二区| 无码精油按摩潮喷在线播放| 在线观看亚洲人成网站| 久久久久青草大香线综合精品| 国产丝袜第一页| 日韩视频精品在线| 亚洲国语自产一区第二页| 91免费观看视频| 亚洲av综合网| 国产色婷婷视频在线观看| 久久国产亚洲偷自| 中文字幕1区2区| 精品人妻无码中字系列| 久久综合九色综合97网| 国产乱人伦AV在线A| 国产欧美高清| 日韩精品亚洲精品第一页| 国产成人1024精品下载| 国产美女自慰在线观看| V一区无码内射国产| 久久久久免费看成人影片| 九色视频在线免费观看| 99中文字幕亚洲一区二区| 日本不卡在线| 久久综合九色综合97婷婷| 国产激情在线视频| 国产资源免费观看| 国产精品乱偷免费视频| 露脸国产精品自产在线播| 成人国产精品一级毛片天堂| 精品一区国产精品| 欧美第二区| 久久久久免费精品国产| 免费a级毛片视频| 中文字幕在线免费看| 手机永久AV在线播放| 日韩不卡免费视频| 亚洲免费福利视频| 激情亚洲天堂| 99视频精品全国免费品| 精品国产欧美精品v| 永久免费AⅤ无码网站在线观看| 国产麻豆福利av在线播放 | 国产亚洲视频播放9000| 免费日韩在线视频| 亚洲精品视频免费| 国产精品任我爽爆在线播放6080 | 国产在线麻豆波多野结衣| 欧美午夜在线播放| 99热这里只有精品国产99| 久久香蕉国产线| 亚洲综合片| 欧美成人精品一区二区| 性色生活片在线观看| 无码'专区第一页| 福利在线一区| 久久精品一卡日本电影| 久久精品午夜视频| 国产亚洲一区二区三区在线| 精品国产污污免费网站| 萌白酱国产一区二区| 国产成人高清精品免费5388| 亚洲高清无码精品| 欧美国产日韩在线观看| 久草性视频| 国产成人a在线观看视频| 欧美不卡在线视频| 国产人成乱码视频免费观看| 亚洲毛片网站| 精品无码视频在线观看| 91精品综合| 国产95在线 |