999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能博弈技術軍事應用展望

2023-08-03 12:23:36郭圣明
指揮與控制學報 2023年2期
關鍵詞:智能游戲策略

馬 悅 吳 琳 郭圣明

現代戰爭無疑是一場激烈博弈,隨著信息化程度不斷提高,作戰空間由物理域、信息域向認知域拓展[1],快變的戰場態勢、緊湊的作戰節奏以及跨域軍事力量運用對作戰指揮的時效性和精確性提出了更高要求.敵方意圖判斷、行動威脅評估、指揮決策與控制的難度不斷增加,迫切需要利用智能技術延伸人腦,以提高軍事決策的自動化和自主化水平,決策智能成為軍事領域研究熱點之一.

近年來,諸多游戲博弈系統在邊界和規則確定的對抗中取得了顯著成績,不僅極大推動了認知智能發展,更為軍事決策智能研究指明了探索方向[2].智能博弈也稱為機器博弈(computer game),主要研究如何讓機器像人一樣在競爭環境下進行對抗,屬于認知智能范疇.眾多知名學者很早便開始涉足該領域研究,如馮·諾依曼、香農、圖靈和塞繆等[3].隨著計算機硬件不斷升級,智能博弈理論和技術迅猛發展.IBM 于1997 年開發“深藍(deep blue)”系統,以絕對優勢戰勝了卡斯帕羅夫,成為智能博弈系統“叫板”人類的歷史性里程碑[4].Deep Mind 于2016 年至2017 年相繼推出圍棋AlphaGo 系列AI 系統,成功解決了有限狀態零和完全信息兩人博弈問題[5-7];美國卡耐基梅隆大學分別于2017 年和2019 年開發了Libratus 系統和Pluribus 系統[8-9],突破了多人游戲智能博弈的壁壘.繼以圍棋、德州撲克等序貫博弈之后,以實時策略游戲為代表的同步博弈問題成為新的研究熱點,Deep Mind 在2019 年公布的AlphaStar 系統的底層技術[10],對未來開發具有安全性、魯棒性和實用性的通用AI 系統具有重要意義.然而軍事對抗不同于游戲博弈,兩者存在顯著區別[11],難以直接借鑒應用.

本文闡述了軍事智能博弈的概念及應用前景,提出在博弈論框架下利用AI 技術應尋找策略均衡解,而非傳統求解最優解.通過比較完全信息、不完全信息和即時戰略類游戲的特點,深入剖析不同智能博弈技術框架的原理,梳理美軍智能決策項目的最新發展情況,而后根據戰爭復雜性特征,分析軍事博弈面臨的主要困難以及智能技術軍事應用的挑戰.有助于把握智能博弈最新進展,為軍事決策智能發展儲備必要的理論與技術,進而為利用AI 技術突破復雜戰場環境下高動態不確定的決策問題提供借鑒.

1 軍事智能博弈

軍事智能博弈(military intelligence game,MIG),是指將軍事問題轉化為博弈問題,綜合利用博弈論(game theory)和AI 技術尋求軍事對抗中的策略均衡解.博弈論為解決軍事問題提供了理論框架,AI 技術為策略求解提供了高效方法.隨著智能理論與技術的迅猛發展,博弈論和AI 技術在現實應用中結合的更加緊密,為突破軍事決策智能發展瓶頸提供了新思路.

軍事智能博弈具有廣闊的應用場景,如圖1 所示.利用智能博弈技術構建虛擬藍軍,為作戰方案分析、武器裝備檢驗和人員技能訓練提供逼真的作戰對手,可獲得更好的客觀真實性;智能博弈系統可充當“決策大腦”或“智能參謀”,面向動態戰場環境快速生成博弈策略,輔助指揮員開展對抗推演,并在訓練中與人類共同學習,不斷提升指揮決策能力;構建智能博弈對抗平臺,作戰模擬仿真系統雖然大大降低了實兵對抗訓練組織難、消耗大的弊端,但大規模聯合作戰推演仍需上百人員協作,智能博弈平臺上雙方“智能體”自主對抗,不僅能對作戰方案進行快速驗證,還能通過分析智能體行為發現新戰法.

圖1 軍事智能博弈應用場景Fig.1 The application scenario of military intelligent game

軍事智能博弈主要有兩大研究內容:一是軍事博弈規則構建.局中人為最大化自身利益進行決策,不同的規則設計將會導致策略選擇的不同,如何設計博弈規則以使最終均衡解達到整體利益最大化成為首要問題.二是博弈策略求解,博弈論提供了問題建??蚣?納什定理證明了均衡解的存在性,但現實問題的求解通常面臨狀態決策空間大、信息不完備等問題,如何利用高效算法搜索最優策略成為關鍵問題.

1.1 理論框架:博弈論及納什均衡

由納什定理可知,若局中人及其策略集合有限,且收益函數為實值函數,則博弈對抗必存在混合策略意義下的納什均衡.如果所有局中人擁有絕對理性思維,則逼近納什均衡的策略就是最優策略;如果對手不是總能理性選擇最優策略,則納什均衡點不一定保證己方每局都贏,但從長遠來看有極大概率會贏.由于合作博弈比非合作博弈復雜程度高,大多數研究集中在非合作博弈領域,其分類及求解方法如圖2 所示.

圖2 非合作博弈分類及求解Fig.2 Classification and solution of non-cooperative games

1.2 策略求解:人工智能算法

傳統意義上的最優解并非均衡解.機器學習利用訓練數據擬合最優模型,關注的是平均利益最大化,而博弈論中的均衡解關注的是最有利于局中人的局勢,可適用于不同場合.例如圍棋游戲中,若用歷史棋譜來尋找最優策略,必能獲得歷史上勝率最高的方案,但面對新棋局或對手采取新策略時,“最優解”便失去意義.現實問題中,達成均衡解的策略才是真正需要尋找的[13].

簡單博弈問題,可以通過數學解析或空間搜索算法進行求解,如線性/非線性規劃、極大極小值算法等.現實問題通常面臨巨大的狀態決策空間,簡單計算或窮盡式搜索已難以解決.AI 算法為尋找策略均衡解提供了高效途徑,并成功應用于圍棋、德州撲克、星際爭霸等游戲博弈中,相關的技術和算法也成為研究熱點.

2 智能博弈研究現狀

梳理游戲智能博弈最新成果和美軍智能決策項目發展情況,深入剖析所用理論方法和技術框架,有助于把握領域的研究進展和方向.

2.1 游戲智能博弈研究

研究人員一直熱衷于將游戲作為測試和評估AI算法的平臺,從最初的Atari 游戲到后來的圍棋、德州撲克和星際爭霸等,人類攻克了越來越復雜的游戲堡壘,其技術方法為解決現實問題和實現通用人工智能奠定了基礎.

2.1.1 完全信息博弈游戲

完全信息博弈中,局中人可獲取即時完整的決策信息,雙方行動有先后順序,并能在有限步后得到結果,是研究成果最顯著的領域,如圍棋、國際象棋.該類問題通常采用博弈樹搜素算法,將博弈過程轉化為樹的擴展過程.博弈樹的根節點為初始狀態,子節點表示在根節點選擇動作后達到的新狀態(state),從一個節點通向其他節點的邊表示動作(action),通過評估葉節點來判斷博弈結果.樹中每一層代表了雙方的狀態,同層中的所有邊為局中人在狀態下所有可選動作,局中人在不同層間交替執行動作,允許一次執行若干動作但只看作是一個動作.博弈目的就是尋找博弈樹根節點的最優子節點,而通往最優子節點的動作即為最優動作.

現實問題的博弈樹過于龐大,眾多學者致力于特征深度和分支因子的優化方法,如“深藍”綜合利用極大極小值搜索、α-β 剪枝和局勢評估函數實現窮盡式搜索[4].而對于具有巨大搜索空間的圍棋游戲,AlphaGo 將深度神經網絡融合于蒙特卡洛樹搜索(Monte Carlo tree search,MCTS),實現了宏觀“深思熟慮”[14].MCTS 通過蒙特卡洛模擬估計節點值,每步行動前都會模仿人類思考方式進行多次模擬,從而展望未來并選擇下一步行動.其基本步驟為選擇、擴展、模擬和回饋[15],如圖3 所示.隨著模擬進行,博弈樹規模逐漸變大而節點值更加精確,使得策略偏向于選擇具有最優值的動作,從而將最高值節點擴展到最深處,形成一棵極不對稱的樹.

圖3 蒙特卡洛樹搜索Fig.3 Monte-Carlo tree search

為了在有限時間內獲得更高勝率,既需要探索不同策略以避免陷入局部最優,又要保證回報值高的策略獲得更多嘗試,平衡探索(exploration)和利用(exploitation)成為關鍵.將MCTS 與置信上限(upper confidence bound,UCB)公式相結合可得到置信上限樹(UCB for trees,UCT)算法,每次選擇“價值”最大的動作,而“價值”定義為回饋得到的平均價值Q 與置信上界U 之和,如式(1)所示.

其中,Q(vi)和N(vi)表示節點vi的模擬獎勵和總訪問次數,可將Q(vi)/N(vi)理解為選擇該節點的獲勝概率.若貪婪地優先遍歷具有最高勝率的節點會陷入局部最優,exploration 部分提高了未被充分探索節點被訪問的概率,引導進行更充分的探索,并隨著訪問次數的增加而遞減.為減少分支選擇,通常會預先考慮一個先驗概率分布來確定每步行動,求解該概率的函數被稱為“策略函數”.AlphaGo 使用卷積神經網絡(convolutional neural networks,CNN)構建了“策略網絡”,實現了在一個局面下能夠估計整個概率分布,并通過自我博弈生成“強化策略網絡”[5].

針對特征深度優化問題,通常采用“Rollout 策略”或“估值函數”來對狀態進行評分.Rollout 策略采用相對簡單的方式快速模擬到底,并使用終局結果來近似狀態評分,而估值函數直接估計狀態的評分而無需搜索到終局.如果將估值函數記為,節點狀態及評分分別為s 和,若能尋找到最佳參數使得很好擬合,即:

按照“表示學習”的思想,局面的“高級表示”既可以用來判斷價值,也可以用來選擇策略.因此,AlphaGo-Zero 使用同一個CNN 網絡來進行價值估計和策略輸出,該網絡主要由3 部分組成:Residual Block 為共享的多層卷積神經網絡,將棋面圖像經卷積操作進行特征抽取;Policy Header 用于將中間特征轉化為輸出策略,通過全連接層得到穩定性較好的Logit 概率分布,再使用Softmax 函數轉化為一般意義上的概率分布;Value Header 用于將中間特征轉化為價值的估值,利用卷積層將特征壓扁后相繼輸入兩個全連接層,而后利用Tanh 激活函數得到最終估值[6].此后,Deep Mind 開發了AlphaZero 系統,可以同時解決圍棋、國際象棋和日本將棋問題,為實現通用AI算法提供了借鑒[7].

2.1.2 不完全信息博弈游戲

不完全信息博弈中,局中人行動順序雖有先后,但無法完全獲取其他局中人的特征、收益及策略空間等決策信息,如德州撲克、麻將等.不完全信息博弈更符合現實場景,但求解納什均衡解的復雜度和難度也更大.由于信息的非完備性和局勢的動態變化,需對其他局中人的未知信息進行推理和猜測,同一狀態下采取的行動可能有多種,甚至可以利用信息迷霧進行欺騙,通常需要根據局勢縮小博弈搜索空間,如圖4 所示.

圖4 不完全信息博弈空間抽象Fig.4 Space abstraction of incomplete information game

該類問題最常用的是自博弈反事實遺憾最小化算法(counterfactual regret minimization,CFR).CFR不依賴于神經網絡或其他措施來計算動作概率/記錄動作價值,而是通過自我博弈的方法從零學習,總結每對特定“狀態-動作”的遺憾值,而后通過將遺憾值歸一化之后的動作概率生成決策[16].所謂遺憾值,是指策略與歷史博弈中同一局勢下采取的其他策略的收益之差的累加.此外,2016 年,HEINRICH 提出神經虛擬自博弈(neural fictitious self-play,NFSP),在無先驗知識條件下,結合強化學習讓模型在自我對局中達到納什均衡[17];2019 年,浙江大學研究人員提出異步神經虛擬自博弈,通過在若干虛擬環境中進行自我博弈,顯著提高了訓練速度和效果,并成功應用于德州撲克和多人FPS 射擊游戲[18].

在CFR 算法基礎上,阿爾伯塔大學和卡耐基梅隆大學在德州撲克游戲中取得了矚目成績.2016 年,加拿大阿爾伯塔大學研制了DeepStack 系統,綜合CFR 算法和深度神經網絡進行決策求解,利用遞歸推理處理信息不對稱[19].2017 年,卡耐基梅隆大學研制了Libratus 智能系統,該系統采用基于納什均衡逼近的技術框架,以隨機生成牌局、嘗試性動作以及游戲結果作為訓練數據,通過納什均衡近似、殘局解算和持續自我強化3 個步驟,不斷平衡風險與收益使其達到納什均衡[8],如圖5 所示.2019 年,卡耐基梅隆大學再度研發出新型Pluribus 撲克智能系統,在原始版本基礎上增加了在線搜索算法來評估下一步策略,更新自玩算法以獲取更快的訓練速度,成功突破了多人博弈游戲的局限[9].

圖5 Libratus 的組成部分Fig.5 The component part of Libratus

2.1.3 即時戰略博弈

即時戰略游戲(real time strategy,RTS)具有以下特點:局中人需同時決策是否采取行動以及采取何種行動,而非輪流決策;局中人需在短時間內進行一系列決策并付諸實施,以滿足實時對抗要求,而動作可能需要持續一段時間,完全不同于棋牌類游戲“決策的交替性和間斷性、動作的瞬時性和突發性”;游戲中存在各種功能角色,如何發揮各角色作用和協作效果,是制定最優策略的關鍵問題;游戲中多角色多任務、高度不確定性和不完備不完美信息等問題,導致狀態空間規模和決策可選動作十分巨大;由于無法準確預測對手行為,游戲并不存在理論上的最優解.因此,RTS 游戲研究對解決具有實時對抗、長遠規劃、多角色多任務和信息不完備不完美等特點的問題更具借鑒意義,如軍事決策、應急規劃等.

“星際爭霸”(star craft)是典型RTS 游戲,自2010 年起,阿爾伯塔大學大力推進StarCraft AI 研究,但受限于經典模式而缺少學習進化能力.2016 年,阿里巴巴聯手倫敦大學開始對相關算法進行了新嘗試.2019 年,Deep Mind 研發了AlphaStar 系統,其底層技術對開發具有安全性、魯棒性和實用性的通用AI系統具有重要意義,極大促進了博弈論、機器學習和多智能體協作等理論的發展.

AlphaStar 采用了雙向協作網絡模型和端到端訓練方法[10].策略網絡自下向上對環境進行抽象形成共享狀態,經過雙向RNN 網絡輸出每個智能體的執行動作;價值網絡根據策略網絡的輸出動作及抽象狀態進行評估,從而預判價值大小.當所有智能體采取動作后,環境會給出相應反饋,然后反向傳播以更新網絡參數.網絡參數共享保證了模型的穩定性,而雙向協作降低了計算量.在網絡訓練方面,構建了“有監督學習+強化學習”框架.基于多智能體集中強化學習思路設計了虛擬競技場(AlphaStar league),并使用高水平人類比賽數據進行模仿學習,使得智能體能夠在給定狀態下預測下一步動作.進行自我對弈,在虛擬競技場中始終保存和更新多個不同版本的策略網絡.不同策略網絡具有不同學習目標,從而維持了群體多樣性,策略網絡之間相互競爭從而不斷提升對戰水平,整個群體保證了持續穩定地提升.持續學習,同時訓練3 個策略集合:main agents 從3 個策略集合中選擇對手,以確定能夠對抗歷史上某個分布的策略;main exploiters 將main agents 作為對手,以尋找策略集合的弱點;league exploiters 將歷史main agents 作為對手以發現系統弱點.main exploiters 和league exploiters 策略集合每隔一段時間重置為有監督學習得到的智能體,以增加對抗穩定性,從而保證新策略不會遺忘如何擊敗歷史中的舊策略.虛擬競技場中的個體形成了明顯的策略分布,當需要輸出一個策略網絡作為訓練結果時,通過納什分布進行采樣,可得到已經發現的多種策略的綜合最優策略.

2.2 美軍智能博弈系統應用及進展

美軍早已預見智能技術在軍事領域的應用前景,力求在“第三次抵消戰略”中憑借智能技術形成絕對軍事優勢.美軍提出“馬賽克戰”概念,希望構建一個具有超強適應能力的彈性殺傷網絡,實現要素的快速聚合與分解,重塑在大國博弈中的競爭力[20].智能博弈技術,必將成為未來智能化戰爭條件下進行指揮決策的基礎.

“深綠計劃”(deep green),由美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPAR)于2007 年啟動,旨在將基于實時態勢的自主對抗兵棋推演、態勢及關鍵節點預測、作戰方案排序等智能模塊嵌入指揮控制系統,保證指揮官集中精力進行決策.主體由3 部分組成:指揮官助手提供智能化人機接口;閃電戰支持自主式兵棋推演,不斷預測和辨識未來多種態勢及決策分支;水晶球控制生成未來態勢并持續更新發生概率,向指揮員提供優選方案[21].

空戰模擬AlphaAI 系統,由辛辛那提大學與美空軍實驗室于2016 年合作研發,其核心技術是遺傳模糊樹(genetic fuzzy trees,GFT).GFT 借鑒人類模糊決策思維方式約減問題復雜度,使用遺傳算法不斷訓練優化新戰術,使用模糊推理形成邏輯思維,從而模擬人類認知中的“直覺思維”和“邏輯推理”[22].模型經訓練后,可具有超過人類250 倍的認知決策速度和超強的默契配合能力,完成各種攻防戰術策略選擇和動作協同.

指揮官虛擬參謀(commander’s virtual staff,CVS),由美國陸軍裝備司令部通信電子研究開發與工程中心于2016 年啟動,旨在綜合運用AI 技術處理戰場海量數據,為制定戰術決策提供人機交互、態勢預判、決策評估及其他復雜分析等能力,解決營級指揮層缺少信息分析和輔助決策人員的問題[1].

終身學習機器(lifelong learning machines,L2M)項目,由DARPA 于2017 年啟動,旨在研究并借鑒生物自主訓練和學習機理,構建新一代具備自適應能力的人工智能學習框架,實現基于現實情景的在線式學習方式和基于經驗進行決策的能力.計劃中,L2M 系統能持續根據“經驗教訓”和現實環境進行自主學習,可在無預編程和線下訓練情況下通過知識積累對全新環境作出適應性調整,如圖6 所示.

圖6 L2M 的核心能力Fig.6 The core ability of L2M

“羅盤”項目(collection and monitoring via planning for active situational scenarios,COMPASS),由DARPA戰略技術辦公室于2018 年對外宣布,旨在針對“灰色地帶”作戰的模糊性,綜合利用人工智能、博弈論、建模仿真與評估等技術,辨識對手意圖和預測行動計劃,從而輔助指揮官進行精確、高效的決策,如圖7 所示.“灰色地帶”介于和平與常規戰爭之間,可通過采用暴力、社交、網絡、心理、宗教等各種手段達到目標,因此,難以根據復雜環境中的稀疏信息捕捉對手的意圖及行動.“羅盤”系統能夠規劃態勢監測和收集策略,通過衡量對手對各種外界刺激的反應來識別其真實意圖,輔助決策者權衡每種方案的利弊,為復雜模糊的灰色地帶環境的觀察-判斷-決策-行動(object-orient-design-act,OODA)循環增加自適應元素.

“針對敵方戰術的建設性機器學習作戰”(constructive machine learning battle for enemy tactics,COMBAT)項目,源于DARPA 在2020 年發布的公告,旨在開發敵軍旅級自適應人工智能系統,在模擬對抗仿真環境中提供出人意料的敵軍行動策略,以輔助美軍快速推演作戰方案并實施計劃擬制.各國軍隊在作戰推演中通常由己方部隊扮演敵軍,導致“對手不像對手,自己對抗自己”的局面.COMBAT 項目利用實體行為建模,構建敵軍旅、混合連以及連級單位模型和作戰旅內部的指揮控制模型;利用自然語言處理、非結構化文本提取等技術,從相關外軍研究文獻和美軍作戰條令等文件中提取知識規則,挖掘敵軍任務、實體以及相互間的依賴關系,用于生成敵軍行動基線;使用博弈論和強化學習算法,在不確定復雜環境中不斷學習應對美軍行動的方案策略,從而能夠在實際對抗中迅速生成多種敵軍COA 并進行優化,如圖8 所示.該項目是美軍將最新人工智能技術應用到復雜決策的一種探索,以促進新型“技術、戰術和流程”的開發.

圖8 COMBAT 技術核心Fig.8 The technology core of COMBAT

“打破游戲規則的人工智能探索”(gamebreaker artificial intelligence exploration)項目,由DARPA 在2020 年5 月提出并組織實施,旨在研發通用人工智能算法并應用于公開視頻游戲,定量評估游戲平衡性并確定顯著影響游戲平衡的參數,探索打破游戲平衡性的新戰術與新規則.合作團隊將以兩種游戲為實驗場景,第1 種游戲用于實現人工智能算法,并在第2 種游戲中驗證.實時策略視頻游戲普遍涉及宏觀策略制定、戰役長程規劃和指揮控制等問題,這與現實戰爭息息相關.該項目雖然是針對公開視頻游戲的探索,但實際目的是尋找通用智能算法來評估和操作真實戰爭的平衡性.美軍期望在未來軍事沖突中,能夠最大化戰爭不平衡以創造優勢,或能夠在敵方占優勢時尋求平衡,如圖9 所示.

圖9 打破游戲規則的人工智能探索項目展望Fig.9 The prospect of gamebreaker artificial intelligence exploration

2.3 常用方法總結

MCTS 適用于規模適中且信息完全的有限離散博弈,當狀態決策空間規模較大時,需采用高效的剪枝算法來約減空間,模型的抽象簡化會降低求解結果的可信度,模型的運行需依靠透明的規則,不適用于現實世界中動態持續和同步決策問題.Libratus 采用的納什均衡逼近技術框架,具有較好的可解釋性和通用性,但“納什均衡”解的求解難度會隨著局中人數量的增加而呈指數增加.GFT 算法通過結合模糊數學與進化算法大大降低了計算復雜度,其策略集合與支付的不對稱性十分符合軍事應用場景.但該方法的表征能力和自我改善能力有限,對領域知識依賴程度高,需要人工建模完成對問題的模糊抽象和分解;對策略空間的模糊聚類,可能會將差別細微的策略歸為一類,這極有可能導致大相徑庭的博弈結果.深度強化學習具有強大的非線性表示能力,利用深度神經網絡能從海量數據中學習經驗知識、逐層抽象策略模型.但深度神經網絡訓練需要大量樣本數據,有限的訓練數據將難以覆蓋策略空間,導致策略模型泛化性和適應性較差,同時模型的可解釋性不強.

3 智能博弈技術的軍事應用展望

3.1 軍事博弈面臨的困難

戰爭具有非線性和不確定性,軍事博弈是一個典型的面向不完美不完備信息的序貫決策和同步博弈問題,必須兼顧宏觀策略規劃和微觀戰術選擇,平衡短期利益、長期目標以及意外情況處置能力.現有智能博弈技術難以直接利用,主要因為軍事博弈具有以下突出特點.

3.1.1 戰爭充滿“迷霧”和不確定性

在完全信息博弈中,雙方可以完全掌握棋局狀態,即使是在德州撲克等非完全信息博弈中,未知的牌局信息也只發生在一定概率區間內,通過多輪博弈可進行概率判斷.而在真實戰場中,由于預警范圍和偵察注意力受限,只能從戰場環境中獲取部分信息,而且敵方行動策略和作戰企圖無法完全知曉,基于部分可觀察的態勢估計是不可回避的.指揮員需要在一個非完全信息環境下進行決策,必須具備高效準確的偵察、探索、記憶和推測能力,信息的缺失導致以求解局部最優來獲取全局最優的方式無法完成策略回溯.

戰場各類偵察系統獲取的信息可能是隨機模糊的,敵我雙方為隱藏企圖而采取各種欺騙行為和佯裝動作,導致獲取的信息不一定準確,產生“信息獲取的不確定性”;信息在各層級傳播和融合過程中,會出現衰減、丟失和出錯等現象,產生“信息融合的不確定性”;事物的描述和表示會因知識表示方法不同而不同,產生“知識表示的不確定性”;利用證據信息與軍事知識進行戰場態勢和敵方策略行動推理時,不同的推理算法會產生不同的估計結果,產生“推理結果的不確定性”.戰爭信息的高度不確定性,導致基于先驗知識推理未知領域的方式難以奏效.

3.1.2 軍事博弈對抗激烈、連續且非零和

戰爭博弈日趨激烈.無論戰前還是戰中,博弈發生在時時刻刻、方方面面,雙方意圖互為對抗且此消彼長.戰爭節奏緊張,戰場態勢劇變,雙方需要更快速更準確地進行決策.決策過程不僅要考慮作戰目的和戰場態勢,還要持續判斷敵方可能采取的戰法和行動,更需要在交戰過程中反復迭代更新策略,以掌握戰爭主動權.為保證自身方案計劃順利實施,達成“出其不意攻其不備”的效果,還要巧妙地利用佯裝行動誘騙敵方;相反,為避免被敵方牽著鼻子走,也需通過有效的信息推理來識別和預測敵方的真實意圖.

軍事決策是動態連續的.與棋牌類游戲的輪次博弈不同,戰爭態勢連續演進,交戰雙方決策無順序約束,任何時刻既要決策是否采取行動,還需決策采取哪些行動,決策的速度和準確度共同決定了指揮效率.從理論上講,可將動態連續決策過程離散為更精細的時間片段,而后采用輪次博弈的靜態解決方法.但戰爭系統具有整體性和不確定性,以離散方式進行抽象建模,必然需要解決時間尺度、模型精確度和問題求解復雜度三者之間的關系.

軍事博弈具有典型的“非零和”特性.戰爭開始及結束時機,需要綜合考慮政治意圖、戰略目的、敵我能力變化和國際環境等,以實現國家利益最大化.達成國家利益最大化時,有可能是雙方軍事作戰在某一階段的“雙輸”/“雙贏”局勢,也可能是在實現政治、經濟等目的后的“僵持”局勢.這種模糊、復雜、稀疏及非零和的博弈收益,無法依靠單一指標的價值網絡來評價.

3.1.3 策略空間巨大且難以達成均衡解

軍事博弈具有異常龐大的狀態策略空間,難以依靠遍歷求解或模擬仿真等傳統方法進行求解.指揮員每次決策都會涉及任務類型、執行單位、空間和時間的選擇,不同作戰單位和作戰行動之間的時間協同、效果協同和任務協同進一步增大了策略空間.棋牌類游戲的狀態空間復雜度均是有限的,星際爭霸游戲的狀態空間仍在現有算法算力解決范圍內.而解決擁有巨大狀態策略空間的軍事博弈問題,不僅對構建戰爭抽象模型提出了挑戰,更對軟硬件運算能力提出了要求.

軍事博弈策略求解面臨三大難題.一是多方博弈增大了達成納什均衡的難度.在當今全球一體化現狀下,各國在政治、經濟、文化和軍事等多方面密切相連,戰爭不僅僅是兩國之事,更多情況下會涉及多國利益.在多方博弈問題中,納什均衡求解的復雜度隨著局中人數量的增加呈指數上升.二是多軍兵種參戰增加了協同難度.作戰力量多元化是聯合作戰一大特征,不同領域作戰力量的合理利用和協同互補是擬制作戰方案計劃的重要內容,這也是實現決策智能無法回避的內容.三是不存在最優策略能穩定勝過其他策略.在策略學習與探索過程中,策略之間相互克制和歷史遺忘的特性十分明顯,單純采用自博弈訓練方式,可能會陷入在不同策略間游移但水平停滯不前的境地.由于難以推理敵方策略行動,需要在不同子博弈之間尋找平衡.

戰爭規則的多樣性、創新性和復雜性,進一步增大了狀態策略空間的規模和納什均衡的求解難度.戰爭參與者都試圖通過作戰行動來達成作戰目的,策略會因戰場態勢的不斷更新而時刻變化,出奇制勝和另辟蹊徑的戰法創新為各方所推崇追尋.面對同一戰場態勢,各方可能采取不同的響應動作,而指揮員的決策風格也不盡相同.

3.1.4 面向任務使命的長程規劃難以實現

現代作戰已從傳統的由外及內逐層消滅敵人的線性作戰,轉變為集中全域力量進行全縱深整體打擊的非線性作戰.戰爭事件因果關系復雜,通常難以在短時間內呈現,作戰行動的執行效果可能在長時間后才會有所體現.方案計劃的制定要始終圍繞使命任務進行主動籌劃和戰爭設計,研究作戰行動與作戰效果之間的非線性關系.

這種長遠且全局的規劃視野,體現了人類指揮員的指揮藝術和大局觀.美軍率先提出基于效果作戰(effect based operation,EBO)概念,通過逆向規劃將目標分解為具體預期效果.EBO 理論從邏輯上講難以實現,因為在不確定環境中無法確定某一行動的結果,同時也忽視了對抗性這一戰爭本質[23].中外學者通常使用影響網進行研究,結合博弈論實現對抗條件下作戰方案計劃的生成[24].強化學習天生具有“行動-效果”的探索能力,為解決EBO 提供了新思路.

長程規劃應能夠體現戰爭設計的前瞻性、各領域各層級的協同性以及指揮藝術性.一是主動籌劃行動以掌握戰場主動權,瞄準作戰目的,確保作戰進程朝著終止態勢發展而不“走偏”,優先完成“觀察-判斷-決策-行動”循環;二是適應性調整方案以應對戰場中的不確定干擾,確保己方作戰過程持續進行而不會“中斷”,具有較強的學習能力和泛化性.為此,策略學習應具有記憶功能,以判斷什么樣的行動產生了好的效果、什么樣的策略更具有獲勝的可能性.正如AlphaStar 使用長短時記憶網絡捕捉歷史信息,構建虛擬競技場保持策略穩定,并采用持續強化學習實現策略不斷更新進化.

3.2 智能博弈應用展望

3.2.1 基于知識規則的智能技術

知識來源于實踐,人類在解決問題時更傾向于遵循成熟規則.機器還難以模仿人類大腦的復雜學習能力,智能博弈水平需要漫長的成長過程.傳統基于知識的專家系統,利用人類經驗和專家知識,便可解決各領域復雜問題.在深度學習盛行之后,基于知識規則的智能技術依舊取得了不凡成績.例如,東京大學日麻AI 系統利用9.6 萬多條規則進行監督學習,達到了專業六段水平;韓國三星的SAIDA 系統完全憑借職業玩家總結的規則知識,在2018 年IEEE 舉辦的星際爭霸比賽中獲得第一.即便是融合了深層神經網絡的AlphaGo 和AlphaStar,依然需要在預訓練中使用大量人類對局數據進行模仿學習.

雖然AlphaZero 和Muzero 能夠完全通過自主學習實現成長[25],但圍棋游戲與戰爭對抗存在天壤之別,難以直接應用于軍事領域.強化學習算法還難以實現從基本策略中總結出高層策略,現有的條令條例、規劃流程、作戰規則等大量知識可轉化為知識網絡以引導AI 系統決策.

3.2.2 人機融合實現決策智能

戰爭的非透明性和不確定性,使得作戰籌劃及指揮控制過程極其復雜,單純依靠人類大腦難以滿足決策速度和精度要求,而完全依賴機器又難以滿足決策的可解釋性.人機融合決策具有兩個明顯特性,如圖10 所示.一是層次性,指揮決策具有科學性和藝術性,科學性隨指揮層次提升而降低,藝術性與之相反.低層級指揮決策可采用傳統運籌學、貝葉斯網絡、機器學習等科學方法,這是實現決策智能的基礎;中間層級指揮決策采用不同程度的人機協作決策,重點研究人機協作的時機、場合和方式等;而高層級指揮決策需要由指揮員及參謀機構擬制.二是交替性,傳統的OODA 環已轉化為具有學習機制的OODA 螺旋[11],指揮決策成為一個滾動迭代、不斷優化的過程.人與機器在各環節都有擅長與不足之處,例如:態勢理解環節,機器善于處理海量數據、提取態勢特征和簡單戰斗戰術級態勢理解,人來負責復雜戰術戰役級態勢理解及意圖判斷;行動決策環節,機器善于快速運籌計算和基于數據挖掘關聯關系,人來負責基于因果關系進行非即時反饋決策.在OODA 循環中,人與機器交替進行智能決策,并推進其螺旋上升.

圖10 人機協作決策Fig.10 Man-machine cooperation to make decision-making

3.2.3 混合技術突破軍事智能瓶頸

軍事博弈的復雜性決定了需要依靠多種技術手段,AlphaStar 結合了神經網絡、多智能體、強化學習、模仿學習、聯盟機制以及各種網絡結構和參數的巧妙設計,才實現了最終效果.ONTANON 等總結了多智能體RTS 游戲的難點及應對措施[26],為軍事智能博弈研究發展提供了很好借鑒.如圖11 所示,軍事智能博弈需重點關注以下幾點:

圖11 軍事智能博弈難點及措施Fig.11 The difficulties and measures of MIG

1)任務分解.采用分層任務網絡、影響網絡和影響圖等技術,將戰役任務按時間、因果和邏輯等關系進行分解,降低整體求解難度.

2)策略分層.模擬人類思維流程進行分層決策和多尺度規劃,上層策略為下層規劃目標,而下層策略的執行支撐了上層策略,如高層策略關注戰役全局問題、底層策略聚焦短期利益、即時策略控制反應式動作.

3)規劃方法.靈活運用多種規劃方法:低層次局部任務規劃與高層次全局作戰規劃的一致性耦合;復雜多目標問題求解的優化與效率的均衡;在理論和技術條件下,若能基于知識規則進行規劃,則應避免使用強化學習.

4)策略學習.一是基于歷史或仿真數據的策略模仿學習,解決復雜問題從零學習的困境;二是基于聯盟機制的策略持續學習,解決策略持續優化、避免陷入死循環的困境;三是基于通用AI 技術的策略遷移學習,解決知識經驗和學習機制在不同場景下的共享問題.

5)不確定性推理.針對戰場信息不完全性增加偵察策略,構建預測模型對戰場態勢、敵方意圖及行動策略進行推理;針對廣闊戰場空間和作戰單位功能各異,需要合理安排力量跨域作戰、資源空間轉移和行動空間協同等問題,進行空間不確定性推理;針對戰爭非即時反饋特點,既需要解決當前危機,又要長遠地規劃資源利用和策略轉換等問題,進行時間不確定推理.

6)知識圖譜.以圖譜形式組織軍事領域知識,構建基礎知識圖譜;基于歷史數據及專家經驗,構建敵方意圖圖譜;針對不同決策場景,結合指揮員經驗總結,構建我方行動推薦圖譜.

3.2.4 對抗博弈用于強化訓練和戰法研究

戰爭謀略是長期作戰實踐的經驗總結.通過對抗博弈,機器學習人類已有經驗知識,人類從機器行為表現中得到啟發,實現人類決策能力與機器智能水平的共同提升.以戰役級計算機兵棋系統為訓練平臺,基于敵軍戰法規則構建智能對手,通過人機博弈對抗進行戰法研究和方案檢驗,持續提升指揮員的決策能力和戰場大局觀.借鑒AlphaStar 的虛擬競技場思路,通過機器自博弈探索不同行動方案并進行評估,從而克服指揮員傳統思維禁錮,尋找好招、奇招與妙招.面向未來無人作戰領域,大力發展多智能體博弈策略生成的關鍵技術[27].

4 結論

通過梳理經典智能博弈理論方法和軍事博弈特征,得出以下結論:1)軍事博弈與游戲存在顯著區別,戰爭注重指揮藝術性和決策科學性的結合,強調戰爭設計和“運籌帷幄”;2)軍事博弈更加強調面向戰役使命進行長遠規劃,而非游戲的反應式規劃,必須兼顧宏觀策略規劃和微觀戰術選擇;3)軍事博弈問題規模遠遠大于游戲場景,種種不確定性因素和動態連續的激烈對抗,增大了均衡策略的求解難度.因此,智能博弈相關技術方法還難以完全用于解決戰爭問題.面對復雜的戰爭系統,長期積累的軍事知識和作戰經驗能夠引導機器減少盲目搜索,并避免犯下違背軍事常識的錯誤;人機交互式決策在保證速度和精度的同時,還可通過“人在回路”提高決策的適應性;如何利用已有技術手段解決現有復雜問題,聚焦于智能技術混合使用方式,是亟需研究的內容.

猜你喜歡
智能游戲策略
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
數獨游戲
瘋狂的游戲
飛碟探索(2016年11期)2016-11-14 19:34:47
爆笑游戲
主站蜘蛛池模板: 国产呦精品一区二区三区网站| 在线国产毛片| 日韩天堂在线观看| 亚洲国产天堂久久综合226114| 欧美中文字幕在线视频| 国产欧美性爱网| 天天色天天综合| 久久久久久久97| 亚洲丝袜中文字幕| 四虎亚洲精品| 亚洲中文字幕97久久精品少妇| a毛片基地免费大全| 人妻中文字幕无码久久一区| 精品人妻一区二区三区蜜桃AⅤ| 中文毛片无遮挡播放免费| 欧洲亚洲一区| 久久久噜噜噜| 鲁鲁鲁爽爽爽在线视频观看| www中文字幕在线观看| 亚洲精品制服丝袜二区| 久久99国产视频| 2021国产在线视频| 高清色本在线www| 在线观看国产黄色| 天天综合网色| 美美女高清毛片视频免费观看| 国产成人精品亚洲日本对白优播| 99无码中文字幕视频| 日韩欧美中文在线| 久久精品电影| 国产成人精品一区二区免费看京| 国产在线专区| 99激情网| 国产18在线播放| 日韩高清欧美| 国产交换配偶在线视频| 97在线免费| 国产原创自拍不卡第一页| 国产精品无码AⅤ在线观看播放| 99在线观看国产| 亚洲天堂网站在线| 国产成人超碰无码| 日本午夜影院| 伊人久热这里只有精品视频99| 国产在线啪| 女人18一级毛片免费观看| 免费国产不卡午夜福在线观看| 久久一本日韩精品中文字幕屁孩| 色妞www精品视频一级下载| 伊人天堂网| 尤物国产在线| 国产精品亚洲精品爽爽| 制服丝袜 91视频| 国产极品美女在线观看| 日本精品视频| 亚洲精品国偷自产在线91正片| 亚洲欧美日韩中文字幕在线一区| 欧美一级夜夜爽www| 日本免费一区视频| 91成人试看福利体验区| 少妇极品熟妇人妻专区视频| Aⅴ无码专区在线观看| 亚洲欧美天堂网| 这里只有精品免费视频| 天天综合色天天综合网| 亚洲有码在线播放| 国产Av无码精品色午夜| 成人国产精品网站在线看| 成年人免费国产视频| 精品一区二区三区四区五区| 国产午夜人做人免费视频中文| 亚洲国产成人自拍| 亚洲日韩精品综合在线一区二区| 毛片在线看网站| 最新精品国偷自产在线| 国产美女精品一区二区| 国产精品白浆在线播放| 亚洲区视频在线观看| 手机看片1024久久精品你懂的| 久久黄色一级视频| 亚洲综合二区| P尤物久久99国产综合精品|