張瑤 馬亞輝
本文圍繞體系對抗中的智能策略生成問題,重點分析了圍棋和即時戰略游戲等計算機博弈問題的技術發展,總結了智能策略生成可能用到的關鍵技術,提出體系對抗智能策略AI系統的組成架構,并討論了智能策略AI的軍事應用,為體系對抗的研究提供了一定的支撐。
一、引言
當前,戰爭形態正在由機械化戰爭向信息化戰爭演變。信息化戰爭的重要內涵和根本要求是體系作戰,需要運用信息系統,把各種作戰力量、作戰單元、作戰要素融合集成為整體作戰能力,通過靈敏感知戰場、分布指揮控制、快速精確打擊、全維一體防護和動態綜合保障,實現作戰效能最大化和作戰進程最短化,在作戰樣式上集中表現為體系的對抗。
由于體系對抗的復雜性、動態性和對抗性等特點,傳統的經驗式、規則性的系統難以滿足瞬息萬變的戰場要求,而利用人工智能技術的智能化系統將會給我們提供一條新的途徑。智能化的體系作戰將成為未來的趨勢,體系對抗的智能水平也將成為決定作戰雙方對抗優勢的重要因素。
美國很早就開始探索人工智能技術在體系對抗中的應用。DARPA于2007年啟動了“深綠”計劃,“深綠”計劃核心思想是借鑒“深藍”,預判敵人的可能行動,從而提前做出決策。雖因經費削減等原因該計劃于2011年暫停,但其提出的思路和方法值得借鑒。2015年12月,美國防部提出了第三次抵消戰略,其發展方向是打造智能化作戰體系,將帶來以智能化軍隊、自主化裝備和無人化戰爭為標志的軍事大變革。2016年6月美國辛辛那提大學開發的AlphaAI系統,在空戰模擬仿真器上,完勝經驗豐富的美退役空軍上校。
目前國內軍事信息系統基本停留在輔助勞力而非智能階段,還需深入研究。
體系對抗是作戰雙方之間的博弈,博弈的本質問題是博弈參與方之間博弈策略的對抗。因此,體系對抗的關鍵是智能策略的生成。近年來,人工智能技術以人機大戰為標志,在計算機博弈上取得突破性重大進展,這對體系對抗中智能策略的研究有重要的借鑒意義。
本文基于人工智能技術在計算機博弈問題上的進展,圍繞體系對抗,綜述體系對抗智能策略生成中的人工智能技術,分析體系對抗智能策略系統的組成,為體系作戰的研究和設計提供一定的支撐。
二、計算機博弈
計算機博弈是人工智能的一個重要研究分支,圍棋、即時戰略游戲、雅達利、撲克等游戲AI都是計算機博弈的典型問題。
(一)圍棋:從AlphaGo到AlphaZero
2016年,谷歌DeepMind發表于《Nature》上的計算機圍棋AlphaGo擊敗了人類頂尖職業棋手,成為人工智能領域的一個里程碑事件。在此基礎上,2017年DeepMind又研發了AlphaGo Zero,完全不用人類棋譜數據,就能達到更強的性能。而在2017年底,DeepMind又推出了更加通用的AlphaZero,在國際象棋、日本將棋以及圍棋上分別戰勝了此前最強的AI,而且在這三種游戲上,AlphaZero所用的算法設置、網絡結構以及超參數都是完全相同的,是一種在多種任務上達到超越人類水平的通用性算法。
1. AlphaGo
計算機圍棋被認為是人工智能領域的一大挑戰,這是因為其搜索空間非常巨大并且棋盤盤面和走子難以評估。AlphaGo采用深度卷積神經網絡來減少搜索寬度和搜索深度:使用策略網絡采樣動作來減少搜索寬度,使用價值網絡評估盤面來減少搜索深度。
AlphaGo 主要包括三個策略網絡和一個估值網絡,最后用蒙特卡洛樹搜索將策略網絡和估值網絡整合起來,形成完整的系統。策略網絡主要用于預測下一步走棋,估值網絡主要用于評估當前盤面。AlphaGo 利用人類下棋的樣本數據,采用卷積神經網絡訓練了監督學習策略網絡,又用線性softmax回歸訓練了快速走子策略網絡,并用強化學習訓練了增強策略網絡,用卷積神經網絡訓練了估值網絡。
AlphaGo完整的算法流程如圖 1所示,包含離線學習與在線對弈兩個階段。在離線學習階段,采用人類棋譜和自對弈的方式獲取樣本數據,利用樣本數據進行訓練,得到監督學習策略網絡、快速走子、增強學習策略網絡以及估值網絡。在在線對弈階段,利用蒙特卡洛樹搜索將訓練好的網絡整合起來,給出下一步落子的位置,從而完成整個過程。
2. AlphaGo Zero
AlphaGo Zero與之前AlphaGo的區別在于:只用自對弈強化學習來訓練,從隨機下法開始,完全不用任何人類數據;只用黑棋和白棋作為輸入特征;只用一個神經網絡,而不是分成策略網絡和價值網絡;采用的樹搜索更簡單,只依賴于一個神經網絡來評估盤面和采樣走子,不用蒙特卡洛走子。

AlphaGo Zero 完全不用任何人類數據,也不用給出除了基本規則外的其他領域知識,只用深度強化學習和蒙特卡洛樹搜索就能訓練到超過人類水平,顯示了強大的性能。
3. AlphaZero
DeepMind 發表AlphaGo Zero之后,尋求將這種算法泛化到其他任務中的可能性,提出了AlphaZero。它是一種不使用游戲規則以外的任何知識,可以從零開始通過自對弈強化學習在多種任務上達到超越人類水平的通用性算法。AlphaZero在國際象棋、日本將棋以及圍棋上分別戰勝了此前最強的AI,展現出了強大的性能;而且在這三種棋類游戲上,AlphaZero都使用了相同的算法設置、網絡結構和超參數,顯示了通用性。
AlphaZero與AlphaGo Zero的算法基本相同,在技術上的不同點有:AlphaGo Zero 評估和優化贏率,只考慮勝、負兩種結果,而AlphaZero 則評估優化期望結果,考慮了平局或其它可能結果;AlphaGo Zero 利用了圍棋的旋轉和鏡像不變性等特點,擴大訓練數據,并且在MCTS中,在神經網絡評估盤面之前,使用隨機選擇的旋轉或反射對盤面進行變換。由于國際象棋和日本將棋的規則不對稱性,在AlphaZero的MCTS中,沒有擴大訓練數據,也沒有對棋盤盤面進行變換;AlphaGo Zero中自對弈的數據是通過之前訓練過程中的最優模型生成,用于訓練更新當前最新模型。而Alpha Zero 則只更新一個神經網絡,自對弈的數據直接由當前最新模型生成,并用于訓練更新當前最新模型;AlphaGo Zero中的超參數是通過貝葉斯優化得到的,超參數的選取會對結果產生很大的影響。而AlphaZero 中所有的對弈都使用相同的超參數,無需使用特定的超參數調整方法。
AlphaZero 化繁為簡,算法相當簡潔漂亮。AlphaZero 解決規則明確的完美信息博弈很有效,但是對于更復雜的其他問題,AlphaZero 依然會遇到困難。
(二)即時戰略游戲
人工智能技術邁向通用人工智能的一個基礎,就是讓不同智能體之間實現合作與競爭。經典即時戰略游戲,如《星際爭霸》、《文明》等游戲,是進行此類實驗的絕佳實驗環境。
即時戰略游戲具有很多不同于圍棋的特點,比如,即時戰略游戲是關于多智能體的問題,需要多方競爭資源,而每方操作多種兵力進行合作完成共同目標;即時戰略游戲是不完全信息博弈,存在“戰爭迷霧”;動作空間巨大;游戲中操作方所做決策的反饋結果時間太遲,并且每個參與者都只有很短的時間思考行動計劃等。
從即時戰略游戲的游戲特性以及操作流程來看,即時戰略游戲需要進行序列決策。根據決策特性,即時戰略游戲中的決策通常分為宏觀管理和微觀操作。宏觀管理負責宏觀上的長期的決策,包括如何建造基地、如何研發科技和如何摧毀敵方基地等。微觀操作是在短期內參與方控制一個游戲單位或者游戲單位群組進行游戲行為。
即時戰略游戲AI中的微觀操作和宏觀管理所用的學習訓練方法是不一樣的。微觀操作需要解決的關鍵問題是戰術決策,它的學習訓練方法包括強化學習、博弈樹搜索、貝葉斯模型、神經網絡、基于案例的推理等。宏觀管理需要解決的關鍵問題是戰略決策,它的學習訓練方法包括行為樹、進化算法、分層規劃、狀態空間規劃、推理等。
星際爭霸AI的研究環境平臺有阿里巴巴開源的Gym StarCraft,谷歌DeepMind開發的SC2LE, Facebook公司開發的ELF等。
關于星際爭霸AI的研究,DeepMind 在SC2LE平臺上應用A3C算法實現收集礦石、與敵方單位戰斗等簡單任務。阿里巴巴與倫敦大學合作,以游戲“星際爭霸1”中的微觀戰斗場景為測試環境,引入多智能體雙向協調網絡,可以自動學習各種最佳策略來使多個智能體協同作戰。
(三)其他游戲
計算機游戲中研究得較多的還有雅達利(Atari)游戲和撲克等。深度強化學習算法DQN在雅達利游戲上取得了巨大突破。撲克是不完全信息博弈,玩家對歷史事件只能進行部分觀察,而看不到對手的信息。2016年由阿爾伯塔大學開發的DeepStack和由卡耐基梅隆大學開發的Libratus都在一對一無限注德州撲克比賽上擊敗了人類職業選手,表明在不完全信息博弈中人工智能也可以發揮優勢。
三、智能策略生成中的AI技術
體系對抗中的智能策略生成問題具有復雜性、實時性、動態對抗性等特點,涉及多種理論技術,如深度學習、強化學習、元學習、模仿學習、少樣本學習、多任務學習、多智能體學習、遷移學習等。
(一)深度學習
深度學習是機器學習中的一種方法,自2006年Hinton等人提出深度置信網絡后,在語音識別、圖像分類、自然語言處理等信號處理和人工智能任務上取得了非常好的效果,受到了極大關注。
傳統的機器學習方法需要人工提取特征,而深度學習直接從原始輸入信號出發,逐層的將低層次特征組合為更 層次的抽象特征表示,并利用中、 層次的特征表示學習輸入和輸出之間的復雜的映射關系。與淺層結構相比,深層結構能更有效地表征復雜函數。
常用的深度神經網絡模型有深度信念網絡、棧式自編碼網絡、卷積神經網絡、遞歸神經網絡、長短時記憶網絡、生成對抗網絡等。
(二)深度強化學習
在強化學習中,智能體通過與環境的交互,自主地了解環境并完成任務。強化學習以試錯的方式與環境進行交互,通過最大化累積獎賞的方式來學習最優策略,對于任意的狀態,最優策略可給出相應的動作。
經典強化學習中狀態空間和動作空間都是離散有限的,可以使用表格來記錄值函數。基于表格值的經典強化學習算法包括時序差分學習算法、Sarsa學習算法以及Q學習算法等。
如果狀態空間維數很大,或者狀態空間為連續空間,此時基于表格值的強化學習算法不適用,可以采取函數近似的方法,將策略或值函數用一個函數顯示描述。最近幾年發展起來的深度強化學習算法,主要有基于值函數的DQN及其擴展算法,基于Actor-Critic的A3C算法,基于策略梯度的TRPO、DDPG算法,以及其他類型的深度強化學習算法,如分層深度強化學習、多智能體深度強化學習等。
(三)元學習
由于深度強化學習太依賴于巨量的訓練,并且需要精確的獎賞函數,然而對于現實世界的很多問題來說,設計好的獎賞函數是比較困難的,也沒有辦法無限量訓練,這就需要智能體能夠快速學習。人類之所以能夠快速學習的關鍵是人類具備學會學習的能力,能夠充分的利用以往的知識經驗來指導新任務的學習。因此,讓機器能夠快速學習來應對新任務就需要研究元學習。
元學習是人工智能領域繼深度強化學習之后又一重要研究分支。元學習可以理解為要學習一種學習能力。關于元學習的研究目前處于剛起步的狀態,呈現一種百花齊放的趨勢,有很多不同的研究思路出現,比如學習神經網絡訓練過程中的超參數或神經網絡的結構以及優化器等以往需要人為設定的東西;通過在神經網絡上添加記憶來實現充分利用以往的經驗學習;在強化學習中,通過在輸入上增加以往的獎賞或狀態動作等信息來推斷環境或任務級別的信息;同時運用多個任務的合成梯度方向進行訓練等。
(四)其他AI技術
在智能策略生成中,可能用到的其他AI技術有遷移學習、小樣本學習、模仿學習、多任務學習、多智能體學習等,還有傳統的AI技術如搜索、推理、規劃、行為樹等。
由于體系對抗中的智能策略博弈的復雜性,智能策略生成可能需要人工智能理論、多智能體理論、博弈論等多種理論技術的交叉綜合。
四、智能策略AI 系統組成
智能策略AI系統由仿真系統和智能策略AI組成。仿真系統包括仿真模型(戰場環境模擬、各作戰單元仿真模型等)、推演規則等。智能策略AI包括智能感知系統、智能決策系統、智能武器控制系統等。智能感知是智能決策的基礎,智能決策為智能控制提供行動的方向。
智能感知包括戰場態勢生成,戰場態勢預測,戰場態勢評估等。戰場態勢生成包括情報收集與綜合、多源信息融合、目標綜合識別等。戰場態勢預測包括對手意圖識別、對手意圖預測等。戰場態勢評估包括戰損評估、雙方贏率估計等。
智能決策主要解決下一步如何行動的問題。智能感知的輸出作為智能決策的輸入。智能決策包括宏觀對抗策略和微觀對抗策略。對抗策略包括策略生成、策略評估、策略優化等。
智能控制主要解決各作戰單元或武器平臺如何執行智能決策的輸出結果。
五、智能策略AI的軍事應用展望
體系對抗的關鍵是智能策略博弈。智能策略博弈可以應用于兵棋推演,以及軍事指揮信息系統的設計等方面。兵棋推演是研究現代戰爭的有力工具。在兵棋推演中,對抗雙方或多方運用兵棋,按照一定規則,在模擬的戰場環境中對設想的軍事行動進行交替決策和指揮對抗的演練。兵棋推演的作用是推演各方通過排兵布陣及對戰場資源的利用來模擬戰爭,通過對推演過程中指揮員決策的分析來尋找適合這場戰爭的最佳策略。兵棋推演是智能策略AI的一個重要應用場景,可以利用智能策略AI進行人機對抗、機機對抗。軍事指揮信息系統是作戰體系的中樞神經,軍事指揮信息系統的智能化可以通過智能策略AI重點解決戰場態勢理解、方案分析和輔助決策等問題。
六、結語
本文圍繞智能體系作戰中的智能策略,從人工智能技術大放異彩的計算機博弈問題開始,重點分析了AlphaGo、AlphaGo Zero和AlphaZero等計算機圍棋的技術原理,以及即時戰略游戲等游戲AI,總結了體系對抗中智能策略生成可能用到的人工智能技術,提出體系對抗中智能策略AI系統的組成架構,并討論了智能策略AI的軍事應用。體系對抗中的智能策略生成是涉及實時性需求、不完全信息博弈和多智能體協同等多個問題的復雜性系統問題,傳統算法難以滿足任務的需求,需要綜合運用多領域的先進理論和技術來進行突破。