何友
2016 年,谷歌AlphaGo 4∶1擊敗圍棋世界冠軍李世石使得深度強化學習的概念走進大眾視野,由此人們逐漸開始憧憬在圍棋中戰勝人類的AI 強化學習算法能夠給人類生活帶來重要影響。但時過五年多,AI 強化學習似乎只在游戲內大放異彩,而在游戲外卻應用寥寥。
人工智能自誕生就與游戲結下不解之緣。1950 年,圖靈提出著名的圖靈測試,該測試就可以看作為一個欺騙提問者的游戲。隨后,在計算智能的不斷突破下,五子棋、國際象棋等棋類游戲都逐漸被AI 征服。當AI 開始挑戰更高層次的圍棋游戲時,發現傳統搜索方法在時空復雜度上完全不可行,由此深度強化學習成為研究的主流。在挑戰成功圍棋、撲克這類回合制游戲后,谷歌、OpenAI、騰訊又逐漸把焦點轉移到星際爭霸、王者榮耀等即時策略游戲上。與圍棋相比,即時策略游戲需要AI 學習在不完全信息和即時動態環境下如何進行推理、決策、規劃、協作以及平衡短中長期收益,相關研究推動了多智能體強化學習理論和算法的發展。
電子游戲具有諸多特點使其在AI 強化學習研究過程備受青睞。首先,玩電子游戲必然要在與環境及他人的交互中進行決策和博弈,而決策和博弈也是人類日常生活的重要行為;其次,電子游戲具有真實模擬和無損探索的特點,可以比較容易地通過不斷試錯的方式獲得各類場景及情況的樣本和標注信息,從而對AI 算法進行大規模訓練和測試。因此,電子游戲是AI 強化學習天然的訓練場,在游戲中訓練AI 是公認模擬現實世界的最有效方法之一。AI 算法不斷在星際爭霸、王者榮耀、足球、捉迷藏等游戲中達到或超過人類玩家水平,并時常意外地開發出一些人類玩家都未曾想到的戰術和策略。電子游戲正以非常接近現實世界的方式加快著AI 算法研究,讓人們看到AI 走出游戲、落地現實的曙光。
然而在游戲中大放異彩的深度強化學習算法在游戲外仍應用寥寥,一方面是目前深度強化學習算法樣本利用率低和缺乏可信度,更重要的原因是游戲世界與現實世界仍存在巨大鴻溝。首先,游戲環境是封閉的而現實環境是開放的,開放環境中的多智能體對抗博弈面臨著環境更加復雜、決策空間更加巨大等問題,這導致在游戲內開發的AI 模型在現實世界應用受限;其次,游戲環境對問題的假設通常較為理想,如多智能體間的通信通常假設是完美的,但現實世界中多智能體的通信卻經常受限;最后,游戲環境對現實世界的模擬還遠遠不夠,在場景真實度和信息獲取維度上都有所欠缺。
不斷推動AI 算法從游戲邁向現實對于機器人群智能協作和博弈領域的發展意義重大。美國計算機社區聯盟發布的2020 版機器人路線圖重點強調了機器人在復雜、動態環境下主動感知、規劃及控制。我國在《新一代人工智能發展規劃》中也著重強調了無人自主系統的發展。為推動開放環境下機器人群智的發展,需要在學習理論上實現突破的同時在環境模擬上更加真實。相信隨著多智能體強化學習和遷移學習等理論發展,以及平行智能、數字孿生及元宇宙等技術興起,在游戲內大放異彩的AI 算法也將走出圍城,在游戲外的現實世界產生重大影響。