倪妮
1992年,艾爾伯特大學研發的跳棋程序Chinook挑戰跳棋高手馬里恩·廷斯利(MarionTinsley)失敗,此后長達30年的時間里,人類一直執著于在各類游戲中探索人工智能(AI)技術所能達到的能力極致。但是最近,業界對AI在游戲中打敗人類已經越來越無所謂了。
像去年大熱的科幻電影《失控玩家》里的非玩家角色(NPC)主角“蓋”那樣,逐漸擁有自主意識,甚至讓人誤以為其背后就是真人玩家,似乎開始成為AI技術在游戲中的主要應用方向。
AI應用在游戲中的歷史最早可以追溯至著名的“圖靈測試”。1950年艾倫·圖靈(AlanTuring)在“模仿游戲”中引入計算機以檢測機器是否可以像人一樣思考。在這個測試中,玩家A是一臺計算機,玩家B和玩家C都是人類,游戲中,玩家C需要與其他兩個玩家隔離,并找出哪位是機器。圖靈提出,如果玩家C無法準確判斷誰是機器,那么計算機就通過了測試,并被認為是智能的—迄今為止,還沒有任何計算機真正通過圖靈測試,也就是說,人類仍能夠較輕易地分辨出真人和機 器。
而相比“偽裝”人類,戰勝人類似乎要簡單得多。比如經過3年的“學習”,Chinook在與馬里恩的對決中已經能打出6局平手,并最終取得勝利;到了2007年,Chinook已經完全破解西洋跳棋游戲,這意味著人類永遠無法在與Chinook的對局中取勝。而IBM的Deep Blue、DeepMind的AlphaGo、OpenAI的OpenAI Five也先后在國際象棋、圍棋、《星際爭霸Ⅱ》中打敗了人類世界冠軍。
就在幾年前,“打敗人類”還是AI在游戲行業里最被認可的價值,但是漸漸地,人們發現,讓AI在游戲中參賽獲勝,再讓它成為職業選手的陪練,其實并不能帶來太多價值。與其展現“AI有多強”,不如將更多精力放在思考如何提高大多數玩家的體驗上,讓它們的行為舉止更接近人,成為“擬人化的 AI”。
已經有一些游戲和技術公司做出嘗試。成立于2019年的AI游戲公司超參數,其代表產品就是AI玩家參與的《輪到你了》在線推理游戲。2020年春節,騰訊也在手游《穿越火線-槍戰王者》中推出了包含擬人化AI玩家在內的新劇情玩法“電競傳奇”。去年,商湯科技開源了可以幫助開發者訓練高智能水平游戲AI的訓練平臺DI-engine,降低游戲公司訓練擬人化AI的門檻。

對于這種擬人化AI如何提升真人玩家的體驗,啟元世界創始人兼CEO袁泉對《第一財經》雜志形容它“有輸有贏,輸得漂亮”。這家公司為包括游戲在內的眾多領域提供AI技術支持。
在競技類游戲中,有一種概念叫“溫暖局”:如果人類玩家在游戲中連續戰敗多次,通常這時會出現系統設置的角色來“送人頭”,讓玩家贏一次,不至于太過挫敗。只是在傳統游戲的設定中,這些系統角色往往一動不動或者對空放技能,“放水”行為太過明顯,如此,玩家可能非但不會感受到多少勝利的快樂,反而會覺得智商受到侮辱,游戲體驗感變得更差了。
但擬人化A I不同,它們有自己的作戰風格,會躲避,會攻擊,當然,也會犯錯。“當玩家無法區分角色背后是人還是AI,同時這種AI角色又能挖掘玩家的情緒價值時,AI在游戲中應用的這條路才算真的走通。”商湯科技智慧決策與游戲事業部總經理兼高級研究總監劉宇對《第一財經》雜志 說。
目前在游戲中,擬人化AI主要有兩種應用場景,一種是可以對戰也可以協作的AI玩家,另一種則是可以對話從而產生非腳本劇情的AI角色。其中,AI玩家更多地出現在第一人稱射擊游戲(FPS)、多人在線戰斗競技游戲(MOBA)、策略類游戲(SLG)等游戲類型中;可以自主對話的AI角色則多見于開放世界游戲。因為AI游戲智能體以得分為目標最容易定義,即以“贏”為最終目的,所以相較于劇情類游戲,競技類的游戲普遍被認為是當前訓練AI最理想的一種模 型。
競技類游戲中的機器學習分為兩種情況。已經上線一段時間、有一定玩家的“熱啟動”游戲往往已有大規模的玩家數據,AI可以先通過模仿學習(Imitation Learning)的方式,掌握一定的作戰風格。比如在《王者榮耀》這類MOBA對戰中,有的AI玩家會躲在草叢埋伏偷襲,也有的AI玩家會正面進攻。掌握一定風格后,AI進入強化學習(Reinforcement learning)階段,不同風格的AI玩家通過互相對戰或自對弈的方式,探索不同于人類數據的新打法。隨后,AI玩家被投放至真實市場,與人類玩家組隊、對戰,并在此過程中不斷學習。

但對于還未上線、沒有用戶的“冷啟動”游戲來說,訓練一個擬人化的AI玩家非常艱難:沒有人類玩家數據,模仿學習所需要的數據只能由程序員在傳統規則的基礎上編寫,人為生成數據。
此外,不同于2D平面,在3D射擊游戲中訓練擬人化AI玩家的難度更大,AI的每個視角都是另一個環境狀態,這與自動駕駛技術的訓練相似。
據啟元世界的一位產品經理介紹,3D射擊游戲中AI玩家訓練的難處主要是三個方面。首先是輸入信息量大,AI玩家需要撿裝備、找掩體,這要求AI玩家根據輸入的環境數據感知地形、判斷周邊的物體;其次是動作空間復雜,在3D環境中,不同于2D下棋游戲中前后左右的四個方向移動,AI玩家可以有360度的移動和瞄準狀態;最后是決策時間短,擬人化的AI玩家應該不必遵循固定的動作規則,比如在同一時間,AI玩家可以選擇“走”“打”“躲”等不同的動作,需要應對不同的戰況,且需要在非常短的時間中作出選擇,這并不是傳統行為樹能夠完全覆蓋的領域。
以計算機程序的反應速度和精度來看,在3D射擊游戲中,讓AI做到槍槍爆頭并不是什么難事,可一旦要求“擬人化”,就是提出了新的要求。“擬人化的AI 玩家需要在游戲機制上與真實玩家基本相同,不能在規則上讓AI玩家作弊,比如它也應該看不清掩體對面是什么,它也需要學習人類玩家的那種‘探頭然后立刻縮回去的動作,想要更擬人,主要是靠大規模深度強化學習,提升AI的認知和決策能力,并通過端到端訓練系統來不斷優化。”啟元世界的產品經理告訴《第一財經》雜志。為了讓AI玩家能夠和不同等級的人類玩家對決,團隊需要訓練出足夠強大且擬人的AI玩 家,才能匹配不同分段玩家的需求。

而在商湯科技的劉宇看來,AI領域的每一座“珠峰”其實都是從游戲中產生的。很長的時間里,游戲都是驗證AI技術能力和技術發展最完美的試驗田。游戲是一個相對擬真的環境,尤其在3D游戲中,可以呈現出有樓、有人、有車的微縮版現實社會;與此同時,游戲中的測試相對現實社會是零成本的,比如如今許多已落地的自動駕駛技術,最初就是在游戲相關場景中試驗的:游戲中可以模擬突然竄出的行人、強行加塞的車輛,并設置風霜雨雪等復雜天氣情況,從而測試自動駕駛汽車應對突發情況的決策和控制能力。也就是說,擬人化AI的價值不僅僅體現在游戲 中。
不過劉宇認為,目前AI對于游戲行業的貢獻還處于非常早期的階段。如今應用在游戲中的AI技術,其實和20年前電腦游戲中針對難度等級分配不同對戰模式的程序沒有什么不同。雖然基于強化學習、深度學習,擬人化讓AI相比傳統時期具備了更多樣的性格與表現方式,但現有成果仍只停留在游戲公司和技術公司合力做出幾個AI機器人和人類玩家協作、對戰,AI的應用并未滲透到游戲的策劃、運營等各個階段。像《失控玩家》中的“蓋”那樣能讓游戲充滿無限可能性的AI玩家,還僅僅停留在設想中。

像《失控玩家》中的“蓋”那樣能讓游戲充滿無限可能性的AI玩家,僅停留在設想中。
監管趨嚴也不同程度地限制了游戲行業在AI領域的探索。一方面新客獲取艱難、增量萎縮,另一方面在游戲精品化成為大趨勢的背景下,企業的研發成本、運營推廣成本又在不斷提升。因此,在劉宇的觀察中,大多數游戲公司在“AI+游戲”的探索中趨于保守,對于中小廠而言,開發AI訓練系統更是無法承受。
“什么時候搜索‘AI+游戲,出現的主題從‘誰誰誰又在什么游戲中擊敗人類玩家,變成了AI技術已經完全成為了游戲機制的一部分,這可能才是AI在游戲應用中的終極形態。”劉宇說。