會玩德州撲克的AI，為什么比AlphaGo更厲害？

2017-08-11 00:07:34金姬

新民周刊 2017年30期

金姬

沒有追隨深度學習潮流的“冷撲大師”，或許在現實生活中擁有更廣闊的用武之地：金融交易、網絡安全、商業拍賣、政治談判……因為這些情景都是充滿了各種博弈的“非完美信息”游戲。

提到人機大戰，普羅大眾比較熟悉的是戰勝人類圍棋的AI“阿爾法狗”（AlphaGo）。但在人工智能（AI）界，業內人士更關注的是另一項人機大戰——德州撲克。因為在這個領域，AI系統沒有海量的棋譜可以深度學習，比賽雙方掌握的信息也不對等，這就需要AI系統利用博弈論等其他理論來進行決策。

2017年1月，美國賓州匹茲堡的大河賭場（Rivers Casino）舉行了一場德州撲克的“人機大戰”——連續20個比賽日中，一個名為“冷撲大師”（Libratus）的AI在共計12萬手的一對一無限注德撲比賽中擊敗了四名頂尖人類高手，共計領先人類團隊176萬美元籌碼。令人咋舌的是，這是“冷撲大師”第一次和人類交手。

3個月后，“冷撲大師”又在中國海南戰勝了6位頂尖華人撲克選手。此次比賽發起人、人工智能工程院院長李開復賽后如此評價道：“如果AlphaGo是超級IQ天才，那么‘冷撲大師就是超級EQ天才。”

7月下旬，“冷撲大師”的開發者、美國卡內基梅隆大學（CMU）計算機教授托馬斯·桑德霍姆（Tuomas Sandholm）再次來到中國，在“2017鈦媒體-杉數科技AI大師圓桌會”現場與他的學生、清華大學計算經濟學研究室主任、博士生導師唐平中，上海財經大學教授、國際奧數金牌、杉數科技科學家何斯邁，上海財經大學交叉科學研究院院長、杉數科技首席科學家葛冬冬討論了商業實際場景中真正需要的AI，給大家分享了“AI賭神”的獲勝秘訣。他表示：沒有追隨深度學習潮流的“冷撲大師”，或許在現實生活中擁有更廣闊的用武之地：金融交易、網絡安全、商業拍賣、政治談判……因為這些情景都是充滿了各種博弈的“非完美信息游戲”（imperfect-info games）。

為什么要讓AI玩德撲？

“德撲AI之父”桑德霍姆用帶有芬蘭口音的英語說，之前著名的人機大戰，無論是IBM的國際象棋AI“深藍”、還是谷歌的圍棋AI“阿爾法狗”，比賽雙方獲得的信息都是一樣的，這就是“完美信息游戲”。但現實生活中這種信息完全對等的情況很少發生，而更多是“非完美信息游戲”，德州撲克就是這樣一例。也就是說，即便在一對一的情況下，比賽雙方獲得的信息是不一樣的、或者說只是部分的——雙方都不知道五張公共牌會開出怎樣的結果，也不知道對手猜測自己握有怎樣的手牌。這樣的游戲就不存在單一的最優玩法。

對于AI團隊而言，研究“非完美信息游戲”不但更富挑戰性，也更有實際運用價值。而“冷撲大師”打開了AI解決隨機事件和隱藏信息的大門。

根據《量子位》的報道，“德撲AI”的最早研發可以追溯到2014年8月，當時剛剛完成碩士學業的諾阿姆·布朗（Noam Brown）繼續留在CMU攻讀計算機科學的博士學位。當年，他就和導師桑德霍姆教授一起開發出德撲AI：Tartanian7以及后續版本Baby Tartanian8，并且連續贏得電腦撲克大賽（電腦VS電腦）的冠軍。

師生倆乘勝追擊，開始研究德撲人機大戰。兩人創造了Claudico，當時的桑德霍姆以為Claudico有五成勝算。誰知，在2015年4月美國匹茲堡的大河賭場，Claudico在兩周時間內和四位人類頂級玩家交鋒8萬手，累計輸掉73.2萬美元的籌碼。之所以選擇這個賭場，因為卡內基梅隆大學也在匹茲堡。

2017年1月11日，全新的“冷撲大師”（Libratus）卷土重來。還是四位人類對手，不過時長變為20天，累積交鋒12萬手。這次德撲AI沒給人類玩家機會，一路以碾壓的態勢完勝。

“冷撲大師”的獲勝秘籍是什么？

以往AI處理“不完美信息游戲”采用一種縮略的方法，例如將對手下注249美元近似為200美元進行簡化處理，采用這一模式的Claudico在人類面前不堪一擊。而“冷撲大師”就不同了，它會對每一手牌進行單獨的處理，根據不同的牌面制訂出不同的戰略。對它而言，249美元就是249美元，它不會像以往的AI那樣嘗試聚類，而是馬上實時計算，得出勝算最大的策略。

這種算法最大的特點，是開發者可以獲得一定程度的“確定性”。而“確定性”正是時下大熱的深度學習最缺乏的。有評論指出，深度學習有兩大局限性：一方面，深度學習的本質是機器通過分析海量數據習得一些模式，但并不是所有領域都能采集到海量數據。以自動駕駛為例，顯然通過積累海量事故經驗來習得避免事故發生是不現實的。另一方面，深度學習是一個知其然而不知其所以然的“黑匣子”，這在許多重大安全事件上并不能令人放心。自動駕駛的事故問責問題就是一例。

值得注意的是，“冷撲大師”在今年1月人機大戰之前沒有研究過人類如何打德州撲克，也沒有和人類職業玩家有過交手。在投入實戰之前，它和自己對戰了幾百萬手牌，其中有不少是帶有特定目的的殘局，真正機器和機器之間的交手，大約是幾十萬手。

更有意思的是，“詐唬”（bluff）這種看似與心理有關的人類技能，“冷撲大師”通過算法也“自學成才”。詐唬是德撲的一種經典策略——當你手中的牌面不夠大，可以通過虛張聲勢加注嚇退對手，逼對手棄牌。而計算機會根據選手過去的表現來判斷對手牌面大的概率有多少，從而做出當下的最佳策略。

在桑德霍姆看來，“冷撲大師”的這套AI系統有十分廣闊應用空間：從戰略定價到金融領域、從談判到網絡安全、從政治競選到拍賣、從醫療資源規劃到軍事領域……現在唯一的問題是，運行“冷撲大師”，需要匹茲堡超算中心的Bridges超級計算機。不過桑德姆斯研究團隊樂觀表示，算法還可以被優化，再加上計算硬件的提升，可能5年之內就能一部手機搞定一切了。