金姬
沒有追隨深度學習潮流的“冷撲大師”,或許在現實生活中擁有更廣闊的用武之地:金融交易、網絡安全、商業拍賣、政治談判……因為這些情景都是充滿了各種博弈的“非完美信息”游戲。
提到人機大戰,普羅大眾比較熟悉的是戰勝人類圍棋的AI“阿爾法狗”(AlphaGo)。但在人工智能(AI)界,業內人士更關注的是另一項人機大戰——德州撲克。因為在這個領域,AI系統沒有海量的棋譜可以深度學習,比賽雙方掌握的信息也不對等,這就需要AI系統利用博弈論等其他理論來進行決策。
2017年1月,美國賓州匹茲堡的大河賭場(Rivers Casino)舉行了一場德州撲克的“人機大戰”——連續20個比賽日中,一個名為“冷撲大師”(Libratus)的AI在共計12萬手的一對一無限注德撲比賽中擊敗了四名頂尖人類高手,共計領先人類團隊176萬美元籌碼。令人咋舌的是,這是“冷撲大師”第一次和人類交手。
3個月后,“冷撲大師”又在中國海南戰勝了6位頂尖華人撲克選手。此次比賽發起人、人工智能工程院院長李開復賽后如此評價道:“如果AlphaGo是超級IQ天才,那么‘冷撲大師就是超級EQ天才。”
7月下旬,“冷撲大師”的開發者、美國卡內基梅隆大學(CMU)計算機教授托馬斯·桑德霍姆(Tuomas Sandholm)再次來到中國,在“2017鈦媒體-杉數科技AI大師圓桌會”現場與他的學生、清華大學計算經濟學研究室主任、博士生導師唐平中,上海財經大學教授、國際奧數金牌、杉數科技科學家何斯邁,上海財經大學交叉科學研究院院長、杉數科技首席科學家葛冬冬討論了商業實際場景中真正需要的AI,給大家分享了“AI賭神”的獲勝秘訣。他表示:沒有追隨深度學習潮流的“冷撲大師”,或許在現實生活中擁有更廣闊的用武之地:金融交易、網絡安全、商業拍賣、政治談判……因為這些情景都是充滿了各種博弈的“非完美信息游戲”(imperfect-info games)。
為什么要讓AI玩德撲?
“德撲AI之父”桑德霍姆用帶有芬蘭口音的英語說,之前著名的人機大戰,無論是IBM的國際象棋AI“深藍”、還是谷歌的圍棋AI“阿爾法狗”,比賽雙方獲得的信息都是一樣的,這就是“完美信息游戲”。但現實生活中這種信息完全對等的情況很少發生,而更多是“非完美信息游戲”,德州撲克就是這樣一例。也就是說,即便在一對一的情況下,比賽雙方獲得的信息是不一樣的、或者說只是部分的——雙方都不知道五張公共牌會開出怎樣的結果,也不知道對手猜測自己握有怎樣的手牌。這樣的游戲就不存在單一的最優玩法。
對于AI團隊而言,研究“非完美信息游戲”不但更富挑戰性,也更有實際運用價值。而“冷撲大師”打開了AI解決隨機事件和隱藏信息的大門。
根據《量子位》的報道,“德撲AI”的最早研發可以追溯到2014年8月,當時剛剛完成碩士學業的諾阿姆·布朗(Noam Brown)繼續留在CMU攻讀計算機科學的博士學位。當年,他就和導師桑德霍姆教授一起開發出德撲AI:Tartanian7以及后續版本Baby Tartanian8,并且連續贏得電腦撲克大賽(電腦VS電腦)的冠軍。
師生倆乘勝追擊,開始研究德撲人機大戰。兩人創造了Claudico,當時的桑德霍姆以為Claudico有五成勝算。誰知,在2015年4月美國匹茲堡的大河賭場,Claudico在兩周時間內和四位人類頂級玩家交鋒8萬手,累計輸掉73.2萬美元的籌碼。之所以選擇這個賭場,因為卡內基梅隆大學也在匹茲堡。
2017年1月11日,全新的“冷撲大師”(Libratus)卷土重來。還是四位人類對手,不過時長變為20天,累積交鋒12萬手。這次德撲AI沒給人類玩家機會,一路以碾壓的態勢完勝。
“冷撲大師”的獲勝秘籍是什么?
以往AI處理“不完美信息游戲”采用一種縮略的方法,例如將對手下注249美元近似為200美元進行簡化處理,采用這一模式的Claudico在人類面前不堪一擊。而“冷撲大師”就不同了,它會對每一手牌進行單獨的處理,根據不同的牌面制訂出不同的戰略。對它而言,249美元就是249美元,它不會像以往的AI那樣嘗試聚類,而是馬上實時計算,得出勝算最大的策略。
這種算法最大的特點,是開發者可以獲得一定程度的“確定性”。而“確定性”正是時下大熱的深度學習最缺乏的。有評論指出,深度學習有兩大局限性:一方面,深度學習的本質是機器通過分析海量數據習得一些模式,但并不是所有領域都能采集到海量數據。以自動駕駛為例,顯然通過積累海量事故經驗來習得避免事故發生是不現實的。另一方面,深度學習是一個知其然而不知其所以然的“黑匣子”,這在許多重大安全事件上并不能令人放心。自動駕駛的事故問責問題就是一例。
值得注意的是,“冷撲大師”在今年1月人機大戰之前沒有研究過人類如何打德州撲克,也沒有和人類職業玩家有過交手。在投入實戰之前,它和自己對戰了幾百萬手牌,其中有不少是帶有特定目的的殘局,真正機器和機器之間的交手,大約是幾十萬手。
更有意思的是,“詐唬”(bluff)這種看似與心理有關的人類技能,“冷撲大師”通過算法也“自學成才”。詐唬是德撲的一種經典策略——當你手中的牌面不夠大,可以通過虛張聲勢加注嚇退對手,逼對手棄牌。而計算機會根據選手過去的表現來判斷對手牌面大的概率有多少,從而做出當下的最佳策略。
在桑德霍姆看來,“冷撲大師”的這套AI系統有十分廣闊應用空間:從戰略定價到金融領域、從談判到網絡安全、從政治競選到拍賣、從醫療資源規劃到軍事領域……現在唯一的問題是,運行“冷撲大師”,需要匹茲堡超算中心的Bridges超級計算機。不過桑德姆斯研究團隊樂觀表示,算法還可以被優化,再加上計算硬件的提升,可能5年之內就能一部手機搞定一切了。