Sora

卡內基-梅隆大學的計算機科學教授桑德霍爾姆
2017年的賭場錦標賽期間,一個名為Libratus的撲克游戲程序,在1.2萬手雙人撲克比賽中,巧妙地擊敗了4名職業選手。但該程序的聯合創作者托馬斯·桑德霍爾姆,并不認為人工智能可以在與更多的選手對陣時達到類似的表現。
兩年后,來自卡內基-梅隆大學的計算機科學教授桑德霍爾姆,證明了他自己是錯的。桑德霍爾姆和他的合作伙伴,共同開發了一個名為Pluribus的人工智能程序,它可以在六人無限制撲克比賽中一直擊敗人類職業牌手。桑德霍爾姆說:“我一生中從未想過可以達成這個目標。”
過去,人工智能對人類的勝利,僅涉及兩人或兩隊的對戰比賽,如跳棋、國際象棋、圍棋和雙人無限制撲克。這些游戲都是零和游戲—游戲只有一個勝利方和一個失敗方。但是,六人撲克則更接近現實生活,在這種情況下,一方必須在不了解多個對手的決策過程和資源的情況下,做出決定。
臉書的人工智能研究科學家、Pluribus的聯合創始人諾姆·布朗說:“這是我們第一次超越零和游戲這種常規模式。即使在通常情況下,人工智能也能做得很好。”
Pluribus程序在與5名人類玩家對抗的比賽中,贏得了獎金。人類玩家來自15名撲克職業玩家組成的輪換陣容,他們中的每個人都在撲克錦標賽中贏得過至少100萬美元的獎金。比賽歷時12天,進行了超過1萬手出牌。
《科學》雜志上發表的一篇論文,詳細介紹了這個成功案例。盡管Pluribus并未達到與Libratus以及另一個名為DeepStack的雙人撲克程序一樣高的勝率,但它的勝率仍然非常可觀。“當機器人與人類坐在一起時,它賺了很多錢,”布朗說,“我當然會將其描述為‘超人的表現。”
Pluribus首先要在許多模擬的撲克對局中與自己對抗,制定戰略藍圖。
Pluribus解決六人撲克游戲的重大突破,來自其“深度限制搜索功能”。該組件允許人工智能向前看幾步,并根據對手可能的決定,為游戲的剩余部分找出更好的策略。
許多其他的撲克游戲程序,也使用了類似的搜索功能,但為了六人撲克游戲這么做,需要動用極大的計算內存量:每個玩家持有的牌數,每個人認為其他玩家所擁有的手牌,以及隨后的所有投注決定……這其中有太多場景需要模擬。
Libratus只在最后四輪中的兩輪投注里,使用搜索來克服運算瓶頸。該解決方案在僅有兩個玩家的對局中,就需要使用100個CPU來處理數據。
職業撲克選手通常認為進行“反主動下注”是一個錯誤,但是Pluribus卻會頻繁地使用這種手段。
具體來說,在一場現場撲克游戲中,Pluribus是在一臺只有2個中央CPU和128GB內存的機器上運行的。“它可以在沒有圖形處理單元和其他高端硬件的情況下運行。”桑德霍爾姆說。相比之下,DeepMind著名的AlphaGo程序,在2016年與頂級職業棋手李世石九段對決的圍棋比賽中,使用了1920個CPU和280個GPU。
Pluribus采用的深度限制搜索功能,考慮對手在基本投注策略中如何選擇:有人偏向棄牌,有人偏向于叫牌,還有人偏向于加注。這個經過調整的搜索功能,有助于解釋為什么Pluribus在六人撲克比賽中獲得成功—需要的計算資源和內存相對最小。
卡內基-梅隆大學和臉書,計劃制作Pluribus的偽代碼(一種算法描述語言),詳細解釋該程序中的每個必要步驟,并與已發表的論文一起提供,以便其他人工智能研究人員可以重現這些效果。
不過,該團隊最后決定不發布該代碼,因為它可能會促進人工智能撲克程序的傳播,對在線撲克社區和撲克行業造成極大的破壞。
而且,即使沒有代碼,人類也可以從人工智能的策略中學習。例如,職業撲克選手通常認為進行“反主動下注”是一個錯誤—上一輪進行了非積極投注之后,對新開始的一輪進行積極投注。但是Pluribus卻會頻繁地使用這種手段。
除了撲克之外,該人工智能可以應用在人類沒有充分了解或思考的任何場景中。這些領域可能包括網絡安全、金融交易、商業談判和競價。桑德霍爾姆表示,這個人工智能甚至可以在2020年美國總統大選的黨內初選中起作用:理論上來說,參與競爭的候選人可以從人工智能的建議中獲益,這些建議包括只需花費恰好足夠的廣告資金在關鍵州獲勝,充分利用有限的競選資金。
桑德霍爾姆創立了三家初創公司,包括戰略機器和戰略機器人公司,很可能會將這種人工智能融入為商業和軍事客戶提供的服務中。
諾姆·布朗計劃進一步探索人工智能如何適應更復雜的多人游戲場景。“多人撲克已經是最后一個里程碑了,”布朗說,“現在我們正在尋求將其應用擴展到撲克之外。”