999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI玩多人德撲首次擊敗頂級玩家 150美元成本,實力可掏空在線撲克公司

2019-08-12 06:16:08李亞山
海外星云 2019年14期
關鍵詞:人工智能人類游戲

李亞山

人工智能終于開始掌握人性中一些獨特的能力,并且比它的老師玩得還好。要想在撲克中獲勝,就需要利用這樣一項能力:狡猾。為了獲勝,玩家必須分析對手如何出牌,然后欺騙他們交出手中的籌碼。當然,這種狡詐對人來說很自然。現在,人工智能程序首次表現出能夠用類似的技能來欺騙人類的職業撲克選手。

近日,臉書與卡內基梅隆大學合作開發的一款新型人工智能系統Pluribus,在世界上最流行、最廣泛的撲克游戲:六人無限注德州撲克中擊敗了頂級人類職業玩家。Pluribus在“5 個AI和1個人類玩家”和“1個AI和5個人類玩家”兩種模式下都擊敗了職業玩家。這是人工智能機器人第一次在超過兩名玩家 (或兩支隊伍) 的大型基準游戲中擊敗頂級專業人士。此前,人工智能技術已經能夠在只有一個對手的情況下打敗人類撲克高手。但像Pluribus這樣,在多人同桌的情況下擊敗人類精英玩家,才是關鍵的里程碑。

德撲之父發明人圖奧馬斯·桑德赫爾

Pluribus是通過基于Libratus的幾項創新,以及圖奧馬斯·桑德赫爾在卡內基梅隆大學研究實驗室開發的其他算法和代碼實現這一成果的。Libratus是2017年在雙人無限注德州撲克中擊敗人類職業選手的AI。特別是Pluribus采用了新的在線搜索算法,它可以通過之前的幾個步驟就能有效地評估其下注選項,而不用搜索到游戲結束。Pluribus還使用了新的更快的自玩算法來玩包含隱藏信息的游戲。

更讓讓人想不到的是,這些進步可以使用很少的處理能力和內存——相當于不到150美元的云計算資源——就培訓出Pluribus。這個效率與最近其他人工智能里程碑項目形成了鮮明對比,它們需要相當于數百萬美元的計算資源來進行培訓。這些在撲克游戲中的創新具有十分重要的意義,因為兩個人的零和互動(一名玩家贏,一名玩家輸)在休閑游戲中很常見,但在現實生活中卻非常罕見。現實世界中,對有害內容采取行動,應對網絡安全挑戰,以及管理在線拍賣或導航流量,通常會涉及多個參與者還有多重隱藏信息。多玩家交互對過去的人工智能技術提出了嚴峻的理論和實踐挑戰。然而,現在的結果表明,人工智能算法可以在雙人零和游戲之外達到超凡的表現。

研究人員通過與一群優秀的人類專業人士比賽來評估Pluribus。職業選手包括2000年世界撲克大賽主賽事冠軍Chris “Jesus” Ferguson,2012年世界撲克大賽主賽事冠軍Greg Merson 等。參賽的每一個選手之前都在撲克牌桌上贏得了超過 100萬美元,其中有些人甚至贏得了超過1000萬美元的獎金。對戰有兩種形式:五個職業玩家和一個人工智能,一個職業玩家和五個人工智能副本。在每一種形式下,牌桌上都有六名玩家,每一手開始都有1萬個籌碼。小盲注是50個籌碼,大盲注是 100個籌碼。

雖然撲克是一種技巧游戲,但也有很大的運氣成分。對于頂級專業人士來說,僅僅因為運氣不好,就輸掉1萬手籌碼是很常見的。為了減少運氣的作用,研究人員使用了AIVAT方差減少算法來評估結果。例如,如果機器人的某一手真的很強,AIVAT將從它的獎金中減去一個基線值來抵消運氣成分。

在“5個職業玩家和1個AI”的實驗中,10000手游戲玩了12天。每天從專業人員中挑選五名志愿者參與。官方將根據選手的表現分給他們獎金五萬美元,以激勵他們發揮出最佳水平。在使用 AIVAT后,Pluribus的勝率估計為每100手5個大盲注(5 bb/100),這是以精英人類作為對手的壓倒性勝利(盈利,p值為0.021)。如果每個籌碼都值1美元,Pluribus平均每手贏得5美元的獎金,并且每小時可以賺到1000美元。這一結果超過了職業玩家在與職業和業余玩家的混合比賽中獲勝的預期。

在“5個AI和1個職業玩家”的模式下,由三名志愿者參與,每個人類玩家和5個Pluribus副本玩5000手。Pluribus并沒有根據對手的情況調整策略,因此AI之間不存在故意勾結問題。總的來說,人類損失了2.3 bb/100(每100手2.3個大盲注)。

Pluribus的算法實在太成功了。“這對撲克社區來說可能是非常危險的。”參與開發算法的Facebook研究員Noam Brown說。他今年被評為《麻省理工科技評論》的35歲以下科技創新者之一。“你通常可以找出對手的弱點,但沒有找到(它的)弱點。”游戲中的撲克職業選手Jason Les說:“這個AI非常強大,你找不到任何可以利用或占便宜的機會。”

研究人員擔心Pluribus可能被用來掏空在線德州撲克公司的金庫,因此決定不發布其代碼。目前,Facebook也沒有計劃去應用為六人撲克開發的技術。

六人德州撲克的兩大挑戰

幾十年來,撲克游戲一直是人工智能領域一個困難而又重要的挑戰難題。這是因為撲克游戲中包含隱藏信息,你不知道對手的牌,想要獲勝需要會虛張聲勢以及一些其他策略,而且,這些策略又不同于象棋、圍棋和其他游戲。這也是人工智能技術在其他游戲中取得突破,卻不能突破撲克的原因,撲克游戲對人工智能技術有天生的抵抗力。

Lemonade Stand 游戲

具體來說,六人德州撲克一直面臨著兩大挑戰。第一大挑戰,德州撲克不只是兩玩家的零和游戲。之前AI突破的所有基準游戲僅限于那些只有兩名或兩隊玩家的零和游戲,例如跳棋、象棋、圍棋、雙人撲克、星際爭霸2和Dota 2。在這些情況下,人工智能取得了成功,因為它采用了一種稱為納什均衡(Nash equilibrium)的策略。在兩名或兩隊玩家的零和游戲中,精確的納什均衡能做到無論對手做什么都不可能輸(例如,剪刀-石頭-布的納什均衡策略是隨機選取概率相等的石頭、布或剪刀)。

雖然納什均衡在任何游戲中都是存在的,但在3個或3個以上對戰玩家的游戲中,通常不可能有效地計算出納什均衡。此外,在一場多人參與的游戲中,即使采用精確的納什均衡策略,也有可能失敗。其中一個例子是Lemonade Stand游戲,每個玩家同時在一個圓環上取一個點,并要盡可能地遠離其他玩家。納什均衡是讓所有玩家在環上的距離相等,但實現這一點的方法有無窮多種。如果每個玩家獨立地計算其中一個均衡,那么最終不太可能使所有參與者在環上的距離相等。

在多于兩個玩家的零和游戲中,納什均衡存在的缺陷,引發研究人員的思考:在這樣的游戲中,正確的目標應該是什么?以6人德州撲克為例,研究人員認為,目標不應該是一個特定的博弈論解決方案,而是創造一個通過長期經驗戰勝人類對手甚至專業人士的人工智能。在多于兩玩家的零和游戲中,研究人員用來構造Pluribus的算法不能保證收斂到納什均衡。盡管如此,Pluribus的策略始終能在六人撲克游戲中擊敗精英人類撲克專家。

第二大挑戰,信息隱藏在更復雜的環境中。沒有任何其他游戲能像撲克那樣體現隱藏信息的挑戰,每個玩家都有其他玩家所缺乏的信息。一個成功的撲克AI必須對這些隱藏的信息進行推理,并謹慎地平衡其策略,保持自身的不可預測,同時仍然選擇好下一步行動。例如,虛張聲勢有時可能是有效的,但總是虛張聲勢就會被對手預測到手牌,并可能導致損失很多錢。因此,有必要謹慎地平衡一個人虛張聲勢的概率和他下注的概率。換句話說,在不完全信息博弈游戲中,一個行為的價值取決于選擇它的概率和選擇其他行為的概率。

Pluribus 和專業玩家的游戲界面

相反,在完全信息游戲中,玩家不需要擔心如何平衡每一步的概率。例如在國際象棋中,好棋就是好的,無論它被選中的概率是多少。之前的撲克游戲機器人Libratus,通過將基于 Counterfactual Regret Minimization(CFR)理論完善的自玩算法與精心構建的不完全信息游戲搜索過程相結合,來處理像雙人德州撲克游戲中的隱藏信息。然而,在德州撲克中添加額外的玩家會成倍地增加游戲的復雜性。這些以前的技術不能擴展到六人德州撲克。如今,Pluribus使用的新技術可以更好地應對這一挑戰。

Pluribus的培訓成本不到150美元

Pluribus策略的核心是通過自我游戲來計算的,在這種策略中,人工智能對抗自己的副本,不使用任何人類游戲數據作為輸入。人工智能通過隨機游戲從零開始,并逐漸改進。它會記錄游戲進行了哪些操作,以及這些操作上的概率分布,然后在與早期版本的策略對戰中獲得更好的輸出結果。在Pluribus中使用的自我游戲版本是迭代Monte Carlo CFR (MCCFR)算法的改進版本。

在算法的每次迭代中,MCCFR指定一個玩家作為“遍歷者”,其當前策略在迭代中更新。在迭代開始時,MCCFR 基于所有玩家的當前策略 (最初完全是隨機的) 模擬一手撲克牌。一旦模擬完成,算法會檢查遍歷器做出的每個決策,并研究如果選擇其他可用的操作,它會做得更好還是更差。接下來,人工智能會評估每一個假設的決策的價值,這些決策是按照可用操作做出的,以此類推。

由圖奧馬斯·桑德赫爾和諾姆·布朗開發的計算機程序在2017 年的比賽中擊敗了四名職業撲克玩家

在八天時間內,研究人員在64核服務器上培訓了Pluribus的藍圖策略,所需內存不到512GB,而且沒有使用GPU。按照典型的云計算的成本估計,培訓成本不到150美元。這與最近的其他人工智能項目突破形成了鮮明對比,這些突破通常需要花費數百萬美元進行訓練。在玩德州撲克時,Pluribus運行在兩個CPU 上。相比之下,2016 年,AlphaGo在與頂級圍棋專業人士李世乭的比賽中,使用了1920個CPU和280個GPU進行實時搜索。而且,Pluribus使用不到128GB的內存。Pluribus搜索每手游戲所花費的時間在一 秒到33秒之間變化,具體取決于實際情況。平均而言,Pluribus的速度是典型人類職業選手的兩倍:在六人德州撲克中與自己的副本進行比賽時,時間為每手20秒。

從撲克游戲到現實不完全信息博弈的挑戰

此前,人工智能在完全信息的兩玩家零和游戲中取得了一系列引人矚目的成功。但現實世界中的大多數戰略互動都涉及隱藏的信息,而不是兩方的零和博弈。Pluribus的成功表明,在大規模、復雜的多玩家博弈中,盡管缺乏強有力的性能以及理論保證,但精心構造的自玩搜索算法仍然可以成功。

Pluribus的不同尋常之處還在于,它的訓練和運行成本遠低于近期其他用于基準游戲的人工智能系統。此前,該領域的一些專家擔心,未來的人工智能研究將由擁有數百萬美元計算資源的大型團隊主導。Pluribus是一個強有力的證據,現在有理由相信,只需少量資源的新方法可以推動前沿人工智能研究。

盡管Pluribus是為玩撲克而開發的,但其所使用的技術并不針對撲克,也不需要開發任何專業領域知識。這項研究讓我們對如何構建通用的人工智能有了更好的基礎理解。另外,Pluribus 在牌桌上擊敗多個對手的技術可能有助于 AI 社區在多種領域開發有效的策略。

(摘自美《深科技》)(編輯/華生)

猜你喜歡
人工智能人類游戲
人類能否一覺到未來?
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
1100億個人類的清明
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
數獨游戲
瘋狂的游戲
飛碟探索(2016年11期)2016-11-14 19:34:47
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
爆笑游戲
主站蜘蛛池模板: 免费在线播放毛片| 亚洲天堂网视频| 日韩黄色在线| 亚洲第一视频免费在线| 在线亚洲小视频| 国产亚洲欧美在线视频| 在线免费看片a| 亚洲伊人电影| 日韩毛片免费观看| 黄色网在线| 男女猛烈无遮挡午夜视频| 精品人妻无码中字系列| 国产精品55夜色66夜色| 尤物成AV人片在线观看| 午夜欧美理论2019理论| 国产人成乱码视频免费观看| 免费全部高H视频无码无遮掩| 免费看av在线网站网址| 2021亚洲精品不卡a| 久久熟女AV| 午夜无码一区二区三区在线app| 五月激激激综合网色播免费| 国产无码精品在线播放| 成人国产三级在线播放| 国产一区二区三区在线观看免费| 二级特黄绝大片免费视频大片| 又爽又大又光又色的午夜视频| 人妻精品久久久无码区色视| 国产欧美专区在线观看| 99精品高清在线播放| 亚洲美女一区| 欧美一级黄色影院| 在线视频97| 福利国产微拍广场一区视频在线| 曰AV在线无码| 亚洲高清无码久久久| 久久久亚洲国产美女国产盗摄| 九色在线观看视频| 国产专区综合另类日韩一区| 天天色综合4| 色偷偷男人的天堂亚洲av| 成年女人18毛片毛片免费| 日本免费a视频| 免费人成网站在线观看欧美| 久久精品午夜视频| 狠狠操夜夜爽| 亚洲欧美日韩中文字幕在线| 欧美视频在线第一页| 日韩精品资源| 91久久精品国产| 免费一级大毛片a一观看不卡| 国产主播福利在线观看| 亚洲免费黄色网| 91九色国产在线| 岛国精品一区免费视频在线观看| 国产成人禁片在线观看| 国产一区二区三区在线无码| 免费在线观看av| 野花国产精品入口| 91久久夜色精品| 成人在线综合| 精品少妇人妻无码久久| 国产欧美日韩综合在线第一| 97国产一区二区精品久久呦| 国产精品任我爽爆在线播放6080 | 四虎影视库国产精品一区| 国产网站免费观看| 狠狠综合久久久久综| 欧美人与性动交a欧美精品| AV在线麻免费观看网站| 国产无人区一区二区三区| 国产色偷丝袜婷婷无码麻豆制服| 国产99视频精品免费视频7| 亚洲精品在线影院| 国产91丝袜在线播放动漫 | 青青青草国产| 色偷偷男人的天堂亚洲av| 亚洲第一成年人网站| 婷婷亚洲视频| 日韩视频精品在线| 国产成人av一区二区三区| 国产日本一线在线观看免费|