人工智能首次在電子競(jìng)技中戰(zhàn)勝人類

2017-09-09 19:41:32MattWeinberger

中國(guó)民商 2017年9期

Matt+Weinberger

人工智能在國(guó)際象棋、圍棋等項(xiàng)目上戰(zhàn)勝人類頂尖高手之后，艾倫·馬斯克旗下的OpenAI 人工智能又在全球當(dāng)紅的網(wǎng)游“Dota2”中擊敗了頂級(jí)高手Dendi。 8月12日，艾倫·馬斯克在其twitter賬號(hào)上發(fā)文，稱贊此次OpenAI獲得的勝利，并表示這是人工智能首次在對(duì)抗型電子競(jìng)技中戰(zhàn)勝世界一流玩家。OpenAI 是一家非盈利AI 研究公司，由特斯拉CEO艾倫·馬斯克建立，該公司主要進(jìn)行安全人工智能的研究。此前，馬斯克的公司已經(jīng)成功訓(xùn)練AI，在VR設(shè)備上觀看后，立即執(zhí)行任務(wù)，并且發(fā)展機(jī)器人創(chuàng)立自己的語(yǔ)言系統(tǒng)。

OpenAI在其博客中這樣解釋到：“這次Dota2的比賽結(jié)果顯露出（self-play）自我學(xué)習(xí)，能夠使人工智能從低于人類程度的學(xué)習(xí)系統(tǒng)中捕獲操作表現(xiàn)，進(jìn)而一躍提高到擁有充分運(yùn)算能力的超人。”相比之下，（Deep-learning）深度學(xué)習(xí)系統(tǒng)只能達(dá)到與它們的訓(xùn)練數(shù)據(jù)庫(kù)同等的智能高度，可是在自我學(xué)習(xí)系統(tǒng)中，當(dāng)數(shù)據(jù)升級(jí)，現(xiàn)有數(shù)據(jù)將隨之自動(dòng)提高。

OpenAI比賽過(guò)程

Dota2 的比賽開(kāi)始于今年3月，最初的AI機(jī)器人只進(jìn)行了一些簡(jiǎn)單的比賽。由于是一款免費(fèi)多玩家電競(jìng)游戲，Dota2最引以為傲的一點(diǎn)是不強(qiáng)制玩家的極限范圍。而在8月7日，機(jī)器人取得了驕人連勝戰(zhàn)績(jī)，第一場(chǎng)擊敗了名為Blitz的Dota2 玩家。同一天，機(jī)器人又打敗了另外兩名高段位的玩家。接下來(lái)一天，它又戰(zhàn)勝了另一位德高望重的玩家Arteezy。而所有被機(jī)器人打敗的四位玩家一致認(rèn)為，玩家Sumail 能夠打敗它。然而，Sumail并沒(méi)有如他的戰(zhàn)友們所愿，依然惜敗。最終，機(jī)器人挑戰(zhàn)了Dota2的前世界冠軍Dendi，并以2比0完勝Dendi。“請(qǐng)放過(guò)我吧！”賽間Dendi對(duì)機(jī)器人對(duì)手這樣說(shuō)道。

Self-play 自我學(xué)習(xí)過(guò)程

OpenAI的研究人員表示，此次比賽中機(jī)器人運(yùn)用自我學(xué)習(xí)從零開(kāi)始，不是模仿學(xué)習(xí)或是樹(shù)狀搜索，在包含人類的混亂復(fù)雜的環(huán)境中建立明確的目標(biāo)，AI系統(tǒng)建設(shè)跨出了歷史性的一步。競(jìng)賽中，機(jī)器人預(yù)測(cè)出即將移動(dòng)的玩家，并在新環(huán)境下做出臨場(chǎng)反應(yīng)，并影響其他玩家。兩場(chǎng)比賽之間，OpenAI的工作人員將一些“訓(xùn)練”與自我學(xué)習(xí)相結(jié)合，幫助機(jī)器人不斷提高戰(zhàn)斗力。

OpenAI的目標(biāo)是建設(shè)安全的通用人工智能。對(duì)于AI來(lái)說(shuō)，Dota是一個(gè)非常理想的試驗(yàn)場(chǎng)，競(jìng)爭(zhēng)激烈，游戲復(fù)雜。如果想在這門游戲中獲得成就，就必須推進(jìn)現(xiàn)有技術(shù)，實(shí)現(xiàn)技術(shù)突破。我們現(xiàn)在開(kāi)發(fā)了一個(gè)AI，能夠在Dota的1v1比賽中擊敗頂尖職業(yè)選手。

Dota的規(guī)則非常復(fù)雜，如果是用規(guī)則方法，那么構(gòu)建出的AI一定是個(gè)低能的玩家。所以，OpenAI完全采用的是自我游戲（self-play）的訓(xùn)練方法。剛開(kāi)始訓(xùn)練時(shí)，AI對(duì)于自己所處的世界全無(wú)認(rèn)識(shí)，而只是和自己的復(fù)制品比賽，這也就意味著它和它的對(duì)手永遠(yuǎn)是旗鼓相當(dāng)，在這個(gè)過(guò)程中自我能力不斷提升，直到達(dá)到世界頂尖選手的水平。

自我學(xué)習(xí)的發(fā)展

“自我對(duì)決”的理念是OpenAI研發(fā)的關(guān)鍵。這是一種AI系統(tǒng)學(xué)習(xí)解決極其復(fù)雜任務(wù)的有效方法：與太弱或太強(qiáng)的對(duì)手對(duì)戰(zhàn)，它都無(wú)法從中學(xué)到東西，但自身反倒是有價(jià)值的對(duì)手。OpenAI的研究人員解釋到：“你可以看到AI從完全的隨機(jī)狀態(tài)一步步發(fā)展到如今的頂級(jí)水平。”

除了OpenAI，其他人工智能研究人員已經(jīng)在尋找方法來(lái)教導(dǎo)機(jī)器人做各種事情：比如從閱讀到做夢(mèng)。他們創(chuàng)建了可以自己學(xué)習(xí)的AI系統(tǒng)，甚至可以互相教授的AI系統(tǒng)。教育正在從根本上被顛覆，以滿足這項(xiàng)新技術(shù)的需求，隨著機(jī)器人的智慧化，我們的生活將變得更加輕松，更安全，而且更有趣。

另外，Google旗下Deepmind團(tuán)隊(duì)最近在進(jìn)行研究，讓 AI 在復(fù)雜環(huán)境里“運(yùn)動(dòng)”。研究人員設(shè)計(jì)了類似火柴人的模型，在不給它們?nèi)魏尉幊痰那闆r下，要求其越過(guò)障礙物到達(dá)終點(diǎn)，所以這些火柴人基本上一直在試錯(cuò)。試驗(yàn)中AI會(huì)逐漸調(diào)整自己的關(guān)節(jié)，用更好的方式來(lái)完成目標(biāo)。體育精神爆表的火柴人，擁有27個(gè)自由關(guān)節(jié)和21塊驅(qū)動(dòng)器。而且為了指導(dǎo)這只AI，Deepmind設(shè)計(jì)了一套虛擬傳感器，教其如何在不熟悉的復(fù)雜環(huán)境下通過(guò)障礙，而火柴人在一次次跌倒之后的成功跑酷，展現(xiàn)了AI強(qiáng)大的自主學(xué)習(xí)能力，實(shí)現(xiàn)了機(jī)器學(xué)習(xí)和系統(tǒng)神經(jīng)的結(jié)合，這是火柴人的一小步，卻是AI在研究人體機(jī)能領(lǐng)域的一大步。

編譯自《Testlarati》《商業(yè)內(nèi)幕》雜志

（責(zé)任編輯姜懿翀）endprint