Matt+Weinberger
人工智能在國(guó)際象棋、圍棋等項(xiàng)目上戰(zhàn)勝人類頂尖高手之后,艾倫·馬斯克旗下的OpenAI 人工智能又在全球當(dāng)紅的網(wǎng)游“Dota2”中擊敗了頂級(jí)高手Dendi。 8月12日,艾倫·馬斯克在其twitter賬號(hào)上發(fā)文,稱贊此次OpenAI獲得的勝利,并表示這是人工智能首次在對(duì)抗型電子競(jìng)技中戰(zhàn)勝世界一流玩家。OpenAI 是一家非盈利AI 研究公司,由特斯拉CEO艾倫·馬斯克建立,該公司主要進(jìn)行安全人工智能的研究。此前,馬斯克的公司已經(jīng)成功訓(xùn)練AI,在VR設(shè)備上觀看后,立即執(zhí)行任務(wù),并且發(fā)展機(jī)器人創(chuàng)立自己的語(yǔ)言系統(tǒng)。
OpenAI在其博客中這樣解釋到:“這次Dota2的比賽結(jié)果顯露出 (self-play)自我學(xué)習(xí),能夠使人工智能從低于人類程度的學(xué)習(xí)系統(tǒng)中捕獲操作表現(xiàn),進(jìn)而一躍提高到擁有充分運(yùn)算能力的超人。”相比之下,(Deep-learning)深度學(xué)習(xí)系統(tǒng)只能達(dá)到與它們的訓(xùn)練數(shù)據(jù)庫(kù)同等的智能高度,可是在自我學(xué)習(xí)系統(tǒng)中,當(dāng)數(shù)據(jù)升級(jí),現(xiàn)有數(shù)據(jù)將隨之自動(dòng)提高。
OpenAI比賽過(guò)程
Dota2 的比賽開(kāi)始于今年3月,最初的AI機(jī)器人只進(jìn)行了一些簡(jiǎn)單的比賽。由于是一款免費(fèi)多玩家電競(jìng)游戲,Dota2最引以為傲的一點(diǎn)是不強(qiáng)制玩家的極限范圍。而在8月7日,機(jī)器人取得了驕人連勝戰(zhàn)績(jī),第一場(chǎng)擊敗了名為Blitz的Dota2 玩家。同一天,機(jī)器人又打敗了另外兩名高段位的玩家。接下來(lái)一天,它又戰(zhàn)勝了另一位德高望重的玩家Arteezy。而所有被機(jī)器人打敗的四位玩家一致認(rèn)為,玩家Sumail 能夠打敗它。然而,Sumail并沒(méi)有如他的戰(zhàn)友們所愿,依然惜敗。最終,機(jī)器人挑戰(zhàn)了Dota2的前世界冠軍Dendi,并以2比0完勝Dendi。“請(qǐng)放過(guò)我吧!”賽間Dendi對(duì)機(jī)器人對(duì)手這樣說(shuō)道。
Self-play 自我學(xué)習(xí)過(guò)程
OpenAI的研究人員表示,此次比賽中機(jī)器人運(yùn)用自我學(xué)習(xí)從零開(kāi)始,不是模仿學(xué)習(xí)或是樹(shù)狀搜索,在包含人類的混亂復(fù)雜的環(huán)境中建立明確的目標(biāo),AI系統(tǒng)建設(shè)跨出了歷史性的一步。競(jìng)賽中,機(jī)器人預(yù)測(cè)出即將移動(dòng)的玩家,并在新環(huán)境下做出臨場(chǎng)反應(yīng),并影響其他玩家。兩場(chǎng)比賽之間,OpenAI的工作人員將一些“訓(xùn)練”與自我學(xué)習(xí)相結(jié)合,幫助機(jī)器人不斷提高戰(zhàn)斗力。
OpenAI的目標(biāo)是建設(shè)安全的通用人工智能。對(duì)于AI來(lái)說(shuō),Dota是一個(gè)非常理想的試驗(yàn)場(chǎng),競(jìng)爭(zhēng)激烈,游戲復(fù)雜。如果想在這門游戲中獲得成就,就必須推進(jìn)現(xiàn)有技術(shù),實(shí)現(xiàn)技術(shù)突破。我們現(xiàn)在開(kāi)發(fā)了一個(gè)AI,能夠在Dota的1v1比賽中擊敗頂尖職業(yè)選手。
Dota的規(guī)則非常復(fù)雜,如果是用規(guī)則方法,那么構(gòu)建出的AI一定是個(gè)低能的玩家。所以,OpenAI完全采用的是自我游戲(self-play)的訓(xùn)練方法。剛開(kāi)始訓(xùn)練時(shí),AI對(duì)于自己所處的世界全無(wú)認(rèn)識(shí),而只是和自己的復(fù)制品比賽,這也就意味著它和它的對(duì)手永遠(yuǎn)是旗鼓相當(dāng),在這個(gè)過(guò)程中自我能力不斷提升,直到達(dá)到世界頂尖選手的水平。
自我學(xué)習(xí)的發(fā)展
“自我對(duì)決”的理念是OpenAI研發(fā)的關(guān)鍵。這是一種AI系統(tǒng)學(xué)習(xí)解決極其復(fù)雜任務(wù)的有效方法:與太弱或太強(qiáng)的對(duì)手對(duì)戰(zhàn),它都無(wú)法從中學(xué)到東西,但自身反倒是有價(jià)值的對(duì)手。OpenAI的研究人員解釋到:“你可以看到AI從完全的隨機(jī)狀態(tài)一步步發(fā)展到如今的頂級(jí)水平。”
除了OpenAI,其他人工智能研究人員已經(jīng)在尋找方法來(lái)教導(dǎo)機(jī)器人做各種事情: 比如從閱讀到做夢(mèng)。他們創(chuàng)建了可以自己學(xué)習(xí)的AI系統(tǒng),甚至可以互相教授的AI系統(tǒng)。教育正在從根本上被顛覆,以滿足這項(xiàng)新技術(shù)的需求,隨著機(jī)器人的智慧化,我們的生活將變得更加輕松,更安全,而且更有趣。
另外,Google旗下Deepmind團(tuán)隊(duì)最近在進(jìn)行研究,讓 AI 在復(fù)雜環(huán)境里“運(yùn)動(dòng)”。研究人員設(shè)計(jì)了類似火柴人的模型,在不給它們?nèi)魏尉幊痰那闆r下,要求其越過(guò)障礙物到達(dá)終點(diǎn),所以這些火柴人基本上一直在試錯(cuò)。試驗(yàn)中AI會(huì)逐漸調(diào)整自己的關(guān)節(jié),用更好的方式來(lái)完成目標(biāo)。體育精神爆表的火柴人,擁有27個(gè)自由關(guān)節(jié)和21塊驅(qū)動(dòng)器。而且為了指導(dǎo)這只AI,Deepmind設(shè)計(jì)了一套虛擬傳感器,教其如何在不熟悉的復(fù)雜環(huán)境下通過(guò)障礙,而火柴人在一次次跌倒之后的成功跑酷,展現(xiàn)了AI強(qiáng)大的自主學(xué)習(xí)能力,實(shí)現(xiàn)了機(jī)器學(xué)習(xí)和系統(tǒng)神經(jīng)的結(jié)合,這是火柴人的一小步,卻是AI在研究人體機(jī)能領(lǐng)域的一大步。
編譯自《Testlarati》《商業(yè)內(nèi)幕》雜志
(責(zé)任編輯姜懿翀)endprint