AlphaGo再次登上世界頂級科學(xué)雜志《自然》。2017年5月,這個人工智能程序以3:0贏下中國棋手柯潔后,AlphaGo宣布退役,但DeepMind公司并沒有停下研究的腳步。10月18日,DeepMind團(tuán)隊(duì)公布了最強(qiáng)版AlphaGo,代號AlphaGo Zero。它的獨(dú)門秘籍是“自學(xué)成才”,而且是從一張白紙開始,零基礎(chǔ)學(xué)習(xí),在短短3天內(nèi),AlphaGo Zero的水平已經(jīng)超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰(zhàn)績。AlphaGo此前的版本,結(jié)合了數(shù)百萬人類圍棋專家的棋譜,以及強(qiáng)化學(xué)習(xí)的監(jiān)督學(xué)習(xí)進(jìn)行了自我訓(xùn)練。在戰(zhàn)勝人類圍棋職業(yè)高手之前,它經(jīng)過了好幾個月的訓(xùn)練,依靠的是多臺機(jī)器和48個TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片)。AlphaGo Zero的能力則在這個基礎(chǔ)上有了質(zhì)的提升,最大的區(qū)別是,它不再需要人類數(shù)據(jù)。也就是說,它一開始就沒有接觸過人類棋譜,它自由隨意地在棋盤上下棋,然后進(jìn)行自我博弈。值得一提的是,AlphaGo Zero還非常“低碳”,只用到了一臺機(jī)器和4個TPU,極大地節(jié)省了資源。endprint