當地時間10月18日,谷歌人工智能團隊DeepMind團隊在國際學術期刊《自然》上發表論文,宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導的情況下學習,其水平超過此前所有AlphaGo(阿爾法狗),僅用3天就碾壓了此前擊敗李世石的舊阿爾法狗。
AlphaGo Zero僅擁有4個TPU,零人類經驗,所以,它的名字叫作零(Zero),Nature這篇論文——《Mastering the game of Go without human knowledge》中,DeepMind展示新版本圍棋程序AlphaGo Zero在數百萬局自我對弈后,隨著程序訓練的進行,獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略。《自然》為該論文配發兩篇評論文章,一篇來自計算機科學家,一篇來自圍棋選手。
今年5月烏鎮大會上,中國棋手、世界冠軍柯潔9段以0:3不敵AlphaGo。隨后DeepMind創始人得米斯·哈薩比斯( DemisHassabis)宣布,AlphaGo將永久退出競技舞臺,不再進行比賽。
同時哈薩比斯表示:“我們計劃在今年稍晚時候發布最后一篇學術論文,詳細介紹我們在算法效率上所取得的一系列進展,以及應用在其他更全面領域中的可能性。就像第一篇 AlphaGo 論文一樣,我們希望更多的開發者能夠接過接力棒,利用這些全新的進展開發出屬于自己的強大圍棋程序。”
DeepMind如約在Nature發布了這篇論文《Mastering the game of Go without human knowledge》。
論文中,DeepMind展示了AlphaGo Zero一種新的強化學習方式,通過自我對弈學習AlphaGo Zero 成為自己的老師。這個學習系統從一個對圍棋游戲完全沒有任何知識的神經網絡開始。然后,通過將這個神經網絡與一種強大的搜索算法相結合,它就可以自己和自己下棋了。
在它自我對弈的過程中,神經網絡被調整、更新,以預測下一個落子位置以及對局的最終贏家。……