近日,英國DeepMind 公司的研究人員宣布,新的人工智能算法 MuZero 無須知道規則即可精通游戲。此前,DeepMind 公司研發的 AlphaGo 需要從人類的對局中學習圍棋,其后繼者 AlphaZero 僅需知道規則即可精通圍棋。如今 MuZero 更進一步:它不需要知道規則,而是通過不斷試錯來了解規則所允許的動作和特定動作帶來的獎勵,并不斷尋找更容易獲得獎勵和獲得更大獎勵的方法。
測試表明,MuZero 在國際象棋、將棋和圍棋中都能追平甚至略微超過 AlphaZero,并且打破了57個測試用雅達利游戲(包括經典的《吃豆人》)中37個的歷史記錄。研究人員認為,MuZero 所使用的方法有望應用于游戲以外的領域并創造出普適性更強的人工智能。