无需告知规则 MuZero算法自学成“棋”才

2020-12-30 16:43:22 科技日报

据最新一期《自然》杂志报道，DeepMind公司开发的一种人工智能（AI）算法MuZero，可以在不告知其游戏规则的情况下掌握围棋、国际象棋、日本将棋和视频游戏，这是谷歌人工智能部门获得的又一重大突破。

DeepMind公司表示，研究人员多年来一直在寻找一种方法，既可以学习建立用于解释当前环境的模型，也能够利用这个模型来进行最好的决策。到目前为止，大多数方法都难以在Atari这种游戏中进行有效规划。

MuZero最初在2019年推出，通过只关注环境中最重要的一个方面，来学习建立模型并解决问题。通过将这种方法与“阿尔法狗”强大的搜索树技术相结合，MuZero的能力实现了重大飞跃。此外，MuZero还利用了前瞻搜索、基于模型的规划来解决问题。

MuZero不会使用规则来找到最佳情况（因为事先不被告知），而是学习考虑游戏环境的各个方面，自己观察它是否重要。在数百万场比赛中，它不仅学习规则，而且学习位置的通用价值、成功的通用策略以及事后评估自己行为的方式。后一种功能可帮助其从自身的错误中学习、回忆和重做游戏，以尝试各种不同方法来进一步优化位置和策略价值。

MuZero不仅在国际象棋、围棋和日本将棋上达到了与提供完善规则的“阿尔法狗”一样的超人水平，在Atari游戏这样的杂乱感知输入环境中，也创造了新纪录。研究人员将MuZero描述为“在追求通用算法方面迈出的重要一步”。（记者冯卫东）

（责编：赵珊）

人民周刊网版权及免责声明：

1.凡本网注明“来源：人民周刊网”或“来源：人民周刊”的所有作品，版权均属于人民周刊网（本网另有声明的除外）；未经本网授权，任何单位及个人不得转载、摘编或以其它方式使用上述作品；已经与本网签署相关授权使用协议的单位及个人，应注意作品中是否有相应的授权使用限制声明，不得违反限制声明，且在授权范围内使用时应注明“来源：人民周刊网”或“来源：人民周刊”。违反前述声明者，本网将追究其相关法律责任。

2.本网所有的图片作品中，即使注明“来源：人民周刊网”及/或标有“人民周刊网(www.peopleweekly.cn)”“人民周刊”水印，但并不代表本网对该等图片作品享有许可他人使用的权利；已经与本网签署相关授权使用协议的单位及个人，仅有权在授权范围内使用图片中明确注明“人民周刊网记者XXX摄”或“人民周刊记者XXX摄”的图片作品，否则，一切不利后果自行承担。

3.凡本网注明“来源：XXX（非人民周刊网或人民周刊）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

4.如因作品内容、版权和其它问题需要同本网联系的，请在30日内进行。

※ 联系电话：010-65363526 邮箱：rmzk001@163.com

无需告知规则 MuZero算法自学成“棋”才

人民周刊微信公众号

人民周刊微博

热点话题

热门视频