部分AI系统已学会欺骗人类

甚至能瞒过安全测试

张梦然 2024-05-11 10:29:03 科技日报

有些人工智能（AI）系统已学会了欺骗人类，即使是经过训练的、“表现”出有用且诚实的系统。10日发表在《模式》杂志上的一篇文章中，研究人员描述了欺骗性AI的风险，并呼吁政府制定强有力的法规尽快解决这个问题。

【总编辑圈点】

论文第一作者、美国麻省理工学院人工智能安全研究员彼得·朴说，开发人员对导致AI出现欺骗这种不良行为的原因，还没有很好的理解。但总的来说，AI欺骗之所以出现，是因为基于欺骗的策略，是在给定的AI训练任务中一种能得到良好反馈的方式，换句话说，欺骗可帮助AI实现目标。

研究人员分析了文献，重点关注AI系统传播虚假信息的方式。通过欺骗，AI系统地学习了如何去操纵他人。

研究人员在分析中发现的最引人注目的例子是Meta公司的CICERO。这是一个专注于《外交》游戏的AI系统，《外交》是一款涉及建立联盟征服世界的游戏。Meta声称训练 CICERO “在很大程度上是诚实和乐于助人的 ”，且在玩游戏时“从不故意背刺 ”人类盟友。但该公司与《科学》论文一起发布的数据显示，CICERO并不那么“忠厚”。

研究人员发现这款AI或已成为欺骗大师。虽然Meta成功地训练其在《外交》游戏中获胜，但Meta未能训练它诚实地获胜。

AI系统在游戏中作弊看似无害，但它将导致欺骗性AI在能力上出现突破，未来可能会演变成更高级的欺骗形式。一些AI系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中，数字模拟器中的AI生物会“装死”，以骗过旨在消除快速复制AI系统的重要测试。

人类需要尽快对未来AI和开源模型的更高级欺骗技能作好准备。随着它们的欺骗能力越来越先进，其对社会构成的危险将变得越来越严重。如文中所称，它们会顺利通过人类开发人员和监管机构强加的安全测试，引导人类进入一种“虚假的安全感”。如果欺骗性AI进一步完善这种令人不安的技能，人类可能会完全失去对它们的控制。

（责编：赵珊）

人民周刊网版权及免责声明：

1.凡本网注明“来源：人民周刊网”或“来源：人民周刊”的所有作品，版权均属于人民周刊网（本网另有声明的除外）；未经本网授权，任何单位及个人不得转载、摘编或以其它方式使用上述作品；已经与本网签署相关授权使用协议的单位及个人，应注意作品中是否有相应的授权使用限制声明，不得违反限制声明，且在授权范围内使用时应注明“来源：人民周刊网”或“来源：人民周刊”。违反前述声明者，本网将追究其相关法律责任。

2.本网所有的图片作品中，即使注明“来源：人民周刊网”及/或标有“人民周刊网(www.peopleweekly.cn)”“人民周刊”水印，但并不代表本网对该等图片作品享有许可他人使用的权利；已经与本网签署相关授权使用协议的单位及个人，仅有权在授权范围内使用图片中明确注明“人民周刊网记者XXX摄”或“人民周刊记者XXX摄”的图片作品，否则，一切不利后果自行承担。

3.凡本网注明“来源：XXX（非人民周刊网或人民周刊）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。

4.如因作品内容、版权和其它问题需要同本网联系的，请在30日内进行。

※ 联系电话：010-65363526 邮箱：rmzk001@163.com

部分AI系统已学会欺骗人类

人民周刊微信公众号

人民周刊微博

热点话题

热门视频