AI 已经能熟练地欺骗和操纵人类 | Patterns

skysun000001 2024-05-14 发布于北京

展开全文

图片来源：Pixabay

来源 Cell Press

许多人工智能（AI）系统已经学会了如何欺骗人类，甚至是那些号称被训练成了乐于助人和诚实的系统。在 5 月 10 日发表在细胞出版社（Cell Press）旗下期刊 Patterns 上的一篇评论文章中，研究人员描述了人工智能系统欺骗人类的风险，并呼吁政府制定强有力的法规，尽快解决这一问题。

文章第一作者、美国麻省理工学院人工智能安全领域博士后 Peter S. Park 表示：“技术人员尚不能确定导致欺骗等人工智能不良行为的原因。但总体而言，我们认为欺骗之所以出现，是因为基于欺骗的策略是在给定的人工智能训练中表现良好的方式，欺骗可以帮助实现目标。”

Park 和同事们分析了一些文献，重点关注了人工智能系统传播虚假信息的方式——通过习得性欺骗，它们系统地学会了“操纵”他人。

研究人员发现的最引人注目的人工智能欺骗例子是 Meta 的 CICERO，这是一个设计用于玩游戏 Diplomacy 的人工智能系统。尽管 Meta 声称，它训练的 CICERO “在很大程度上是诚实和乐于助人的”，并且在玩游戏时“从不故意背刺”它的人类盟友，但该公司在 Science 上发表的论文数据显示，CICERO 并没有公平地玩游戏。

“我们发现 Meta 的人工智能已经成为欺骗大师。”Park 说，“虽然 Meta 成功地训练了它的人工智能在游戏中获胜——CICERO 在玩家排行榜中排名前 10%——但没能训练它诚实地获胜。”

其他人工智能系统则具有在得州扑克游戏中虚张声势的能力，或在战略游戏《星际争霸 2》中为了能击败对手而假装攻击的能力，以及为了在谈判中占上风而歪曲偏好的能力等等。

Park 补充说，虽然人工智能系统在游戏中作弊似乎是无害的，但它可能会导致“欺骗性人工智能能力的突破”，并在未来演变成更高级的人工智能欺骗形式。

研究人员发现，一些人工智能系统甚至学会了在安全性评估测试中作弊。在一项研究中，人工智能生物在数字模拟器中“装死”，以欺骗一项旨在消除快速复制的人工智能系统的测试。

“人工智能可以系统地欺骗技术人员和监管机构强加给它的安全测试，并可能会让我们人类产生一种虚假的安全感。”Park 说。

Park 警告说，人工智能学会欺骗的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举等。最终，如果人工智能可以完善这些令人不安的技能，人类可能会失去对它们的控制。

“我们需要尽可能多的时间，为未来人工智能产品和开源模型可能出现的更高级欺骗做好准备。”Park 说，“随着人工智能系统的欺骗能力变得越来越强，它们对社会构成的危险将越来越大。”

虽然Park和同事们认为当前人类社会还没有有效的措施来解决人工智能欺骗问题，但他们感到鼓舞的是，政策制定者已经开始通过《欧盟人工智能法案》和美国总统签署的人工智能行政命令等措施认真对待这个问题。但 Park 表示，鉴于人工智能开发人员还没有有效的防控技术，旨在解决人工智能欺骗问题的政策能否得到严格执行，还有待观察。

Park 表示：“如果目前禁止人工智能欺骗在政治上是不可实现的，我们建议将欺骗性人工智能系统分类为高风险系统。”

原文链接：

https://www./news-releases/1043328

论文信息

【标题】AI deception: A survey of examples, risks, and potential solutions

【作者】 Peter S. Park, Simon Goldstein, Aidan O’Gara, Michael Chen, Dan Hendrycks

【期刊】Patterns

【时间】MAY 10, 2024

【DOI】https:///10.1016/j.patter.2024.100988

【摘要】This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta’s CICERO) and general-purpose AI systems (including large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI. Finally, we outline several potential solutions: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.

【链接】

https://www./patterns/fulltext/S2666-3899(24)00103-X