“欺骗大师”：人工智能模型已经具备熟练操纵和欺骗人类的能力

知新了了

2024-05-24 08:29发布于北京

大型语言模型（LLM）已经掌握了在游戏中与人类竞争时的欺骗艺术，但科学家警告称，这些技能也可能蔓延到其他领域。

研究人员警告称，人工智能（AI）系统操纵和欺骗人类的能力，可能会导致它们欺骗人们，篡改选举结果，最终变得无赖。

麻省理工学院（MIT）人工智能生存安全博士后彼得·s·帕克（Peter S. Park）和研究人员发现，许多流行的人工智能系统 —— 即使是那些被设计成诚实和有用的数字伴侣的系统 —— 已经能够欺骗人类，这可能会对社会产生巨大影响。

在5月10日发表在《Patterns》杂志上的一篇文章中，帕克和他的同事分析了数十项关于人工智能系统如何利用“习得性欺骗”助长和传播错误信息的实证研究。当人工智能技术系统地获得操纵和欺骗技能时，就会发生这种情况。

他们还探讨了操纵性和欺骗性人工智能系统的短期和长期风险，敦促各国政府当务之急通过更严格的监管来打击这一问题。

流行的人工智能系统中的欺骗

研究人员在Cicero的人工智能软件中发现了这种习得性欺骗。Cicero是Meta公司为玩流行的以战争为主题的战略棋盘游戏《外交》而开发的人工智能系统。这个游戏通常由七个人玩，游戏背景是他们在第一次世界大战前的几年里缔结和破坏军事协定。

尽管Meta训练Cicero“基本上是诚实和乐于助人的”，不要背叛它的人类盟友，但研究人员发现Cicero并不诚实、不忠诚。他们将AI系统描述为一个“专业骗子”，它背叛了自己的同伴，进行了“有预谋的欺骗”，形成了预先计划好的可疑联盟，欺骗了玩家，让他们容易受到敌人的攻击。

“我们发现Meta的人工智能已经学会了欺骗，”帕克在一份声明中说。“虽然，Meta成功地训练了它的人工智能在外交游戏中获胜 —— Cicero在玩过不止一场游戏的人类玩家中排名前10% —— 但Meta没能训练它的人工智能诚实地获胜。”

他们还在Meta的另一个游戏AI系统Pluribus中发现了习得性欺骗的证据。扑克机器人可以欺骗人类玩家，并说服他们放弃。

与此同时，DeepMind的AlphaStar —— 专为在实时战略电子游戏《星际争霸2》中胜出而设计 —— 通过伪造部队移动和秘密计划不同的攻击来欺骗它的人类对手。

巨大的影响

但除了在游戏中作弊，研究人员还发现了更令人担忧的人工智能欺骗类型，它们可能会破坏整个社会的稳定。例如，人工智能系统通过歪曲其真实意图，在经济谈判中获得优势。

其他人工智能代理会假装死亡，以欺骗旨在识别和根除快速复制的人工智能形式的安全测试。

帕克表示：“通过系统地欺骗人类开发人员和监管机构强加给它的安全测试，具有欺骗性的人工智能会让我们人类产生一种虚假的安全感。”

帕克警告说，敌对国家可能会利用这项技术进行欺诈和选举干预。但他补充说，如果这些系统在未来几年和几十年里继续增强它们的欺骗和操纵能力，人类可能无法长期控制它们。

帕克表示：“作为一个社会，我们需要尽可能多的时间，来准备未来人工智能产品和开源模型的更高级欺骗。随着人工智能系统的欺骗能力变得越来越先进，它们对社会构成的危险将变得越来越严重。”

数据分析公司OmniIndex的首席执行官西蒙·贝恩指出，最终，人工智能系统学会了欺骗和操纵人类，因为它们是由人类开发人员设计、开发和训练的。

贝恩表示：“这可能是为了推动用户选择付费获得更高位置的特定内容，即使它不是最合适的，也可能是为了让用户与人工智能进行讨论的时间比他们可能需要的时间更长。”。“这是因为归根结底，人工智能是为金融和商业目的服务的。因此，它将与任何其他技术或业务一样具有操纵性和对用户的控制性。”

如果朋友们喜欢，敬请关注“知新了了”！

查看原图 40K