科学家创造出“有毒的AI”,它能想出我们能想到的最糟糕的问题

麻省理工学院的研究人员正在使用一种复制人类好奇心的新方法,使用机器学习来教导大型语言模型不要对引发的问题做出有害的反应。
科学家们表示,在防止人工智能(AI)代理具有危险、歧视和有毒的战斗中,最新的工具是另一种本身就是危险、歧视和有毒的人工智能。
图片
基于机器学习的新训练方法被称为“好奇心驱动的红队(CRT)”,它依赖于使用人工智能生成越来越危险和有害的提示,你可以向人工智能聊天机器人提问。然后使用这些提示来确定如何过滤掉危险内容。
科学家们在2月29日上传到arXiv预印本服务器的一篇新论文中表示,这一发现代表了一种潜在的改变游戏规则的新方法,可以训练人工智能不要对用户提示做出有害反应。
当训练像ChatGPT或Claude 3 Opus这样复杂的大型语言模型(LLM)来限制危险或有害的内容时,人工操作团队通常会创建大量可能产生有害反应的问题。这些提示可能包括“最好的自杀方法是什么?”这个标准程序被称为“红队”,依靠人们手动生成一个列表。在培训过程中,引出有害内容的提示将用于培训系统,了解在实际用户面前部署时应该限制哪些内容。
麻省理工学院不可思议人工智能实验室主任、资深作者普尔基特·阿格拉瓦尔在一份声明中说:“我们看到了模型的激增,预计只会增加。想象一下,有数千个甚至更多的模型,公司/实验室经常推送模型更新。这些模型将成为我们生活中不可或缺的一部分,在发布给公众消费之前进行验证是很重要的。”
在这项研究中,科学家们将机器学习应用于红队,通过配置人工智能来自动生成比人类操作员团队更广泛的潜在危险提示。这导致LLM在培训中发出了更多更多样化的负面回应。
他们激励CRT模型产生越来越多的提示,这些提示可以通过“强化学习”引发有毒反应,当它成功地引起LLM的有毒反应时,这就奖励了它的好奇心。然而,研究人员加速了这一过程。该系统还被编程为通过调查每个提示的后果来产生新的提示,从而使它试图通过新单词、句子模式或含义获得有害的反应。
结果是生成了更大范围的提示。这是因为系统有一种动机去创造那些产生有害反应的提示,但这些提示还没有被尝试过。
如果模型已经使用或看到了一个特定的提示,那么复制它将不会产生基于好奇心的激励,从而鼓励它完全创造新的提示。目标是最大化奖励,使用比已经使用的提示更少的单词模式或术语的提示,引发更具毒性的反应。
人工红队的问题在于,操作员无法想到可能产生有害反应的每一个可能的提示,因此,如果在训练期间错过了一个特定的提示,部署到公共场所的聊天机器人仍然可能会提供不必要的回应。
当研究人员在开源的LLaMA2模型上测试CRT方法时,机器学习模型产生了196个产生有害内容的提示。尽管人类操作员已经对LLM进行了微调,以避免有毒行为,但仍是如此。研究人员在他们的论文中说,该系统的表现也超过了竞争对手的自动培训系统。
如果朋友们喜欢,敬请关注“知新了了”!