研究发现Llama 2在识别失礼行为上优于人类,同样场景下GPT频繁出错

人类是复杂的生物。我们的沟通方式是多层次的,心理学家已经设计了多种测试来衡量我们从互动中推断彼此的意义和理解的能力。
人工智能模型在这些测试中的表现越来越好。近日,发表在 Nature Human Behavior 上的一项新研究发现,一些大型语言模型在执行被称为“心智理论”的任务时,表现与人类一样好,在某些情况下甚至超越了人类。
这并不意味着人工智能系统实际上能够读懂我们的感受,但它确实表明在评估心理学家认为的人类独有能力的实验中,这些模型表现得越来越好。
为了更好地了解大型语言模型在这些任务中如何成功和失败以及背后的原理,研究人员希望沿用他们用来测试人类心智理论的相同系统性方法。
理论上,人工智能模型越善于模仿人类,它们在与我们的互动中就越有用和富有同情心。
OpenAI 和谷歌最近都宣布了超级人工智能助手。GPT-4o 和 Astra 的设计目的是提供比其之前版本更流畅、更自然的反馈。
但我们必须避免陷入相信它们拥有与“类人”能力的陷阱,即使它们看起来是这样。
德国汉堡埃彭多夫大学医学中心的神经科学教授克里斯蒂娜·贝基奥(Cristina Becchio)参与了这项研究。
她说:“我们有一种自然的倾向,即认为没有心智的实体也具备(类似人类的)精神状态、心智和意图。将心智理论放在大型语言模型身上,这样的风险是存在的。”
图片
(来源:STEPHANIE ARNETT/MITTR)
心智理论是情商和社会智力的标志,它使我们能够推断他人的意图,并与其互动或表达同情。大多数孩子会在三到五岁之间学会这些技能。
研究人员测试了两个大型语言模型家族,OpenAI 的 GPT-3.5 和 GPT-4,以及 Meta 的 Llama 的三个版本。
他们挑选的任务旨在测试人类的心智理论,包括识别错误信念、识别失礼行为,以及理解隐含而非直接说出的意思(潜台词)。他们还对 1907 名人类参与者进行了测试,作为分数对照。
该小组进行了五种类型的测试。第一项是暗示任务,旨在衡量某人通过间接评论推断他人真实意图的能力。
第二项是错误信念任务,评估某人是否可以推断出他人的真实信念,而他人的信念通常与事实不符。
另一项测试衡量某人是否能识别出他人的行为是失礼(或尴尬)的。
而第四项测试包括讲述奇怪的故事,故事中主人公做了一些不寻常的事情,以评估某人是否能够解释所说的和所做的之间的反差。他们还测试了人们是否能理解讽刺。
人工智能模型在独立的聊天中对每个测试进行了 15 次尝试,这样它们就可以独立处理每个请求,并且它们的回答也以与人类相同的方式进行评分。
研究人员随后对人类志愿者进行了测试,比较了两组的分数。
在涉及间接评论、误导和错误信念的任务中,两种版本的 GPT 的表现都追平或偶尔超越了人类平均水平,而 GPT-4 在讽刺、暗示和奇怪故事测试中的表现优于人类。
Llama 2 的三个模型的表现均低于人类平均水平。
然而,Llama 2 在识别失礼行为和场景方面的表现优于人类,而 GPT 总是提供错误的反馈。
论文作者认为,这是由于 GPT 普遍不愿意对意见发表结论,因为模型经常回应说,没有足够的信息让它们以这样或那样的方式给出回答。
他说:“这些模型肯定没有展示出人类的心智理论。但我们所展示的是,它们有能力对人物或人们的思想进行心理推理。”
美国卡内基梅隆大学助理教授玛藤·萨普(Maarten Sap)没有参与这项研究,他说大型语言模型表现得这么好的一个可能原因是,这些心理测试已经构建得很好了,很可能已经包含在模型的训练数据中了。
他说:“重要的是要承认,当你对小孩子进行虚假信念测试时,他们可能从未见过类似的测试,但语言模型可能见过了。”
最后,我们仍然不了解大型语言模型是如何工作的。
美国哈佛大学的认知科学家托默·乌尔曼(Tomer Ullman)说,像这样的研究可以帮助我们加深对这类模型的理解,比如它们能做什么、不能做什么。他没有参与该项目。
但重要的是,当我们进行这样的大型语言模型测试时,要记住我们真正测试的是什么。
即使人工智能在旨在测量心智理论的测试中表现优于人类,也不意味着心智理论适用于它。
乌尔曼说:“我并不反对基准,但很多人担心我们目前使用基准的方式已经不再有意义,我是其中之一。不管这个东西是如何通过基准测试的,它并非以一种类似人类的方式实现的,至少我是这么认为的。”
支持:Ren
运营/排版:何晨龙