研究人员使用大型语言模型来帮助机器人导航

知新了了

2024-06-12 12:46发布于北京

该方法使用基于语言的输入而不是昂贵的视觉数据，来指导机器人完成多步导航任务。

有一天，你可能希望你的家用机器人把一大堆脏衣服搬到楼下，并把它们放在地下室最左边角落的洗衣机里。机器人需要将你的指令与它的视觉观察结合起来，以确定完成这项任务应该采取的步骤。

对于人工智能代理来说，这说起来容易做起来难。目前的方法通常利用多个手工创建的机器学习模型来处理任务的不同部分，这些任务需要大量的人力和专业知识来构建。这些方法使用视觉表示来直接做出导航决策，需要大量的视觉数据来进行训练，而这些数据往往很难获得。

为了克服这些挑战，麻省理工学院和麻省理工学院-IBM沃森人工智能实验室的研究人员设计了一种导航方法，将视觉表示转换为语言片段，然后将其输入一个大型语言模型，以实现多步骤导航任务的所有部分。

他们的方法不是将机器人周围图像的视觉特征编码为视觉表征，而是创建描述机器人视角的文本标题，这是计算密集型的。一个大型语言模型使用字幕来预测机器人应该采取的行动，以完成用户基于语言的指令。

因为他们的方法使用纯粹基于语言的表示，他们可以使用一个大的语言模型来有效地生成大量的合成训练数据。

虽然这种方法并不优于使用视觉特征的技术，但它在缺乏足够的视觉数据进行训练的情况下表现良好。研究人员发现，将基于语言的输入与视觉信号相结合，可以提高导航性能。

“通过纯粹使用语言作为感知表征，我们的方法更直接。由于所有输入都可以编码为语言，我们可以生成人类可理解的轨迹，”电子工程和计算机科学（EECS）研究生、该方法论文的主要作者潘博文（Bowen Pan）说。

潘博文的合著者包括他的顾问奥德·奥利瓦，麻省理工学院施瓦茨曼计算学院战略产业参与主任，麻省理工大沃森人工智能实验室主任，以及计算机科学与人工智能实验室（CSAIL）的高级研究科学家；菲利普·伊索拉，EECS副教授，CSAIL成员；资深作者Yoon Kim，EECS助理教授，CSAIL成员；以及麻省理工学院沃森人工智能实验室和达特茅斯学院的其他人。这项研究将在计算语言学协会北美分会会议上发表。

用语言解决视觉问题

潘博文说，由于大型语言模型是最强大的机器学习模型，研究人员试图将它们整合到称为视觉和语言导航的复杂任务中。

但这类模型接受基于文本的输入，无法处理来自机器人摄像头的视觉数据。因此，该团队需要找到一种使用语言的方法。

他们的技术利用一个简单的字幕模型来获取机器人视觉观察的文本描述。这些字幕与基于语言的指令相结合，并输入到一个大型语言模型中，该模型决定机器人下一步应该采取的导航步骤。

大型语言模型输出机器人在完成该步骤后应该看到的场景的标题。这是用来更新轨迹历史的，这样机器人就可以跟踪它去过的地方。

该模型重复这些过程，生成引导机器人一步一步到达目标的轨迹。

为了简化这一过程，研究人员设计了模板，使观察信息以标准形式呈现给模型 —— 作为机器人可以根据周围环境做出的一系列选择。

例如，一个标题可能会说“在你的左边30度是一扇门，旁边有一盆植物，在你的背后是一个小办公室，有一张桌子和一台电脑，”等等。该模型选择机器人是向门还是向办公室移动。

“最大的挑战之一是弄清楚如何以适当的方式将这种信息编码成语言，使代理理解任务是什么，以及它们应该如何回应，”潘博文说。

语言的优势

当他们测试这种方法时，虽然它不能胜过基于视觉的技术，但他们发现它有几个优点。

首先，由于文本合成比复杂的图像数据需要更少的计算资源，因此他们的方法可以用于快速生成合成训练数据。在一项测试中，他们根据10个真实世界的视觉轨迹生成了10000个合成轨迹。

该技术还可以弥补在模拟环境中训练的智能体在现实世界中表现不佳的问题。这种差距经常发生，因为计算机生成的图像可能会由于光线或颜色等因素而与现实世界的场景截然不同。但是，描述合成图像和真实图像的语言将很难区分。

此外，他们的模型使用的表示对人类来说更容易理解，因为它们是用自然语言编写的。

“如果代理未能达到目标，我们可以更容易地确定它失败的地方以及失败的原因。也许历史信息不够清晰，或者观察忽略了一些重要的细节。”

此外，他们的方法可以更容易地应用于各种任务和环境，因为它只使用一种类型的输入。只要数据可以编码为语言，它们就可以使用相同的模型而不做任何修改。

但缺点是，这种方法自然会丢失一些信息，而这些信息是基于视觉的模型可以捕捉到的，比如深度信息。

然而，研究人员惊讶地发现，将基于语言的表示与基于视觉的方法结合起来，可以提高智能体的导航能力。

他们说：“也许这意味着语言可以捕捉到一些高层次的信息，而不是单纯的视觉特征所不能捕捉到的。”

这是研究人员想要继续探索的一个领域。他们还想开发一种导航导向的捕获器，以提高该方法的性能。此外，他们还想探索大型语言模型展示空间意识的能力，并看看这如何有助于基于语言的导航。

这项研究的部分资金由麻省理工学院-IBM沃森人工智能实验室提供。

如果朋友们喜欢，敬请关注“知新了了”！

查看原图 74K