李飞飞团队发布“具身智能”成果：机器人接入大模型直接听懂人话

福布斯

2023-07-11 13:03发布于上海福布斯官方账号

最近，斯坦福大学李飞飞团队公布了“具身智能”的最新成果：VoxPoser，即大模型接入机器人，把复杂指令转化成具体行动规划，人类可以随意地用自然语言给机器人下达指令，机器人也无需额外数据和训练。

据悉，相比需要额外预训练的传统方法，这个方法用大模型指导机器人如何与环境进行交互，所以直接解决了机器人训练数据稀缺的问题。

值得一提的是，这一方法利用了视觉语言模型，以便感知和分析出真实场景中的目标，例如绕过障碍，甚至可以完成开瓶子、按开关、拔充电线等复杂操作，且不需要训练。

去年5月，李飞飞在美国文理科学院的会刊Ddalus上发表了一篇文章，以计算机视觉中的物体识别任务为切入点，研究了ImageNet数据集及相关算法的发展历程。其中，她提出了计算机视觉发展的三个方向：具身智能（Embodied AI）、视觉推理（Visual Reasoning）、场景理解（Scene Understanding）。

具身智能，从字面意思来看，就是具有“身体”的智能体，顾名思义，就是软硬件结合的智能体，即人工智能机器人。同时，由于大模型的盛行，人们普遍将其视为人形机器人与大模型的结合。

对此，李飞飞认为，具身智能不单指人形机器人，任何能在空间中移动的有形智能机器都是人工智能的一种形式。

除了李飞飞之外，英伟达创始人黄仁勋、特斯拉CEO马斯克等大佬都非常看好具身智能的前景。

目前，国内各类机器人快速发展。在上周的世界人工智能大会上，包括特斯拉“擎天柱”在内20多款机器人亮相。同时，国内相关算法、大模型、芯片以及零部件等产业链相关企业也已经在机器人领域布局，为新兴的具身智能概念打下基础。

随着ChatGPT流量的下滑，人们都十分期待下一个现象级应用的诞生。借助机器人与大模型等相关技术结合，未来具身智能走入人类的生活，真正将人类从繁重的工作中解放出来，势必掀起新一轮的创新浪潮。