李飞飞团队发布“具身智能”成果:机器人接入大模型直接听懂人话

最近,斯坦福大学李飞飞团队公布了“具身智能”的最新成果:VoxPoser,即大模型接入机器人,把复杂指令转化成具体行动规划,人类可以随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。
据悉,相比需要额外预训练的传统方法,这个方法用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。
值得一提的是,这一方法利用了视觉语言模型,以便感知和分析出真实场景中的目标,例如绕过障碍,甚至可以完成开瓶子、按开关、拔充电线等复杂操作,且不需要训练。
去年5月,李飞飞在美国文理科学院的会刊Ddalus上发表了一篇文章,以计算机视觉中的物体识别任务为切入点,研究了ImageNet数据集及相关算法的发展历程。其中,她提出了计算机视觉发展的三个方向:具身智能(Embodied AI)、视觉推理(Visual Reasoning)、场景理解(Scene Understanding)。
具身智能,从字面意思来看,就是具有“身体”的智能体,顾名思义,就是软硬件结合的智能体,即人工智能机器人。同时,由于大模型的盛行,人们普遍将其视为人形机器人与大模型的结合。
对此,李飞飞认为,具身智能不单指人形机器人,任何能在空间中移动的有形智能机器都是人工智能的一种形式。
除了李飞飞之外,英伟达创始人黄仁勋、特斯拉CEO马斯克等大佬都非常看好具身智能的前景。
目前,国内各类机器人快速发展。在上周的世界人工智能大会上,包括特斯拉“擎天柱”在内20多款机器人亮相。同时,国内相关算法、大模型、芯片以及零部件等产业链相关企业也已经在机器人领域布局,为新兴的具身智能概念打下基础。
随着ChatGPT流量的下滑,人们都十分期待下一个现象级应用的诞生。借助机器人与大模型等相关技术结合,未来具身智能走入人类的生活,真正将人类从繁重的工作中解放出来,势必掀起新一轮的创新浪潮。