全球首例！大模型机器人线下真机展示泛化干活技能

机器人大讲堂

2024-06-22 16:22发布于安徽科技领域创作者

这是被称为“全球首例可以线下真机展示泛化干活技能的大模型机器人”，是现象级人形机器人企业「银河通用」的首个人形机器人GALBOT G1。

当前，大模型在技术的推动下不断迭代进化，涌现出具备多能力的“全能选手”。然而，这些模型仍面临着感知模态不足、实时性响应不足以及泛化能力较弱等挑战。

机器人大模型发展的终极目标之一是提升机器人在不同环境和任务下的执行成功率，而通用人形机器人是该领域科研人员和技术人员共同追求的理想目标。

那么，通用机器人需要怎样的具身智能大模型系统？

在本月举办的2024中国人形机器人开发者大会上，北京大学助理教授、北京银河通用机器人有限公司创始人兼CEO王鹤先生发表了关于“面向通用机器人的具身多模态大模型系统”的主旨演讲，引发了行业内外的广泛关注。

本文将从银河通用人形机器人GALBOT G1以及王鹤教授最近发表的一些观点出发，探讨通用机器人技术的新进展、挑战及未来趋势。

▍通用人形机器人的定义与挑战

对于“通用人形机器人”的概念，王鹤教授认为，通用不仅指机器人在形态上的人形化，更重要的是其在任务和环境上的通用性。通用机器人的实现需要解决两大关键问题：任务通用和环境通用。

任务通用意味着机器人能够执行各种不同的任务，如抓取、放置、开抽屉、开柜子、送货等，实现“言出法随”；环境通用则要求机器人能够在各种地形和环境中自由穿梭，达到人类能够到达的地方。

为了实现通用性，银河通用机器人提出了一个由基石层和能力层支撑的机器人结构。基石层的核心在于打造一个通用的本体，这决定了机器人能够产生和利用的数据种类和质量。基于这些数据，机器人将发展出感知、决策和执行的能力，形成一个完整的通用机器人系统。

▍本体创新：打造通用机器人基石

在通用机器人的研发过程中，本体设计是至关重要的一环。传统的腿式人形机器人虽然在行走和奔跑方面取得了显著进展，但在泛化能力方面仍有待提升。

在本体层面，银河通用首个人形机器人GALBOT G1以其独特的移动双臂和轮式腿设计，实现了全方位的360°移动能力。其身高为173cm，臂展为190cm，这样的设计使得它能够应对不同任务需求。其中，机器人的躯干提升能力达65cm，能够胜任不同工作场景。

值得一提的是，GALBOT G1的操作范围可从0至240cm，极大地扩展了其工作区域。据悉，基于这一特性，GALBOT G1能够灵活地调整其工作模式。

在需要稳定抓取地面物体时，它可以自主切换到“跪姿”模式；而当面对高度超过两米的物品时，它又能迅速转换为“站立”模式，从而覆盖了更广泛的工作空间。

不仅如此，GALBOT G1还展现出了高成功率的通用操作能力，这使得它能够胜任多种复杂任务。

▍数据驱动：赋能机器人具身智能

数据层面是实现具身智能的关键。王鹤教授强调了通过大规模合成仿真数据来驱动具身智能的重要性。

传统的数据采集方式成本高昂，难以大规模应用于实际场景。当前，银河通用的研究团队已经能够将各种家用电器等实际物体引入仿真设备中，并实现高度逼真的物理仿真。

例如，当机器人需要模拟拉抽屉的动作时，它会遵循真实的物理规律，沿着特定的方向施加力量，而不是简单地像在游戏中那样，手一挥抽屉就立即弹开。这样的仿真方式至关重要，因为它确保了机器人在虚拟环境中学习到的技能和经验，在真实世界中同样具有实用价值。

为了进一步提升仿真的真实性，研究团队在仿真世界中放置了丰富多样的物体，并为它们赋予了与真实世界相同的交互方式。此外，他们还在仿真环境中集成了传感器，用于收集训练数据。通过这种方式，他们获得了一个高效且可靠的数据生成来源，为机器人的学习和训练提供了强有力的支持。

据悉，他们的研究成果在CVPR等顶级会议上获得了高度认可，展示了合成数据在提升机器人操作效率和泛化能力方面的巨大潜力。

银河通用机器人展示了其在合成数据方面的突破。通过合成数据进行训练，机器人能够在抓取透明、高光物体，以及在复杂光照条件下操作时表现出色。

这些操作完全基于合成数据训练，没有使用一张真实世界的数据，体现了合成数据驱动具身智能的高效性和可扩展性。

▍大小脑协同：驱动通用机器人智能进化

谷歌的视觉语言动作大模型在环境的泛化性和速度方面表现并不出色。谷歌的大模型在响应速度上每秒只能达到一到三次，而OpenAI使用的小模型能实现200赫兹的响应速度。这种差异源于谷歌的模型试图同时处理大脑和小脑的功能，导致在实时性和柔顺性上表现不佳。

对于具身大模型的构建，王鹤教授提出了大脑大模型和小脑大模型的概念。大脑大模型负责高层次的语义理解和决策，小脑大模型则负责具体的操作和执行。

银河通用机器人在具身大模型的构建上，提出了一个三层架构：底层是硬件层，中间层是三维视觉合成数据驱动的技能层，上层是图文大模型层。

图文大模型负责低频调用，而技能层则负责高频快速执行，这种架构设计既保证了操作的精准性，又提高了系统的响应速度。

▍未来展望：端到端具身大模型的实现

关于未来，一些专家坚信通用人形机器人的发展将趋向于端到端具身大模型，这一理念与特斯拉在自动驾驶领域的早期探索颇为相似，他们同样采取了模块化的方式，涵盖感知、规划和控制等多个环节。

通过构建一个端到端具身大模型，机器人能够仅凭一句简单的指令，在未见过的环境中执行行走任务。对于银河通用来说，这背后的关键是自然语言导航大模型，它无需依赖深度传感器、激光雷达、里程计或箭图等传统导航手段，仅凭RGB观测就能理解人类语言并作出相应行动，甚至在嘈杂的实验室环境中也能精准执行指令。

王鹤教授表示，随着研究的深入，团队将进一步引入手部动作的能力，实现手与腿的协同操作，从而构建出真正的首个机器人基础大模型。