越疆X-Trainer叠衣服刷盘子样样精通，背后到底掌握了哪些黑科技？

机器人大讲堂

2024-04-28 19:05发布于黑龙江科技领域创作者

机器人正通过大模型和神经网络快速智能化。此前 Figure 01 展示了端到端训练学习制作咖啡且会自我纠错的能力，后续又展示了在多模态大模型的加持下，神经网络驱动的机器人视觉识别、推理能力、命令执行等方面明显进展。

国内同样有类似框架的展示案例，越疆 4 月 2 日展示的双臂机器人协同刷盘子视频，以及在 4 月 22 日展现的机器人自主叠衣服视频，背后本质上都是神经网络端到端控制能力的技术体现。

在最新的叠衣服视频中，越疆也展示了 AI 机器人操作平台 X-Trainer 的技术内核，即双臂遥操作模仿学习系统。借助该技术，机器人能够加快模仿学习基础量累计，结合强化学习后能快速实现机械臂训练后的自主运行。

这种方式并非罕见，此前 Figure 最早推出的机器人制作咖啡视频就被人猜测为模仿学习，特斯拉更是公开表示此前采取了类似遥操作的训练方式，以提升机器人抓取衣物动作轨迹的柔性。斯坦福此前展示的家务机器人，也是试图通过遥操作协同训练，提升机器人在自主完成炒虾、存放锅具、呼叫电梯等复杂移动和操作任务时的成功率。

本次越疆进一步展示端到端能力并公开背后技术，机器人大讲堂独家采访到了越疆联合创始人郎需林，他对我们详细披露了越疆这套软硬件系统背后的技术运行逻辑和具体参数情况。

▍技术框架内核拆解

Figure 01 等机器人的控制框架其实可以简单分为大模型（上层）+神经决策网络NNP（中层）+全身控制WBC（下层）。如今，这种多层级架构配合大模型赋能价值初显，正为机器人带来强大的感知及运动任务能力水平，让机器人直接将看到的、听到的信息实现多模态融合并转化为语言和行为结果，中间不需要经过其他程序处理。

在这套机器人动作执行的控制框架中，想要机器人实现低时滞、高鲁棒性、高轨迹灵活性，就需要进行机器学习训练持续优化动作，而模仿学习的训练关键来源于数据，数据则来源于采集。这使得能够收集双臂运动数据的低成本全身遥操作系统，正在得到越来越多科研和产业研发人员的认同以及使用。

成熟的遥操作软硬件体系，一方面可以验证现阶段硬件能否端对端灵活完成各项软件算法和任务规划，另一方面可以更好收集端到端神经网络所需的训练数据，从而让未来的机器人能够自行执行任务，为更多细分场景开拓带来了新的可能性。

剥香蕉

切黄瓜

水果摆盘

打鸡蛋

煎鸡蛋

越疆发布的视频中展现的机器人根据语言命令自主刷盘子、叠衣服，背后同样采用了视觉大语言模型+模仿学习神经网络的上层架构，其中的数据来源，则是借助遥操作系统训练而来。

人们看到的视频背后，首先由人类远程控制机器人进行某些动作演示，使得机器人根据这些动作能够快速模仿学习，大幅降低训练时间，最终由双臂机器人作为验证平台进行了执行，提升整个端到端训练的质量，最终实现行为克隆。

在控制执行层的综合性能表现上，越疆这套模仿学习的方法配合高性能在线运动规划接口，机器人已经能够实现非常柔顺的双臂运动，抖动显著减少，轨迹运行平稳性和动作执行精度大幅提升，可以说该具身智能平台明显提升了端到端质量。

▍动作轨迹优化秘诀

这种更强大的端对端响应能力，与 X-Trainer 主从遥操作系统带来的高质量数据采集能力有着较大的关系。

一般而言，人工智能的强弱表现，就和数据量和数据质量正相关，而这首先依赖于数据采集能力。能否在短时间内采集到更多的高质量数据并快速训练，是机器人实现高效动作执行的基础。

越疆联合创始人郎需林透露，越疆采用了同构型主从手设计，能直接复现记录人类进行任务时的关节运动和轨迹，这使得 X-Trainer 平台模仿学习的数据采集，可以通过熟练的示范操作中学习而来，大幅提升了机器人图像采集的质量，从而使得关节映射的精度、准确度、抖动、柔顺性等表现都非常优质，应对一些干扰的能力强劲。

低时延是越疆 X-Trainer 平台的显著优势之一。根据郎需林介绍，这是由于 X-Trainer 平台采用 25Hz 频率接收顶部和手部的三个摄像头图像并完成推理，通过高性能的在线运动规划接口生成 250Hz 的双臂运动，图像到关节驱动响应非常高效。

根据公开信息，Figure 01 接收机载图像网络频率为 10Hz，即 100 毫秒一张图片，而 X-Trainer 端到端高性能运动接口频率是 25Hz ，相当于 40 毫秒一张图片，这意味着运行响应速度本质上提升了 150% ，强大的即时响应能力带来更显著的运行平稳性。

从越疆发布的几个视频来看，无论是盘子上不规则污渍的擦净，还是应对衣服折叠的过程中出现的不规则褶皱，机器人都能快速调整，高动态响应能力大幅度提升了机器人的适应性。这背后源于越疆强大的模仿学习方式，更接近于人类视觉网络的即时性反应，执行路径和方式是人脑驱动人手的动作机理，因此相较单独的图神经网络识别的质量更高。

X-Trainer 之所以能够做到高质量的数据采集，据郎需林介绍，因为越疆在这套遥操作系统中，主手硬件上采取了高性能低摩擦的电机，并且在结构的轻质和传动的摩擦力方面进行了大量的迭代和优化，从而带来了优质的柔顺性和摩擦阻力，使得操作更为轻便，用户疲劳感更弱，操作动作完成度也更高，进而大幅提升了机器人还原度，数据量和数据质量。

这套遥操作的从手，则是采取了高精度的双臂，这个工业级的训练平台，让数据采集与动作的精度大幅提升，保证了任务的效率和质量，从而提供了保证了模仿学习的轨迹复现，为训练数据在各类场景落地提供了保证，最后才呈现出视频里机器人惊人的执行力效果。

▍高初值带来强化学习新范式

据悉，X-Trainer 这种高性能模仿学习神经网络迁移实现到机器人平台，完成端到端图像到动作映射的算法，目前也具有一定泛化能力。

由于基于真实物理环境数据采集，这种模仿学习为强化学习提供了一个优质的训练初值。不同于传统强化学习需要经过长时间训练、纠偏、优化，才能在随机环境获取较好初始值的方法，高性能模仿学习本质上加速了强化学习初值的获取速度。例如 Figure 01 此前神经网络的训练时间为 10 小时，而 X-Trainer 通过人类示范模仿学习，仅需2小时训练即可自主刷盘子，并对实时干扰快速纠正。

这就是越疆在模仿学习的基础上，通过物理引擎仿真以及环境建模，更快实现了初始轨迹的空间结构位置信息获取，再加上强化学习后，能够叠加随机物理真实信息纹理等参数，从而实现多层级任务的学习，强化了算法在不同场景的泛化能力。

目前，机器人端到端任务执行的算法框架已经基本稳定，但机器人从 0-50 基础数据集的获取依然耗费了研究者大量的时间。

模仿学习是一个机器人数据基础框架和基础能力获取的加速器，可以说是机器人学习的基石。因为在此基础上，轨迹数量更加丰富且精确，数据集获取也更为容易，研发者能够聚焦场景泛化能力，注重机器人从 50~10000 强化学习能力的训练。

据悉，X-Trainer 系统包括两只主手、两只从手，每台机械臂上有一个3D摄像头和夹爪，顶部也有一个3D的摄像头，越疆自研的高性能主从控制和双臂协同框架，保证了高数据量传输，全栈式提升这套端到端框架的运行可靠性。

在具体场景上，这套系统除了有望助力科研院所相关算法科研验证，快速将学术研究的成果与下游应用需求链接，还有望帮助工业场景企业，加快对于3C电子、电池组装等线束扎带、柔性插拔等工艺的学习训练效率，推动人形机器人的进化，真正做到从实验室走向实际场景应用。

▍结语与未来

国际包括斯坦福等高校已经针对模仿学习和强化学习能力展开了大量相应研究，国内包括越疆等企业其实也找到了正确的路径。X-Trainer 这套系统，就非常有望帮助国内更多科研机构、应用企业，加入数据基石建设的进程中，加速国内人形机器人在多场景任务落地的可行性。

“我们正处于时代的风口浪尖，中国企业正尝试克服种种困难去迎接这个时代的挑战，越疆希望用自己的努力，助力更多的人参与到中国机器人和具身智能的发展浪潮中，共建这个充满想象力的未来。”郎需林对未来充满信心。