最大开源机器人数据集！DeepMind联手21家机构，整合60个数据集，发布Open X-Embodiment，具身智能时代来临

超神经HyperAI

2024-10-25 11:00发布于福建

作者：十九

编辑：李宝珠

谷歌 DeepMind 联手斯坦福大学、上海交通大学、英伟达、纽约大学、哥伦比亚大学等 21 家国际知名机构，整合 60 个现有的机器人数据集，创建了一个开放的、大规模的标准化机器人学习数据集——Open X-Embodiment。HyperAI超神经已在官网上线了「Open X-Embodiment 真实机器人数据集」，一键即可下载！

近日，一段「机器狗当挑夫勇闯泰山」的视频火爆全网，这个「机器狗」不仅能够轻松驮载沉重物资，还能在泰山的陡峭山路上「健步如飞」，从山脚到山顶仅用两小时！中国外交部副部长华春莹也为它点赞：「机器狗在雄伟的泰山上充当搬运工，科技造福人类。」

图源：新华网

据了解，这只由泰山文旅集团物业公司引入的机器狗，主要的任务是来清运垃圾和搬运货物。过去，由于泰山景区的特殊地形，清扫垃圾的工作只能依赖人工挑运，客流高峰时段，还时常出现无法清扫挑运的情形。这只参与测试的「机器狗」不仅具有极强的地形适应能力、高稳定性、高平衡能力，还能轻松跨越障碍物，负载能力可达 120 公斤，一举解决垃圾清运难题，提升工作效率。

Google RT-2、英伟达 GR00T、Figure 02 机器人、特斯拉 Optimus、小米 CyberOne……近年来，随着越来越多机器人的相继问世，以此作为载体的具身智能也成为了一个火热话题。这些能够感知、学习并与周围环境互动，直接参与人类现实生活的机器人，在市场上具备极大的潜力。

无论是工业领域的巡检、焊接、搬运、分拣和组装，家居场景的家政服务、养老看护，还是医疗领域的手术辅助、日常护理，以及农业中的种植、施肥与收割，具身智能的应用场景广泛且多样。

然而，当前的机器人虽然在某些特定任务上表现出色，通用性方面却仍有较大欠缺，这意味着，我们需要针对每项任务、每个机器人乃至每个应用场景分别训练一个模型。借鉴自然语言处理和计算机视觉等领域的成功经验，我们或许可以让机器人学习广泛且多样的数据集，从而训练出更加通用的机器人。但是，现有的机器人数据集往往仅专注于单一环境、一组对象或某个特定任务，用于机器人交互的大型且多样的数据集很难获取。

对此，谷歌 DeepMind 联手斯坦福大学、上海交通大学、英伟达、纽约大学、哥伦比亚大学、东京大学、日本理化研究所、卡内基梅隆大学、苏黎世联邦理工学院、伦敦帝国理工学院等 21 家国际知名机构，整合了 60 个现有的机器人数据集，创建了一个开放的、大规模的标准化机器人学习数据集——Open X-Embodiment。

据了解，Open X-Embodiment 数据集覆盖各种环境和机器人变化，目前已面向研究社区开放，为了便于用户下载和使用，研究人员将不同来源的数据集转换为了统一的数据格式，未来，他们计划与机器人学习社区合作，共同促进该数据集的增长。HyperAI超神经已经在官网上线了「Open X-Embodiment 真实机器人数据集」，一键即可下载！

迄今为止最大的开源机器人数据集

据悉，Open X-Embodiment 是迄今为止最大的开源真实机器人数据集，涵盖了从单臂机器人到双臂机器人，再到四足机器人等 22 种不同形态的机器人，共包含超过 100 万条机器人轨迹和 527 项技能（160,266 项任务）。研究人员证明，相较于仅在单个机器人类型数据上训练的模型，在多个机器人类型数据上训练的模型表现更佳。

Open X-Embodiment 数据集的分布如下图所示，图 (a) 展示了 22 种形态机器人数据集的分布情况，其中 Franka 机器人最为常见。图 (b) 展示了机器人在不同场景的分布情况，Franka 机器人占据主导地位，其次是 Google Robot。图 (c) 则展示了每个形态机器人的轨迹分布情况，其中 xArm 和 Google Robot 贡献了最多的轨迹数量。图 (d,e) 分别展示了机器人具备的技能和其所用的物品，技能有 picking、moving、pushing、placing 等，物品有家用电器、食品和餐具等，种类繁多。

Open X-Embodiment 数据集
(a) 由来自 22 种机器人形态的 60 个独立数据集组成
(b) 机器人在不同场景的分布情况
(c) 不同机器人的轨迹数量
(d, e) 数据集中常见的技能和 Objects

汇集顶尖机构资源，推动机器人技术广泛应用

Open X-Embodiment 数据集由 60 个独立的数据集整合而成，HyperAI超神经特意为大家精选了部分数据集，简要介绍如下：

Berkeley Cable Routing 多阶段机器人电缆任务数据集

Berkeley Cable Routing 数据集由加州大学伯克利分校和 Intrinsic Innovation LLC 研究团队发布，共 27.92 GB，该数据集用于研究多阶段机器人操作任务，特别是应用于电缆布线任务。这个任务代表了复杂的多阶段机器人操作场景，要求机器人必须将电缆穿过一系列夹子，包括处理可变形物体、闭合视觉感知循环以及处理由多个步骤组成的扩展行为。

CLVR Jaco Play Dataset 遥控机器人片段数据集

CLVR Jaco Play Dataset 是一个专注于遥控机器人领域的数据集，共 14.87 GB，由南加州大学和 KAIST 的研究团队发布，它提供了 1,085 个遥控机器人 Jaco 2 的片段，并配有相应的语言注释。这个数据集对于研究机器人遥控、自然语言处理以及人机交互等领域的科学家和开发者来说，是一个非常宝贵的资源。

RT-1 Robot Action 真实世界机器人数据集

谷歌研究人员提出了多任务模型 Robotics Transformer (RT-1)，该模型在新任务、环境和物体上的零样本泛化方面取得了显著改进，展示了优异的可扩展性和预训练模型特性。

RT-1 模型是在一个大规模真实世界机器人数据集（RT-1 Robot Action 数据集）上训练的，研究人员使用了 13 台 EDR 机械臂，每台机械臂配备有 7 个自由度的手臂、两指夹爪和移动底座，在 17 个月内收集了 13 万个片段，共 111.06 GB，每个片段被标注了机器人执行指令的文字描述。数据集中涵盖的高层次技能包括捡起和放置物品、开关抽屉、从抽屉中取出和放入物品、将细长物品竖直放置、推倒物体、拉餐巾纸和开罐子等，覆盖了使用多种不同物体的 700 多项任务。

Language-Table 机器人语言标签轨迹数据集

Google 团队 Robotics at Google 提出了一种框架，用于构建能够在现实世界中通过自然语言指令进行实时互动的机器人。通过在包含数十万条带有语言注释的轨迹数据集上进行训练，研究人员发现所得的策略能够执行比以往多 10 倍的指令，这些指令描述了现实世界中的端到端视听觉-运动技能。研究人员已经开源了研究所用的 Language-Table 数据集，该数据集包含了近 60 万条带有语言标签的轨迹，用于推动更先进、更有能力、可自然语言交互的机器人发展。

BridgeData V2 大规模机器人学习数据集

加州大学伯克利分校、斯坦福大学、谷歌 DeepMind 和 CMU 共同发布了 BridgeData V2 数据集，该数据集致力于促进可扩展机器人研究，包含在 24 个不同环境中收集的 60,096 条机器人轨迹。其中，24 个环境分为 4 类，大部分数据来自不同的 toy kitchens，包含水槽、炉灶和微波炉等，其余环境则包括各种桌面、toy sinks、toy laundry 等。数据集中包含的任务有拾取放置、推和清扫、开关门和抽屉，以及更复杂的任务如堆叠积木、折叠衣物和清扫颗粒介质，某些数据片段包含这些技能的组合。

为了增强机器人的泛化能力，研究人员在多种环境下收集大量的任务数据，这些环境中的对象、摄像头位置和工作区定位各有不同，每条轨迹都附有与机器人任务对应的自然语言指令。从这些数据中学到的技能可以应用于新对象和环境，甚至跨机构使用，这使得该数据集成为研究人员的重要资源。

BC-Z 机器人学习数据集

BC-Z 数据集由谷歌、Everyday Robots、加州大学伯克利分校和斯坦福大学共同发布，这个大规模机器人学习数据集旨在推动机器人模仿学习领域的发展，尤其是支持零样本任务泛化，即让机器人在没有先前经验的情况下，通过模仿学习来执行新的操作任务。

该数据集包含了超过 25,877 个不同的操作任务场景，涵盖了 100 种多样化的任务，这些任务通过专家级远程操作和共享自主过程来收集，涉及 12 个机器人和 7 名操作员，累计 125 小时的机器人操作时间。数据集可用于训练一个 7 自由度的多任务策略，该策略可根据任务的语言描述或人类操作视频调整，以执行特定任务。

查看原图 654K