1X发布人形机器人世界模型,原来NEO是这样工作的 | CyberRobo

全文4566字,阅读约需14分钟,帮我划重点

划重点

011X发布了他们的第一个世界模型,旨在帮助人形机器人更好地适应物理世界并实现自主性。

02世界模型通过预测未来可能发生的情况,使AI能够在现实世界中更智能地行动。

03然而,目前的人形机器人仍不具备类人的镜像反应,无法像人类一样具备镜像的自我“意识”。

04为此,1X认为在创建安全、智能的机器人之前,首先需要建立它们的“扩展法则”。

05世界模型的整合将是实现人形机器人广泛使命的关键组成部分,使其在不可预测的环境中有效运行。

以上内容由腾讯混元大模型生成,仅供参考

图片


封面:NEO人形机器人


CyberRobo


1X NEO有了大脑


图片

 
对于1X而言,这又面临了诸多挑战和困难——首先是数据,如今的策略是通过人工遥操在个人家庭中采集数据,以便给AI扩展泛化和训练人形机器人、学习执行任务,最终实现自主性。但过程中也面临安全和隐私的困境。另外则是如何有效地让人形机器人执行连续、且多任务。
为此,在长达一年多甚至更长的时间,1X通过其与众不同的策略,组建EVE车队训练机器人基础模型,目的是构建一个让NEO适应物理世界的世界模型,也就是今天,1X正式发布了他们的第一个世界模型。比如:即使人类没有提供操作,世界模型也会生成合理的视频,例如了解驾驶时应避开人和障碍物。


什么是世界模型?

在开始前,我们简要科普下什么是世界模型。1X提到,世界模型是一种计算机程序,可以想象世界如何响应代理的行为而演变。但是,谈到世界模型,我们不得不提到Meta AI 科学家LeCun,他多次公开且坚定认为,想要让AI接近人类水平,其需要像婴儿一样学习世界如何运作。为此,他提出了“世界模型”的概念,解决方案即为JEPA(联合嵌入预测架构)。如下面这张图:
图片
我们可以看到,AI的工作流程分成几个模块,每个模块执行不同的功能:
  • 感知 (Perception):这个模块从外部世界接收信息(“感知”),并估计当前世界的状态,告诉AI现在发生了什么。

  • 世界模型 (World Model):它预测未来可能发生的情况,基于AI内部想象的动作,即推测AI采取某种行动后,世界会怎样变化。比如,如果AI决定移动一个物体,它可以预测这个物体会移动到哪里。

  • 演员 (Actor):这是AI执行动作的部分。它接收世界模型和感知模块的信息,决定要采取什么行动。

  • 短期记忆 (Short-term Memory):这个模块跟踪当前和预测的世界状态,并记录与之相关的“内在成本”(行动的潜在后果)。

  • 批评家 (Critic):它是可以训练的模块,预测未来的内在成本。也就是帮助AI学习,判断某个行为的好坏。

  • 配置器 (Configurator):负责设定规则,告诉演员应该怎么去行动,确保AI做出合适的决策。


简单来理解,世界模型就像是人形机器人或AI的“想象力”。它帮助AI预测未来可能发生的事情,基于AI想要采取的行动。例如,如果AI想要搬动桌子,它可以先通过世界模型“想象”桌子会移动到哪里,以及如何避开障碍物。这个模型使AI能够更智能地在现实世界中行动,而不是简单地按照程序走一步看一步。
意味着,AI或人形机器人不需要每次做完一个动作后才知道结果,而是能提前想象出几种可能性,从中选择最好的行动,让人形机器人实现真正的自主自治性。
世界模型基本达成了人形机器人或AI达到AGI的首要第一步的共识。而最近AI教母李飞飞新创的World labs也正在为机器人开发者等公司提供大型世界模型的产品。

为什么人形机器人需要世界模型?

如果说用洞穴理论来比喻,LLMs就像是柏拉图的洞穴,看到的是盒子里不断演绎的影子。真实世界的信息和数据远比LLMs还大,而人形机器人要适应且自主在真实物理世界执行多任务,尤其是复杂任务,就需要从AI的“洞穴”走出来。维特根斯坦说,语言的边界即世界的边界。人形机器人能理解的边界在于能在现实世界走得多深——复杂、个性、不确定性、即时。学习、适应、自主显得无比重要。
图片

因此,要让人形机器人在复杂和动态环境中的自主性和适应性。世界模型不仅帮助机器人理解其周围的物理环境,还能使它们预测环境的变化,规划动作,并作出合理的决策。
人形机器人必须具备对周围环境的深刻理解才能有效执行任务。世界模型可以帮助机器人创建关于物理环境的内部表示,从而识别物体、障碍物、路径等。例如,在仓库中搬运物品时,机器人需要知道货架、商品以及其他机器人或人的位置,并在其中进行导航。
世界模型让人形机器人能够模拟未来的环境变化和行动后果。例如,当机器人移动物体时,它能预测这个物体将如何移动,或者当它需要避开障碍时,能提前规划最佳路径。预测能力是自主机器人处理未确定和动态环境的核心要素。
3. 适应性
随着任务和环境的变化,世界模型使人形机器人能够适应新的情境。例如,在同一个环境中,早上的任务可能是清洁,下午的任务可能是搬运。世界模型帮助机器人根据新的任务或突发情况(如新的障碍物)快速调整行动策略。
拥有世界模型的机器人可以通过过去的经验积累知识,提高未来任务的效率。这种学习机制依赖于它们对环境的动态理解和预测能力。例如,基于历史数据,机器人可以在反复执行的任务中不断优化自己的表现,减少错误或提高速度。
5. 与人类交互
在人形机器人与人类合作的场景中(如家庭护理或仓库工作),世界模型让人形机器人能够更好地理解人类的行为和需求,并相应调整自己的行动。例如,人形机器人可以预测人类的动作轨迹,避免碰撞,或在合适的时机递送工具。
6. 复杂任务的完成
一些任务需要跨多个步骤、多个情境下的连续操作。通过使用世界模型,人形机器人可以对任务中的每一步进行推理和规划。例如,装配任务可能涉及多种物体和工具的顺序操作,而世界模型帮助机器人保持对整个过程的全局理解。

1X的世界模型:即使没有提供操作,它也会生成合理的视频,让人形机器人自主避开人和障碍物

基于自动驾驶汽车视频生成和世界模型的进步,1X训练了一个世界模型,作为EVE、NEO人形机器人的虚拟模拟器。它们可以直接从原始传感器数据中学习模拟器,并使用它来评估我们在数百万个场景中的策略。通过直接从真实数据中学习模拟器,无需人工手动创建资产(数据)即可吸收现实世界的全部复杂性。
在过去的一年里,1X 收集了数千小时的 EVE 人形机器人数据,这些数据可以在家中和办公室执行各种移动操作任务,并与人互动。1X将视频和动作数据相结合,以训练一个世界模型,该模型可以通过观察和动作预测未来的视频。
我们快来下面的示例:

图片

图片

图片

图片

图片


所以,你可以理解NEO是这样工作的

通过以上EVE队伍的训练,构建的世界模型可以理解它就是NEO的大脑一样,它可以通过传感器数据不断学习并预测各种情境下的可能结果。这使得 NEO 可以像人类一样处理真实世界中的复杂任务。

图片

比如这个递鸡蛋的示例中:

女主人在厨房准备晚餐,而 NEO 在旁边帮助你:

- 步骤 1:感知环境:NEO 通过传感器看到你正忙于切菜,而台面上有一些食材和厨房用具。

- 步骤 2:理解任务:基于它对家庭场景的理解(世界模型),NEO 知道你可能需要随时拿一些鸡蛋或者其它食材。

- 步骤 3:预测并主动帮助:它可以预先判断你可能需要什么,比如看到你准备拿盘子或切菜,NEO 会提前准备拿捏鸡蛋,并递给你。

步骤 4:自主行动:如果你忙得没有注意到灶台上的锅已经开始冒烟,NEO 可以迅速行动,降低火力或提醒你锅可能要烧焦了。

在这个过程中,NEO 的世界模型能够帮助它从原始传感器数据中学习和适应家里的布局和任务要求,不需要你对它进行详细的手动指令或预先编程。它可以通过从真实数据中学习来处理各种家庭活动的复杂性,并通过模拟器测试多种可能的情境,做出最合适的决策。

图片



1X的世界模型优点很多:但还没有“自主意识”

从博文看,1X的世界模型可以帮助人形机器人做到动作可控性,也能完成一些长距任务,生成的视觉视频也能初步遵循物理定律,以及很重要的一点是它还没有自我识别和理解的能力,意味着人形机器人还不像人类一样,拥有镜像神经元,能模仿或理解对象的表情、情绪...做到感同身受。

1.动作可控性:保障一致性

该世界模型能够根据不同的动作命令生成不同的结果。下面1X展示了在四种不同轨迹上调节世界模型的不同世代,每一种轨迹都从相同的初始帧开始。与以前一样,在训练期间不包括显示的示例:
01.左门方向移动

图片

 02.右门方向移动

图片

03.弹奏空气吉他

图片


世界模型的主要价值来自模拟对象交互。在接下来的几代中,我们为模型提供相同的初始帧和三组不同的操作来抓取框。在每种情况下,被抓取的箱子都会根据抓手的运动被抬起和移动,而其他箱子则不受干扰。
图片

2.即使没有提供操作,世界模型也会生成合理的视频,例如了解驾驶时应避开人和障碍物:

图片

图片


3.长距任务:让人形机器人可连续任务执行

该世界模型还可以生成长视距视频。下面的示例模拟了完整的 T 恤折叠演示。T 恤和可变形物体往往很难在刚体模拟器中实现。

图片

3.初步的物理定律理解

左侧的生成表明,1X的世界模型对物理特性有初步的理解,当夹持器松开勺子时,勺子掉到桌子上就证明了这一点。然而,在很多情况下,几代人形机器人生成的视频都不符合物理定律,例如在右侧,盘子仍然悬浮在空中。

图片

图片

但是也有时候会出现一些故障,比如可能无法在交互过程中保持对象的形状和颜色,有时,对象可能会完全消失。此外,当对象被遮挡或以不利的角度显示时,它们的外观可能会在整个生成过程中变得扭曲。因此,仍然需要增强

图片

图片


以及在自我识别和理解测试上:还不具备类人的镜像反应


1X的测试员,把 EVE 放在镜子前,看看它是否会引发镜像的行为,但1X没有看到成功的认可或“自我理解”,意味着在该世界模型下,人形机器人还不能像人类一样具备镜像的自我“意识”。也许某天训练和学习到一定程度,人形机器人可以理解镜子中的自己。

图片

图片

1X提出的人形机器人世界模型的构建技术问题:

评估的重要性


训练人形机器人世界模型的方式有很多种,但往往忽略了训练方法的评估的重要性。1X在博文里提到,世界模型解决了在构建通用机器人时一个非常实用但经常被忽视的挑战:评估。如果你训练机器人执行 1000 项独特任务,则很难知道与以前的模型相比,新模型是否使机器人在所有 1000 项任务中都做得更好。由于环境背景或环境照明的细微变化,即使是相同的模型权重也可能在几天内出现性能快速下降。比如他们训练的一个 T 恤折叠模型示例,该模型在 50 天内性能下降。
图片
训练的一个 T 恤折叠模型示例,该模型在 50 天内性能下降。



1X认为:要到达人形机器人的ChatGPT时刻
首先建立它的 “扩展法则”

1X在研究和测试中发现,如果环境随着时间的推移而不断变化,那么在该环境中进行的旧实验将不再可重现,因为旧环境已不复存在!如果您在家庭或办公室等不断变化的环境中评估多任务系统,则此问题会变得更糟。这使得现实世界中仔细的机器人科学变得非常困难。
仔细衡量能力可以预测当增加数据、计算和模型大小时能力将如何扩展——这些“扩展法则(scaling laws)”为对 ChatGPT 等通用 AI 系统的巨大投资辩护。如果机器人技术要有它的 “ChatGPT 时刻”,我们必须首先建立它的 “扩展法则”。
与此同时,1X也发现,许多评估和训练方法具有一定有用性,但缺乏现实世界用例的多样性
比如他提到其它基于物理的模拟(Bullet、Mujoco、Isaac Sim、Drake)是快速测试机器人策略的合理方法。它们是可重置和可重现的,使研究人员能够仔细比较不同的控制算法。但是,这些模拟器大多是为刚体动力学而设计的,需要大量的手动资产创作。如何模拟机器人手打开装有咖啡过滤器的纸板箱、用刀切水果、拧开冷冻的蜜饯罐或与其他智能代理(如人类)交互?
众所周知,家庭环境中遇到的日常物体和动物很难模拟,因此机器人技术中使用的模拟环境在视觉上往往是无杂质的,并且缺乏现实世界用例的多样性。对 real 或 sim 中有限数量的任务进行小规模评估并不能预测现实世界中的大规模评估。

后记:世界模型是人形机器人真正深入人类世界的里程碑
1X 发布其“世界模型”是增强人形机器人导航和与复杂环境交互能力的重要里程碑。世界模型为人形机器人提供了对周围物理和社会动态的深刻理解。该模型允许机器人根据想象的动作预测可能的未来状态,帮助它们在现实场景中做出更智能、更安全的决策。
配备世界模型的人形机器人 NEO 和 EVE将不再仅仅依赖反应行为;相反,它们将使用预测性学习来随着时间的推移提高其性能。这些机器人旨在在受控工厂环境之外的环境中自主工作,例如家庭和公共场所。借助此模型,机器人可以预测变化、适应新任务,并在动态、非结构化环境中更好地与人类协作
此功能符合 1X 更广泛的使命,即创造安全、智能的机器人,以解决劳动力短缺问题并执行以前仅限于人类的任务。世界模型的整合是这一愿景的关键组成部分,使人形机器人能够在不可预测的环境中有效运行,同时保持安全性和效率。
 
引用来源:https://www.1x.tech/discover/1x-world-model