封面:NEO人形机器人
CyberRobo:
1X NEO有了大脑
什么是世界模型?
感知 (Perception):这个模块从外部世界接收信息(“感知”),并估计当前世界的状态,告诉AI现在发生了什么。
世界模型 (World Model):它预测未来可能发生的情况,基于AI内部想象的动作,即推测AI采取某种行动后,世界会怎样变化。比如,如果AI决定移动一个物体,它可以预测这个物体会移动到哪里。
演员 (Actor):这是AI执行动作的部分。它接收世界模型和感知模块的信息,决定要采取什么行动。
短期记忆 (Short-term Memory):这个模块跟踪当前和预测的世界状态,并记录与之相关的“内在成本”(行动的潜在后果)。
批评家 (Critic):它是可以训练的模块,预测未来的内在成本。也就是帮助AI学习,判断某个行为的好坏。
配置器 (Configurator):负责设定规则,告诉演员应该怎么去行动,确保AI做出合适的决策。
为什么人形机器人需要世界模型?
1X的世界模型:即使没有提供操作,它也会生成合理的视频,让人形机器人自主避开人和障碍物
通过以上EVE队伍的训练,构建的世界模型可以理解它就是NEO的大脑一样,它可以通过传感器数据不断学习并预测各种情境下的可能结果。这使得 NEO 可以像人类一样处理真实世界中的复杂任务。
比如这个递鸡蛋的示例中:
女主人在厨房准备晚餐,而 NEO 在旁边帮助你:
- 步骤 1:感知环境:NEO 通过传感器看到你正忙于切菜,而台面上有一些食材和厨房用具。
- 步骤 2:理解任务:基于它对家庭场景的理解(世界模型),NEO 知道你可能需要随时拿一些鸡蛋或者其它食材。
- 步骤 3:预测并主动帮助:它可以预先判断你可能需要什么,比如看到你准备拿盘子或切菜,NEO 会提前准备拿捏鸡蛋,并递给你。
步骤 4:自主行动:如果你忙得没有注意到灶台上的锅已经开始冒烟,NEO 可以迅速行动,降低火力或提醒你锅可能要烧焦了。
在这个过程中,NEO 的世界模型能够帮助它从原始传感器数据中学习和适应家里的布局和任务要求,不需要你对它进行详细的手动指令或预先编程。它可以通过从真实数据中学习来处理各种家庭活动的复杂性,并通过模拟器测试多种可能的情境,做出最合适的决策。
1X的世界模型优点很多:但还没有“自主意识”
1.动作可控性:保障一致性
3.长距任务:让人形机器人可连续任务执行
3.初步的物理定律理解
以及在自我识别和理解测试上:还不具备类人的镜像反应
1X提出的人形机器人世界模型的构建技术问题:
评估的重要性
评估的重要性