40小时学习后可复刻人类动作,全新人形机器人研究平台HumanPlus亮相

斯坦福大学研究人员近日发表了一篇新的论文,该论文尝试研究了人形机器人对于人类活动的模拟和复现,最终使得人形机器人可以模仿人类的行为并进行强化学习,这使其有望最终可以通过模仿人类动作来自主、快速掌握弹钢琴、回击乒乓球、折叠衣服等工作,并实现初步的任务泛化。
图片
斯坦福大学团队成员符梓鹏(Zipeng Fu)14 日在其个人 YouTube 频道上发布了数个演示视频,展示了其诸多方面的“学习能力”。傅子鹏是斯坦福大学 AI 实验室的计算机科学博士生,师从 Chelsea Finn,符梓鹏也是前段时间斯坦福开源的 Mobile ALOHA 全能家务机器人三个项目共同负责人之一。
该研究中,团队主要开发了一个全栈系统Shadowing 系统,这个系统的核心特点在于帮助HumanPlus人形平台提示学习能力,它并不依赖于复杂的编程或预设算法来执行任务,而是能通过ACT观察人类的行为并进行模仿学习,通过强化学习在仿真环境中训练低级策略优化机器人运动策略,这种方法极大地简化了机器人的学习过程,并使机器人能够适应更多样化的任务。
图片
图片
图片
人类操作员只需要站在HumanPlus人形机器人平台附近,借助面前的动作捕捉系统,就能将他们的实时全身运动实时投射到人形机器人上,并可以使用目距观察人形机器人的环境和行为,确保远程操作系统时延并及时记录,帮助人形机器人从人类数据中学习运动和自主技能。
研究人员指出,HumanPlus需要大约40个小时的人类运动数据来学习一项新任务,然后就可以将这一策略迁移到现实世界中,同时允许人形机器人仅使用RGB相机实时跟踪人体和手部运动。
通过 Shadowing,人类操作员可以首先远程操作人形机器人来收集全身数据,同时基于收集到的数据进行有监督的行为克隆,使用以自我为中心的视角来训练机器人的技能策略,使人形机器人能够通过模仿人类的技能学习完成不同任务。
图片
一旦学习掌握了这些动作,HumanPlus就有望能够自主地执行相同任务,同时在现实世界中学习不同的任务。这种做法为各种现实场景任务提供了一条高效的数据收集管道,从而减少了模拟环境中真实 RGB 渲染、精确软体对象模拟和多样化任务规范的挑战。研究团队表示,HumanPlus能自主完成穿鞋站立行走、从仓库货架上拿物品、折叠运动衫、重新摆放物品、打字、打招呼等任务,成功率达60%-100%,基本达到商业部署的门槛,未来还有着一定的提升空间。
HumanPlus以中国公司Unitree(宇树)的H1 机器人平台为基础,最终成品身高为 5.75 英尺(约 175.26 厘米),拥有33个自由度的活动能力,通过定制手腕连接,其中每个手腕配有一个 Dynamixel 伺服电机和两个推力轴承。手和手腕均通过串行通信控制。机器人头部安装了两个Razer Kiyo Pro的RGB 网络摄像头,可以向下倾斜 50°,双目视距为160 mm。手指可以施加高达10 N的力,而手臂可以举起重达7.5KG的物品,腿部的电机在操作过程中可以产生高达360Nm的瞬时扭矩。
在研究中,得益于人体部分和手部动作能使用 SMPL-X 模型进行参数化,为了重定向身体姿态,研究人员可以将 SMPL-X 对应的欧拉角复制到类人模型中,即髋部、膝盖、脚踝、躯干、肩膀和肘部。机器人的每个髋部和肩部关节由3个正交旋转关节组成,因此可以视为一个球形关节。机器人的手指有6个自由度:每个食指、中指、无名指和小指各1个自由度,大拇指2个自由度,为了重定向手部姿势,他们还使用中间关节的旋转来映射每个手指的对应欧拉角,并且通过使用前臂和手的全局方向之间的相对旋转,计算 1 自由度的手腕角度。
图片
图片
就硬件而言,有网友猜测,价格和功能性是继续选择中国产品的关键原因。由于2018年以来,例如宇树等公司就开启了出海历程,参加各类展会并投放广告,这使其获得了海外例如斯坦福大学等各类高校的广泛关注,加之国产产品性价比在全球一众人形产品中有着较强的市场竞争力,对于高校预算不高的团队非常合适。有机构猜测,2022-2023年宇树公司的人形机器人出货量超过100台,其中有半数出海。
符梓鹏等在2021年《腿式机器人导航中的视觉与视觉耦合》实验论文中就曾采用了宇树A1四足机器人,并且,根据符梓鹏在社交平台的动态,他在8个月前于斯坦福大学还曾接待了宇树,他当时上传的视频中的人形机器人疑为宇树H1,这款机器人设计由于采用了开源模式,用户未来可以根据自身需求自定义其功能,对于开发者来说相当友好。
就成本而言,根据团队分享的内容粗略估算,他们制造机器人的成本约为107945 美元(78.5 万元)。其中,宇树科技Unitree H1机器人平台8.99万美元、因时机器人的RH56DFX灵巧手8519美元,这两者的价值合计接近10万美元,占了HumanPlus硬件成本的大头。
图片
就验证特性而言,因为H1完成度很高,搭载的NVIDIA RTX4090 GPU,身体姿势估计和重定向可以用每秒 25 帧的速度高速运行,团队加了一个单个 RGB 摄像头就能实时估计人体和手部姿态,并将人体姿态重定向为类人目标姿态,在人形机器人本体输入感知和目标姿态,快速解耦建模,通过低级策略Humanoid Shadowing Transformer制定为仅解码器的Transformer,并根据人形机器人身体关节的19个自由度关节位置设定点,通过1000Hz的PD控制器转换为扭矩。
值得一提的是,这次斯坦福团队继续公布了论文、机器人材料清单、数据集以及代码。正如 Tony Z. Zhao 所提到,这是唯一一篇完全开源的论文,虽然我们处在一个前沿的研究时代,但充满了闭源、竞争等其他因素的限制,这个领域需要更多开放的科学,而不是酷炫的演示。希望研发者能为公众利益推动现实世界机器人领域的研究,希望吸引更多的人从事机器人的研究,以解决非常多尚未解决的科学和工程难题。
论文地址:https://humanoid-ai.github.io/
论文标题:HumanPlus: Humanoid Shadowing and Imitation from Humans