Everyday Robots关停后,谷歌用机器人做了一件大事

今年2月25日,国外科技媒体Wired曝出Google母公司Alphabet关停了Everyday Robots这个独立项目,让全球机器人研发者扼腕叹息。
当时外媒有消息认为这是Alphabet的成本控制而导致的一场悲剧。随着Alphabet在今年1月份“开源节流”陆续裁减了约12000名雇员,机器人部门毫无疑问也难以幸免于难。
Everyday Robots项目于2019年成立,一经启动就引起轰动,该项目专注于为家庭和办公室环境制造机器人助手,目标是制造一种能包括倒垃圾、清洁桌子,以及能服务人类的机器人。
但由于Everyday Robots这种带手臂的服务机器人制造难度不小、利润也不高,而且非结构化和不可预测的环境一直导致技术难以进步,买家极其受限,被许多人视作为内部裁员的牺牲品。
十年前,在Andy Rubin领导下,Google开始了一场机器人收购狂潮,收购了波士顿动力公司等众多公司。然而,Everyday Robots的关停,一切似乎都成了一场泡影。
直到7月28日,Google发布了一系列AI领域的最新成果,包括AI机器人模型Robotics Transformer 2(RT-2)和作为视觉-语言-动作(vision-language-action,VLA)模型,人们惊喜地发现,Everyday Robots的服务机器人随之再次亮相,并展示了更多的可能性。
图片
▍通用性机器人的实现路径
Everyday Robots关停后续结果可能很少人关注,其实很快该项目的部分核心员工和技术被并在了Alphabet内部的Google Research,目的是进一步在机器人上引入大型语言模型,让机器人可以更流畅回应指令。
用于研究而非商业化,这似乎才回到了Everyday Robots项目的原点。
当然,谷歌这次发布会的主角并不是Everyday Robots机器人,而是RT-2和VLA模型。
按照DeepMind透出的消息,这是将VLA模型作为基础,接入到Everyday Robots机器人实体上,从而形成了一种新的机器人模型RT-2,实现与现实世界的互动。
图片
根据DeepMind的示例展示,RT-2模型的主要应用场景是集成在实体机器人,使其可以像人类那样思考、推理去执行各种动作任务,就像实体机器人版ChatGPT。
RT-2主要有三种能力:符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition)。
依靠这些能力,全新的Everyday Robots服务机器人可以理解“捡起即将从桌子上掉下来的袋子”或“把香蕉移到2加1的和的标志那里”这样的复杂随机性命令,并快速实现轨迹规划以及实际动作。
图片
这两者组成了Everyday Robots新的智能化内核,相当于给了机器人一个大脑,使得机器人变得更加聪明,并赋予它们新的理解、思考和解决问题的能力。
其实早在2021年,谷歌就尝试将一个轻量级和高效版本的大模型搭载在Everyday Robots的这个单臂、轮式服务机器人上,他们制造了100多台开始在Google的办公室进行测试,并在2022年让它们处理自然语言指令。
当时这种合作就很明显存在几个问题,首先是这种跨部门的合作都属于“X计划”的一部分,旨在专门测试新技术和想法,但是这种跨部门的合作经费问题一直没有得到解决,导致双方一致貌合神离。这点相信很多业内人士也都深有体会。
其次是关于通向“general-purpose learning robot”的技术路线争执一直存在。按照当时首席机器人官Hans Peter Brndmo的说法,该团队的目标是创造能够自主学习的通用机器人,从而消除在特定条件下为特定任务一次又一次地编程的需要。
由于Everyday Robots考虑未来要做消费级产品,所以采取的主要是以视觉+传感器以及3D模拟的虚拟仿真+深度学习低成本路径,目标是不断优化机械结构和场景算法鲁棒性。而Google X则更倾向于将其主要实验新的大模型,快速创造能适应更为复杂环境的自主机器人。
虽然路线有所不同,但在2022年4月,在Everyday Robots上实践发布的PaLM-SayCan还是展现出了非常不错的潜力,这个有着5400亿参数的语言模型能让机器人执行16个步骤的复杂任务。然而当时Hans Peter Brndmo认为,“依靠这种大模型的路径,成熟的产品可能还需要几年的时间,让我们还有很长的路要走。”
图片
在2022年已经并非只有谷歌一家公司在进行创造能适应复杂环境机器人的尝试,由于2022年11月ChatGPT等生成式AI开始爆火,谷歌开始重新考虑整个研究计划。2022年12月,Google Research开始牵头整个项目,发布了Transformer RT-1(RT-1),在包含130K个eposode的数据集上训练部分机器人。
有外媒认为,在英伟达和Facebook等公司的压力下,谷歌一直试图加速这项研究,结果不言而喻,Everyday Robots项目很快关停,然后进行了人员和团队的重组,开始由Google Research来牵头这个具有潜力的项目。
▍机器人+AI的探索实践
如今谷歌推出的VLM被认为是最有望取代类似ChatGPT的大语言模型的一种,这种多模态混合模型让人工智能有了借助机器人进入到现实空间的可能性。
在2016 年时,Everyday Robots机器人在实验室里需要花四个月的机器学习时间,才能以 75% 的成功率办到简单捡起小东西或简单家事。经过后续学习,到2021年达到在一天训练后能以90%的成功率完成筛选垃圾等任务。
其中的重点就是在于他们利用快速虚拟仿真训练+机器学习算法,配合硬件从而通过试错模拟来训练机器人达到预期目标,强化了机器人对于环境的适应性,准确完成清洁桌子、分发饮料、分类和回收垃圾等不同类型的简单任务,并在此基础上不断优化。
图片
简单来说EverydayRobots在现实世界中练习之前,会先在3D模拟中练习擦桌子,然后优化动作,这种方法可以大幅缩短训练机器人的时间,快速切入到具体场景中。
如今,这个多任务模型RT-1进化而来的RT-2可以说有了更好泛化理解和动作能力,它能够从网络、机器人的数据中学习,能够自己解释全新的命令,还能根据物体或场景将这些知识自主转化为有效的指令,执行基本推理来操作任务。
简单来说,RT-2在现实中遇到任务时,可以自己从网上找到类似的图,然后去匹配场景和动作,输出机器人动作。这意味着类人机器人能够实现一种“很基础”的能力,例如了解苹果在环境中的形状、其物理特性、生长过程以及球和水果之间的区别。
图片
准确性却一直是此类生成式AI存在较大的问题。
虽然这套大模型的方案能通过网络上投喂信息和图像,能训练机器人执行响应的动作,这使得机器人变得更加聪明,并赋予它们新的自主理解和解决问题的能力,但也导致机器人动作的准确率还是有待提升。
在6000多次测试RT-2 模型的机器人试验后,谷歌的团队发现,面对训练数据中已有的任务、或者说“见过”的任务,RT-2和它的前代RT-1没有差别。而在新颖的、之前从未见过的随机性任务情形中,RT-2的性能几乎提高一倍,远超RT-1的32%,成功率达到62%。
图片
可见虽然无需大量的数据预处理以及标注,但大量的信息筛选和区分也是机器人+大模型目前面临的较大挑战。
通过RT-2,机器人未来或许能像人类一样学习更多内容,将学到的概念应用于全新的情境中,然而有时候面对物体丰富的类别和高层次的复杂描述,推理依然会搞错。
这是目前大模型与机器人结合后遇到的较大瓶颈。
图片
▍结语与未来
谷歌 DeepMind 机器人主管 Vincent Vanhoucke表示:“RT-2 不仅展示了人工智能的进步如何迅速融入机器人技术,而且还展示了更多通用机器人的巨大前景。机器人没有明确地接受过确切步骤的训练,却能通过 RT-2 学会完成新的任务。”
但在外媒的采访中,谷歌表示,目前没有立即计划大规模发布或者出售应用RT-2的机器人,最终,这些机器人可能依然会像Everyday Robots当初一样,最终可能用在仓库或者用作家庭助理。
图片
更多声音认为RT-2 模型只是一种新瓶装旧酒的噱头。
因为机器人的灵巧程度仍达不到人类的水平,在一些基本任务上也表现不佳,所以虽然谷歌利用人工智能语言模型赋予了机器人新的推理和即兴创作技能,但按照这个准确性,最后的结果也可能只是在文艺等领域有所创新。
你怎么看到谷歌的这次发布行为?欢迎评论区留言讨论