今年以来,人形机器人的出现频率有点高。
7月份在上海举办的世界人工智能大会上,大会场馆入口展出了来自国内15家企业和单位的人形机器人“方阵”。紧接着,8 月份世界机器人大会来到北京,有媒体统计这次展会上光人形机器人就达到了27款。
与展会上的“热闹”呼应的是资本市场的青睐。根据钛媒体App不完全统计, 2024年上半年,国内人形机器人投融资事件超过10起,融资总金额超过20亿元。像宇树科技、智元机器人、星动纪元、星海图、帕西尼感知、星尘智能等初创公司都更新了融资进度。
当钛媒体App就这一现象向地瓜机器人CEO王丛提问时,他也感叹到,人形机器人这么复杂的东西,一年之内能出现20多家公司,火爆程度无需多言。但他更倾向于用“苗头”来形容当前行业的状态,毕竟仍有很多亟待解决的难题,大规模爆发还需要更多的等待。
人形机器人在2030年有望迎来“智驾时刻”
地瓜机器人源于地平线的机器人事业部,今年年初从地平线分拆独立。王丛也在机器人领域工作多年,多年的观察和实践下,对机器人发展也有着自己的判断。
机器人的形态有很多,自动驾驶汽车就可以看作是一种高级别的智能机器人,两者之间,本就同根同源,都是通过摄像头、雷达等传感器感知周边环境信息,并经过GPU、NPG或BPU等完成感知识别、决策规划等,并最终输出控制指令。
区别在于,自动驾驶系统应用的场景就是出行,所需操控的主要就是方向盘、油门、刹车。而机器人根据用途划分,形态各异,能够应用的场景也更加多样。单就市场上较为成熟的机器人的形态来看,就可分为家用扫地机、割草机,商用的清洁机器人、仓储和物流机器人等。而人形机器人,通过搭配机械臂、轮足等,自由度更高,应用场景会更为广泛。
人形机器人之所以会成为风口,王丛对钛媒体App总结说主要有两点因素的推动。
首先,大模型催化具身智能概念的风靡。
如果说2022年9月,特斯拉Optimus全球首秀,掀起了如今这波人形机器人热潮。那么,真正将人形机器人这波浪潮推向高潮的还有另一个关键因素——2022年11月ChatGPT的发布。“大模型的泛化能力,也为具身智能机器人赋予了很大的发挥空间。”
人形机器人相关技术可以分成三部分:大脑、小脑和本体。在人形机器人语境下,大模型等同于“大脑”。所谓泛化能力,意味着模型能够适应各种不同的数据分布,而不仅仅是在训练时见过的样本。通俗来讲,泛化能力的高低决定了人形机器人“举一反三”的能力。
其次,美国人形机器人产品的火热起到了标杆作用,进而带动了中国二级市场上市公司和一级市场创业公司的参与。
王丛表示,“具身智能现在的时间点很像2016、2017年自动驾驶发展的状态”。当时深度学习刚刚爆发,各种图像检测、分割算法频频刷榜,各种资本不断涌入,产学研各界人才纷纷聚集到各种自动驾驶大小公司,有的从L4切入,也有的从L2做起。
6、7年后的今天,虽然自动驾驶还没有达到100分的状态,但至少已经发展到了“体验到、买得起的状态”。王丛判断,综合技术、人才、资本等维度来看,机器人的发展也有望经过6~7年发展,在2030年迎来自己的“智驾时刻”。
因此,地瓜机器人也并非全部押注在具身智能人形机器人上,而是选择面向机器人的全场景应用,提供从端侧智能计算芯片、开发者套件,到云侧开发环境和算法中心的整体解决方案。
比如,针对比较成熟的扫地机、割草机等相对成熟的领域,地瓜机器人会通过旭日5智能计算芯片来与大企业合作,打造面向消费级的机器人产品,通过规模化来形成商业闭环。
同时,RDK系列则面向个人开发者和中小创客领域,探索更加多样化的机器人产品,培育机器人的整个开发生态。最新的RDK X5便是基于旭日5的开发者套件,除了开发板硬件还配套大模型辅助开发工具、200+开源算法和应用程序等软件,方便开发者快速进行算法和应用部署。
车厂,或成为人形机器人的“试炼场”
从这几年人形机器人的发展来看,主要经历了两个阶段:
第一个是从0到1的阶段,主要以秀技术为主,多被用于教育科研、展览展示、开发者比赛等。
而现在则处于第二阶段,清华大学副教授周谷越表示,具身智能已经迈过了从0到1的阶段,处于从1到100的状态。“已经有人说证明这件事可行了,然后大家都在这里面尝试不同的方法。”
在目前人形机器人尝试进入的诸多场景中,工业制造是人形机器人企业最关注的落地应用之一,尤其是在汽车工厂。
2021年AI Day上,马斯克发布了特斯拉的人形机器人计划。时隔一年,在2022年9月的AI Day上,人形机器人Optimus(擎天柱)正式亮相。当时马斯克就提出,未来的Optimus将会到特斯拉工厂内打工,包括搬运、用扳手给汽车安装螺栓等。
今年5月,特斯拉特别发布了一段关于Optimus二代的新视频。在视频中,Optimus二代从传送带上拾取4680电池芯,并将它们精确地插入之前由专用机器处理的托盘中。同时,背景中还有约10台人形机器人分别在进行物品摆放、衣物折叠等操作。
在国内,今年2月,优必选也发布了工业机器人Walker S在蔚来合肥基地总装车间的视频。视频中,Walker S在汽车工厂流水线上,可以进行门锁质检、车灯盖、板检测、安全带检测、贴车标等工作,覆盖多个生产环节,同时还能与人类员工互相配合,完成汽车装配及质量检查作业。7月初, Walker S 还进入到极氪5G智慧工厂,在CTU入库上料工位协同员工执行搬运任务。
为什么汽车制造业是人形机器人的试炼场?
王丛对钛媒体App解释说,一方面,对比户外、家庭、商超等复杂场景,工厂环境相对稳定、简单,数据充足,更适合人形机器人早期发展;另一方面,从产业链分析,汽车制造和机器人的技术原理有很多类似之处,因此,汽车制造也更容易向下兼容到人形机器人领域。
他还引用手机产业链的发展作为类比,手机产业大起来后,培养了很多人才,供应链也随之成熟,之后很多淘汰的手机芯片放到了IoT上,等于手机作为一个优先级最高的东西孵化了IoT。同样的道理,汽车需要一个大算力、高复杂度的芯片,算法上也是感知控制,也是多个摄像头,多传感器融合,在某种程度上和人形机器人类似。
然而,人形机器人要想在汽车工厂发挥真正的能力,还有诸多问题要解决。
首先从人形机器人本身来说,当前面临的两大难点:一是机器人目前的软件端,适合机器人的通用大模型和垂直专业模型,还在攻坚阶段;此外,硬件想要达到“灵巧”的程度无论是从技术上还是成本上都有难点。
在王丛看来,现在人形机器人还处于一个相对没有收敛的状态。“人形机器人的本体各家有各家的玩法,算法也各有各的玩法,比如有用仿真的,有用生成方式,有用Imitation Learning(模仿学习)的,有用Learning from video的。而不同的技术路线会导致数据采集的方式出现很大不同,再加上里面又耦合了硬件设计,硬件不一样也会导致数据采集的标准不一样。”
不过,他也认为,任何一个行业,但凡是处在即将爆发的阶段都会呈现一种很发散的状态。“说不清楚哪个对,但每个点都值得去尝试,这些点可能在试过一些链路之后才会出现一个相对普通的路径。”
其次,虽然汽车和人形机器人有相似之处,但从细节来看仍存在差异,而差异便是挑战之处。
从硬件本身来讲,汽车的形态已经一百年没有变化,它的控制单元很少,比如方向盘、刹车、油门。但机器人的各种动作繁多,任何一个自由度都是一种控制,比如特斯拉人形机器人第一代单手拥有 6 个自由度,第二代增加到 11 个自由度。更何况,不同厂家的人形机器人控制单元并不统一,光人形机器人的一个手,就可以做成灵巧手或者夹爪样式。此外,机械臂的轴也不确定,这都会带来很多技术上以及算法上的难点。
王丛总结说,目前人形机器人在汽车工厂最具挑战的部分在于:针对每一种单一的任务,都有一种专用的设备,但在多任务模式下,目前人形机器人的泛化能力还有待提升。
比如,在固定场景下训练“抓”这个动作,“反复学个1亿次,一定能学会”。但如果学习更复杂的动作,比如打开杯子,就得需要重新训练。
至于何时人形机器人才会在工厂发挥更大作用,王丛表示,未来谁能把泛化任务的能力做出来,哪怕一个人形机器人就做两三种任务,但是确实能让工厂真的节省成本,工厂才真的会买单。
就在近期举办的开发者日活动上,地瓜机器人推出了面向具身智能全场景的算力核心RDK S100。百TOPs的算力水平几乎看齐当前的高阶智驾,而且在核心架构上也采用专为大参数Transformer模型优化的BPU纳什架构,为具身智能的各种大参数模型,打好硬件基础。
但要真正解决技术路径不够统一和任务泛化难题,显然不是地瓜机器人一己之力所能够解决。在推出RDK S100的同时,地瓜机器人还宣布,星动纪元、逐际动力、求之科技、睿尔曼、国讯芯微将率先搭载。有了这些一线玩家的强力支持,或许能够更快地让人形机器人找到属于自己的“第一份工作”。
智能化才是这波最大的红利
在2024 All-In峰会上,特斯拉CEO马斯克接受访谈时谈到了对人形机器人的愿景:它能当你的伙伴,就像《星球大战》里R2-D2以及C-3PO的结合体。它能带你的步,能除草,还能给你的孩子洗澡,教育你的孩子等等。并且他还预测,未来机器人的数量将远超人类,达到2:1至3:1的比例,成为人类生活中不可或缺的伙伴与助手。
当然,人形机器人距离马斯克预想那般真正进入千家万户还需要相当长的时间。王丛提到了一个观点:很多时候一个东西最终到老百姓消费使用之前,一定会经历特定行业、特定场景、限制功能一系列过程,才会进入到千家万户。而在特定的场景当中,“就像达尔文进化论一样,有的生物是长翅膀的,有的是长腿的,其实很多场景没必要都用一个本体结构去做,目光也不要仅仅局限在‘人形’上,智能化是这波热潮最大的红利。”
(本文首发于钛媒体App,作者|韩敬娴,编辑|张敏)