“我现在停车了,因为排头那辆车也停了。”
“前面畅通无阻,咱们加速就行了。”
做个驾驶动作还要给你解释一句,是不是让你回想起了科目三前被驾校教练支配的恐惧?
其实开头两句话全部来自AI,是自动驾驶模型LINGO-1在行车时生成的,LINGO-1将自然语言引入自动驾驶模型提高了模型的可解释性。
开发团队来自英国初创公司Wayve,创始人为剑桥大学机器学习博士,今年3月比尔·盖茨曾试乘过过Wayve的自动驾驶汽车。
△比尔盖茨与Wayve创始人
那么LINGO-1具体都能做什么?都有哪些好处?
LINGO-1能做什么
LINGO-1主要能实现行车解说和视觉问答两大功能。
首先是行车解说,当LINGO-1在操控车辆时,其会用语言描述自己的驾驶行为并对自己的决策做出解释。
比如上图中,LINGO-1要驾驶车辆超过一辆停靠在路边的车时,先后输出文字:
由于交通堵塞,我正在缓慢靠近
我正在超越一辆停在路边的车
我正在加速,因为前面道路畅通无阻
除了车辆这种庞大障碍物,还能够识别地面标识,比如斑马线。
可以从图中看到依然会做出解释:
因为道路仍然畅通,所以保持匀速
正在减速制动,停在了斑马线前
起步后道路畅通,加速
在路口这种复杂场景也是“停不下嘴”:
我停车了,因为领头车辆停了
我在加速,遇到路口了,刹车
车道恢复畅通,按照路线左转
同时还有问答功能,你可以像在驾校问教练那样向他提出各种驾驶场景的问题,来评估该模型的场景理解能力和推理能力。
如在下图中,可以询问LINGO-1在该十字路口正在注意什么。LINGO-1说自己看到红灯了所以停车了。
接着又向其询问你停车时最注意的三件事物是什么,模型解释自己最关注的是信号灯、停在前面骑自行车的人和要过马路的行人。
此外还可以询问天气对驾驶的影响:
可以看到LINGO-1能识别出雨天,并称由于下雨了自己会开的更小心些。
并坦承“我无法预测雨什么时候会停。”
通过演示,相信你已经明白了LINGO-1与其他自动驾驶模型的最大不同——
LINGO-1会解释。
LINGO-1输出的文字并不同于普通的聊天机器人,都是在解释“为什么这个场景我会做这样的驾驶操作”。
虽然也能问答,但全都是根据驾驶场景做出的理解。
Wayve将LINGO-1称作VLAM(视觉-语言-动作模型),最大的创新之处在于将自然语言引入了自动驾驶。
不久前,马斯克在直播FSD V12时接管了一次车辆,因为车辆在过路口时程序没有做出正确识别,路灯显示可以左转,结果车辆却启动直行。
马斯克之后表示解决问题的办法是回去“喂更多左转红绿灯的视频数据”。
而在LINGO-1的训练过程中虽然也有“视频数据”,但同时还有很多老司机的“语音包”。
Wayve在训练LINGO-1模型时请来了很多专业司机,其中有一部分就是驾校教练,Wayve要求他们在驾驶测试车辆做操作的同时大声说话,解释自己为什么这么做。
这才有了开头大家熟悉的一幕。
LINGO-1的出现,使得自动驾驶由过去的“感知->驾驶操作”的逻辑变为“感知->文本推断->驾驶操作”。
这样有什么好处呢?
有什么好处
主要是两个方面:提高模型的可解释性和加快模型完善自身。
首先最大的好处是提高了模型的可解释性。
自动驾驶是基于神经网络的程序,而神经网络长期以来都是一个“黑箱”,即人们知道神经网络可以做哪些事,可以通过调整参数来提高神经网络的效率和准确率。
但是很难解释背后具体的原因,不了解为什么程序会这么做。
而信任往往来自了解,LINGO-1在做出操作时会解释自己的行为,因为这个场景里有什么所以LINGO-1做出了这些操作。这有助于提高人们对自动驾驶的信任。
加快模型完善可以从发现问题和加速训练两个角度来看。
LINGO-1引入自然语言处理有助于定位自动驾驶模型的问题,加快完善模型。
如果自动驾驶的模型出现问题,很难像过去开发程序那样一行行的“Debug”,定位问题具体出现在哪行代码。
只能是发现“识别左转路灯”有问题,那就回去喂对应数据。
LINGO-1犯错了可以根据驾驶场景让它自己解释,假设同样过路口,本来路灯显示左转结果它控制车辆直行,那么可以根据它的解释“为什么我会直行”来更精确判断问题。
最后是自动驾驶落地无法绕开的“边缘场景”问题,“边缘场景”无穷无尽,总会有自动驾驶没有遇到过的场景,只能后续通过“喂数据”完善。
LINGO-1还可以想象训练数据中没有发生过的场景,然后推断怎样正确处理。
当然,它有了自己的推断后还是会形成文字输出,可以判断它做的是否正确。
这让模型能够接触更多的“边缘场景”,而不只是等现实慢慢收集。
开发团队简介
Wayve成立于2017年,投资方有微软等,估值已经达到了独角兽。
创始人为现任CEO亚历克斯·肯德尔和艾玛尔·沙(公司官网领导层页已无其信息) ,两人都是来自剑桥大学的机器学习博士。
△Wayve CEO亚历克斯·肯德尔
技术路线上,和特斯拉一样,Wayve主张利用摄像头的纯视觉方案,很早就抛弃高精地图,坚定的走“即时感知”路线。
此前曾发布过GAIA-1模型,可以输入视频、文本和动作生成逼真的驾驶视频。
可能也正是借助这项技术,LINGO-1能够想象没有遇到过的驾驶场景。
尽管目前来看LINGO-1还有很大局限性,官方承认和人类司机相比验证正确率是60%(如上图),但是已经有技术大牛对此给予肯定,比如英伟达高级AI科学家Jim Fan博士,称其为“一段时间来在自动驾驶领域读到最有趣的工作”。
— 完 —
【智能车参考】原创内容,未经账号授权,禁止随意转载。