三人谈|端到端:唯一路线?终局?

全文5587字,阅读约需16分钟,帮我划重点

划重点

01近年来,乘用车智驾领域“端到端”技术备受关注,多家车企和智驾供应商推出相关车型。

02然而,专家表示“端到端”并非唯一路线,适合高端车型,价格15万元以下的乘用车不适合完全采用“端到端”技术。

03专家认为,端到端技术的优势是用户体验上限高,但所需资源也相应更多,更适合注重用户体验的高端产品。

04除此之外,端到端技术面临诸多挑战,如数据要求高、算力难题、可解释性难题等。

05在轩辕奖评测中,测试团队将关注系统的安全性、舒适性和人机交互友好程度,以及复杂场景下的表现。

以上内容由腾讯混元大模型生成,仅供参考

图片

撰文 / 王 剑

编辑 / 轩辕奖执委会

设计 / 师瑜超

我们为什么要关注“端到端”?

据轩辕奖执委会统计,在最近4个月(20240517-20240919),至少14款搭载“端到端”技术的车型在中国市场推出(含OTA更新),截止今年年底,还会有4款车型推出。另外,布局此项技术的车企或智驾供应商6家以上。

图片

随之,能看到一系列他们争夺“领先”的宣传——“行业首发、业内首个、全球唯二”;以及对“端到端”智驾体验的描述——“类人、拟人、超人”;还有技术路线的不同——两段式、一段式可解释、一段式不可解释。

正如上图所示,主流车企+智驾供应商已经推出相关车型,第二梯队的企业也有布局。另外,从近期第十二届轩辕奖的申报车型中,我们也发现了好几款搭载“端到端”技术的车型。显然,这是继2022年BEV、2023年OCC占用网络之后,2024年智驾领域最热、最引人关注的技术方向。

但,引人思考的是,“端到端”是乘用车智驾的唯一路线吗?真的适合所有车企与车型?要做好必备条件是什么?算力成本1-2亿元就够吗?从消费者体验而言,所带来的功能有多重要?轩辕奖在今年的实车评测中,会用怎样的方法来检验这项技术所带来的效果?

拨开迷雾,探索本质。

图片

为此,我们采访了轩辕奖评审团与顾问团中智驾领域的3位专家,他们是——轩辕奖评委、同济大学汽车学院教授朱西产;轩辕奖技术顾问与合作伙伴、魔视智能创始人虞正华,以及另一位技术顾问与合作伙伴、知行科技创始人兼CEO宋阳——他们从自身多年学术与实战经验出发,表达了自己的见解。

图片

非唯一路线、高端车先上

Q:我们很好奇,“端到端”一定是未来乘用车智驾的唯一路线吗?所有车企都适合这条路吗?

朱西产(轩辕奖评委、同济大学汽车学院教授):从目前看,“端到端”是实现自动驾驶唯一的计算路线。但是并不是所有车企都要做具备自动驾驶功能的高端车型,价格在15万元以下乘用车是主力车型,BOM成本在3000-5000元人民币的NOA系统肯定不会走完全“端到端”技术路线,所以“端到端”这条路并不适合所有车企。

虞正华(轩辕奖技术顾问与合作伙伴、魔视智能创始人):端到端是主要路线,特别是近两三年,端到端的上车还是主要处于技术探索和验证的阶段。对车企来说,有很多不同定位和价位的车型,技术方案要根据产品需求和定位来选择。端到端技术的优势是用户体验上限高,但是所需资源也相应更多,更适合注重用户体验的高端产品,在近几年不适合注重成本的高性价比产品。

宋阳(轩辕奖技术顾问与合作伙伴、知行科技创始人兼CEO):端到端方案具有“上限高,但下限低”的特点。通俗来说就是,做得好可以达到很好的效果,做得不好比传统方案更差。

对于 L2 和 L3 来说,“端到端”只是可行方案之一,在应用时还需要与其他技术方案进行组合搭配。域控制器式架构的数据规模与里程积累正相关,销量加速才能增加里程积累,并使得数据规模快速提升。

所以个人认为,主机厂中央计算架构车型配置和销量相对集中,更有利于数据运营、人才建设、AI基建等多方面能力的建设与提升,使得车企能更好地布局“端到端”方案。

Q:“端到端”的优劣势,分别是什么?

朱西产:“端到端”模型的优势,是减少了各模块之间信息传递过程中的信息丢失,通过Transformer构成一个更大的网络,训练过程中实现更多参数的全局最优。另外还可以提升开发效率、全局优化、更强泛化性等。

“端到端”的缺点,是无法与人工准则模型进行组装,尤其是涉及安全的准则模型,我们认为在运动规划算法中一味地强调“丝滑”,而取消安全准则模型的算法存在巨大安全隐患。另外还有数据要求质量高+数量大、算力难题、算法难题、可解释性难题、模型设计难题、上车难题等挑战。

虞正华:

优势——

1)用户体验:基于算法原理上的突破,能够提升用户体验的上限。

2)提升开发效率:简化了系统架构,减少了模块间接口的复杂性,降低了算法开发的复杂性,不需要人工设计各种规则。

3)无损信息传递:不依赖于工程师定义的模块接口,减少了传统模块间的数据转换和信息损失。

4)更强泛化性:得益于VLM等大模型,能够更好地处理各种复杂场景。

劣势——

1)验证方法:对于端到端架构开环的验证手段无法重现实车的所有问题,而实车测试的代价极大。所以需要支持高保真度和传感器一致性的仿真测试方案。

2)数据要求高:需要大量高质量数据进行训练。

3)解释性难题:一端感知输入,另一端输出结果,中间是难以解释的“黑盒”。

4)算力挑战:需要强大的计算资源来支持模型训练和推理。

5)组织资源:端到端的团队对于传统自动驾驶团队分工和工作方法论具有颠覆性,需要重新按照新的技术范式组织人员和资源。

宋阳:在传统自动驾驶系统,不同任务模块针对特定任务独立设计(例如最典型的阿波罗架构),在可解释性、可验证性和易于调试等方面具有优势,但是由于各个模块优化目标不同,如感知模块追求检测精度,规划模块追求驾驶安全性和舒适性,所以整个系统可能会因为错误积累而失效,并且多任务和多模块部署也会增加计算负担。

和传统的自动驾驶系统相比,“端到端”系统有以下优势——

1)可以将感知、预测和规划集合到一个可以联合训练的模型中。

2)整个系统,包括其中间特征,都是针对最终目标进行优化。

3)共享了主干网络,提高了计算效率。

4)数据驱动的优化任务可以通过扩展训练数据不断优化提升系统能力。

图片

不要放弃传统模块化方法,可满足中端及以下产品需求

Q:除了“端到端”,是否还有其他选择?相形之下,优劣势是?

朱西产:目标物感知模块、地图感知模块、轨迹预测模块、占用网络模块及运动规划模块,分功能分别开发AI算法模块和人工准则模块,采用模块组装的方式构建NOA算法模型,能够弥补数据和AI训练算力不足的难题,对智能驾驶域控制器的AI推理芯片的算力需求也能够大大降低,从而有效控制智能驾驶系统的BOM成本。对于15万元以下的乘用车,用户更关注实用性,不会花高价为“自动驾驶”的噱头买单。

虞正华:传统模块化方法,在简单的ODD场景下,能够满足大部分中端及以下产品的需求。

宋阳:行业对“端到端”有似乎神话的倾向,认为其无所不能。事实上,喧闹之外,行业还需要对“端到端”有一些基本常识的认知。

第一,“端到端”并不是一个特别大的模型,比如理想汽车的“端到端”方案其实在一个Orin-x上就能跑通,并且有大量的rule-based兜底。

第二,“端到端”并非万能,其“黑盒”特性决定了无法通过简单而明确可解释的规则约束系统的安全边界,存在安全性挑战。

第三,模型能力评测从模拟环境到真实环境,系统的适应能力和泛化能力有待更广泛的验证。

所以,在目前量产落地的“端到端”方案中,几乎所有玩家都会采取规则兜底的方式进行风险规避。

图片

最痛苦:研发模式的更改

Q:当前的车企或智驾供应商,如果想要做好“端到端”,必须要具备的核心要素是什么?目前有解吗?如何解?

朱西产:“人工准则模型”拼人力,“AI模型”的训练测试拼数据和云平台算力。

特斯拉FSD 12版本的“端到端”,是一个参数量高达10亿的“黑箱”AI模,完全取消了人工准则模型,其训练和测试所需要的数据量和云平台算力需求都非常高。特斯拉的用户数据闭环系统在美国以及全球有400多万辆车型能够为FSD 12版本的训练收集数据,Dojo平台算力高达100E Flops(折合英伟达A100算力,约30万张卡),建设费用高达100亿美元。

特斯拉已经证明,与模块化算法结构对比,“端到端”结构能够提升智能驾驶的性能上限,这是风魔“端到端”的原因。

但是,根据Scaling Low,国内车企走“端到端”技术路线,将受到数据量和训练平台计算能力的限制。由于AI热,现在全球范围内高算力AI计算芯片一卡难求,再加上美国的限制,国内企业要购买AI训练显卡非常贵、并且难买到。国内目前车企有万卡训练平台的企业就屈指可数。

目前国内企业中,华为已经具备破除“端到端”Scaling Low魔咒的能力,华为海思云计算高算力AI芯片昇腾910的性能,能够匹敌英伟达A100;昇腾910B能够匹敌英伟达H100。华为云并不缺高算力云计算平台。

并且,由于问界系列车型的热销,以及华为系的智界、享界、阿维塔极狐等车型的数据都可以通过“八爪鱼”用户数据闭环系统进行数据收集,能够提供数据的车型也很快能够达到百万辆这个量级。相信我国智能驾驶计算不会被特斯拉甩开。

虞正华:

核心要素包括——

1)算法研究能力:算法团队对VLM等AI算法有深入理解和创新能力,并可以结合开源社区的进展。

2)数据处理能力:包括数据挖掘、采集、清洗、标注和增强。

3)算力资源:强大的计算资源来支持模型训练和部署。

4)测试验证:建立有效的测试验证流程和工具。

解决方案——

建立这些核心能力需要大量的投入,不是所有公司都有能力全部独自进行。所以企业应该了解自身优势,明确定位,在最核心的要素上发力,在其它技术要素上采取生态合作的方式,利用技术社区和行业分工的力量。

宋阳:“端到端”算法将带来的研发模式地更改,这才是每个主机厂和自动驾驶公司需要关注的重点,也是最痛苦之处。

“端到端”以纯数据驱动的多模态大模型为核心,如果某智驾公司之前的技术方案有很多规则,那这些规则基本上就都要被推翻了;如果之前的技术方案已经大部分改为模型驱动,那么这部分代码大概率能以某种形式重用。

除了模型端以外,“端到端”也需要进行更多数据方面的工作:重构数据闭环体系及其迭代效率,“端到端”的测试和验证。其中,如何将整个仿真平台的传感器输入做得足够真实,是目前非常有挑战性的技术问题。

图片

纯“端到端”算力成本,每年约一到两个亿

Q:您认为,现在中国车企或智驾供应商,哪些是真正有实力来做这件事的?

朱西产:华为肯定没问题,畅销车(获取数据必备)、云计算、AI大模型能力、车端芯片、工程经验,一样也不缺。并且华为有近千亿的自有资金用于智能汽车研发。

理想汽车AI基础设施虽然差一些,但是理想L系列车型持续热销,也即将进入百万量级,数据是AI的基础,只要增加AI算力投入,也可期待。

供应商角度,地平线、Momenta的生态做的好,也是可期的。

虞正华:华为是有实力做这事的一家企业,其它头部的AI算法能力极强的供应商也有可能做成这件事。车企里面,估计极少数头部的车企有可能做成这事。

魔视智能作为一家以AI算法为核心优势的供应商,也会投入并期待在端到端的方向做出自己的贡献。

宋阳:“端到端”所需的算力主要用于“训练”和“部署”两方面。“部署”是采购多少块域控数量的问题,其成本固定且较低,并与单车成本相关。最大的成本是“训练”成本,分自建买卡和跟云服务商合作两种。对订单量比较大的车企来说,自己造数据中心更加合算;但对订单量没有那么大或处在前期研发阶段的车厂和供应商来说,找云服务商租服务器是较好的选择。

如果只是简单的一次“端到端”自动驾驶模型训练,上百张大算力的 GPU 就可以支持。但是要长期投入,并保证“端到端”质量的话,自动驾驶公司的训练算力规模基本在上千卡级别,车企投入会更多。

从综合成本来说,作为技术演进的纯“端到端”算力投入,其实小于模块化架构,每年成本约一到两个亿,知行会稳步推进,持续渐进地赋能我们的核心客户和伙伴。

图片

“端到端”,非终局

Q:对当下中国市场“端到端”的火热,三位如何看待?

朱西产:更多是为了流量,实际上国内车企具备做“端到端”的技术实力的没几个,但是,嘴上不能输啊,打仗呢,一躺下就再也起不来了。

虞正华:自动驾驶技术近几年依然在快速迭代,端到端目前还只是一个比较宽泛的概念,实际的实现方法有很多的不同,而且端到端也不是技术的终局。在技术向前发展的大趋势中,企业应当根据自身定位逐步打造核心能力,比如数据闭环的能力。

宋阳:在过去的2年里,AI的发展速度超过历史任何时期,但即使如此迅速和火热,我坚信我们还处于AI变革的早期。我们能看到的是“端到端”已经在改变研发体系,加速智能车的电子电气架构变革和算力提升。

图片

是用户核心需求吗?什么最重要

Q:从消费者的角度而言,他们更多关注“端到端”带来的驾乘体验。那么,“端到端”究竟会带来哪些功能或体验(智驾方向)?

朱西产:“端到端”从用户体验角度是“丝滑”,与人工准则模型不同,采用用户数据闭环采集的数据训练出来的AI模型,驾驶风格更像一个“老司机”。

虞正华:我更关注更好的用户体验,以及安全性。用户体验主要是在日常使用的城市路段可以应对高峰期拥堵的车流,更好的安全性是可以比人开车更安全,包括端到端的主动安全功能。

宋阳:第一,在长尾场景的处理上,“端到端”系统能够比原来的系统覆盖更多的极限场景,如常识处理能力。

第二,自动驾驶系统的行为更加拟人化,也能够更强地建立消费者和系统之间的信任,“端到端”在博弈性比较强的场景里更像人类司机。

第三,数据驱动能快速解决热点问题,快速迭代优化以回应消费者的热点诉求。

Q:那么,这些功能或体验,是用户的核心需求吗?

朱西产:我认为安全才是智能驾驶的核心需求,我不认为“端到端“技术能给用户带来核心需求。

虞正华:总体来说,用户的核心需求是希望在其选定的车型上实现相对最好的智驾体验。因此,对高阶车型而言,最好的体验是核心需求,这部分用户对成本不敏感;对中阶以下的车型而言,性价比是更核心的需求。

宋阳:安全、安心、好用、拟人、快速迭代,这些毫无疑问是目前所有智驾系统的核心需求。

图片

有分歧:15万元车型是否搭载

Q:针对刚才描述的用户体验,对比车企为“端到端”付出,这样的投入产出比,划算吗?

朱西产:不划算,但是对于50万元以上的豪华车,没必要去计较是否“合算”。但15万元以下的主流车型,现在一窝蜂的“端到端”,肯定是不划算的,走通“端到端”,企业投入巨大,而15万元经济型车型的车主不会为“端到端”的噱头买单,企业会赔的更多。

从电动化到智能化,汽车越造越好,但是汽车企业好像赔的越来越多,我觉得没有几个企业能继续为“端到端”噱头把自己赔死也要做的。

虞正华:这取决于车企的定位,个人认为需要量力而行。极少数的车企出于自身的定位和资源积累情况,需要做端到端,但是并不是所有的车企都能够并且需要付出这么大的投入,做汽车行业智能化先驱。

宋阳:开个玩笑,每个人都得要买菜做饭吃饭,所以不能从“划算不划算”的角度考虑这么重要的事。

从大行情上说,参照《2024麦肯锡中国汽车消费者洞察》,中国消费者对自动驾驶功能的兴趣有所提升,但相比2023年,愿意为自动驾驶功能付费的金额却有所下降。

但是前面其实也谈到了,“端到端”由if-else的规则人工堆叠变成数据驱动,迭代的效率、研发人员的数量、数据投入和AI基建这些因素都处于一个动态平衡的过程中,最后就是“什么时间,买什么菜,做什么饭”的经济性问题了。

在汽车行业日益激烈的“内卷”竞争中,知行作为从业者,必须要将我们要交付的智驾系统做成像筷子一样,人人可用,必用,爱用,所以我们会优先考虑把“端到端”落地到泊车和安全类功能这些高频刚需场景中。

图片

如何评测“端到端”车型?

Q:在「轩辕奖」入围车型实测中,二位的公司负责智能驾驶方面的测试,请问对于目前“端到端上车”带来的功能,您会怎样测试?主要考量的维度是什么?

虞正华:作为轩辕奖测试合作伙伴,我们在测试中会关注系统的安全性、舒适性和人机交互友好程度。针对端到端技术带来的变化,我们会重点关注对用户体验敏感的场景,比如复杂的交通流,不规范的道路,不清晰的路面标识等场景。

宋阳:

1)系统配置(算力、传感器配置等)

2)系统性能(边界、复杂场景)

3)系统安全能力(安全场景表现)

4)系统舒适性(交互、易用性、安心感)

5)通行效率(路径优化、功能速率等)