如何利用数据闭环高效挖掘有价值数据

自动驾驶领域,每年都会出现一些热词,数据闭环、数据驱动,就是近两年最受关注的理念之一。因此,行业内出现了某种程度上的“百环齐放、百家争鸣”。
图片
但是,纸面上的数据闭环,和真正走向大规模量产的数据闭环之间,有着不小的距离,能够高效利用海量数据驱动系统成长的闭环方案寥寥无几。完成数据闭环的物理层构建,对于很多企业来说已经是不小的挑战,有能力打造核心的知识层的企业更是少之又少。
那么,面向大规模量产的数据闭环,到底是一种怎样的存在呢?它和demo项目或者其他简单任务的闭环相比又有什么不同的地方呢?
在此我们将试着从量产和工程实践的角度,谈一下Nullmax面向真实而复杂的大规模自动驾驶应用所打造的数据闭环。
让数据高效流淌
自动驾驶系统的开发,与一般的软件开发有着很大的不同,因为它面临着很大的技术不确定性——软硬件技术在快速发展,算力也在快速进步,随着数据持续采集,很多场景才会逐步遇见。
所以我们提出了One Cycle, One Model的技术理念,打造了One Cycle的数据闭环并将它部署到量产应用当中,以一种全新的开发方式和基础设施,解决自动驾驶的不确定性逐渐释放的问题
图片
具体而言,One Cycle由两个主要的部分组成,分别是数据物理层Data Flow System和知识层Efficient Data System。前者完成数据的汇入和管理,后者完成有价值数据的筛选,最终为整体的AI算法输入有用的知识。
图片
在自动驾驶开发中,海量数据需要从不同的车端,以合适的格式和方式,尽快传到云端,进行高效的存储和数据回放。然后在回放之后,优化的算法再高效地回传到车端。而这,正是Data Flow System的作用。
笼统来看,Data Flow System包含了底层的硬件集群以及软件系统,解决了数据如何传输、压缩、存储、管理等等问题,不涉及到算法。
在Data Flow System之中,核心部分是数据管理软件,它主要包括了数据的查看和推送,视频压缩和数据录入,视频查看,数据可视化,以及数据集群间的同步,等等。
比如,系统在接收数据时,对于数据占用量庞大的海量图片,就会通过视频压缩后录入;而其他传感器的数据,也会以定义的压缩格式进行录入。
数据录入之后,数据管理软件就能够提供相应的可视化。比如,工程师可以直接在地图上看到全国的覆盖情况,也可以直接从第一人称视角回放当时的数据。
图片
挖掘有价值数据
当数据可以在One Cycle之中高效管理之后,知识层Efficient Data System也就可以从源源不断的数据中筛选有价值的数据,获取所需的知识。
在车端,One Cycle的知识层为车辆配置了一系列的Trigger(触发器)模块,在大规模的路测中,以及规模化的量产应用中,直接收集所需的知识数据。
图片
大家熟知的影子模式,就是人机不一致性的触发方式,它将司机行为和自动驾驶行为进行比较。比如,系统认为需要加速但驾驶员踩了刹车,那么就会触发对应的Trigger进行数据收集。
同时,Trigger也设置了不同的分类和优先级,等级越高的情况,数据记录的时间也会越长。
在此之外,部署在云端的Filter也会筛选有价值数据,分析数据采集车辆输入的数据。Filter的方式同样也有很多种,目的就是找到这些数据相对于AI模型的不确定性,从而挖掘出新的知识。
图片
比如,在云端使用性能更强的模型和车端的模型进行比较,又或是通过相关性比较弱的多种模型交叉检验,如果输出结果不一致,那就说明其中蕴含有新的知识。
Filter有两个重要的衡量指标:召回率,准确率。召回率代表着这个知识过滤体系找出问题数据的能力,准确率则代表的是“一找一个准”的能力。
知识层的长期目标,是在保持一定准确率的情况下,持续地提高召回率。因为整体而言,问题数据相对很少,召回率的提升是主要问题,一定范围内的误召回不会给整体成本带来太大影响。
在Trigger 和 Filter 以外,另外一点非常重要的就是高效的标注工具。在发掘出有价值的数据出后,Nullmax的标注工具只对数据进行增量标注,通过神经网络预先找出数据中的问题部分进行标注和学习,而不是将任务目标全部标注一遍。不仅标注效率更高,而且标注成本也显著降低。
知识层的整体存在,让系统做到了高效且低成本地挖掘知识,在数据量快速上升的未来,这是 AI 竞争的关键所在。
数据闭环的挑战
在行业内,很多企业都在准备或是已经着手构建自己的数据闭环。目前,少数企业已经完成了当中的第一部分,也就是数据物理层的构建。
而知识层的构建则是更具技术挑战性的任务,因为它涉及到算法层面,以及数据的触发、筛选机制,因此可以做到知识层初具形态的企业少之又少。
数据闭环的难点在于效率的提升,如何让数据在整个系统中高效地运转和利用,是其中的关键。尤其是知识层的核心在于高效地发现价值数据,完善的Trigger配置,加上高效的Filter机制,能够组成严密的知识筛选体系,然后低成本地标注和使用这些数据。
图片
至此,数据闭环才能全力发挥作用,而不会被茫茫数据淹没,又或者是一无所获。构建这样的平台体系是一项巨大的挑战,当中很容易陷入小作坊式的数据闭环。
小作坊式的特征,是没有高效的数据回传和过滤,绝大部分时候依赖工程师去发现问题,效率很低。它只能应对demo级的功能以及一些固定的路线、区域的复杂任务,又或者是场景很少的简单量产任务。
图片
当面对的是场景层出不穷,数据海量涌来的真实量产应用,那么小作坊式的数据闭环就会没有招架之力。
图片
因为对于复杂的自动驾驶来说,它需要的一定是高度自动化的流水线式数据闭环,所以高效的数据物理层、知识层缺一不可
结语
可以预见的是,随着越来越多搭载自动驾驶技术的量产车型上路,数据在某种程度上将不再是发展的最大重点,利用数据的效率将会是新的关键
写在最后
关于投稿
如果您有兴趣给《九章智驾》投稿(“知识积累整理”类型文章),请扫描右方二维码,添加工作人员微信。
注:加微信时务必备注您的真实姓名、公司、现岗位
以及投稿意向等信息,谢谢!
“知识积累”类稿件质量要求:
A:信息密度高于绝大多数券商的绝大多数报告,不低于《九章智驾》的平均水平;
B:信息要高度稀缺,需要80%以上的信息是在其他媒体上看不到的,如果基于公开信息,需有特别牛逼的独家观点才行。多谢理解与支持。