如何利用数据闭环高效挖掘有价值数据

九章智驾

2022-04-25 10:49

自动驾驶领域，每年都会出现一些热词，数据闭环、数据驱动，就是近两年最受关注的理念之一。因此，行业内出现了某种程度上的“百环齐放、百家争鸣”。

但是，纸面上的数据闭环，和真正走向大规模量产的数据闭环之间，有着不小的距离，能够高效利用海量数据驱动系统成长的闭环方案寥寥无几。完成数据闭环的物理层构建，对于很多企业来说已经是不小的挑战，有能力打造核心的知识层的企业更是少之又少。

那么，面向大规模量产的数据闭环，到底是一种怎样的存在呢？它和demo项目或者其他简单任务的闭环相比又有什么不同的地方呢？

在此我们将试着从量产和工程实践的角度，谈一下Nullmax面向真实而复杂的大规模自动驾驶应用所打造的数据闭环。

让数据高效流淌

自动驾驶系统的开发，与一般的软件开发有着很大的不同，因为它面临着很大的技术不确定性——软硬件技术在快速发展，算力也在快速进步，随着数据持续采集，很多场景才会逐步遇见。

所以我们提出了One Cycle, One Model的技术理念，打造了One Cycle的数据闭环并将它部署到量产应用当中，以一种全新的开发方式和基础设施，解决自动驾驶的不确定性逐渐释放的问题。

具体而言，One Cycle由两个主要的部分组成，分别是数据物理层Data Flow System和知识层Efficient Data System。前者完成数据的汇入和管理，后者完成有价值数据的筛选，最终为整体的AI算法输入有用的知识。

在自动驾驶开发中，海量数据需要从不同的车端，以合适的格式和方式，尽快传到云端，进行高效的存储和数据回放。然后在回放之后，优化的算法再高效地回传到车端。而这，正是Data Flow System的作用。

笼统来看，Data Flow System包含了底层的硬件集群以及软件系统，解决了数据如何传输、压缩、存储、管理等等问题，不涉及到算法。

而在Data Flow System之中，核心部分是数据管理软件，它主要包括了数据的查看和推送，视频压缩和数据录入，视频查看，数据可视化，以及数据集群间的同步，等等。

比如，系统在接收数据时，对于数据占用量庞大的海量图片，就会通过视频压缩后录入；而其他传感器的数据，也会以定义的压缩格式进行录入。

数据录入之后，数据管理软件就能够提供相应的可视化。比如，工程师可以直接在地图上看到全国的覆盖情况，也可以直接从第一人称视角回放当时的数据。

挖掘有价值数据

当数据可以在One Cycle之中高效管理之后，知识层Efficient Data System也就可以从源源不断的数据中筛选有价值的数据，获取所需的知识。

在车端，One Cycle的知识层为车辆配置了一系列的Trigger（触发器）模块，在大规模的路测中，以及规模化的量产应用中，直接收集所需的知识数据。

大家熟知的影子模式，就是人机不一致性的触发方式，它将司机行为和自动驾驶行为进行比较。比如，系统认为需要加速但驾驶员踩了刹车，那么就会触发对应的Trigger进行数据收集。

同时，Trigger也设置了不同的分类和优先级，等级越高的情况，数据记录的时间也会越长。

在此之外，部署在云端的Filter也会筛选有价值数据，分析数据采集车辆输入的数据。Filter的方式同样也有很多种，目的就是找到这些数据相对于AI模型的不确定性，从而挖掘出新的知识。

比如，在云端使用性能更强的模型和车端的模型进行比较，又或是通过相关性比较弱的多种模型交叉检验，如果输出结果不一致，那就说明其中蕴含有新的知识。

Filter有两个重要的衡量指标：召回率，准确率。召回率代表着这个知识过滤体系找出问题数据的能力，准确率则代表的是“一找一个准”的能力。

知识层的长期目标，是在保持一定准确率的情况下，持续地提高召回率。因为整体而言，问题数据相对很少，召回率的提升是主要问题，一定范围内的误召回不会给整体成本带来太大影响。

而在Trigger 和 Filter 以外，另外一点非常重要的就是高效的标注工具。在发掘出有价值的数据出后，Nullmax的标注工具只对数据进行增量标注，通过神经网络预先找出数据中的问题部分进行标注和学习，而不是将任务目标全部标注一遍。不仅标注效率更高，而且标注成本也显著降低。

知识层的整体存在，让系统做到了高效且低成本地挖掘知识，在数据量快速上升的未来，这是 AI 竞争的关键所在。

数据闭环的挑战

在行业内，很多企业都在准备或是已经着手构建自己的数据闭环。目前，少数企业已经完成了当中的第一部分，也就是数据物理层的构建。

而知识层的构建则是更具技术挑战性的任务，因为它涉及到算法层面，以及数据的触发、筛选机制，因此可以做到知识层初具形态的企业少之又少。

数据闭环的难点在于效率的提升，如何让数据在整个系统中高效地运转和利用，是其中的关键。尤其是知识层的核心在于高效地发现价值数据，完善的Trigger配置，加上高效的Filter机制，能够组成严密的知识筛选体系，然后低成本地标注和使用这些数据。

至此，数据闭环才能全力发挥作用，而不会被茫茫数据淹没，又或者是一无所获。构建这样的平台体系是一项巨大的挑战，当中很容易陷入小作坊式的数据闭环。

小作坊式的特征，是没有高效的数据回传和过滤，绝大部分时候依赖工程师去发现问题，效率很低。它只能应对demo级的功能以及一些固定的路线、区域的复杂任务，又或者是场景很少的简单量产任务。

当面对的是场景层出不穷，数据海量涌来的真实量产应用，那么小作坊式的数据闭环就会没有招架之力。

因为对于复杂的自动驾驶来说，它需要的一定是高度自动化的流水线式数据闭环，所以高效的数据物理层、知识层缺一不可。

结语

可以预见的是，随着越来越多搭载自动驾驶技术的量产车型上路，数据在某种程度上将不再是发展的最大重点，利用数据的效率将会是新的关键。

写在最后

关于投稿

如果您有兴趣给《九章智驾》投稿（“知识积累整理”类型文章），请扫描右方二维码，添加工作人员微信。

注：加微信时务必备注您的真实姓名、公司、现岗位

以及投稿意向等信息，谢谢！

“知识积累”类稿件质量要求：

A：信息密度高于绝大多数券商的绝大多数报告，不低于《九章智驾》的平均水平；

B：信息要高度稀缺，需要80%以上的信息是在其他媒体上看不到的，如果基于公开信息，需有特别牛逼的独家观点才行。多谢理解与支持。

查看原图 468K