对话星尘数据章磊：大模型数据标注，需要拥有专家级知识 | 智星漫谈

智车星球

2023-10-20 11:02发布于湖北

数据作为人工智能发展的新“石油”，在自动驾驶和当下正热的大模型领域，正在快速迭代变化。

9月20日的直播，我们邀请了星尘数据创始人、CEO章磊，共同讨论在自动驾驶和大模型发展的大背景下，数据标注行业将如何配合迭代进化。

嘉宾精彩发言及观点：

当前数据标注的工具越来越复杂，管理越来越细致，自动化的算法要求越来越高；

随着自动驾驶的发展，我们会发现数据量本身其实不是问题，更重要的是数据价值；

大模型标注需要你像一个完整的人，需要用到大量的知识，对人的要求非常高，甚至需要具备一些专家的知识才能够去进行标注；

未来每一个行业都可能需要大模型，那么大模型怎么去落地，怎么产生直观的效果提升办公效率或者提高产出质量等会很关键。

智车星球：数据标注这几年有什么变化？有观察到哪些趋势？

章磊：数据的复杂程度和需求的复杂程度越来越高。几年前是2D的图像识别，后来是3D识别，然后是2D和3D融合、BEV、4D标注等等。越来越多的技术方案，标注规则也越来越细，对标注人员的要求也越来越高。

对于我们，挑战主要有几个，一是标注工具越来越复杂，二是管理得越来越细致，三是自动化的算法要求越来越高。以前可能一个算法就可以进行预标注或者辅助标注，现在得有七八个甚至十几个算法做辅助配合，才能够把一个标注的结果做到自动化。

目前行业主要有几种发展策略，一是进行人力运营的优化，比如说将职高院校或者学校纳入管理体系，让人力变得更便宜，或者增加一些人力管控方案。

另外一种策略是商务路线或者销售路线，去打大客户，保证长期稳定的项目，这样也能保证一定的利润。

第三种是做营销路线，这种可能不赚钱，甚至是贴钱，但先把规模做大，然后通过融资滚动起来。

还有一种是我们走的技术路线，通过自动化的辅助标注，加上数据闭环的迭代，真正有效地降低标注成本，提高标注效率。这条路线相对不能在比较短的时间内产生比较好的效果，比如一个算法迭代一版可能就是一到两个月，要真正迭代出效果，可能需要在一个方向花费一年、两年甚至更长的时间。

但从一个技术人员的角度来说，技术本身都没有难点，只要在时间和资源无限的情况下，没有一个技术是因为认知而导致有门槛的。但这是理想情况，现实情况下，你的时间节点、资源、人力和规划都不可能是完美的，所以如何对任务进行编排、分解、每一个任务怎样去协同，是比较有挑战的。本质上这是个任务管理工作，你得在认知算法的前提下进行管理，另外还有就是要把招人和管理这两件事做好。

智车星球：如何看待和自动驾驶车企的合作竞争，随着自动标注的自动化比例不断提升和大模型的发展，车企有可能自己来做标注吗？

章磊：我们是产业链的一环，是基础设施算法，自研就要考虑投入产出比这件事。

前两年很多大厂因为要满足市值维护和不断提升股价的需求，它需要不断扩充业务边界。但我觉得这不是一个常态，一个成熟的市场应该是大家各自分工，各自做最专业的事情。

当然我们不能完全排除车厂自己去做标注工作，一方面内部迭代可能效率会更高，第二数据相对会更安全，基于这两点肯定会有公司自己去做。

但任何一个方案都不是100%去替代其他东西的，就像电视机出来那么多年，收音机仍然存在。

智车星球：标注企业是否会始终聚焦在标注，还是说会有发展成人工智能公司？

章磊：我们的定位并不是一家数据标注公司，我们是一家数据的基础设施公司。

我们处理的数据实际上是AI、机器学习要用到的数据，这其实是一个比较新的领域。我们想解决的是AI数据层的问题，这些问题不仅仅是数据标注。随着自动驾驶的发展，我们会发现数据量本身其实不是问题，更重要的是数据价值。

我们认为最终一个完整的数据闭环，它如果能解决数据的入库、流程编排、预处理、数据的价值发现以及数据的送标，数据验收，还有模型训练过程管理和模型价值指标分析等等这些工作，那么这个数据闭环可以极大加快算法的迭代过程。

还有随着大模型的发展，我们发现大模型需要的数据也是五花八门。今年下半年的一个趋势，就是垂类的应用。垂类应用它就需要业务相关的数据，把它分成预训练数据、人类偏好数据等等这些流程的数据策略。

首先有了数据策略以后，就可以进行一个任务的编排，然后做数据的生产。之后就可以通过数据闭环去检测模型缺什么，可以通过benchmark或者其他一些方式去发现模型的缺陷，然后进一步的去迭代和改进。

我们在做的另一件事就是benchmark本身——怎么去衡量算法和模型。每家客户都有自己内部的一些指标，但这个指标或者说你沿着这条路径走了很长时间以后，你不知道自己是领先还是落后，与行业平均水平相比到底如何。这就需要一家第三方公司去给一些反馈和建议，这也是未来数据层比较好的一个方向。

智车星球：目前高速NOA做数据标注的话，数据量大概是多少？

章磊：高速场景一般比较干净，我们认为一般20~50万帧的数据量，是可以训练出一款比较好的算法。这里的一帧是指所有传感器的一帧，所以一帧可能包括了有好几张图片。

智车星球：数据孤岛这个问题现在还存在吗？

章磊：数据孤岛的定义分企业内和企业外。企业内的数据孤岛是每一个部门有自己的数据，很多大企业各个部门之间数据很难打通，这是一种。另外一种是企业和企业之间，数据孤岛的原因是源于交易双方的不信任。

当然也会有改变，如果自动驾驶最后变成一个标准化的问题，那么就像小学、初中、高中课本，我们是可以统一去定制的。到了大学里面，每家客户的场景不一样，我们就按照自定义的方式去做定制化的开发。

智车星球：现在星尘也有很多大模型客户，请您介绍一下大模型的数据标注有哪些的特点和难点？

章磊：CV的标注可能更需要像个运动员，能够高效且非常整齐地做一个动作，比如说把车识别出来。而在NLP中，更需要你像一个完整的人，比如数学的问题或者代码问题集，这可能需要你用到大量的知识去把它写出来。

从这个角度来讲，对人的要求非常高，甚至需要具备一些专家的知识才能够去进行标注。另外，你要根据他的垂类应用场景去帮他设计一整套的数据集，里面包括开源数据、闭源数据和专业的私有化数据，从这些角度规划和设计，然后把这些数据生产出来，然后再进行模型训练。

智车星球：最近Scale AI在尝试一些新业务，寻找第二增长曲线，但目前还没有找到另一个核心支撑。您怎么看？

章磊：Scale AI做了很多工具，比如管理工具、测试工具、开发工具等。我们可以看到它从一家数据标注公司已经变成了一家数据闭环和infer的这么一家公司，它覆盖的面会更大。

当然如果从财报看，直至上个季度它的大模型收入体量并不大，但是结果永远是滞后的。我们从投资人的角度或者说从未来去看，我们能看到一个明显趋势，过去我们服务的是一小部分懂算法的人，但是今天或者将来会越来越多去服务各行各业的人。每一个行业都可能会需要大模型，那么大模型怎么去落地，怎样产生直观的效果提升办公效率或者提高产出质量等会很关键。

对于大模型这样的需求，其实算法公司会很难，虽然大部分大模型的流程和所需要的工具类似，但算法会涉及到很多定制化的需求，其中很大一部分就是数据生产工作，而数据生产工作正好就是数据公司的一个强项。从这个角度来讲，我们将来的路其实是会越来越宽的。

智车星球：觉得现在数据行业在国内已经是红海市场了吗？

章磊：市场环境的第一个特点是长江后浪推前浪。最近自动驾驶和电动车的一波热潮，又带动了很多新的进入者，但商业规律本身是没有变化的，任何急功近利的人都可能被拍死在沙滩上。比如说想靠低价去快速扩大规模的，可能因为资金链断裂，或者是任何这个行业的融资情况变化，就会导致现金流支撑不下去，这是一种。

另外一种就是靠客户关系，但数据服务这件事情是具备可比性的，客户关系做得即便很强，可能并不是核心竞争力。还有就是优化人力，一旦发现人力优化不下去但技术还在往前走的时候，就没有办法去克服客观规律，当所有的成本已经低于人力成本的时候，就没法正常经营了。

我们也看到有一些新的公司，他们也是通过技术来解决问题。整个行业肯定不可能只有一家公司最后走出来，我们也希望大家各有各自的特点，然后去解决各自一些有优势的问题，我觉得这是一个比较良好的健康的行业和氛围。

最真诚的智能汽车报道

查看原图 142K