对话星尘数据章磊:大模型数据标注,需要拥有专家级知识 | 智星漫谈

图片
图片
数据作为人工智能发展的新“石油”,在自动驾驶和当下正热的大模型领域,正在快速迭代变化。
9月20日的直播,我们邀请了星尘数据创始人、CEO章磊,共同讨论在自动驾驶和大模型发展的大背景下,数据标注行业将如何配合迭代进化。
图片
嘉宾精彩发言及观点:
当前数据标注的工具越来越复杂,管理越来越细致,自动化的算法要求越来越高;
随着自动驾驶的发展,我们会发现数据量本身其实不是问题,更重要的是数据价值;
大模型标注需要你像一个完整的人,需要用到大量的知识,对人的要求非常高,甚至需要具备一些专家的知识才能够去进行标注;
未来每一个行业都可能需要大模型,那么大模型怎么去落地,怎么产生直观的效果提升办公效率或者提高产出质量等会很关键。
智车星球:数据标注这几年有什么变化?有观察到哪些趋势?
章磊:数据的复杂程度和需求的复杂程度越来越高。几年前是2D的图像识别,后来是3D识别,然后是2D和3D融合、BEV、4D标注等等。越来越多的技术方案,标注规则也越来越细,对标注人员的要求也越来越高。
对于我们,挑战主要有几个,一是标注工具越来越复杂,二是管理得越来越细致,三是自动化的算法要求越来越高。以前可能一个算法就可以进行预标注或者辅助标注,现在得有七八个甚至十几个算法做辅助配合,才能够把一个标注的结果做到自动化。
目前行业主要有几种发展策略,一是进行人力运营的优化,比如说将职高院校或者学校纳入管理体系,让人力变得更便宜,或者增加一些人力管控方案。
另外一种策略是商务路线或者销售路线,去打大客户,保证长期稳定的项目,这样也能保证一定的利润。
第三种是做营销路线,这种可能不赚钱,甚至是贴钱,但先把规模做大,然后通过融资滚动起来。
还有一种是我们走的技术路线,通过自动化的辅助标注,加上数据闭环的迭代,真正有效地降低标注成本,提高标注效率。这条路线相对不能在比较短的时间内产生比较好的效果,比如一个算法迭代一版可能就是一到两个月,要真正迭代出效果,可能需要在一个方向花费一年、两年甚至更长的时间。
但从一个技术人员的角度来说,技术本身都没有难点,只要在时间和资源无限的情况下,没有一个技术是因为认知而导致有门槛的。但这是理想情况,现实情况下,你的时间节点、资源、人力和规划都不可能是完美的,所以如何对任务进行编排、分解、每一个任务怎样去协同,是比较有挑战的。本质上这是个任务管理工作,你得在认知算法的前提下进行管理,另外还有就是要把招人和管理这两件事做好。
智车星球:如何看待和自动驾驶车企的合作竞争,随着自动标注的自动化比例不断提升和大模型的发展,车企有可能自己来做标注吗?
章磊:我们是产业链的一环,是基础设施算法,自研就要考虑投入产出比这件事。
前两年很多大厂因为要满足市值维护和不断提升股价的需求,它需要不断扩充业务边界。但我觉得这不是一个常态,一个成熟的市场应该是大家各自分工,各自做最专业的事情。
当然我们不能完全排除车厂自己去做标注工作,一方面内部迭代可能效率会更高,第二数据相对会更安全,基于这两点肯定会有公司自己去做。
但任何一个方案都不是100%去替代其他东西的,就像电视机出来那么多年,收音机仍然存在。
智车星球:标注企业是否会始终聚焦在标注,还是说会有发展成人工智能公司?
章磊:我们的定位并不是一家数据标注公司,我们是一家数据的基础设施公司。
我们处理的数据实际上是AI、机器学习要用到的数据,这其实是一个比较新的领域。我们想解决的是AI数据层的问题,这些问题不仅仅是数据标注。随着自动驾驶的发展,我们会发现数据量本身其实不是问题,更重要的是数据价值。
我们认为最终一个完整的数据闭环,它如果能解决数据的入库、流程编排、预处理、数据的价值发现以及数据的送标,数据验收,还有模型训练过程管理和模型价值指标分析等等这些工作,那么这个数据闭环可以极大加快算法的迭代过程。
还有随着大模型的发展,我们发现大模型需要的数据也是五花八门。今年下半年的一个趋势,就是垂类的应用。垂类应用它就需要业务相关的数据,把它分成预训练数据、人类偏好数据等等这些流程的数据策略。
首先有了数据策略以后,就可以进行一个任务的编排,然后做数据的生产。之后就可以通过数据闭环去检测模型缺什么,可以通过benchmark或者其他一些方式去发现模型的缺陷,然后进一步的去迭代和改进。
我们在做的另一件事就是benchmark本身——怎么去衡量算法和模型。每家客户都有自己内部的一些指标,但这个指标或者说你沿着这条路径走了很长时间以后,你不知道自己是领先还是落后,与行业平均水平相比到底如何。这就需要一家第三方公司去给一些反馈和建议,这也是未来数据层比较好的一个方向。
智车星球:目前高速NOA做数据标注的话,数据量大概是多少?
章磊:高速场景一般比较干净,我们认为一般20~50万帧的数据量,是可以训练出一款比较好的算法。这里的一帧是指所有传感器的一帧,所以一帧可能包括了有好几张图片。
智车星球:数据孤岛这个问题现在还存在吗?
章磊:数据孤岛的定义分企业内和企业外。企业内的数据孤岛是每一个部门有自己的数据,很多大企业各个部门之间数据很难打通,这是一种。另外一种是企业和企业之间,数据孤岛的原因是源于交易双方的不信任。
当然也会有改变,如果自动驾驶最后变成一个标准化的问题,那么就像小学、初中、高中课本,我们是可以统一去定制的。到了大学里面,每家客户的场景不一样,我们就按照自定义的方式去做定制化的开发。
智车星球:现在星尘也有很多大模型客户,请您介绍一下大模型的数据标注有哪些的特点和难点?
章磊:CV的标注可能更需要像个运动员,能够高效且非常整齐地做一个动作,比如说把车识别出来。而在NLP中,更需要你像一个完整的人,比如数学的问题或者代码问题集,这可能需要你用到大量的知识去把它写出来。
从这个角度来讲,对人的要求非常高,甚至需要具备一些专家的知识才能够去进行标注。另外,你要根据他的垂类应用场景去帮他设计一整套的数据集,里面包括开源数据、闭源数据和专业的私有化数据,从这些角度规划和设计,然后把这些数据生产出来,然后再进行模型训练。
智车星球:最近Scale AI在尝试一些新业务,寻找第二增长曲线,但目前还没有找到另一个核心支撑。您怎么看?
章磊:Scale AI做了很多工具,比如管理工具、测试工具、开发工具等。我们可以看到它从一家数据标注公司已经变成了一家数据闭环和infer的这么一家公司,它覆盖的面会更大。
当然如果从财报看,直至上个季度它的大模型收入体量并不大,但是结果永远是滞后的。我们从投资人的角度或者说从未来去看,我们能看到一个明显趋势,过去我们服务的是一小部分懂算法的人,但是今天或者将来会越来越多去服务各行各业的人。每一个行业都可能会需要大模型,那么大模型怎么去落地,怎样产生直观的效果提升办公效率或者提高产出质量等会很关键。
对于大模型这样的需求,其实算法公司会很难,虽然大部分大模型的流程和所需要的工具类似,但算法会涉及到很多定制化的需求,其中很大一部分就是数据生产工作,而数据生产工作正好就是数据公司的一个强项。从这个角度来讲,我们将来的路其实是会越来越宽的。
智车星球:觉得现在数据行业在国内已经是红海市场了吗?
章磊:市场环境的第一个特点是长江后浪推前浪。最近自动驾驶和电动车的一波热潮,又带动了很多新的进入者,但商业规律本身是没有变化的,任何急功近利的人都可能被拍死在沙滩上。比如说想靠低价去快速扩大规模的,可能因为资金链断裂,或者是任何这个行业的融资情况变化,就会导致现金流支撑不下去,这是一种。
另外一种就是靠客户关系,但数据服务这件事情是具备可比性的,客户关系做得即便很强,可能并不是核心竞争力。还有就是优化人力,一旦发现人力优化不下去但技术还在往前走的时候,就没有办法去克服客观规律,当所有的成本已经低于人力成本的时候,就没法正常经营了。
我们也看到有一些新的公司,他们也是通过技术来解决问题。整个行业肯定不可能只有一家公司最后走出来,我们也希望大家各有各自的特点,然后去解决各自一些有优势的问题,我觉得这是一个比较良好的健康的行业和氛围。
最真诚的智能汽车报道
图片