他,26岁,登上《福布斯》封面

图片
作者 | 南风窗高级记者 朱秋雨
2023年4月底,一个亚洲面孔登上了著名杂志《福布斯》的封面。这是一位年仅26岁的华裔企业家,名叫Alexandr Wang。
他手握最高估值73亿美元的科技公司。
2017年,Alexandr创立了一家名叫Scale AI的公司,走的是最热的AI赛道。7年后,他做的东西已经无可替代。据《福布斯》报道,Scale AI如今包揽了多家头部自动驾驶车企的服务,谷歌的Waymo、丰田汽车是它的拥趸。2020年起,它还从美国国防部处拿下了多个天价订单。
图片
Alexandr Wang
Sacle AI走的路子,是常被头部大厂和AI创业者忽略的方向,叫AI的标注数据集。
这是AI领域里的石油,有数据才能源源不断给深度学习提供燃料。一项数据显示,截至2021年,全球排名前1000万个网站中,英文内容占比60.4%,中文内容占比仅1.4%。中国AI需要依赖大量英文数据集训练。
实际上,国内不乏做AI数据集和数据标注的公司。上市公司海天瑞声、头部创业公司云测数据、数据堂等等,是业内佼佼者。
图片
人工智能数据标注流程 / 精数标注研究院
比起人工智能产业给人“高大上”的直觉,数据工作面临繁琐的清洗、标注、处理等过程。业内因此盛传一句话,“人工有多强大,智能才有多强大”。
AI分析公司Cognilytica数据显示,在AI项目中,数据相关的处理过程占据超过80%的时间。
云测数据总经理贾宇航对南风窗总结,互联网大厂、创业公司更多在研究算法,数据集公司在做工程的事情。
在各家巨头猛追Open AI的当下,是时候关注支持AI深度学习的第一步——数据了。
01
机遇来了
不管业务是否与大模型挂钩,国内数据集公司近日受到了一大波关注。
数据集上市公司海天瑞声在3月底只用了3个交易日,累计涨幅近33%。股价创历史新高,比年初翻了三倍多。
尽管该公司早已贴出风险提示:“自然语言业务对公司整体贡献大约在10%左右。”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入。”
图片
因为ChatGPT,云测数据总经理贾宇航也在2023年收到了来自各行各业对大模型和数据集的关注和问询。“每个人都对大模型各有各的看法,我们相互学习。”他告诉南风窗。
单论技术角度而言,ChatGPT代表的大模型,采用了与过往AI数据标注不同的技术路径。在过去,机器学习的主流依赖于human-in-the-loop,即有监督的学习。
有监督学习依赖大量人工对数据进行预处理、标注。例如,猫的图片,需要人类事先标注,用机器听得懂的语言告诉它只是一只猫。行内公认的规则是,人类上传的标注数据越多、越准确,机器学习的效果越好。
而ChatGPT代表的大模型,采用的是自监督学习模式。简单来说,考验的是机器自我学习能力。
图片
采用“Human-in-the-loop”的交互式框架进行数据标注,以有效减少人工数据标注量
清华大学计算机系自然语言处理实验室副教授刘知远告诉南风窗,“大模型的不同之处在于,不事先假定到底需要完成哪些任务或者特定能力。它穷尽互联网尽可能获取多的数据,让模型自动地从这些数据里面学习知识。”
OpenAI曾披露,训练GPT的模型是基于公开网站的数据,包括维基百科、专业论坛、电子书网站和媒体报道等各类高质量文本。
尽管对数据标注的需求减少,ChatGPT的成功,却给了众人更有用的启示:高质量数据集对训练AI大模型至关重要。基于GPT-3.5的ChatGPT 使用强化学习和人类反馈(RLHF),也涉及了大量数据标注工作。
据披露,ChatGPT的RLHF标注,需要大量专业的人才。为此,Open AI特地招了几十名博士生做标注,针对机器的回答和指令进行基于人类逻辑的反馈。据《福布斯》报道,Open AI同时使用了外包服务,Alexandr Wang 的Scale AI也参与了训练ChatGPT。
图片
ChatGPT模型的训练过程
背靠清华大学的AI初创企业聆心智能联合创始人郑叔亮告诉南风窗,以 ChatGPT为代表的生成式AI,对数据质量提出了更高要求。
“AI生成的每一个文字,每一个对话,都是根据此前一个字的生成情况,或者问题本身,通过概率的推导所产生,”郑叔亮说。
这种模式下,一旦数据质量不高,生成的效果便是胡说八道、毫无可信度的AI。郑叔亮表示:“因此,一方面我们要搜集更多更精准的语料库,另一方面,还要加强对这些语料进行清洗、标注。”
图片
ChatGPT回答数据标注对ChatGPT的帮助
据美媒报道,拥有发达智能水平的ChatGPT,背后还有一群来自非洲肯尼亚的数据标注员。他们每天工作9个小时,阅读150-200段文字,标注带有性、暴力与仇恨言论的内容。
最终,一个月获得约合2500-3000人民币的报酬。
人工智能的背后仍是人工的努力。贾宇航分析,长期来看,靠人力的堆积支撑的数据产业,并不会有太大改变。
“大模型来了以后,很多人认为今后数据标注的工作会减少。”他表示,“但其实忽略了一点,随着AI功能越来越多,很多时候到了未涉足领域的时候,可能还需要人工处理。”
他认为,数据标注不会随着生成式大模型的诞生而减少,“反而有可能会更多”。
02
AI业的“富士康”
ChatGPT的出圈,带给国内数据集公司的不是猛火,而是久旱后的甘霖。
中国数据集公司兴起时间与Scale AI相似,都在2016-2017年。这类公司的核心目标,是帮助AI企业最大限度地减少劣质数据带来的影响。
不过,数据公司以销售数据集为生的少之又少。中国AI数据的头部公司中,明确在官网提及数据集业务的只有科创板上市公司海天瑞声。
图片
海天瑞声官网截图
据该公司披露,基于多年语音识别及合成领域的技术积累,其在多语种领域构筑深厚技术壁垒。截至2022第一季度,海天瑞声覆盖190个语种,累积词条数超过1000万,客户包括阿里巴巴、腾讯、百度、微软等大厂。
比起销售数据集,更多公司在做的是数据的下一环,数据标注。
贾宇航对南风窗介绍,数据集业务占云测数据中很小的部分。这一业务主要的运用场景在人工智能产品刚立项的阶段,“项目刚立项或进行预演时,需要一些开源,或者行业的基础数据集,以快速完成对算法的验证。”
而更多企业的需求,会在后面的阶段爆发,即当AI产品进入正式的研发和持续迭代时。
“这时候,对应的传感器或者场景明确,需要基于特定的场景完成数据的采集、清洗和标注。我们因此提供场景化的数据标注等服务。”贾宇航说。
图片
Scale AI 发布了激光雷达数据集 PandaSet,可用于训练自动驾驶模型
据前瞻产业研究院统计,中国数据标注公司从2014年兴起,发展到2017年达到高峰。2017年,数据标注相关融资事件达到9起。
这个数字,也是接下来多年的高峰。
劳动密集是这一阶段数据标注业的特点。据36氪报道,一家资深数据标注公司透露,行业内平均每家数据众包平台都有上万人。因此,有人比喻,数据标注业就像“人工智能背后的富士康”。
2018年,位于太原的山西转型综合改革示范区与百度达成合作,打造了号称“全国范围内人员和产值规模最大的单体数据标注基地”。据百度披露,该基地占地面积超1万平米,带动了至少200家从事数据服务的公司。
图片
数据标注师正在进行标注工作
而相对较低的技术门槛,使得数据标注公司多分布于中小城市。以百度为例,该公司披露,旗下数据众包平台百度众测除了安在太原,还在山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余、浙江丽水、广东清远、湖南郴州、黑龙江哈尔滨等地设点。
劳动密集的另一面意味着低门槛。在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力”,普遍受教育程度写的是“初中毕业”。根据媒体报道的数据标注师群体,许多都是中专、大专毕业生,也容纳宝妈、退役军人等各类群体。
低门槛的同时使得数据标注行业的小作坊遍地开花。
比起已经进入E轮融资、占据海外市场的Scale AI,占据我国数据标注市场主要份额的,反而是以工作室形态存在的小公司。
图片
Scale AI 完成的一项机械臂标记任务
他们被称为“公会”“团队”,通常在众包平台上接单,或者接第三方中介公司转过来分包的订单。
“公会”没能推动数据标注业愈加繁荣。相反,越来越低的标注价格让行业内部竞争加剧。
2017年开始,AI数据公司融资的量开始下滑。2018年,AI数据公司相关融资只有5笔,平均每笔只有千万级。到了2021年,相关融资只剩下一年两笔。
赢识科技首席执行官楚汝峰曾在受访时表示,我国数据标注的竞争激烈,没能出现像Scale AI独角兽巨头主要是因为,“国内做标注的小作坊太多了,市场不集中。”
03
转 型
数据集公司受AI行业的兴衰而变化。与Scale AI相似,给中国数据标注公司带来转机的,是大量涌现的自动驾驶企业。
中国工程院院士邬贺铨曾分析:“智能驾驶需要让汽车自动识别马路。但如果只是将视频单纯传给计算机,计算机无法识别,需要人工在视频中将道路框出。计算机多次接受信息后,才逐渐学会在视频和照片中识别道路。”
智能驾驶带来了大量的需求。国内头部数据企业,例如云测数据、数据堂、龙猫数据等,纷纷转向为车企提供服务。
图片
在科幻作品中,经常出现智能驾驶汽车的画面 /《机械公敌》剧照
据报道,国内一批主流的主机厂,如吉利、上汽、广汽等,从2021年始加强了自动驾驶数据标注方面的投入。到2022年,上述车企的投入预算已经在几十万元的基础上翻了十余倍。
数据堂公司相关负责人也曾在2022年受访时说:“(车企)数据需求缺口仍在,市场远未饱和。这对于真正优质的数据供应商来说,正是抢占市场高地的绝佳时机。”
愈加激烈的竞争,对数据标注行业提出了现实的挑战。数据标注公司普遍开始转型。
一个业内公认的方向是,从劳动密集型走向AI辅助标注。
“人机交互式,”贾宇航总结。
他解释,随着这几年的发展,数据标注的类型和内容越来越复杂。“最早的人脸识别,只需要在人脸上做一个拉框的标注,就可以完成对应需要的训练。而现在,还要求对人脸的关键点、表情或者一些人脸的属性或者姿态,例如半张脸被遮挡时等情况,进行标注。”
图片
市场的变化要求更高水准的数据处理能力。包括Scale AI、Appen等在内的国际数据公司将目光锁定在数据标注的平台以及工具化上。杭州数据标注公司曼孚科技曾对媒体总结:“Scale AI的平台工具已经在很大限度上淡化了人在其中的决定性作用,这成为企业竞争力的关键。”
贾宇航告诉南风窗,在强调质量和效率的当下,数据标注AI工程化的趋势愈加明显。
也就是说,如何把人组织起来,与机器交互,高效运转数据处理的过程,成为各家公司竞相“卷”的方向。
云测数据曾推出基于多端数据融合的标注平台4.0版。一大核心技术特点是多传感器融合。例如,在自动驾驶业,有了多个传感器的融合,系统获取数据将比单一传感器获得更多的信息。如此一来,只要一个简单的框,就能将车辆的3D激光点云数据自动识别。
图片
需要适应变化的除了给AI数据服务的AI,还有人才。
贾宇航告诉南风窗,“现在,对于标注人员的要求肯定是越来越高,”但是,“符合条件的数据人才并不好找”。
如今缺失的,他说,是理解各个垂直领域的专业人才。比如,为了提高时效性,降低错误率,医疗数据需要专业的医学生。但往往,这类人才通常极少从事数据业。
2019年,数据服务平台CrowdFlower也曾做过一组研究。
它对大约 80 名数据科学家进行了一项调查,发现数据科学家花费了:
60% 的时间用于组织和清理数据;
19% 的时间花在收集数据集上;
9% 的时间用于挖掘数据;
5% 的时间花在其他任务上。
数据科学家的大部分时间都花在数据准备,即收集、清理和标注数据上。这其中,57%的人表示,清理和处理数据,是最无聊、最不愉快的任务。
而如今,随着ChatGPT带来的AI热潮,“最无聊、最不愉快”的行业也正在起飞。
文中配图来源于网络
编辑 | 向由
排版 | 八斤
关注南风窗,查看更多精彩内容