他，26岁，登上《福布斯》封面

您所在的位置：网站首页 › 犀牛建模接单QQ群 › 他，26岁，登上《福布斯》封面

他，26岁，登上《福布斯》封面

2023-05-29 23:05| 来源: 网络整理| 查看: 265

作者 | 南风窗高级记者朱秋雨

2023年4月底，一个亚洲面孔登上了著名杂志《福布斯》的封面。这是一位年仅26岁的华裔企业家，名叫Alexandr Wang。

他手握最高估值73亿美元的科技公司。

2017年，Alexandr创立了一家名叫Scale AI的公司，走的是最热的AI赛道。7年后，他做的东西已经无可替代。据《福布斯》报道，Scale AI如今包揽了多家头部自动驾驶车企的服务，谷歌的Waymo、丰田汽车是它的拥趸。2020年起，它还从美国国防部处拿下了多个天价订单。

Alexandr Wang

Sacle AI走的路子，是常被头部大厂和AI创业者忽略的方向，叫AI的标注数据集。

这是AI领域里的石油，有数据才能源源不断给深度学习提供燃料。一项数据显示，截至2021年，全球排名前1000万个网站中，英文内容占比60.4%，中文内容占比仅1.4%。中国AI需要依赖大量英文数据集训练。

实际上，国内不乏做AI数据集和数据标注的公司。上市公司海天瑞声、头部创业公司云测数据、数据堂等等，是业内佼佼者。

人工智能数据标注流程 / 精数标注研究院

比起人工智能产业给人“高大上”的直觉，数据工作面临繁琐的清洗、标注、处理等过程。业内因此盛传一句话，“人工有多强大，智能才有多强大”。

AI分析公司Cognilytica数据显示，在AI项目中，数据相关的处理过程占据超过80%的时间。

云测数据总经理贾宇航对南风窗总结，互联网大厂、创业公司更多在研究算法，数据集公司在做工程的事情。

在各家巨头猛追Open AI的当下，是时候关注支持AI深度学习的第一步——数据了。

机遇来了

不管业务是否与大模型挂钩，国内数据集公司近日受到了一大波关注。

数据集上市公司海天瑞声在3月底只用了3个交易日，累计涨幅近33%。股价创历史新高，比年初翻了三倍多。

尽管该公司早已贴出风险提示：“自然语言业务对公司整体贡献大约在10%左右。”“公司尚未与OpenAI开展合作，其ChatGPT的产品和服务尚未给公司带来业务收入。”

因为ChatGPT，云测数据总经理贾宇航也在2023年收到了来自各行各业对大模型和数据集的关注和问询。“每个人都对大模型各有各的看法，我们相互学习。”他告诉南风窗。

单论技术角度而言，ChatGPT代表的大模型，采用了与过往AI数据标注不同的技术路径。在过去，机器学习的主流依赖于human-in-the-loop，即有监督的学习。

有监督学习依赖大量人工对数据进行预处理、标注。例如，猫的图片，需要人类事先标注，用机器听得懂的语言告诉它只是一只猫。行内公认的规则是，人类上传的标注数据越多、越准确，机器学习的效果越好。

而ChatGPT代表的大模型，采用的是自监督学习模式。简单来说，考验的是机器自我学习能力。

采用“Human-in-the-loop”的交互式框架进行数据标注，以有效减少人工数据标注量

清华大学计算机系自然语言处理实验室副教授刘知远告诉南风窗，“大模型的不同之处在于，不事先假定到底需要完成哪些任务或者特定能力。它穷尽互联网尽可能获取多的数据，让模型自动地从这些数据里面学习知识。”

OpenAI曾披露，训练GPT的模型是基于公开网站的数据，包括维基百科、专业论坛、电子书网站和媒体报道等各类高质量文本。

尽管对数据标注的需求减少，ChatGPT的成功，却给了众人更有用的启示：高质量数据集对训练AI大模型至关重要。基于GPT-3.5的ChatGPT 使用强化学习和人类反馈（RLHF)，也涉及了大量数据标注工作。

据披露，ChatGPT的RLHF标注，需要大量专业的人才。为此，Open AI特地招了几十名博士生做标注，针对机器的回答和指令进行基于人类逻辑的反馈。据《福布斯》报道，Open AI同时使用了外包服务，Alexandr Wang 的Scale AI也参与了训练ChatGPT。

ChatGPT模型的训练过程

背靠清华大学的AI初创企业聆心智能联合创始人郑叔亮告诉南风窗，以 ChatGPT为代表的生成式AI，对数据质量提出了更高要求。

“AI生成的每一个文字，每一个对话，都是根据此前一个字的生成情况，或者问题本身，通过概率的推导所产生，”郑叔亮说。

这种模式下，一旦数据质量不高，生成的效果便是胡说八道、毫无可信度的AI。郑叔亮表示：“因此，一方面我们要搜集更多更精准的语料库，另一方面，还要加强对这些语料进行清洗、标注。”

ChatGPT回答数据标注对ChatGPT的帮助

据美媒报道，拥有发达智能水平的ChatGPT，背后还有一群来自非洲肯尼亚的数据标注员。他们每天工作9个小时，阅读150-200段文字，标注带有性、暴力与仇恨言论的内容。

最终，一个月获得约合2500-3000人民币的报酬。

人工智能的背后仍是人工的努力。贾宇航分析，长期来看，靠人力的堆积支撑的数据产业，并不会有太大改变。

“大模型来了以后，很多人认为今后数据标注的工作会减少。”他表示，“但其实忽略了一点，随着AI功能越来越多，很多时候到了未涉足领域的时候，可能还需要人工处理。”

他认为，数据标注不会随着生成式大模型的诞生而减少，“反而有可能会更多”。

AI业的“富士康”

ChatGPT的出圈，带给国内数据集公司的不是猛火，而是久旱后的甘霖。

中国数据集公司兴起时间与Scale AI相似，都在2016-2017年。这类公司的核心目标，是帮助AI企业最大限度地减少劣质数据带来的影响。

不过，数据公司以销售数据集为生的少之又少。中国AI数据的头部公司中，明确在官网提及数据集业务的只有科创板上市公司海天瑞声。

海天瑞声官网截图

据该公司披露，基于多年语音识别及合成领域的技术积累，其在多语种领域构筑深厚技术壁垒。截至2022第一季度，海天瑞声覆盖190个语种，累积词条数超过1000万，客户包括阿里巴巴、腾讯、百度、微软等大厂。

比起销售数据集，更多公司在做的是数据的下一环，数据标注。

贾宇航对南风窗介绍，数据集业务占云测数据中很小的部分。这一业务主要的运用场景在人工智能产品刚立项的阶段，“项目刚立项或进行预演时，需要一些开源，或者行业的基础数据集，以快速完成对算法的验证。”

而更多企业的需求，会在后面的阶段爆发，即当AI产品进入正式的研发和持续迭代时。

“这时候，对应的传感器或者场景明确，需要基于特定的场景完成数据的采集、清洗和标注。我们因此提供场景化的数据标注等服务。”贾宇航说。

Scale AI 发布了激光雷达数据集 PandaSet，可用于训练自动驾驶模型

据前瞻产业研究院统计，中国数据标注公司从2014年兴起，发展到2017年达到高峰。2017年，数据标注相关融资事件达到9起。

这个数字，也是接下来多年的高峰。

劳动密集是这一阶段数据标注业的特点。据36氪报道，一家资深数据标注公司透露，行业内平均每家数据众包平台都有上万人。因此，有人比喻，数据标注业就像“人工智能背后的富士康”。

2018年，位于太原的山西转型综合改革示范区与百度达成合作，打造了号称“全国范围内人员和产值规模最大的单体数据标注基地”。据百度披露，该基地占地面积超1万平米，带动了至少200家从事数据服务的公司。

数据标注师正在进行标注工作

而相对较低的技术门槛，使得数据标注公司多分布于中小城市。以百度为例，该公司披露，旗下数据众包平台百度众测除了安在太原，还在山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余、浙江丽水、广东清远、湖南郴州、黑龙江哈尔滨等地设点。

劳动密集的另一面意味着低门槛。在2021年版的《人工智能训练师国家职业技能标准》中，对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力”，普遍受教育程度写的是“初中毕业”。根据媒体报道的数据标注师群体，许多都是中专、大专毕业生，也容纳宝妈、退役军人等各类群体。

低门槛的同时使得数据标注行业的小作坊遍地开花。

比起已经进入E轮融资、占据海外市场的Scale AI，占据我国数据标注市场主要份额的，反而是以工作室形态存在的小公司。

Scale AI 完成的一项机械臂标记任务

他们被称为“公会”“团队”，通常在众包平台上接单，或者接第三方中介公司转过来分包的订单。

“公会”没能推动数据标注业愈加繁荣。相反，越来越低的标注价格让行业内部竞争加剧。

2017年开始，AI数据公司融资的量开始下滑。2018年，AI数据公司相关融资只有5笔，平均每笔只有千万级。到了2021年，相关融资只剩下一年两笔。

赢识科技首席执行官楚汝峰曾在受访时表示，我国数据标注的竞争激烈，没能出现像Scale AI独角兽巨头主要是因为，“国内做标注的小作坊太多了，市场不集中。”

转型

数据集公司受AI行业的兴衰而变化。与Scale AI相似，给中国数据标注公司带来转机的，是大量涌现的自动驾驶企业。

中国工程院院士邬贺铨曾分析：“智能驾驶需要让汽车自动识别马路。但如果只是将视频单纯传给计算机，计算机无法识别，需要人工在视频中将道路框出。计算机多次接受信息后，才逐渐学会在视频和照片中识别道路。”

智能驾驶带来了大量的需求。国内头部数据企业，例如云测数据、数据堂、龙猫数据等，纷纷转向为车企提供服务。

在科幻作品中，经常出现智能驾驶汽车的画面 /《机械公敌》剧照

据报道，国内一批主流的主机厂，如吉利、上汽、广汽等，从2021年始加强了自动驾驶数据标注方面的投入。到2022年，上述车企的投入预算已经在几十万元的基础上翻了十余倍。

数据堂公司相关负责人也曾在2022年受访时说：“（车企）数据需求缺口仍在，市场远未饱和。这对于真正优质的数据供应商来说，正是抢占市场高地的绝佳时机。”

愈加激烈的竞争，对数据标注行业提出了现实的挑战。数据标注公司普遍开始转型。

一个业内公认的方向是，从劳动密集型走向AI辅助标注。

“人机交互式，”贾宇航总结。

他解释，随着这几年的发展，数据标注的类型和内容越来越复杂。“最早的人脸识别，只需要在人脸上做一个拉框的标注，就可以完成对应需要的训练。而现在，还要求对人脸的关键点、表情或者一些人脸的属性或者姿态，例如半张脸被遮挡时等情况，进行标注。”

市场的变化要求更高水准的数据处理能力。包括Scale AI、Appen等在内的国际数据公司将目光锁定在数据标注的平台以及工具化上。杭州数据标注公司曼孚科技曾对媒体总结：“Scale AI的平台工具已经在很大限度上淡化了人在其中的决定性作用，这成为企业竞争力的关键。”

贾宇航告诉南风窗，在强调质量和效率的当下，数据标注AI工程化的趋势愈加明显。

也就是说，如何把人组织起来，与机器交互，高效运转数据处理的过程，成为各家公司竞相“卷”的方向。

云测数据曾推出基于多端数据融合的标注平台4.0版。一大核心技术特点是多传感器融合。例如，在自动驾驶业，有了多个传感器的融合，系统获取数据将比单一传感器获得更多的信息。如此一来，只要一个简单的框，就能将车辆的3D激光点云数据自动识别。

需要适应变化的除了给AI数据服务的AI，还有人才。

贾宇航告诉南风窗，“现在，对于标注人员的要求肯定是越来越高，”但是，“符合条件的数据人才并不好找”。

如今缺失的，他说，是理解各个垂直领域的专业人才。比如，为了提高时效性，降低错误率，医疗数据需要专业的医学生。但往往，这类人才通常极少从事数据业。

2019年，数据服务平台CrowdFlower也曾做过一组研究。

它对大约 80 名数据科学家进行了一项调查，发现数据科学家花费了：

60% 的时间用于组织和清理数据；

19% 的时间花在收集数据集上；

9% 的时间用于挖掘数据；

5% 的时间花在其他任务上。

数据科学家的大部分时间都花在数据准备，即收集、清理和标注数据上。这其中，57%的人表示，清理和处理数据，是最无聊、最不愉快的任务。

而如今，随着ChatGPT带来的AI热潮，“最无聊、最不愉快”的行业也正在起飞。

文中配图来源于网络

编辑 | 向由

排版 | 八斤

关注南风窗，查看更多精彩内容

【本文地址】

他，26岁，登上《福布斯》封面

他，26岁，登上《福布斯》封面

今日新闻

推荐新闻