他,26岁,登上《福布斯》封面 |
您所在的位置:网站首页 › 犀牛建模接单QQ群 › 他,26岁,登上《福布斯》封面 |
作者 | 南风窗高级记者 朱秋雨 2023年4月底,一个亚洲面孔登上了著名杂志《福布斯》的封面。这是一位年仅26岁的华裔企业家,名叫Alexandr Wang。 他手握最高估值73亿美元的科技公司。 2017年,Alexandr创立了一家名叫Scale AI的公司,走的是最热的AI赛道。7年后,他做的东西已经无可替代。据《福布斯》报道,Scale AI如今包揽了多家头部自动驾驶车企的服务,谷歌的Waymo、丰田汽车是它的拥趸。2020年起,它还从美国国防部处拿下了多个天价订单。 Alexandr Wang Sacle AI走的路子,是常被头部大厂和AI创业者忽略的方向,叫AI的标注数据集。 这是AI领域里的石油,有数据才能源源不断给深度学习提供燃料。一项数据显示,截至2021年,全球排名前1000万个网站中,英文内容占比60.4%,中文内容占比仅1.4%。中国AI需要依赖大量英文数据集训练。 实际上,国内不乏做AI数据集和数据标注的公司。上市公司海天瑞声、头部创业公司云测数据、数据堂等等,是业内佼佼者。 人工智能数据标注流程 / 精数标注研究院 比起人工智能产业给人“高大上”的直觉,数据工作面临繁琐的清洗、标注、处理等过程。业内因此盛传一句话,“人工有多强大,智能才有多强大”。 AI分析公司Cognilytica数据显示,在AI项目中,数据相关的处理过程占据超过80%的时间。 云测数据总经理贾宇航对南风窗总结,互联网大厂、创业公司更多在研究算法,数据集公司在做工程的事情。 在各家巨头猛追Open AI的当下,是时候关注支持AI深度学习的第一步——数据了。 01 机遇来了 不管业务是否与大模型挂钩,国内数据集公司近日受到了一大波关注。 数据集上市公司海天瑞声在3月底只用了3个交易日,累计涨幅近33%。股价创历史新高,比年初翻了三倍多。 尽管该公司早已贴出风险提示:“自然语言业务对公司整体贡献大约在10%左右。”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入。”
因为ChatGPT,云测数据总经理贾宇航也在2023年收到了来自各行各业对大模型和数据集的关注和问询。“每个人都对大模型各有各的看法,我们相互学习。”他告诉南风窗。 单论技术角度而言,ChatGPT代表的大模型,采用了与过往AI数据标注不同的技术路径。在过去,机器学习的主流依赖于human-in-the-loop,即有监督的学习。 有监督学习依赖大量人工对数据进行预处理、标注。例如,猫的图片,需要人类事先标注,用机器听得懂的语言告诉它只是一只猫。行内公认的规则是,人类上传的标注数据越多、越准确,机器学习的效果越好。 而ChatGPT代表的大模型,采用的是自监督学习模式。简单来说,考验的是机器自我学习能力。 采用“Human-in-the-loop”的交互式框架进行数据标注,以有效减少人工数据标注量 清华大学计算机系自然语言处理实验室副教授刘知远告诉南风窗,“大模型的不同之处在于,不事先假定到底需要完成哪些任务或者特定能力。它穷尽互联网尽可能获取多的数据,让模型自动地从这些数据里面学习知识。” OpenAI曾披露,训练GPT的模型是基于公开网站的数据,包括维基百科、专业论坛、电子书网站和媒体报道等各类高质量文本。 尽管对数据标注的需求减少,ChatGPT的成功,却给了众人更有用的启示:高质量数据集对训练AI大模型至关重要。基于GPT-3.5的ChatGPT 使用强化学习和人类反馈(RLHF),也涉及了大量数据标注工作。 据披露,ChatGPT的RLHF标注,需要大量专业的人才。为此,Open AI特地招了几十名博士生做标注,针对机器的回答和指令进行基于人类逻辑的反馈。据《福布斯》报道,Open AI同时使用了外包服务,Alexandr Wang 的Scale AI也参与了训练ChatGPT。 ChatGPT模型的训练过程 背靠清华大学的AI初创企业聆心智能联合创始人郑叔亮告诉南风窗,以 ChatGPT为代表的生成式AI,对数据质量提出了更高要求。 “AI生成的每一个文字,每一个对话,都是根据此前一个字的生成情况,或者问题本身,通过概率的推导所产生,”郑叔亮说。 这种模式下,一旦数据质量不高,生成的效果便是胡说八道、毫无可信度的AI。郑叔亮表示:“因此,一方面我们要搜集更多更精准的语料库,另一方面,还要加强对这些语料进行清洗、标注。” ChatGPT回答数据标注对ChatGPT的帮助 据美媒报道,拥有发达智能水平的ChatGPT,背后还有一群来自非洲肯尼亚的数据标注员。他们每天工作9个小时,阅读150-200段文字,标注带有性、暴力与仇恨言论的内容。 最终,一个月获得约合2500-3000人民币的报酬。 人工智能的背后仍是人工的努力。贾宇航分析,长期来看,靠人力的堆积支撑的数据产业,并不会有太大改变。 “大模型来了以后,很多人认为今后数据标注的工作会减少。”他表示,“但其实忽略了一点,随着AI功能越来越多,很多时候到了未涉足领域的时候,可能还需要人工处理。” 他认为,数据标注不会随着生成式大模型的诞生而减少,“反而有可能会更多”。 02 AI业的“富士康” ChatGPT的出圈,带给国内数据集公司的不是猛火,而是久旱后的甘霖。 中国数据集公司兴起时间与Scale AI相似,都在2016-2017年。这类公司的核心目标,是帮助AI企业最大限度地减少劣质数据带来的影响。 不过,数据公司以销售数据集为生的少之又少。中国AI数据的头部公司中,明确在官网提及数据集业务的只有科创板上市公司海天瑞声。 海天瑞声官网截图 据该公司披露,基于多年语音识别及合成领域的技术积累,其在多语种领域构筑深厚技术壁垒。截至2022第一季度,海天瑞声覆盖190个语种,累积词条数超过1000万,客户包括阿里巴巴、腾讯、百度、微软等大厂。 比起销售数据集,更多公司在做的是数据的下一环,数据标注。 贾宇航对南风窗介绍,数据集业务占云测数据中很小的部分。这一业务主要的运用场景在人工智能产品刚立项的阶段,“项目刚立项或进行预演时,需要一些开源,或者行业的基础数据集,以快速完成对算法的验证。” 而更多企业的需求,会在后面的阶段爆发,即当AI产品进入正式的研发和持续迭代时。 “这时候,对应的传感器或者场景明确,需要基于特定的场景完成数据的采集、清洗和标注。我们因此提供场景化的数据标注等服务。”贾宇航说。 Scale AI 发布了激光雷达数据集 PandaSet,可用于训练自动驾驶模型 据前瞻产业研究院统计,中国数据标注公司从2014年兴起,发展到2017年达到高峰。2017年,数据标注相关融资事件达到9起。 这个数字,也是接下来多年的高峰。 劳动密集是这一阶段数据标注业的特点。据36氪报道,一家资深数据标注公司透露,行业内平均每家数据众包平台都有上万人。因此,有人比喻,数据标注业就像“人工智能背后的富士康”。 2018年,位于太原的山西转型综合改革示范区与百度达成合作,打造了号称“全国范围内人员和产值规模最大的单体数据标注基地”。据百度披露,该基地占地面积超1万平米,带动了至少200家从事数据服务的公司。 数据标注师正在进行标注工作 而相对较低的技术门槛,使得数据标注公司多分布于中小城市。以百度为例,该公司披露,旗下数据众包平台百度众测除了安在太原,还在山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余、浙江丽水、广东清远、湖南郴州、黑龙江哈尔滨等地设点。 劳动密集的另一面意味着低门槛。在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力”,普遍受教育程度写的是“初中毕业”。根据媒体报道的数据标注师群体,许多都是中专、大专毕业生,也容纳宝妈、退役军人等各类群体。 低门槛的同时使得数据标注行业的小作坊遍地开花。 比起已经进入E轮融资、占据海外市场的Scale AI,占据我国数据标注市场主要份额的,反而是以工作室形态存在的小公司。 Scale AI 完成的一项机械臂标记任务 他们被称为“公会”“团队”,通常在众包平台上接单,或者接第三方中介公司转过来分包的订单。 “公会”没能推动数据标注业愈加繁荣。相反,越来越低的标注价格让行业内部竞争加剧。 2017年开始,AI数据公司融资的量开始下滑。2018年,AI数据公司相关融资只有5笔,平均每笔只有千万级。到了2021年,相关融资只剩下一年两笔。 赢识科技首席执行官楚汝峰曾在受访时表示,我国数据标注的竞争激烈,没能出现像Scale AI独角兽巨头主要是因为,“国内做标注的小作坊太多了,市场不集中。” 03 转 型 数据集公司受AI行业的兴衰而变化。与Scale AI相似,给中国数据标注公司带来转机的,是大量涌现的自动驾驶企业。 中国工程院院士邬贺铨曾分析:“智能驾驶需要让汽车自动识别马路。但如果只是将视频单纯传给计算机,计算机无法识别,需要人工在视频中将道路框出。计算机多次接受信息后,才逐渐学会在视频和照片中识别道路。” 智能驾驶带来了大量的需求。国内头部数据企业,例如云测数据、数据堂、龙猫数据等,纷纷转向为车企提供服务。 在科幻作品中,经常出现智能驾驶汽车的画面 /《机械公敌》剧照 据报道,国内一批主流的主机厂,如吉利、上汽、广汽等,从2021年始加强了自动驾驶数据标注方面的投入。到2022年,上述车企的投入预算已经在几十万元的基础上翻了十余倍。 数据堂公司相关负责人也曾在2022年受访时说:“(车企)数据需求缺口仍在,市场远未饱和。这对于真正优质的数据供应商来说,正是抢占市场高地的绝佳时机。” 愈加激烈的竞争,对数据标注行业提出了现实的挑战。数据标注公司普遍开始转型。 一个业内公认的方向是,从劳动密集型走向AI辅助标注。 “人机交互式,”贾宇航总结。 他解释,随着这几年的发展,数据标注的类型和内容越来越复杂。“最早的人脸识别,只需要在人脸上做一个拉框的标注,就可以完成对应需要的训练。而现在,还要求对人脸的关键点、表情或者一些人脸的属性或者姿态,例如半张脸被遮挡时等情况,进行标注。”
市场的变化要求更高水准的数据处理能力。包括Scale AI、Appen等在内的国际数据公司将目光锁定在数据标注的平台以及工具化上。杭州数据标注公司曼孚科技曾对媒体总结:“Scale AI的平台工具已经在很大限度上淡化了人在其中的决定性作用,这成为企业竞争力的关键。” 贾宇航告诉南风窗,在强调质量和效率的当下,数据标注AI工程化的趋势愈加明显。 也就是说,如何把人组织起来,与机器交互,高效运转数据处理的过程,成为各家公司竞相“卷”的方向。 云测数据曾推出基于多端数据融合的标注平台4.0版。一大核心技术特点是多传感器融合。例如,在自动驾驶业,有了多个传感器的融合,系统获取数据将比单一传感器获得更多的信息。如此一来,只要一个简单的框,就能将车辆的3D激光点云数据自动识别。
需要适应变化的除了给AI数据服务的AI,还有人才。 贾宇航告诉南风窗,“现在,对于标注人员的要求肯定是越来越高,”但是,“符合条件的数据人才并不好找”。 如今缺失的,他说,是理解各个垂直领域的专业人才。比如,为了提高时效性,降低错误率,医疗数据需要专业的医学生。但往往,这类人才通常极少从事数据业。 2019年,数据服务平台CrowdFlower也曾做过一组研究。 它对大约 80 名数据科学家进行了一项调查,发现数据科学家花费了: 60% 的时间用于组织和清理数据; 19% 的时间花在收集数据集上; 9% 的时间用于挖掘数据; 5% 的时间花在其他任务上。 数据科学家的大部分时间都花在数据准备,即收集、清理和标注数据上。这其中,57%的人表示,清理和处理数据,是最无聊、最不愉快的任务。 而如今,随着ChatGPT带来的AI热潮,“最无聊、最不愉快”的行业也正在起飞。 文中配图来源于网络 编辑 | 向由 排版 | 八斤 关注南风窗,查看更多精彩内容 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |