AI大模型行业专题报告:AI大模型企业是如何炼成的

您所在的位置:网站首页 计算机视觉CV的竞争对手是 AI大模型行业专题报告:AI大模型企业是如何炼成的

AI大模型行业专题报告:AI大模型企业是如何炼成的

2023-06-05 20:49| 来源: 网络整理| 查看: 265

(报告出品方/作者:华泰证券,黄乐平、权鹤阳、陈钰)

海外大模型:科技巨头自主研发,积极联盟 AI 初创公司

如何形成“数据-模型-应用”的飞轮是 AI 大模型企业成功关键

我们认为 AI 大模型是一个资本密集,人才密集和数据密集的产业,如何形成“数据-模型应用”的飞轮,是大模型企业成功的关键。我们看到海外企业中,微软&OpenAI、谷歌已经 逐步形成 AI 大模型的飞轮。当前,国内百度、阿里、商汤、华为等积极加入,行业呈现“百 模大战”的竞争格局,是否能形成飞轮是最后胜出的关键。

微软&OpenAI 领先,谷歌追赶,Meta 防御性开源,英伟达转型算力云服务

我们通过对海外基础大模型训练企业进行了深度复盘。微软和 OpenAI 是目前大模型技术水 平、产品化落地最为前沿的领军者,其对颠覆式创新的持续投入是当前领先的深层原因。 谷歌技术储备丰厚,自有业务生态广阔并且是 AI 落地的潜在场景,但管理上未形成合力, 目前正在产品化、生态化加速追赶。英伟达是 AI 芯片领军者,CUDA 框架构筑了其它芯片 公司难以逾越的护城河,目前正在从硬件向算力云服务、MaaS 的商业模式转型。Meta 在 产品化上进展缓慢,选择模型开源的防御性策略,以应对 OpenAI、谷歌等竞争对手的强势 闭源模型。AWS 作为领先的云服务厂商,超算技术布局领先,但是在 AI 大模型竞争上的 应对稍显迟缓。

科技巨头正通过其云计算部门,积极寻求与 AI 初创公司的合作

Al 行业进入大模型主导的时代,大模型的训练和推理对大量、可靠的计算资源和存储空间 提出要求。拥有云计算资源的科技巨头和研发大模型的 AI 初创公司积极寻求共赢合作,这 种合作模式类似云服务市场的代理人模式。 一方面,科技巨头通常以投资或收购的方式,选择一个或多个 AI 初创公司作为合作伙伴, 将大模型能力整合到自身产品中,以抢占布局大模型主导的 AI 市场;同时,通过云计算平 台提供大模型能力(MaaS),在云计算竞争中保持市场份额甚至突围。另一方面,作为交 换,AI 初创公司将获得来自科技巨头的资金、强大云计算资源和基础设施的支持来加快大 模型训练;同时也将更多的客户和 AI 应用场景,不仅能获取海量反馈数据来优化模型,也 便于让 AI 技术商业化以带来盈利。因此,这种合作模式或许将导致 AI 市场结构与云服务市 场类似的高度集中的结构。

微软为 OpenAI 打造超级算力集群,并获得其技术的独家授权。据微软 2020 年披露,微软 与 OpenAI 达成独家合作伙伴关系,并为 OpenAI 专属打造拥有超过 28.5 万张 CPU、1 万 张 GPU、网络连接能力为 400Gb/s 的 AI 超级计算机,用以支持 OpenAI 的大模型训练。 微软则将旗下多种产品与 OpenAI 技术集成,例如搭载 GPT-4 的新版 Bing 搜索引擎和 Microsoft 365 Copilot。微软还推出了 Azure OpenAI 服务,使得企业客户可以在云平台上 直接调用 OpenAI 模型,通过云平台实现了大模型资源的按需分放。 谷歌联手 Anthropic,期望在生成式 AI 掀起的浪潮中巩固自身地位。2023 年 2 月,谷歌向 AI 初创公司 Anthropic 投资了近 4 亿美元,持有后者约 10%股份。双方签订了一份大型云 合同,谷歌云将为 Anthropic 提供大规模 TPU 和 GPU 加速支持,且将在谷歌云上部署其类 ChtaGPT 的聊天机器人产品 Claude。

亚马逊云科技(AWS)推出“中立”的托管平台 Amazon Bedrock,让企业级客户能快速、 安全和高性价比地调用多种大模型构建自己的程序。区别于谷歌和微软已发布面向大众的 产品,AWS 瞄准的是企业客户,并且期望作为一个“中立”的生成式 AI 大模型托管平台, 不依赖于任何一家 AI 初创公司。借助 Bedrock,企业级客户能通过 API 调用来自不同提供 商的 AI 模型,例如 AI21 Labs 的 Jurassic-2、Anthropic 的 Claude、Stability AI 的 Stable Diffusion 以及 AWS 自研模型 Titan。此外,任何客户数据都不会被用于训练底层模型。

OpenAI:全球领先的 AI 初创企业

发展历程:从非营利开端到向营利性全面转型

OpenAI 是美国一家人工智能(Artificial Intelligence,AI)研究实验室,由非营利组织 OpenAI 和其营利组织子公司 OpenAI LP 所组成,公司致力于构建安全的通用人工智能(Artificial General Intelligence,AGI)以造福人类。 非营利开端:硅谷大牛云集,创建非营利组织以促进 AI 发展。非盈利性的 AI 项目 OpenAI 于 2015 年宣布正式启动,由许多硅谷大牛共同创建,例如硅谷创业孵化器 Y Combinator CEO 的 Sam Altman、Google Brain 的 Ilya Sutskever、时任互联网支付处理平台 Stripe CTO 的 Greg Brockman 以及特斯拉的 CEO Elon Musk 等,许多创始人都曾是被誉为“深度学 习教父”Geoffrey Hinton 教授的学生。公司把生成式预训练模型(Generative Pre-trained Transformer,GPT)确定为主要研究方向,先后推出并开源预训练 NLP 模型 GPT-1,以 及采用迁移学习技术、能实现多个 NLP 任务的 GPT-2。

向营利性转型:与微软深度绑定,推出掀起生成式 AI 浪潮的 ChatGPT。2018 年,由于 Elon Musk 担任 CEO 的 Tesla 等公司也在开发 AI 技术,为避免潜在的利益冲突,Elon Musk 辞去 OpenAI 董事会席位。为支撑大模型训练的高算力和资金需求,同年,有限营利公司 OpenAI LP 成立。2019 年,OpenAI LP 接受微软 10 亿美元投资,与其达成独家合作伙伴 关系。在强大算力和充足资金的助力下,OpenAI 沿着 GPT 路线持续发力,2020 年推出拥 有小样本泛化能力的 GPT-3,2022 年推出加入指示学习(Instruction Learning)和人工反 馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)的 InstructGPT, 并于 2022 年发布产品化的 ChatGPT,掀起了一股席卷全球的生成式 AI 浪潮。 全面转型:加快商业化步伐,构建生态圈。2023 年 1 月,微软宣布与 OpenAI 长期合作伙 伴关系进入第三阶段,将继续向 OpenAI 投资数十亿美元,并加速产品与技术的整合。2023 年 3 月,OpenAI 发布工程化的多模态 GPT-4,并与各个领域的软件开展合作;同月,OpenAI 发布 ChatGPT Plugins(ChatGPT 插件集),将 GPT 大模型能力与面向用户的第三方应用 程序互联,应用空间想象力广阔.

团队:年轻、背景豪华且高度聚焦技术

OpenAI 有着一支高人才密度、高效率的“特种兵”创始人团队。首席执行官兼联合创始人 Sam Altman,曾任硅谷创业孵化器 Y Combinator 的 CEO,于 2015 年带领创建了 OpenAI, 致力于构建安全且人类级别 AI,是一位有着卓越的商业头脑和战略思维的领导者。总裁兼 联合创始人 Greg Brockman,曾任互联网支付处理平台 Stripe 的 CTO,在 OpenAI 曾用九 个月时间从“零”学起成为一名 1 顶 10 的 AI 工程师,是技术产品化的第一推手。首席科 学家兼联合创始人 Ilya Sutskever,曾就职于 Google Brain,参与了深度学习框架 TensorFlow、生成式对抗网络(GAN)和序列到序列(Seq2Seq)模型的研究,在 OpenAI 领导了 GPT-1/2/3、DALLE 以及 ChatGPT 等模型的研发。 微软的 AI 研究实验室(Microsoft Research AI)是推进 AI 研究的主力团队。实验室于 2017 年成立,隶属于微软研究院,凝聚了来自感知、学习、推理和自然语言处理等多个 AI 研究 子领域的顶尖科学家,旨在将不同学科结合起来以推进 AGI 技术研发。

ChatGPT 团队由一群年轻、背景豪华、经验丰富且高度聚焦技术研发的人员组成。AMiner 与智谱研究发布的报告显示,团队规模虽不足百人(共 87 人),但有着以下显著特征:1) 平均年龄 32 岁,“90 后”是主力军;2)学术能力和业界经验均突出,其中有 10 人来自谷 歌;3)技术人员近九成,高度聚焦技术研发;4)LLM 领域的经验丰富,1/4 团队成员曾 参与 Codex 项目。

算力:强大的算力支撑 GPT 释放大模型潜能

大模型的训练和推理对算力消耗提出高要求,AI 超级算力集群有力推动 GPT 系列发展。 2020 年,微软为 OpenAI 专属打造拥有超过 28.5 万张 CPU、1 万张 GPU 的 AI 超级计算 机,通过 Azure 云平台给予其算力支持,并保证该部分算力不会被 Azure 其他服务占用, 为 OpenAI 的大模型训练配置强大且灵活的计算资源和基础设施。此外,芯片龙头企业 NVIDIA也与OpenAI保持紧密合作,供应最先进的GPU以支持GPT系列模型的加速计算, 例如 2021 年 OpenAI 将 NVIDIA 全球首款 DGX AI 超级计算机用以训练 GPT-3.5。 微软正在自研 AI 芯片,首要目标便是为 OpenAI 提供算力。2023 年 4 月,据 The Information 报道,微软正在秘密研发自己的 AI 芯片,代号雅典娜(Athena)。雅典娜芯片由台积电代 工,采用 5nm 先进制程,首个目标便是为 OpenAI 提供算力引擎,以替代昂贵的英伟达 A100/H100,节省成本。微软从 2019 年就开始研发这款芯片,目前已在测试阶段。

模型:坚持 GPT 技术路径,持续探索生成式 AI 潜力

OpenAI 从 18 年起一直沿着 GPT 路线持续发力,通过 GPT1/2/3/3.5/4 等模型不断地进行 技术探索。 在模型架构上,GPT 是侧重生成的单向模型。模型的基础架构是 Transformer 的解码器, 解码器的第一个自注意力层加入了掩蔽机制,使得句子的未来信息被隐藏,由于只能通过 学习当前和历史的文本信息,来对下一个字进行预测,因此属于单向的生成式模型。生成 式模型相比理解式模型通常具有更高的灵活性和更强的泛化能力,在应用时更具通用性。

不断扩大数据量和参数量进一步提升模型的表现。GPT 系列模型结构秉承了不断堆叠 Transformer 的思想,通过不断提升训练语料的规模、网络的参数数量来完成 GPT 系列的 迭代更新。

InstructGPT 极大地提升了通用 AI 系统与人类意图的对齐能力。InstructGPT 基于 GPT-3 的架构,引入了指示学习(Instruction Learning)来使得 AI 系统更遵循人类指令,减少产 生有害或错误内容的可能性;同时,引入人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)训练机制,通过强化学习范式让生成式 AI 产出的内容更符合 人类意图。 多模态能力和预测扩展工具让 GPT-4 与万物互联。2023 年 3 月,OpenAI 发布 GPT-4,模 型支持文本和图像输入的多模态能力,应用空间想象力巨大,有望重塑从浏览器到文档智 能等的软件交互。同时,OpenAI 推出具备预测扩展性的深度学习堆栈,用极小算力成本就 能可靠预测 GPT-4 在下游垂直领域应用的性能,让小成本广泛试用成为可能。在选择合适 的大模型后,模型微调让通用基础模型在细分领域的表现进一步提升。

应用:以产品为导向形成数据飞轮,逐步构建生态圈

推动技术商业化,形成模型调用、用户数据反馈和模型迭代的正反馈循环。OpenAI 始终以 产品为导向,积极推出产品以迅速获取用户,从而得到用户反馈数据来训练出更好的模型。 2020 年,OpenAI 在发布 GPT-3 后快速开放商用 API 服务,让下游客户通过 API 调用模型 能力。在 ChatGPT 的训练过程中,则融入用户数据反馈:1)采用 GPT-3 API 获取的真实 用户请求微调基础模型;2)引入 RLHF 训练机制,采用人工标注的数据,通过人类的反馈进行强化学习,针对性地进行模型优化。这使得ChatGPT在多个自然语言任务如文书写作、 代码生成与修改、多轮对话等中展现出远超 GPT-3 的优秀能力,并让有害和不真实输出有 效减少。

技术与产品的整合进一步推动数据飞轮的运转。当前,微软将把 OpenAI 的技术与旗下各 应用生态的产品整合,涵盖企业级云计算、办公、底层代码生成和娱乐交互等各个应用层 面。

GPT-4 开始构建生态圈,与各个领域的软件开展合作。Be My Eyes 是一款帮助全世界的盲 人以及低视力人群的产品,通过 GPT-4 的视觉输入功能,Be My Eyes 能够大幅度提高 Virtual Volunteer 对图片的理解程度。语言学习软件 Duolingo 推出 GPT-4 驱动的 Duolingo Max,能够辅助用户解释答案对错,以及陪同用户进行角色扮演式地练习。随着 AI 工具在 C 端渗透率逐步提升,各行业生态中的数据反馈越来越丰富和庞大,进一步推动数据飞轮 的快速运转。

谷歌:LLM 领域的奠基者

发展历程:从 AI 技术研发的领军者到产业化进程的推动者

谷歌联手 AI 初创企业 DeepMind,率先展开 AI 领域的技术布局。2014 年,谷歌收购 AI 初创公司 DeepMind。DeepMind 持续探索模拟、生物科研、游戏操作、对话聊天等领域的 高性能算法,代表产品包括打败世界围棋冠军的 AIphaGo、精准预测蛋白质结构的 AIphaFold、战胜电竞职业玩家的 AIphaStar、智能聊天机器人 Sparrow 等。 在 LLM 领域,谷歌是新技术研发的领军者和奠基者。2015 年,谷歌开源了深度学习框架 TensorFlow,其具备灵活、可扩展且易于部署等优势,成为应用最广泛的深度学习框架之 一,尤其在工业应用处于领先地位。2017 年,谷歌发布 NLP 领域的里程碑——Transformer, 它首次引入注意力机制,使得模型能更好地处理长文本和复杂的语言结构,大幅提高 NLP 任务的准确度和效率,为后来所有大语言模型奠定基础架构。2018 年,谷歌发布 3.4 亿参 数的大规模预训练模型 BERT,在理解复杂的语言结构和语义中表现优秀,在多项 NLP 任 务上的效果都远远超过了传统的浅层架构,宣告 NLP 范式转变为大规模预训练模型的方法。

谷歌加快生成式 AI 产业布局。OpenAI 于 2022 年底推出的 ChatGPT 掀起了席卷全球的生 成式 AI 浪潮,使得 GPT 能力在各个行业和领域不断拓展,并对谷歌 AI 领先地位构成挑战。 作为应对,谷歌于 2023 年 2 月宣布通过投资联手 AI 初创公司 Anthropic,将在谷歌云上部 署 ChatGPT 的有力竞品 Claude,并于同月推出自研的基于 1270 亿参数大模型 LaMDA 的 聊天机器人 Bard。

团队:Google DeepMind 汇集谷歌 AI 领域人才

经过两轮人才整合,当前谷歌主要 AI 研发团队合并为 Google DeepMind。为 2023 年 2 月,谷歌旗下专注 LLM 领域的“蓝移团队”(Blueshift Team)宣布加入 DeepMind,以共 同提升 LLM 技术的能力。4 月,谷歌宣布正式将谷歌“大脑”和 DeepMind 两大团队合并, 组成“Google DeepMind”部门。Google DeepMind 部门首席执行官将由 DeepMind 联合 创始人兼首席执行官 Demis Hassabis 担任;原谷歌大脑团队负责人 Jeff Dean 转任谷歌首 席科学家,领导谷歌 AI 相关的最关键和战略性的技术项目,其中首要项目就是系列多模态 AI 模型。AI 领域的世界级人才与计算能力、基础设施和资源的汇集,将显著加快谷歌在 AI 方面探索的进展。

算力:TPU 系列芯片和新一代超级计算机支撑 AI 大模型训练和创新

TPU(Tensor Processing Unit)是谷歌专门为高效计算和加速神经网络训练和推理过程而 设计的专用芯片(Application-Specific Integrated Circuit,ASIC)。2016 年,谷歌发布第 一代 TPU,成为 AlphaGo 背后的算力。与 GPU 相比,TPU 采用低精度计算,在几乎不影 响深度学习处理效果的前提下大幅降低了功耗、加快运算速度。最新一代的 TPU v4 发布于 2021 年,在相似规模的系统训练中,TPU v4 比 A100 计算速度快 1.15-1.67 倍、功耗低 1.33-1.93 倍。TPU v4 卓越的性能、可伸缩性和灵活性使其成为支持 LaMDA、MUM、PaLM 等大规模语言模型的主力产品。

谷歌推出新一代超级计算机 A3 Virtual Machines,为大型语言模型创新提供动力。谷歌于 2023 年 5 月的 I/O 大会发布 A3 超级计算机,其采用第 4 代英特尔至强可扩展处理器、2TB DDR5-4800 内存以及 8 张英伟达 H100。此外,A3 是首个使用谷歌定制设计的 200 Gbps IPU 的 GPU 实例,GPU 间的数据传输绕过 CPU 主机,通过与其他虚拟机网络和数据流量 分离的接口传输,网络带宽相比 A2 增加 10 倍,具有低延迟和高带宽稳定性。A3 超级计算 机专门设计用于训练和服务对计算资源要求极高的 AI 大模型,这些模型将推动当今生成式 AI 和大型语言模型的创新进展.

框架:领先的自研深度学习平台 TensorFlow

2015 年,谷歌开源了深度学习框架 TensorFlow,其是当前 AI 领域主流开发工具之一。 TensorFlow 采用计算图来表示神经网络计算过程和数据流动,从而实现高效的并行数据处 理和运算,尤其在大规模分布式训练方面具有优势。TensorFlow 还提供了广泛的工具和 API, 可用于各种类型的深度学习应用,例如计算机视觉、自然语言处理和语音识别等领域。此 外,TensorFlow 具有很好的可移植性,能够在多种硬件设备和操作系统上运行。目前, TensorFlow 生态系统完备,为研发人员提供了从模型构建到部署和运营管理的全套工具链, 是深度学习领域应用最广泛的框架之一,特别在工业级领域应用处于领先地位。

模型:各技术路线的模型储备丰富,多模态大模型实现人机交互领域突破

谷歌在 AI 各技术路线上积累了丰富的模型储备。从基础架构的角度,其技术路线主要可以 分为三个方向: 1)基于 Transformer 纯编码器(Encoder-only):与单向生成的 GPT 模型不同,纯编码 器模型是侧重理解的双向模型,通过并行计算和多头注意力层来学习单词之间的相关性, 实现上下文理解。主要模型包括语言模型 BERT、LaMDA、PaLM、基于 LaMDA 的对话模 型 Bard 以及多模态视觉语言模型 PaLM-E。 2)基于 Transformer 纯解码器(Decoder-only):纯解码器是单向生成模型,主要用于句 子生成。主要模型包括谷歌的语言模型 FLAN、DeepMind 的语言模型 Gopher。 3)基于 Transformer 统一架构(Encoder-Decoder):统一模型框架能兼容以上两类模型 的理解和生成的下游任务。主要模型包括语言模型 T5、对话模型 Sparrow。

多模态视觉语言大模型 PaLM-E 实现人机交互领域的重大飞跃。2023 年 3 月,谷歌发布 5620 亿参数的多模态视觉语言模型 PaLM-E,是 PaLM-540B 语言模型与 ViT-22B 视觉模 型的结合。与传统的语言模型相比,PaLM-E 具有更高的效率和灵活性,可以根据输入的复 杂度和任务的需求动态地激活不同的模块。同时,PaLM-E 可以通过文本、图像和视频等多 种类型的输入来理解和控制机器人等实体化系统,从而实现具象化的能力。PaLM-E 的发布 代表着人机交互领域的一次重大飞跃,在工业、商业、办公等领域的机器人应用上有着巨 大的想象力。

最新的大语言模型 PaLM 2 在多语言能力、代码能力和逻辑能力上得到显著提升。谷歌于 2023 年 5 月的 I/O 大会发布 PaLM 2,模型基于 2022 年 10 月提出的 AI 新架构 Pathways, 并基于 TPU v4 和 JAX 框架训练。在语言能力上,PaLM 2 的训练数据超过 100 种语言, 能理解、翻译和生成更准确和多样化的文本;同时,PaLM 2 在 20 种编程语言上进行训练 以提升代码能力。在逻辑能力上,PaLM 2 在推理、数学任务测试中显著优于 PaLM,并与 GPT-4 相当。此外,谷歌在 PaLM 2 的基础上还训练了用于编程和调试的专业模型 Codey, 安全知识模型 Sec-PaLM 以及医学知识模型 Med-PaLM 2。 模型压缩技术将加速 AI 技术与智能终端的融合。PaLM2 主要包含 4 种规格(Gecko、Otter、 Bison 和 Unicorn),其中体积最小的 Gecko 可以在手机上运行,每秒可处理 20 个 Token, 大约相当于 16 或 17 个单词。模型压缩技术或将成为实现 AI 大模型在边/端部署的核心技 术,加速 AI 技术与智能终端融合。

应用:积极布局生成式 AI 应用以迎接挑战

谷歌在过去更注重发表论文,未能及时将成果产品化。谷歌在各种路线上发布了很多模型, 论文成果丰富,但均未能走出象牙塔落地;同时,旗下 DeepMind 研发的基础语言模型 Gopher、Chinchilla 和对话模型 Sparrow 也尚未产品化。 积极布局生成式 AI 领域应用以迎接挑战。谷歌于 2023 年 2 月发布基于 1370 亿参数大模 型 LaMDA 的 AI 聊天机器人 Bard。相较于 ChatGPT,Bard 的优势在于:1)能够利用来 自互联网的信息提供最新、高质量的回复;2)瞬间生成文本块;3)给出的答案包含三个 不同的版本或草稿,用户可以切换其中任何一个答案。此外,谷歌在 4 月发布了 Bard 的更 新版本,升级了数学与逻辑能力。2023 年 5 月 I/O 大会,谷歌展示了 Bard 支持的文字、 代码、图像生成与理解能力,并重点强调了 Bard 与谷歌应用,以及外部其他应用的协同 能力。此外,谷歌通过投资联手 AI 初创公司 Anthropic,押注 ChatGPT 的有力竞品 Claude。

面向开发者,谷歌开放 PaLM 的 API,并发布工具 MakerSuite,帮助开发者们快速构建生 成式 AI 应用。PaLM API 将为开发者提供面向对轮交互而优化的模型,如内容生成与对话; 也能为开发者提供摘要、分类等多种任务的通用模型。工具 MakerSuite 则能帮助开发者快 速、轻松地构建和调整自定义模型,在浏览器中就能快速测试和迭代调整后的模型。

PaLM 2 赋能超 25 种功能和产品的升级,包括办公套件、聊天机器人以及企业级 AI 平台。 在 PaLM 2 的加持下,Workspace 推出的 AIGC 工具包 Duet AI,其中包含 Google Docs 和 Gmail 中的智能写作工具、Google Slides 中的文本生成图像、演讲备注以及 Google Meet 的会议摘要生成等功能。升级版 Bard 不仅将支持图文多模态,还将接入网络以实时网页搜 索;同时,大量 Bard+tools 的组合将推出,Bard 有望深度融合到 Google 所提供的原有工 具中。ToB 应用方面,Vertex AI 集合了谷歌研发的基础模型,用户可按需调用模型并对模 型的参数权重进行微调;此外,Vertex AI 还能够根据内部数据建立企业版本的搜索引擎。

英伟达:AI 时代的芯片领路者

发展历程:英伟达的二十年辉煌史

英伟达成立于 1993 年,是全球最大的 GPU 供应商,也是 AI 时代的芯片领路者。上市初期 公司主要关注 PC 图形业务,与 PC 出货量具备高度相关性,主要以 OEM 的销售模式。后 续随着智能手机、平板电脑等消费电子的应用出现,公司敏锐捕捉到终端需求的变化,将 业务重心向高端游戏显卡市场过渡。按照过往经验,英伟达基本每 1-2 年更新一次游戏 GPU 架构,凭借强大的性能和生态优势迅速提升在全球独立 GPU 市场市占率,近几年均保持在 70%以上的份额。进入 2018 年数字货币价格大幅下跌,数据中心开始承接公司新增长点, 2020 年该业务营收增速超过 120%。此外,我们看到英伟达持续以 CUDA 为核心构建护城 河,结合 CPU+GPU+DPU 三大硬件,形成统一的生态闭环,且在各细分领域形成全套解 决方案.

第一阶段:从图形芯片到游戏显卡,确定主流赛道形成稳定现金流

持续推动业务升级,战略核心转移至高端游戏卡领域。在 GPU 推出初期,以 OEM 形式销 售显卡是公司重要的收入来源之一,市场终端应用以 PC 为主,笔记本及平板的普及度尚低, 英伟达的产品与 PC 出货存在较高程度的绑定。随着半导体行业发展,终端应用趋于多元 化,PC 市场热度从 2012 年起开始出现明显下降。此外,随着集成显卡性能的提升,独立 桌面显卡出货情况也开始出现衰退。在此市场环境下,英伟达将战略核心转移至高端游戏 卡领域。在 2010-2015 年在全球 PC 市场逐步倒退的情况下,英伟达游戏显卡出货量 5 年 实现 9%的年复合增长,销售均价/收入分别呈现 11%/21%的年复合增长。2019 年公司游戏 业务已经为其贡献了过半营收,而 OEM/IP 业务收入占比下降至仅 6%。

第二阶段:构建通用计算生态,数据中心业务实现爆发式增长

推出革命性架构 CUDA,进入发展高速期。2006 年英伟达研发出了能够让 GPU 计算变得 通用化的 CUDA(Compute Unified Device Architecture)技术,运用 GPU 并行处理能力 来应对复杂的计算,次年公司就在图形市场取得飞跃式增长,同时 Tesla GPU 的推出让英 伟达成功进入通用计算时代。经过二十多年的发展,公司已形成包括:面对 PC 和笔记本的 GeForce 系列,面对工作站的 Quadro 系列,面对超大型计算的 Tesla 系列和面对移动处理 器的 Tegra 系列。

第三阶段:AI 加持下,游戏、数据中心、自动驾驶三驾马车助力公司迈向千亿美金市场

英伟达经过前期的路径选择已经逐步清晰了三条主要赛道,同时在人工智能飞速迭代的情 况下,从元宇宙平台搭建到协助内容创作到 AI 时代的“台积电”定位,精准把握每次技术 变革: 1)游戏方面:英伟达背靠强大的 GPU 实力不断在游戏行业进行创新,推出 DLSS、光线 追踪等技术提高游戏体验,并进一步推动云端游戏业务发展。23 年由于 PC 端出货减少短 期内影响了游戏业务增长,但未来 5 年游戏业务 CAGR 仍有望达到 10%。 2)数据中心方面:除了训练/推理芯片性能更新,英伟达更侧重于 AI 超级计算机的打造和 对整个服务器产业链赋能。其在 GTC2023 推出的 NVIDIA DGX 超级计算机,将成为大语 言模型实现突破背后的引擎。 3)自动驾驶方面,英伟达在硬件上推出了自动驾驶汽车的平台 DRIVE Hyperion、算力达 每秒 254 TOPS 的系统级芯片 DRIVE Orin SoC、新一代集中式车载计算平台 DRIVE Thor。 22 年秋季 GTC 大会公布的中央计算引擎 Drive Thor 芯片由 Grace CPU、Hopper GPU 和 下一代 GPU 组成,可提供 2000TOPS 算力,预计将在 25 年搭载于极氪。软件方面则推出 了操作系统 DRIVE OS、AI 辅助驾驶平台 DRIVE Chauffeur、可实现对话式 AI 等智能服务 的 DRIVE Concierge 等。过去 5 年汽车业务 CAGR 为 10%,仅占 FY23 收入的 3%,但未 来会随着产品逐渐落地而稳步提升。黄仁勋在 22年9月的Computex大会上预计未来6年, 将能够创造 110 亿美元营收价值。

团队:灵魂人物引导产业变革,数次收购完善业务版图

灵魂人物带领数次决策,英伟达引导产业变革。英伟达由黄仁勋与 Chris Malachowsky、 Curtis Priem 于 1993 年 4 月共同创立,创业初期英伟达仅是数十家 GPU 制造商中的一员, 但凭借黄仁勋非凡的见识和魄力,从 1999 年大规模裁员后发布世界首款 GPU 拿下大客户 微软,到 2006 年推出 CUDA 技术,到 2012 年宣布计算卡与游戏卡分离成为与 AMD 竞争 转折点,英伟达引领了显卡行业的每一次重大变革,成为占据独立显卡 80%以上份额的巨 头。 英伟达不断通过收购完善业务版图。英伟达早期的竞争对手 3dfx 在 2000 年被英伟达收购, 3dfx 是 20 世纪 90 年代显卡芯片的市场领导者,主营业务包括显卡以及 3D 芯片,在 2000 年时因为在一场与 NVIDIA 的官司中败诉而被 NVIDIA 仅仅以 7000 万美元和 100 万美元的 股票收购,并在 2002 年年底破产。另一具有代表性的案例是最后以监管问题失败告终的 2020 英伟达收购 ARM 事件,如若达成或将打通 ARM CPU 的庞大生态系统,由此也可以 看出英伟达利用收购不断扩大商业版图,营造完整生态的动机。

商业模式:深度绑定台积电走 OEM 模式,轻装上阵重视研发投入

深度绑定台积电,外包制造环节轻资产专注研发。1998 年,公司于台积电正式建立策略联 盟伙伴关系。从一开始,黄仁勋就致力于使英伟达成为一家无晶圆厂的芯片公司,通过将 制造芯片费用外包以降低资本支出。OEM 模式虽然令投资者担忧生产外包的风险,但另一 面英伟达将腾出的资金用于研发,逐渐建立起了高技术壁垒。自上市以来,英伟达研发投 入绝对值基本呈现持续增长,单季度研发费用率平均值超 20%,2022 年公司研发投入达 73 亿美元。公司研发投入基本上全部用于 GPU 产品,长期研发投入与积累也使公司产品 技术壁垒及竞争力得以充分提升。 拓展云服务商业模式,将与企业、云厂商实现互惠共赢。在硬件制造的基础上,英伟达近 期还推出了 NVIDIA AI Foundations,定位为“超算云服务+模型代工厂”,用于企业构建 自定义语言模型和生成式 AI。NVIDIA AI Foundations 包括语言、视觉和生物学模型构建 服务,分别名为 Nemo、Picasso 和 BioNemo,使用企业专有数据进行训练,用于处理特 定领域的任务。我们认为超算云服务+模型代工厂的商业模式是英伟达作为芯片送水人在大 模型时代的商业模式自然延伸。

硬件迭代:训练/推理芯片性能参数持续领先对手

芯片性能优势优于竞争对手,在推理芯片方面将继续扩大优势。英伟达通常 1-2 年左右更 新一次架构,2015 年以来经历了 Pascal、Volta、Turing、Ampere 和 Hopper 时期,其制 程也从 16nm 快速推进到 7nm 和 4nm,预计下一代 Blackwell 架构 GPU 将延续与台积电 合作选用 3nm 工艺。为了加速在混合精度计算、光线追踪领域的发展,英伟达在 Volta 架 构引入 Tensor Core 来加速 AI 处理,而在 Turing 架构上加入 RT Core 来实现光线追踪的 混合渲染。从性能对比来看,英伟达在 22 年初推出的 H100 在 AI 性能方面速度比 A100 提 升 9 倍,在大型语言模型上推理速度高 30 倍,在部分性能上优于 21 年 12 月 AMD 推出的 高端 GPU MI250,在训练芯片具备较强的话语权。 而在推理方面,尽管算力要求比训练端更低,市场需求更大也更为细分,英伟达面对的竞 争更激烈,但公司的推理侧解决方案更具备通用性、低延时、低功耗,我们认为训练端的 成功有望在推理端延续。

软件:CUDA 构建完整生态,CUDA-X AI 结构拉开巨大差距

CUDA 是一种将 GPU 作为数据并行计算设备的软硬件体系,不需要借助图形学 API,而 是采用了比较容易掌握的类 C 语言进行开发,开发人员能够利用熟悉的 C 语言比较平稳地 从 CPU 过渡到 GPU 编程。与以往的 GPU 相比,支持 CUDA 的 GPU 在架构上有了 显著的改进:1)采用了统一处理架构,可以更加有效地利用过去分布在顶点着色器和像素 着色器的计算资源;2)引入了片内共享存储器。两项改进使得 CUDA 架构更加适用于通 用计算,加上 2008 年后苹果、AMD、和 IBM 推出的 OpenCL 开源标准,GPGPU 在 通用计算领域迅速发展。 英伟达在 CUDA(并行编程模型)上的战略眼光及持续坚持,是如今形成软硬集合生态的 最核心壁垒:1)易于编程与性能提升:CUDA 包含 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎,采用通用并行计算架构,使 GPU 能够解决复杂计算问题,相较 AMD 采取的通用 OpenCL 平台而言,并行计算能力可提高 10-200 倍不等;2)不断丰富的生态 系统:英伟达通过十余年迭代扩充已形成丰富的函数库、API 指令、工具链、应用程序等, 对开发者友好程度更高。在 CUDA 基础上英伟达进一步推出 CUDA-X AI 软件加速库,提供 对深度学习、机器学习和高性能计算的优化功能,进一步拉开与竞争对手在 AI 时代的差距。

应用:以 Omniverse 为核心,推进工业/设计/医疗/零售/自动驾驶等多行业生态

英伟达一直是行业创新的引导者,从 2021 年开始公司 GTC 大会整体框架更新为以底层技 术上围绕元宇宙进行的大量软件新技术布局。Omniverse 作为公司创建 AI 系统的数字孪生 的虚拟世界的基础平台,借助 MDL、Phys 与 RTX 等技术,以逼真的建模及数字工业化手 段将 AI 创作赋能到实际应用中,如用于构建医疗设备的 AI 计算平台 Clara Holoscan、为 机器人开发和 AI 打造的加速平台 Isaac、自动驾驶汽车 (AV) 的端到端模组化开发平台和 参考架构 DRIVE Hyperion 等。除 Omniverse 外,英伟达还在生物医疗、光刻、量子计算、 物流等众多领域与客户展开合作、建立独立加速库,帮助客户实现高效研发。未来我们认 为软件和应用生态将成为计算芯片的竞争关键,而英伟达在垂直行业领域的布局为其构筑 了难以突破的竞争壁垒。

Meta:AI 和元宇宙双轮并驱

发展历程:全球最大社交媒体巨头拥抱元宇宙和 AIGC

Meta 是全球社交网络龙头企业。2004 年 Mark Zuckerberg 创立 Facebook,2021 年公司 改名为 Meta Platforms,取意 Metaverse (元宇宙),体现了公司在虚拟世界中工作和娱乐的 愿景。Meta 主要经营社交网络服务、虚拟现实、元宇宙等产品,旗下拥有 Facebook、 Instagram 和 WhatsApp 等社交软件。 在大模型领域,Meta 奋起直追开源多个大模型。2017 年,公司开源了深度学习框架 PyTorch, 是深度学习领域最常用的框架之一。2023 年 2 月,Meta 推出针对研究社区的大型语言模 型 LLaMA,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂 的任务方面有很大的前景。4 月,Meta 发布机器视觉领域首个用于图像分割的通用大模型 SAM 和其训练数据集 Segment Anything 1-Billion,将自然语言处理领域 prompt 范式延展 到 CV 领域,为 CV 领域带来革命性技术突破。5 月,Meta 发布大规模多语言语音 MMS 项目,将彻底改变语音技术,支持 1,107 种语言的语音转文字和文字转语音以及超过 4,000 种语言的语言识别。同月,Meta 发布 650 亿参数语言模型 LIMA,无需 RLHF 就能对齐, 在人类评估结果中甚至可与 GPT-4、Bard 和 DaVinci003 相媲美。

团队:AI 人才汇聚,旨在创建 AIGC 顶级产品团队

Meta 拥有一支经验丰富的核心团队。创始人、董事长兼首席执行官 Mark Zuckerberg,曾 就读于哈佛大学,2004 年创立了 Facebook。首席运营官 Javier Olivan,持有斯坦福大学 工商管理硕士学位和纳瓦拉大学电气和工业工程硕士学位,在加入公司之前曾担任西门子 移动的产品经理。首席技术官 Andrew Bosworth,毕业于哈佛大学,曾任微软 Visio 开发人 员,2017 年创建了公司的 AR/VR 组织,领导公司发展 AR,VR,AI 和消费者硬件等。

Meta Al 是 Meta 旗下的人工智能实验室。2013 年,深度学习教授和图灵奖得主 Yann LeCun 创建 FAIR,其最初目标是研究数据科学、机器学习和人工智能。2014 年,统计学先驱 Vladimir Vapnik 加入 FAIR。2018 年,IBM 大数据集团前首席技术官 Jérôme Pesenti 担任 FAIR 总裁一职。2021 年,FAIR 更名为 Meta Al。2022 年,Meta AI 在两周内预测了 6 亿 个潜在蛋白质的 3D 形状。2023 年,Zuckerberg 宣布将成立专注 AIGC 的顶级产品团队, 由负责 AI 和机器学习的副总裁 Ahmad Al-Dahle 领导,队内共有数十名成员,汇聚了过去 分散在公司各地团队的 AI 人才。

算力:拥有全球最快 AI 超级计算机 AI RSC,推出自研 AI 芯片 MTIA

AI RSC 是“全球最快 AI 超级计算机”之一。AI RSC(AI Research SuperCluster)是 Meta 用于训练人工智能模型的 AI 超级计算机。2017 年,公司设计自研第一代算力设施, 在单个集群中拥有 2.2 万个英伟达 V100 Tensor Core GPU,每天可执行 35,000 个训练任 务。2020 年,公司决定加速算力增长的最佳方式是从头开始设计全新计算基础架构,以利 用新的 GPU 和网络结构技术。公司希望新 AI 超算能够在 1 EB 字节大的数据集上训练具有 超过一万亿个参数的模型,仅从规模上看,这相当于 36,000 年时长的高清晰度视频。2023 年 5 月,Meta 宣布已经完成了 RSC 的第二阶段扩建,使其成为世界上最快的 AI 超级计 算机之一,其混合精度计算性能接近 5 exaflops。

Meta 推出自研 AI 芯片 MTIA,入场大模型军备竞赛。2020 年,Meta 设计了第一代 MTIA 芯片,采用 7 纳米工艺,可以从其内部 128 MB 内存扩展到高达 128 GB,并且在 Meta 设 计的基准测试中,它处理了低等和中等复杂度的 AI 模型,效率比 GPU 高。2023 年 5 月, Meta 首次推出 AI 定制芯片——MTIA(Meta Training and Inference Accelerator),是加速 AI 训练和推理工作负载的芯片“家族”的一部分。MTIA 是一种 ASIC,一种将不同电路组 合在一块板上的芯片,允许对其进行编程以并行执行一项或多项任务。MTIA 采用开源芯片 架构 RISC-V,它的功耗仅有 25 瓦,远低于英伟达等主流芯片厂商的产品功耗。

框架:PyTorch——深度学习领域最受欢迎的框架之一

PyTorch 是 Facebook 于 2017 年推出的一个基于 Python 的开源深度学习框架,具有灵活 性、易用性和高性能,是深度学习领域最受欢迎的框架之一,在 GitHub 上获超 66,500 颗星。在 ML 领域的主要会议上提交工作成果的研究人员中,超过 80%使用了 PyTorch 框架。 PyTorch 支持在 GPU 上进行高速计算,在训练时拥有更快的速度和更好的性能,从而能大 规模提高研究效率。PyTorch 已成为亚马逊网络服务、微软 Azure 和 OpenAI 等众多公司 和研究机构构建 AI 研究和产品的基础。2022 年,公司正式发布 PyTorch 2.0,它提供了相 同的 eager mode 和用户体验,同时通过 torch.compile 增加了一个编译模式,在训练和推 理过程中可以对模型进行加速,从而提供更佳的性能和对动态形状和分布式的支持。

模型:布局生成式 AI,开源语言、视觉等大模型

语言大模型#1:LLAMA 百亿参数模型在大多数基准上胜过 GPT-3。2023 年 2 月,Meta 推出了 LLaMA(通用语言大模型),目前提供 7B、13B、33B、65B 四种参数规模,都至 少经过 1T token 的训练:1)LLaMA 体量小、使用成本低且效果好:Meta 表示,LLaMA-13B 在多数基准测试下(如常识推理、闭卷问答、阅读理解、偏见性等)优于 GPT-3(175B), 且可在单块 V100 GPU 上运行;LLaMA-65B 与目前 LLM 中最好的 Chinchilla-70B 和 PaLM-540B 旗鼓相当;2)LaMA 对非商用研究用例开源:LLaMA 不作商用目的,免费供 给研究人员,目前 Meta 在 GitHub 上提供了精简版 LLaMA。 基于 LLaMa 衍生出多个开源模型,例如斯坦福的 Alpaca、伯克利的 Vicuna、Kaola 和 ColossalChat,以及哈工大基于中文医学知识的华驼。加州大学伯克利分校计算机科学教 授 Ion Stoica 表示,免费的人工智能模型现在在性能上与谷歌和 OpenAI 的专有模型“相当 接近”,大多数软件开发商最终都会选择使用免费模型。

语言大模型#2:LIMA 无需 RLHF 就能对齐,媲美 GPT-4。2023 年 5 月,Meta 发布 650 亿参数语言模型 LIMA,仅在 1,000 个精心挑选的样本上微调 LLaMa-65B 且无需 RLHF, 就实现了与 GPT-4 和 Bard 相媲美的性能。GPT-4 背后的生成领域训练新范式 RLHF 依赖 于大量的人工标注和评估,Meta AI 等机构的研究者提出“表面对齐假说”,指出大型语言 模型中几乎所有的知识都是在预训练期间学习的,并且想让模型产生高质量的输出只需要 部分必要的指令调优数据,这将有助于大型语言模型降低训练成本。

语音大模型#1:MMS 模型可识别 1100+语言,旨在保护世界语种的多样性。2023 年 5 月, Meta 推出大规模多语言语音项目 MMS(Massively Multilingual Speech)。现有的语音识别 模型仅覆盖约 100 种语言,仅为地球上已知的 7,000 多种语言的小部分,MMS使用 wav2vec 2.0 的自监督学习,支持 1,107 种语言的语音转文字和文字转语音以及超过 4,000 种语言的 语言识别。MMS 用圣经训练,与 OpenAI Whisper 相比,使用 MMS 数据训练的模型中支 持 11 倍以上的语言,且在 54 种语言上的平均错误率仅为一半。

CV 大模型#1:SAM 模型可“分割一切”,CV 领域迎来 GPT-3 时刻。2023 年 4 月,Meta 推出首个可“任意图像分割”的基础模型——SAM(Segment Anything Model),它具有强 大的一键抠图功能,能从照片或视频中对任意对象实现一键分割,且能够零样本迁移到其 他任务,为 CV 领域开启了新的篇章。Meta 还发布了有史以来最大的分割数据集 Segment Anything 1-Billion (SA-1B),拥有超过 11 亿个分割掩码,掩码具有高质量和多样性。

CV 大模型#2:DINOv2 视觉大模型完全自监督,无需微调。2021 年 4 月,Meta 公开了 DINO 算法,通过自监督学习,DINO 可以从大量未标注的图像中提取视觉特征,这些特征 对于各种下游计算机视觉任务非常有用,例如图像分类、物体检测和语义分割。2023 年 4 月,Meta 开源 DINOv2 版本,相比较原始的 DINO 模型,DINOv2 能够对视频进行处理, 生成比原始 DINO 方法更高质量的分割结果。模型除了具备图像的识别、分类、分割处理 等图像特征提取功能外,还具有语义分割,完善了以图搜图功能。

多模态模型#1:ImageBind 用图像对齐六模态,旨在实现感官大一统。2023 年 5 月,Meta 开源 ImageBind 新模型,是一个像人类一样结合不同感官的新 AI 模型,能够同时从文本、 图像/视频、音频、深度(3D)、热能(红外辐射)和惯性测量单元(IMU)等六种不同的模 态中学习。ImageBind 可以使用文本、音频和图像的组合来搜索照片、视频、音频文件或 文本消息。ImageBind 用于丰富的多媒体搜索、虚拟现实甚至机器人技术,可以和 Meta 内 部的虚拟现实、混合现实和元宇宙等技术相结合

AWS:全球卓越的云服务平台发力 AIGC 市场

发展历程:全球领先的云服务平台强势入局 AIGC

AWS 是亚马逊专门负责云计算的子公司。亚马逊成立于 1994 年,是目前全球最大的互联 网线上零售商之一。AWS(Amazon Web Services)于 2016 年正式推出,是亚马逊公司 旗下的子公司,向个人、企业和政府提供按需即用云计算平台以及应用程序接口,并按照 使用量计费。2002 年 7 月,亚马逊的“Amazon.com Web Services”上线了首款 Web 服 务。2006 年 3 月,AWS 推出了 Amazon S3 云存储,随后于 2006 年 8 月推出了 EC2。 AWS 四项技术创新助力 AIGC 发展。2023 年 4 月,AWS 正式入局 AIGC,推出自有基础 模型 Titan 和 AIGC 服务 Bedrock,以及 AI 编程助手 Amazon CodeWhisperer,并宣布基 于自研推理和训练 AI 芯片的最新实例 Amazon EC2 Trn1n 和 Amazon EC2 Inf2 正式可用。

算力:提供最具成本效益的生成式 Al 云基础设施

Inferentia 是 ML/DL 推理(Inference)加速器。2018 年 11 月,AWS 发布首款云端 AI 芯片 Inferentia,旨在以极低成本交付高吞吐量、低延迟推理性能。2021 年 1 月,AWS 推 出基于 AWS Inferentia 加速器的 Amazon EC2 Inf1 实例,与当前一代基于 GPU 的 Amazon EC2 实例相比,吞吐量最高可提高 2.3 倍,每次推理的成本降低多达 70%。2023 年 4 月, AWS 推出配备 Amazon Inferentia2 芯片的 Amazon EC2 Inf2 实例。与第一代 AWS Inferentia 相比,Inferentia2 的吞吐量提高了 4 倍,延迟低至前者的 1/10.

Trainium 是 ML/DL 训练(Training)加速器。2020 年 12 月,AWS 发布第二款定制的机 器学习芯片 AWS Trainium,支持 TensorFlow、PyTorch 和 MXNet 等框架。2022 年 10 月,AWS 推出 Amazon EC2 Trn1,基于 Trainium 的 EC2 Trn1 实例与基于 GPU 的同类实 例相比,可节省高达 50% 的训练成本。2023 年 4 月,AWS 推出配备 AWS Trainium 的 Amazon EC2 Trn1n 实例,相比于 Trn1 网络带宽提升了 1 倍,从之前的 800GB 左右提升 到 1.6TB,旨在为大型的网络密集型的模型训练来使用。

框架:一站式机器学习平台 Amazon SageMaker 助力

AIGC 2017 年,AWS 推出 Amazon SageMaker,是一项完全托管的服务,可通过完全托管的基 础设施、工具和工作流程为任何用例准备数据并构建、训练和部署机器学习(ML)模型。 它支持 MXNet、TensorFlow、PyTorch 等多种深度学习框架,同时提供了许多其他工具和 功能。2022 年,AWS 与 Al 绘画独角兽 Stability Al 宣布组成联盟,成为 Stability AI 构建和 训练 AI 内容生成模型的“首选云合作伙伴”。在 IDC2022 年发布的《2022 年亚太地区(不 含日本)AI 生命周期软件工具和平台供应商评估》中,AWS 凭借 Amazon SageMaker 强 大、丰富且灵活的功能和广泛的交付能力及对开源项目的持续贡献,获评 AI 生命周期软件 领导者。

模型:推出 Titan 大模型及中立托管平台 Bedrock

2023 年 4 月,AWS 推出的自研语言大模型 Titan。Titan 系列模型分为两种,一种是用于内 容生成的文本模型 Titan text,可以执行诸如撰写博客文章和电子邮件、总结文档和从数据 库中提取信息等任务。另一种是可创建矢量嵌入的嵌入模型 Titan Embeddings,能够将文 本输入(字词、短语甚至是大篇幅文章)翻译成包含语义的数字表达的大语言模型。 中立托管平台 Amazon Bedrock 让 AIGC 变得普惠。2023 年 4 月,AWS 推出 Amazon Bedrock,让企业级客户能快速、安全和高性价比地调用多种大模型构建自己的程序。区别 于谷歌和微软已发布面向大众的产品,AWS 瞄准的是企业客户,并且期望作为一个“中立” 的生成式 AI 大模型托管平台,不依赖于任何一家 AI 初创公司。借助 Bedrock,企业级客户 能通过 API 调用来自不同提供商的 AI 模型,例如 AI21 Labs 的 Jurassic-2、Anthropic 的 Claude、Stability AI 的 Stable Diffusion 以及 AWS 自研模型 Titan。

产品:免费向个人开放 AI 编程助手 AmazonCodeWisperer

AI 编程助手 Amazon CodeWhisperer 提高开发者效率。2022 年,AWS 推出 Amazon CodeWhisperer 预览版,这是一款 AI 编程助手,通过内嵌的基础模型,可以根据开发者 用自然语言描述的注释和集成开发环境(IDE)中的既有代码实时生成代码建议,从而提升 开发者的生产效率。2023 年 4 月,AWS 将 Amazon CodeWhisperer 面向个人开发者免费 开放,在适用 Python、Java、JavaScript、TypeScript 和 C#之外,新增支持 Go、Kotlin、 Rust、PHP 和 SQL 等十种开发语言。开发者可以通过在 VS Code、IntelliJ IDEA、Amazon Cloud9 等集成开发环境中的 Amazon Toolkit 插件访问 CodeWhisperer。

Anthropic:OpenAI 前核心成员创建的人工智能安全与研究公司

由 OpenAI 的前核心成员创立,愿景是构建可靠、可解释和可操控的 AI 系统

Anthropic 是一家人工智能安全与研究公司,由 OpenAI 的前核心成员创立,愿景是构建可 靠、可解释和可操控的 AI 系统。在 OpenAI 接受微软投资并转向盈利模式后,团队在人工 智能开发的道路上产生了分歧,时任研究副总裁的 Dario Amodei 和其他数十位 OpenAI 核 心成员选择离职,其中包含 8 位 GPT 系列作者,并于 2021 年创立 Anthropic,研究目标为 AI 安全与大模型。公司期望能颠覆现有的深度学习范式,通过构建可解释性人工智能模型 (Interpretable AI),解决神经网络的黑匣子问题。

Anthropic 前期以科研为重心,研究 AI 模型的安全问题

Anthropic 创立之初专注于科研,成立以来已经发表了 15 篇论文,研究方向包括自然语言、 人类反馈、关于意图和结果间偏差的对齐问题、可解释性、社会影响等方面。2022 年 12 月,Anthropic 提出构建 Constitutional AI 的方法,即人类不再手工为每个有害输出打标签, 而是为 AI 指定一套行为规范或原则,模型产生无害性偏好的数据集,并且能够利用 AI 监督 AI 进行快速修复。Constitutional AI 的提出使得更精确、更自动化地控制 AI 的行为成为 可能,降低 AI 模型产生有害内容的风险。

加快商业化脚步,推出 ChatGPT 的有力对手

Claude Anthropic 于 1Q23 正式加速商业化。公司推出以 Constitutional AI 为基础构建的聊天机器 人 Claude,与 ChatGPT 构成竟争。Claude 包含两个产品类型:1)Claude Instant:针对 低延迟、高吞吐量用例进行了优化;2)Claude-v1:在复杂推理的任务上表现更优。Claude 当前已拥有十余家合作伙伴,共同探索在生产力、对话、医疗、客户成功、HR 和教育等领 域的应用。

Anthropic 加速融资以支撑 AI 模型训练和部署

LLM 的训练和部署需要消耗大量的资金和计算资源,Anthropic 今年预计花费 10 亿美元训 练和部署大模型,两年后更是需要 30-50 亿美元的资金。2023 年以来,Anthropic 已经接 受了 3 轮来自 Google、Spark Capital 和 Salesforce Ventures 的投资,目前估值约 50 亿美 元。公司已把 Claude 集成到把 Slack 平台中,并且将使用 Google 提供的云服务。

国内大模型:互联网巨头和已有充分积累的初创公司

百度:昆仑芯+飞桨平台+文心大模型,构建广泛应用端生态

百度是当前唯一一家在芯片层、框架层、模型层和应用层都有领先产品布局的企业,四层 架构相互协同优化,可以显著地降本增效。在芯片层,百度昆仑芯科技已实现两代通用 AI 芯片“昆仑”的量产及应用,为大模型落地提供强大算力支持。在框架层,“飞桨”是国内 首个自主研发的产业级深度学习平台,集基础模型库、端到端开发套件和工具组件于一体, 有效支持文心大模型高效、稳定训练。在模型层,“文心大模型”包括基础大模型、任务大 模型、行业大模型三级体系,全面满足产业应用需求。在应用层,文心已大规模应用于百 度自有业务的各类产品,并通过企业级平台“文心千帆”进一步推动生态构建。

团队:百度 CTO 王海峰领衔,技术大牛带队

百度 CTO 王海峰作为领头人推动百度的 AI 技术战略发展和生态构建。王海峰曾任职于微 软,先后主持 Bing 语义搜索、微软小冰等项目;其于 2010 年加入百度,并在 2018 年升 任百度 CTO,曾推出百度大脑、百度小度等一系列产品。其他带队的高管还包括百度集团 副总裁兼深度学习技术及应用国家工程研究中心副主任吴甜、百度技术委员会主席吴华等。 吴甜于 2006 年加入百度,目前负责百度 AI 技术平台和智能云 AI 产品,领衔研发为文心大 模型提供支撑的飞桨深度学习平台。吴华曾在百度带领团队出世界首个互联网 NMT(神经 网络机器翻译)系统,目前主要带领 NLP 大模型的技术推进。

算力:两代自研通用 AI 芯片“昆仑”支持大模型落地

百度旗下的芯片公司昆仑芯科技已实现两代通用 AI 芯片产品的量产及落地应用。昆仑芯 1 代 AI 芯片于 2020 年量产,是国内唯一一款经历过互联网大规模核心算法考验的云端 AI 芯 片,当前已被广泛部署在互联网、工业制造、智慧城市、智慧交通、科研等领域。昆仑芯 2 代 AI 芯片于 2021 年 8 月量产发布,是国内首款采用 GDDR6 显存的通用 AI 芯片,相比昆 仑芯 1 代 AI 芯片性能提升 2-3 倍,且在通用性、易用性方面也有显著增强。目前,昆仑芯 已在百度搜索等业务场景落地,也为大模型训练提供底层算力支撑。百度之外,昆仑芯还 可为客户提供大模型定制服务,凭借强大算力为大模型落地提供全流程支持.

框架:产业级深度学习平台“飞桨”为大模型构建提供有力支撑

我国首个自主研发、功能丰富、开源开放的产业级深度学习平台飞桨(PaddlePaddle)是 百度大模型背后的有力支撑。飞桨以百度多年的深度学习技术研究和业务应用为基础,集 深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体, 有效支持文心大模型高效、稳定训练。截至目前,飞桨已和 22 家国内外硬件厂商完成了超 过 30 种芯片的适配和联合优化,国产芯片适配第一。

文心大模型:“基础+任务+行业”大模型三层体系全面满足产业应用需求

百度文心大模型体系构建了文心大模型、工具与平台两层体系。在模型层,文心大模型包 括基础大模型、任务大模型、行业大模型三级体系,打造大模型总量近 40 个,全面满足产 业应用需求,涵盖电力、燃气、金融、航天等领域。基础大模型针对特定任务预训练构建 任务大模型,任务大模型结合垂直领域数据和知识进一步形成行业大模型,行业大模型则 在应用场景的数据反哺基础大模型优化。在工具与平台层,大模型开发套件、文心 API 以 及提供全流程开箱即用大模型能力的 EasyDL 和 BML 开发平台,帮助全方位降低应用门槛。

应用:大模型生态逐步构建,推动 AI 落地产业

文心大模型是目前国内预训练大模型应用端生态最好的大模型之一。在百度自有业务中, 文心已大规模应用于百度内部的各类产品,包含百度搜索、度小满金融、小度智能屏、百 度地图等。例如,度小满的智能征信中台将文心 ERNIE 大模型应用在征信报告的解读上, 能够将报告解读出 40 万维的风险变量,以更好地识别小微企业主的信贷风险。在百度业务 之外,文心大模型联合国网、浦发、中国航天、人民网等企业推出了 11 个行业大模型,让 大模型加速推动行业的智能化转型升级。例如,根据文心大模型官网,与深圳燃气联合建 立的深圳燃气·百度文心大模型,在工业巡检、环境巡检场景下,准确率和召回率分别平 均提升 2.5%和 4.5%,且所需标注数据相比传统模型下降 90%,泛化能力大幅提升。

阿里巴巴:通义大模型构建大一统模型,所有产品将接入通义千问

阿里达摩院:孕育阿里巴巴人工智能的技术沃土

阿里达摩院于 2017 年成立,在 NLP 自然语言处理等前沿科研领域持续布局,于 2019 年启 动大模型研发,先后公布多个版本大模型和“通义”大模型系列。2023 年 2 月,达摩院将 注册资本从 1000 万元增加至 3 亿元,新增投资将用于持续布局 AI 底层技术。 阿里达摩院的大模型主力团队由兼具 AI 领域的学术能力和项目经验的能力者带领。模型主 力团队的“一号位”是周靖人,曾在微软任首席科学家,带领必应搜索基础设施团队和大 数据部门;于 2016 年加入阿里,曾任阿里云首席科学家,现升任阿里达摩院副院长兼阿里 云智能 CTO。三大主力团队是“语言技术实验室”、“视觉智能实验室”以及“智能计算实 验室”,分别以 NLP、CV、计算能力为目标。三个团队的领导者均是背景豪华、兼具学术 能力和项目经验的能力者。NLP 团队的黄非,曾任职于 IBM、Facebook,在阿里领导 AliNLP 的基础技术研发和业务落地;CV 团队的赵德丽,曾供职于小米、微软亚洲研究院;智能计 算实验室的周畅,曾负责多模态模型 M6、M6-OFA 及相关 AIaaS 服务项目。

算力:自研芯片含光 800 和倚天 710 提供高性价比算力支持

阿里巴巴自研芯片含光 800 和倚天 710 共同为 AI 大模型提供算力支持。达摩院于 2018 年 成立了平头哥半导体有限公司,以推进云端一体化的芯片布局。含光 800 是一款于 2019 年推出的专门为分布式计算和 AI 任务设计的芯片,比当时业界最好的 AI 芯片性能高 4 倍。 倚天 710 是中国首个云上大规模应用的自研 CPU,当前已在阿里云数据中心大规模部署, 并以云的形式服务阿里巴巴和多家互联网科技公司,将算力性价比提升超 30%、单位算力 功耗降低 60%。此外,阿里云于 2022 年云栖大会上还发布了云基础设施处理器(CIPU), CIPU 相比 CPU 性能更高、更稳定,将算力输送能力提升至新水平。

框架:统一易用的分布式深度学习训练框架 EPL 支撑“大一统”模型构建

EPL 是一个统一多种并行策略、易用的分布式深度学习训练框架,为万亿级大模型的低碳 高效训练提供有力支撑。阿里云机器学习 PAI 团队于 2022 年 3 月宣布开源自主研发的分布 式训练框架 EPL(Easy Parallel Library),EPL 通过对不同并行化策略进行统一抽象、封 装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位优化 来提供易用、高效的分布式训练框架。EPL 为万亿级大模型的低碳高效训练提供有力支撑, 10 万亿级模型 M6-10T 就是基于 EPL 框架训练而成。相比之前发布的大模型 GPT-3,M6 实现同等参数规模的训练能耗仅为其 1%,做到了业内极致的低碳高效。

通义大模型:基于 AI 统一底座的层次化体系

达摩院构建了 AI 统一底座 M6-OFA,在业界首次实现大模型的模态表示、任务表示、模型 结构的统一。通过这种统一学习范式,在不引入新增结构的情况下,单一模型即可同时处 理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等 10 余项单模态和跨模态任务,且 效果达到国际领先水平。此外,模型设计借鉴了人脑模块化设计,以场景为导向灵活拆拔 功能模块,实现高效率和高性能。

通义大模型基于国内首个 AI 统一底座,并构建通用与专业模型协同的层次化 AI 体系。2022 年 9 月,阿里达摩院发布“通义”大模型系列,其架构分为三个层次:1)模型底座层:多 模态统一底座模型 M6-OFA,实现统一的学习范式和模块化设计;2)通用模型层:多模态 模型“通义-M6”、NLP 模型“通义-AliceMind”以及 CV 模型“通义-视觉”;3)行业模型 层:深入电商、医疗、法律、金融、娱乐等行业。

应用:赋能产品应用增效,推出模型即服务共享平台

通过部署超大模型的轻量化及专业模型版本,通义大模型已在超过 200 个场景中提供服务, 实现 2%~10%的应用效果提升。在搜索场景中,可实现以文搜图的跨模态搜索。在 AI 辅 助审判中,可实现司法卷宗的事件抽取、文书分类等任务效果 3~5%的提升。在人机对话 领域,初步具备知识、记忆、情感以及个性的中文开放域对话大模型可实现主动对话、广 泛话题、紧跟热点等对话体验。此外,通义大模型在 AI 辅助设计、医疗文本理解等其他 领域也有丰富的应用场景。 阿里旗下所有产品将接入通义千问,并将向企业开放通义千问 API。2023 年 4 月,阿里巴 巴发布类 ChatGPT 的大语言模型“通义千问”,模型可提供文案创作、对话聊天、知识问 答、逻辑推理、代码编写、文本摘要以及图像视频理解服务。未来,阿里巴巴所有产品都 将接入大模型进行全面升级。例如,钉钉在接入通义千问后,可实现撰写邮件、生成方案、 总结会议纪要等近 10 项新 AI 功能。此外,通义千问 API 将开放给企业级用户来训练企业 专属垂直领域的大模型。例如,阿里云宣布将与 OPPO 安第斯智能云合作,基于通义千问 大模型的能力打造 OPPO 大模型基础设施,以支撑其海量终端用户的 AI 服务。

腾讯:算力集群+混元大模型,赋能自身业务生态降本增效

团队:混元助手项目组由大牛带队,3 位 PM 顶梁,聚集跨事业群精英

腾讯针对类 ChatGPT 对话式产品已成立混元助手(HunyuanAide)项目组。项目组将联 合腾讯内部多方团队构建大参数语言模型,目标是“通过性能稳定的强化学习算法训练, 完善腾讯智能助手工具,打造腾讯智能大助手,并能成为国内的业界标杆”。项目组 Owner 为张正友,曾任微软视觉技术组高级研究员,2018 年加入腾讯担任 Robotics X 实验室及腾 讯 Al Lab 负责人,2021 年升任腾讯首位 17 级杰出科学家,是腾讯史上最高专业职级拥有 者。3 位 PM(Programme Manager)为俞栋、王迪、刘田,能力上分别侧重于算法、工 程和商业化。组长们则由腾讯各重要部门的负责人构成,凝聚腾讯内部多个团队的能力。

混元大模型:依托低成本算力和自研底座构建,模型可直接落地应用

基于腾讯强大的底层算力和低成本的高速网络基础设施,腾讯混元(HunYuan)大模型依 托腾讯自研的太极机器学习平台构建而成。在模型层,混元大模型完整覆盖 NLP 大模型、 CV 大模型、多模态大模型、文生图大模型及众多行业/领域/任务模型。其中,HunYuan-NLP 1T 是国内首个低成本、可直接落地应用的 NLP 万亿大模型,其模型能力在自然语言理解任 务榜单 CLUE 中登顶。在产业化应用上,混元大模型支持腾讯广告、搜索、推荐、游戏、 社交等多个互联网业务生态的赋能和升级,实现技术复用和业务降本增效。

应用:赋能自身业务生态降本增效,广告类应用效果出众

HuanYuan 混元大模型已在腾讯多个核心业务场景落地,并带来了显著的效果提升。大模 型支持了微信、QQ、游戏、腾讯广告、腾讯云等众多产品和业务,尤其是其在广告内容理 解、行业特征挖掘、文案创意生成等方面模型表现出色。例如,腾讯打造了以混元大模型 为技术底座的广告多媒体 AI 技术矩阵,在广告投放中,相比以前的小模型算法,腾讯广 告精排大模型当时累计给广告主带来 15%的成交总额 GMW(Gross Merchandise Volume) 的提升。

华为:昇腾芯片+MindSpore+盘古大模型,B 端应用场景落地可期

领导者:华为云 AI 首席科学家田奇

华为云 AI 首席科学家田奇是盘古大模型团队的负责人。田奇曾于 2008 至 2009 年,从大 学调至微软亚洲研究院多媒体计算组进行研究工作。2018 年,田奇加入华为担任首席科学 家,负责华为云相关业务,华为云是目前国内云服务市占率最高的厂商。当前,田奇正带 领团队推动盘古大模型从科研创新走向产业应用,逐步构建大模型的应用生态。

算力:以自研 AI 芯片昇腾作为根基,打造 AI 产业平台

华为昇腾芯片包括用于训练的算力最强 AI 芯片昇腾 910,以及用于推理的全栈全场景 AI 芯片昇腾 310。2019 年 8 月推出的昇腾 910 算力超英伟达 Tesla V100 一倍,在同等功耗 下拥有的算力资源达到了当时业内最佳水平的两倍。目前,“昇腾 AI”基础软硬件平台已成 功孵化和适配了 30 多个主流大模型,为我国一半以上的原生大模型提供算力支撑。基于该 平台,昇腾 AI 产业已与 20 多家硬件伙伴和 1100 多家软件伙伴建立了合作关系,并共同推 出了 2000 多个行业 AI 解决方案,参与其中的开发者数量突破 150 万。

框架:深度学习框架 MindSpore 和一站式 AI 开发平台 ModelArts 提升模型开发效率

深度学习框架 MindSpore 从训练推理部署全流程支撑模型高效开发,是国内社区中最活跃、 关注度最高、被应用最多的框架之一。匹配昇腾 AI 处理器,MindSpore 有效克服 AI 计算 的复杂性和算力的多样性挑战,打造面向端、边、云的全场景 AI 基础设施方案,让芯片的 强大算力能够以最高效的方式被开发者们利用。面向大模型开发场景,MindSpore 提供系 列工具及套件,发挥软硬件综合优势,从训练推理部署全流程支撑模型高效开发。同时, MindSpore 可兼容第三方 AI 框架生态,以实现模型的快速迁移。 一站式 AI 开发平台 ModelArts 进一步提升模型训练和部署的效率。ModelArts 平台与华为 底层软件和训练框架协同优化,提供 E 级算力调度,并提供动态路由规划能力,为大模型 训练提供了最优的网络通信能力;同时,借助 ModelArts 平台处理海量数据的高效能力, 仅用 7 天就可完成 40TB 文本数据处理。此外,ModelArts 平台为适应不同开发者的开发习 惯及不同应用场景,支持包含 TensorFlow、PyTorch、MXNet 等的所有主流 AI 计算框架, 并提供友好易用的开发和调测环境。

盘古大模型:赋能千行百业的三阶段体系

华为云盘古大模型于 2021 年 4 月正式发布,到 2022 年聚焦行业应用落地,已经基于一站 式 AI 开发平台 ModelArts,发展出包括基础大模型(L0)、行业大模型(L1)、行业细分场 景模型(L2)三大阶段的成熟体系,让 AI 开发由作坊式转变为工业化开发的新模式,赋能 千行百业。具体来说,盘古大模型的三层体系架构包含:1)L0 基础大模型:30 亿参数的 CV 大模型在业界首次实现模型按需抽取,千亿参数和 40TB 训练数据的 NLP 大模型在在 CLUE 榜单实现业界领先,科学计算大模型致力于解决各种科学问题、促进基础科学的发展; 2)L1 行业大模型:涵盖矿山、气象、药物、分子、电力、海浪、金融等行业;3)L2 场景 模型:包含金融 OCR、电力巡检、建筑能耗优化等场景。

应用:行业大模型逐步落地,B 端场景应用可期

盘古 CV 大模型可以赋能分类、识别、检测等视觉场景。华为已基于 CV 大模型推出矿山大 模型、电力大模型等行业大模型,推动相关工业领域安全高效作业。在华为与能源集团合 作推出的盘古矿山大模型中,模型能够解决 AI 在煤矿行业落地难、门槛高等问题。例如, 在煤矿主运场景中,AI 主运智能监测系统的异物识别准确率达 98%,实现全时段巡检,避 免因漏检造成的安全事故;在作业场景中,掘进作业序列智能监测的动作规范识别准确率 超过 95%,保障井下作业安全。此外,盘古 CV 大模型还可应用在铁路轨道机车的缺陷检 测中,识别机车中吊链、脱落、裂痕等潜在不安全因素,在郑州铁路段的 32000 多样本评 测中,对缺陷和故障检测的准确度达 99%。

盘古气象大模型是全球首个天气预测精度超过传统方式的 AI 模型。传统是通过数字分析的 方法,精度位列世界第一的是欧洲气象中心。区别于传统的数字分析方法,气象大模型基 于一种 3D 高分辨率的 AI 气象预报方法,可以在秒级的时间内完成全球未来 1 小时到 7 天 的天气预报,精度首次超过了欧洲气象中心的数字分析的方法,并且预测速度提升了 1 万 倍以上。在自然灾害里面,例如台风轨迹预测,盘古的精度相对于世界第一的欧洲气象中 心的方法提升了 20%以上。

商汤:SenseCore 大装置+日日新大模型

算力:基于 AI 大装置 SenseCore,以 AI 模型赋能四大业务

商汤基于 AI 大装置 SenseCore 辅助自身业务开展。AI 大装置 SenseCore 打通了算力、 算法和平台之间的连接与协同,构建成一整套端到端的架构体系;基于 AI大装置 SenseCore, 商汤通过 22,000+商用 AI 模型,赋能智慧商业、智慧城市、智慧生活和智慧汽车四大业务。

日日新大模型:构建面向 AGI 的核心能力,驱动垂直行业降本增效

商汤是国内最早布局 AI 大模型的企业之一,已实现 CV、NLP、多模态等大模型的全面布 局。2019 年已经发布了拥有 10 亿参数的图像大模型,2022 发布的视觉模型参数量达到 320 亿,是全球最大的通用视觉模型之一,能够实现高性能的目标检测、图像分割和多物体识 别算法等功能。今年 3 月推出多模态大模型“书生 2.5”,具备图像描述、视觉问答、视觉推 理、文字识别、文生图、文本检索视觉内容等功能,在国内处于领先地位。2023 年 4 月, 商汤在技术交流会中正式发布“日日新 SenseNova”大模型体系,实现 CV、NLP、多模 态等大模型的全面布局,并展示了其问答、代码生成、2D/3D 数字人生成、3D 场景/物体生 成等 AI 模型应用能力。

应用:MaaS 模式可能成为重要新趋势

商汤日日新大模型开放 API 体系包含自然语言生成 API、图片生成 API、视觉通用感知任务 API 和标注 API。此外,商汤还提供了数据标注、模型训练及微调等一系列 MaaS 服务。近 期,我们注意到,英伟达,百度,商汤等企业都提出了类似 MaaS 的新商业模式,其核心 是利用自己已经拥有的通用大模型,帮助企业以专有数据创建专有模型。其中,英伟达提 供基于其文字、图像和生物医药模型的大模型训练服务 Al Foundations,百度推出文心千 帆大模型平台,表示未来云计算商业模式会变成 MaaS。拥有大模型的企业,从“卖算力” 走向“卖模型”可能成为 AI 企业发展的一条新商业模式。

智谱 AI:依托清华大学技术成果,打造高性能千亿级普惠大模型

团队:核心成员与清华大学联系紧密

智谱 AI 成立于 2019 年,由清华大学计算机系知识工程实验室的技术成果转化而来。核心 团队与清华大学联系紧密,CEO 张鹏毕业于清华计算机系,总裁王绍兰为清华创新领军博 士,首席科学家唐杰为智源研究院学术副院长、清华大学计算机系副教授。依托清华大学 团队多年的研发积累和人才优势,智谱 AI 作为主力参与研发落地了悟道 2.0,并打造了用 以支持各类 AI 系统的开发者底层平台,而后陆续发布以文生图 CogView 大模型、代码生 成模型 CodeGeeX、双语千亿模型 GLM-130B 等大模型,未来将围绕平台形成完善的 AI 应用生态。智谱 AI 已于 2022 年 9 月完成数亿元 B 轮融资,用于继续打造高性能千亿级普 惠大模型。

模型:智谱 AI 致力于打造高性能千亿级普惠大模型

高精度双语千亿模型 GLM-130B 于 2022 年 8 月发布并开源,模型的部分模型性能优于 GPT-3。2022 年 11 月,斯坦福大学大模型中心开展了对全球 30 个主流大模型的全方位评 测,GLM-130B 是亚洲唯一入选的大模型。评测报告显示:GLM-130B 在准确性和公平性 指标上与 GPT-3 接近或持平,鲁棒性、校准误差和无偏性均优于 GPT-3 175B。此外,模 型仅需 4 张英伟达 RTX3090 就可以运行,实现真正的大模型普惠。

类 ChatGPT 对话模型 ChatGLM-6B 于 2023 年 3 月开源发布,可在消费级显卡上进行本 地部署。ChatGLM-6B 具有 63 亿参数,针对中文问答和对话进行了优化,在 1T 的语料训 练和监督微调、反馈自助、人类反馈强化学习等技术的加持下,ChatGLM-6B 已经能生成 相当符合人类偏好的回答。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。 不过,由于 ChatGLM-6B 规模较小,目前测试发现具有较多的局限性,如事实性/数学逻辑 错误、可能生成有害/有偏见内容、较弱的上下文能力等。此外,当前基于 1300 亿参数 GLM-130B 的 ChatGLM 模型正在内测开发中。 VisualGLM-6B 是国内首个能理解图像的中文开源对话模型。2023 年 5 月,智谱 AI 和清 华大学 KEG 实验室开源了支持图像、中文和英文的多模态对话模型 VisualGLM-6B,语言 模型基于 ChatGLM-6B;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的 桥梁。模型在长视觉问答数据上进行了训练,能够生成符合人类偏好的答案。同时,结合 模型量化技术,用户最低只需 8.7G 的显存就可以进行本地部署。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3