2023年微软研究报告:战略性稳健发展,Copilot有望打开成长空间

您所在的位置:网站首页 微软公司发展战略 2023年微软研究报告:战略性稳健发展,Copilot有望打开成长空间

2023年微软研究报告:战略性稳健发展,Copilot有望打开成长空间

2024-03-02 13:13| 来源: 网络整理| 查看: 265

一、公司概况

1、微软简介:巨头诞生

微软 1975 年由比尔盖茨和保罗艾伦创立,总部位于美国华盛顿州的雷德蒙德市,“Micro” 的来源是 microcomputer 微型计算机,而“soft”则是 software 软件的缩写,意思是“微 型软件”。公司是全球个人计算机软件开发的创新者,致力于用技术改变世界,助力企业实 现数字化转型。其他行业如主机游戏 XboX、职场社交 LinkedIn、开源代码平台 GitHub、 医疗行业等均有代表性且富有竞争力的产品。 微软在云服务领域的 Azure 和 Microsoft 365 等产品取得了不俗的市场表现。未来,微软将 继续秉承云端发展战略,持续全力推动全球数字化进程。早期参与投资人工智能模型算法 头部公司 OpenAI,目前已经将其旗下大模型、算法等融合进微软产品矩阵中,积攒了行业 发展的先发优势。

微软目前的执行管理层成员,在经历了比尔盖茨、鲍尔默执掌时代后,目前 Satya Nadela 作为公司 CEO 带领微软前行发展。

2、微软发展历程大事件

微软早年推出了比较成功的操作系统,后续一方面转型云服务,另一方面开始涉足硬件设 施领域,同时通过跨行业收并购的方式不断丰富自己的产品生态矩阵。2019 年开始投资生 成式 AI 行业领军公司 OpenAI,目前正处在将 GPT 模型技术与自身所有产品融合的阶段。

3、近五十年发展史中不同时代的领导者

1)比尔盖茨时代:引领 PC 浪潮,垫定了微软两大王牌产品地位:Windows 操作系统和 Office办公软件,1998年 Windows98进入市场,几乎垄断全球个人 PC操作系统。1999 年,市值登顶 6000 亿美金; 2)鲍尔默时代:发力硬件领域尝试产品多元化,错失移动浪潮,市场份额受到侵蚀,推 出了 Windows Phone、音乐播放器 Zune 等产品,没有及时响应移动手机时代软件需求, 公司面临转型。2008 年,市值跌至不到 2000 亿美金; 3)纳德拉时代:纳德拉上任后带领微软全面转型云计算,调整组织架构,产品云化,同 时后期较早布局生成式 AI 使微软取得先发优势。2014 年至今,市值攀升至近 2.7 万亿美 金。

3.1 盖茨时代:早期绑定强势硬件端,PC 时代操作系统垄断性的成功

1)早期绑定 IBM,迅速占领市场

1981 年 8 月 12 日,IBM 公司正式推出全球第一台个人电脑 IBM5150,拉开了 PC 时代 帷幕,其个人电脑在 1985 年占据了工商界 80%的市场份额。但由于后期 IBM 兼容机厂 家的增多,其他厂商可以通过组装电脑硬件的方式来售卖价格更为低廉便宜的设备,因 此逐渐挤压 IBM 的市场和利润,导致公司在 80 年代末盈利能力骤降。IBM5150 选择采 用微软公司的磁盘操作系统 DOS1.0,配置英特尔 X86 架构 16 位处理器 8088。自此, 微软与英特尔凭借 IBM5150 的带动规模效应,成为两家公司重要发展拐点。

2)强大的“Wintel 联盟”双寡头垄断格局

1981 年,微软被 IBM 授权开发 PC 操作系统,做出了 MS-DOS,然后迅速在 1980 年末 期占有了超过 80%的市场份额;1990 年代,信息产业的重心从以 IBM 为首的大型计算 机制造转向了由微软和因特尔领导的 PC 软件和硬件公司,几乎所有个人电脑都采用英 特尔 X86 处理器+微软 Windows 操作系统。2000 年,Windows 操作系统的市场份额为 93%。后期合作度降低,当时微软开始试水 ARM 架构,英特尔牵手谷歌,推出基于 X86 架构打造的 Android 操作系统。

微软 80 年代初推出了几款软件产品,也包括 1981 年推出的 Microsoft Word 前身“MultiTool Word”,但当时办公套件的市场领导者不是微软,而是 1982 年成立的莲花公 司 。 1983 年,莲花公司研发的电子表格软件 Lotus1-2-3 问世。这款软件集表计算、图表生 成、数据库管理三大功能于一体,莲花一度成为世界第三大软件公司。1985 年微软推出 了 Excel 的第一个迭代版本,而随着 1995 年推出 Word95、IE 浏览器,以及办公套件 Office 产品捆绑销售策略的推出和在操作系统上的更新优势使微软逐渐垄断软件市场。

3.2 鲍尔默时代:反垄断危机下求生,后续错失移动创新发展浪潮

1994 年 5 月成立的网景,依靠 Navigator 浏览器成为当时增长最快的软件公司。1995 年 网景上市,随着用户数量的上涨,Navigator成为 90年代世界上最流行的PC应用程序, 但目前份额早已被其他浏览器抢占。

在反垄断的阴影下,微软依赖 Windows 的保守策略让这个巨头依靠规模和利润继续安全 地生存了十几年,鲍尔默时代的微软试图逐渐改善企业形象、维护政府关系。

尽管微软在 2008 年以前都保持着较稳健的营收和利润增长,但它却对新兴技术的变化反 应缓慢——包括计算、移动终端及互联网服务等——也没有及时处理好 Windows 系统的 质量和安全问题。同时,2013年又以54.4亿欧元收购巨额亏损的诺基亚,同时在手机、 音乐播放器等设备上的战略布局失败也给了竞争对手 Google 等足够的成长空间。

3.3 纳德拉时代:转型云计算,开源重塑微软核心企业文化

纳德拉最开始负责在线搜索和广告业务,就是后来的 Bing。2011 年,纳德拉被任命为微 软服务器与工具部门(STB)负责人,负责微软的企业级服务及云计算业务,但 STB 作 为当时收入上仅次于 Office 和 Windows 的第三大业务,团队中的每一个领导者都是独立 运营、利益相对独立,技术迭代也较慢。相比于亚马逊 2006年就开始打造云计算业务, 微软推后了好几年的时间。鲍尔默时代的企业文化弊端在于每个部门都有独立强大的销 售团队,经营相对独立,STB 内部领导不愿把资源投入到云计算业务中,但最终纳德拉 重组了 STB 的组织架构,将原来单立的云计算项目拆分到各个高管的业务矩阵中,改变 了部门内部管理者对云计算的推进速度。 2014 年纳德拉就任公司 CEO 后,转型了公司战略的核心理念:即 Windows 不再是微软 的核心增长模式依靠,而是尝试让 windows 免费,支持多平台协同,将微软的应用软件 向竞争对手平台开放,拥抱开源。例如,微软对 9 英寸以下的智能移动设备免收Windows 授权费用等。2014 年 3 月,在纳德拉担任微软 CEO 后,微软就正式开启了与 苹果、谷歌合作的步伐,以 Word、Excel 等为首的 Office 套件正式登陆 iOS 与安卓平台。 仅 2014 年,微软就与谷歌、Facebook、SUSE( Linux 开发商)、甲骨文、红帽、IBM 等多家厂商达成合作。

二、业务生态布局

微软按照目前业务口径可以划分为三大板块:生产力和业务流程、智能云和更多个人计 算。生产力和业务流程板块下面覆盖了 Office 商业版、消费版,LinkedIn 和 Dynamics。 智能云板块包含了服务器产品及云服务(Azure 云、SQL 服务器、GitHub 及其他)和企 业服务。更多个人计算板块包含了 Windows 系统、硬件设备、游戏机搜索广告等业务。

智能云业务是微软近几年主要增长引擎。2022 财年微软营收 1982.7 亿美元,其中智能 云板块营收 752.51 亿美元,生产力及业务流程板块营收 633.64 亿美元,更多个人计算 板块营收 596.55 亿美元,智能云板块营收占比逐渐超过 41%。2022 财年营业利润分别为 327.2、296.9 和 209.8 亿美元,营业利润率分别为 43.5%、46.9%和 35.2%,智能云 板块经营利润占比逐渐升至 43%。2016-2022 财年智能云板块、生产力及业务流程板块、 更多个人计算板块营业收入复合增速分别为 20.2%、16.2%、6.7%,智能云业务收入复 合增速最高。 微软 2023 财年总营收 2119.15 亿美金分业务拆分:生产力和业务流程营收占比近乎保持 不变,FY23Q4 占比为 32.6%;智能云业务收入占比近些年持续上升,FY23Q4 占比为 42.7%;更多个人计算业务收入占比近些年下降,FY23Q4 占比为 24.7%。

微软总经营利润分业务来看,FY23Q4 生产力和业务流程经营利润占比 37.3%,智能云经 营利润占比 43.4%,更多个人计算经营利润占比 19.3%。从经营利润率角度来看,生产力 和业务流程业务经营利润率最高为 49.5%,智能云业务经营利润率为 43.9%,更多个人计 算业务经营利润率为 33.6%。

分季度看:FY2023Q4,公司实现营收 561.89 亿美元,同比+8.34%,环比+6.30%;实 现归母净利润 200.81 亿美元,同比+19.96%,环比+9.74%。FY2023,公司实现营收 2119.15 亿美元,同比+6.88%;实现归母净利润 723.61 亿美元,同比-0.52%。微软总 体经营利润在 FY23Q2 同比增速同样下滑至负区间内。但在 FY23Q3 有开始拐点转好迹 象,公司总营收增速恢复至 7.1%,总经营利润增速恢复至 9.8%水平,略超出市场预期。 FY23Q4 总营收同比增速持续上升至 8.3%,总经营利润同比增速持续上升至 18.1%。

三、微软云:云端布局引领公司战略转型成功

1、全球云计算服务市场现况及竞争格局

1. 1 全球&国内云计算市场规模,国内起步晚并集中在 IaaS 层服务

根据 Gartner 统计,2021 年以 IaaS、PaaS、SaaS 为代表的全球公有云市场总规模突 破 3300 亿美元,增速达到 32.44%。其中,IaaS、PaaS、SaaS 市场规模分别同比增长 42.7%、39.3%、23.6%至 916 亿美元、869 亿美元、1522 亿美元。占比结构角度上 看,SaaS 整体规模较大但市场占比持续下降。2022 年以 IaaS、PaaS、SaaS 为代表的 全球公有云市场规模近 4000 亿美元,同比增速+19.2%。其中,IaaS、PaaS、SaaS 市 场规模分别同比增长 25.3%、28.9%、9.9%至 1148 亿美元、1120 亿美元、1673 亿美 元。一方面随着全球数字化浪潮的推进带来的云计算市场自身的扩容,另一方面生成式 AI 新技术带来的 AI+模型、应用也有望给云计算市场重新带来新的增长动力和额外空 间。

据中国信息通信研究院数据显示,2021年中国云计算市场规模达 3229 亿元,较 2020年 增长 54.4%,处于高速增长状态。其中公有云市场规模增长 70.8%至 2181 亿元,私有 云市场同比增长 28.7%至 1048 亿元。国内市场以 IaaS 层为主,占比 62%远高于海外 27%占比。国内 IaaS市场成熟度高,企业可以按需租用相关资源,便捷性高,但 Iaas层 也是竞争最为白热化的环节,多年来各大厂商不断采用降价来抢占更多的市场份额。

1. 2 国内外云计算厂商竞争格局

根据 Synergy Research Group 最新数据显示:在 IaaS+PaaS 统计口径下,TOP3 云基 础设施厂商分别为亚马逊 AWS、微软 Azure 云和谷歌云。在云计算市场本身持续扩容情 况下,微软 Azure 云在 23Q1 市场份额已达到 23%,仅次于亚马逊 AWS 32%市场份 额,并呈持续上升的态势。头部前三名共计占比 65%的 IaaS+PaaS 市场份额。

中国云计算市场以 IaaS层服务为主导,占比超过 60%。其中主要由互联网公司和通讯公 司占据市场份额,阿里云市场份额最高,2021 年占比 34%。IaaS 层竞争激烈,行业内 厂 商往往通过降价来吸引更多客户采用其推出的云服务。

1. 3 微软 Azure 云计算市场份额不断攀升原因

1)生态化:虽较晚进入云计算市场,但本身 B 端 C 端就有庞大的用户群体,微软将原 软件产品直接上云和Azure各业务进行深度融合地更快速,实现了跳跃式增长,如Office 可以直接打开云上文档等,用户迁移成本低,竞争对手需要开发新的云端产品,效果不 能保证。微软多年建立起来的渠道和生态能力较强,使用微软其他产品的老客户更容易 认同 Azure 云服务; 2)客户认知清晰:相较于其他云厂商,微软对于中大型企业客户的需求有着更为清晰的 认知,基于 Windows 生态支持下,微软了解客户仍有很多本地化数据中心,因此公司 早在 2016 年就推出了混合云的解决方案 Azure Stack,而 AWS、谷歌云则分别在 2018、2019 年才推出类似的解决方案,混合云战略有先发优势; 2)宏观经济承压时,云需求增长放缓。主要竞争对手 AWS 缺少底层云以外的产品,增 长后劲不足,利润承压。相比之下,微软云的产品矩阵更丰富,Copilot 增值服务也有望 给公司带来额外盈利空间,也有高利润的软件业务反哺其他业务。 亚马逊 AWS 和多伙伴平台达成战略合作,微软通过自建+收并购+合作构建云生态体系。

巨头们往往通过采用资本方式去收购 PaaS 或 SaaS头部细分厂商,如谷歌收购云安全服务商 Mandiant、微软收购 AI 玩家 Nuance,扩大营收增量以及做一站式全域云计算解决 方案,同时也可以在整个生态下拥有成本优势。Teams 办公协同软件获得超过 20%的市 场份额,和 Zoom 产生有力竞争。其他的例如 LinkedIn、Github 等。 AWS 逻辑:聚焦公有云,提供基本的计算、存储、网络、数据库等服务,不涉足上层应 用。AWS 不去做上层应用也减少了合作伙伴关于竞争方面的担忧,上层应用越多则对 AWS 的云资源需求也越大,但这种模式在发展中会遇到瓶颈,原因在于行业软件上的缺 失使得无法深入行业,较难做出差异化。而微软在转型云计算后,将固有的强势软件层 直接上云,又通过收并购、自研等逐步搭建自己的生态体系,成长空间更深且独立自主。 包括在 AI 方面,AWS 也 是选择除自研基础大模型之外,会和一些初创企业的大模型 合作,伙伴文化较深。

1. 4 北美云厂商营收阶段性放缓,AI 算力有望引领新一轮资本开支

云厂商以往通过“技术迭代提高计算效率-降低算力成本”的方式来提升盈利能力,但近 两年受到经济放缓、汇率以及地缘政治等因素影响,随着电力成本攀升,叠加疫情下人 们对于后期经济衰退的担忧,企业在 IT 端的成本预算也相应阶段性下调。宏观经济背景 波 动 下 ,FY4Q22 亚 马 逊 AWS/ 微 软 智能云 / 谷 歌 云 营 收 同 比 增 速 分 别 为 20.2%/20.3%/32.0%,分别较 FY3Q22 放缓 7.3/5.7/5.6pct。

近两年北美云计算巨头资本开支增速放缓,AI+投入有望重振云计算需求

由于全球宏观经济的波动以及下游客户需求影响,北美云计算巨头的资本开支也有所放 缓。从近两年逐季度的资本开支增速表现来看,呈现持续性降低趋势。但另一方面在 FY22Q4 业绩会上,北美科技巨头普遍表示将会支持 AI 创新产品、新型数据中心架构的 发展,加大相关领域的投资力度。微软在最新的财报交流会上指出,FY23Q3 季度资本支出环比上升 10 亿美元至 78 亿美元,2024 财年资本支出将出现连续性实质增长。

1. 5 云计算公司由于 AI、大模型等新技术发展,商业模式有望变革

未来类 GPT LLM 可能改变云计算行业商业模式、新技术生态有望成为用户黏性入口。传 统云计算平台提供存储、算力等资源,通过公有云、私有云、混合云的不同方式去按照 客户需求部署,但未来客户可能会在采购云计算服务时,不只看底层的算力、服务器的 多少,客户可能会看大模型搭建起来的生态层完整性,或将给云计算公司带来新的竞争 力。

1. 6 其他云计算巨头云业务占比情况

亚马逊 AWS 云收入占比总收入较低,主要依靠电商业务贡献收入,AWSFY23Q1 收入 占比为 16.8%,但 AWS却贡献了公司的经营利润,覆盖掉亏损业务。谷歌云占比总营收 10%,谷歌云业务部门今年第一季度的营业收入为 74.5 亿美元,盈利 1.9 亿美元。去年 同期,该部门报告亏损超过 7 亿美元,去年第四季度亏损为 1.86 亿美元。

微软在云计算领域的转型——驱动了其后续的业绩和估值抬升。自 2014 年纳德拉升任公 司 CEO 来,通过开源、对云计算的全面拥抱等措施,微软成为过去数年美股科技股表现 最好的公司其中之一。从营业收入和净利润数据表现来看,转型前公司营收增速一度跌 至负增长,净利润增长率则在转型前几年几次跌至负区间。转型成功后,微软公司层面 营收增速保持在 16%上下,净利率已从 2015 财年的最低点 13%攀升至目前的 36%附近, 云业务重新拾起了公司成长的发动机。

2、微软底层云业务生态布局

2.1 微软:Azure 云底层架构服务

微软云业务——底层 Azure 云+顶层 Microsoft 365。微软在云服务上具有较为全面的产 业链布局。目前微软云业务涉及 IaaS、PaaS、SaaS 三个云计算核心层级,IaaS+PaaS 主要对应 Azure、服务器产品、AI、信息安全等,SaaS 产品包括 Microsoft 365、 Dynamics 365、Teams 等系列产品。同时,除了传统的公有云部署模式之外,公司也推 出了私有云、混合云、边缘计算等多种产品架构及部署模式,产品体系完整。

Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助客户将新解决方案付诸实践。 利用所选的工具和框架,在多个云中、在本地以及在边缘生成、运行和管理应用程序。 可以自由且灵活地在任何位置构建、管理和部署应用程序,从而实现自己的目标。使用 任意语言、框架和基础设施(甚至是自己的数据中心和其他云)来解决大大小小的难题。

2.1.1 云计算巨头底层架构服务对比

总体来看:AWS 优势在于市场份额高、功能齐全数量多、全球数据中心数量多,运营经 验口碑好;Azure 云优势在于微软生态体系,和微软自身软件集成度较高,混合云早期 优势地位,OpenAI 的 GPT 模型长期多维度合作;GCP 追赶者状态,AI 能力强、坚定 开源、部分功能折扣高但产品总体服务数量较少且持续处于亏损状态。

2.2 Azure:接入 OpenAI 服务为产品赋能

除却云计算市场扩容、微软 Azure 渗透率提升以及抢占政府企业端订单带来的收入增量 外,Azure AI+战略未来可能会逐渐成为 Azure 的核心竞争力,无论是底层搭建上代码的 编写,还是 SaaS 层应用结合 ChatGPT 等,微软目前都已经占据了一定的先发优势。

微软在 2023 年开发者大会上推出了全新的 Azure AI Studio,开发人员将可以在 AI 的辅 助下基于 Azure 个性化地去构建、训练、评估和部署最新的下一代模型,开发人员可以 将自己的数据集上传到模型中,并且可以选择用 OpenAI 自己的底部模型,也可以选择 用 Hugging Face 上的开源模型,功能更加强大,降低开发门槛,为每个开发者构建自 己的 copilot。

3、SaaS 层产品与 AI Copilot 功能相结合

3.1 云办公 Microsoft 365

微软云办公产品及服务主要包括 Microsoft 365、Dynamics 365、Microsoft Teams 及 LinkedIn 等,相比于亚马逊、谷歌等云计算巨头相对单一简单有限的 SaaS 产品组合 , 微软 SaaS 产品占有全球领先地位;2011 年 6 月,微软发布 Office 365,是 Office 产品 的云订阅模式,即由传统的买断制(On-premise)转向定期订阅制。买断制的优势在于 前期一次性收取全部费用,可以将这部分资金投入销售和研发,扩大市场份额,但对于 市场份额较高的企业而言,进一步获取客户的难度却在提升。

2020 年 10 月根据安装对应软件的企业数量占比来看,在美国主要办公生产力软件市场 中,谷歌占比 59.41%,微软占比 40.39%。

Office 产品作为公司最成功的产品线,转型云化后,有助于 office 将新产品、功能模块推 送到企业客户端,企业客户也可以根据自身需求调整自己的购买计划,利于客户长期 ARPU 的提升,也降低了中小企业的使用门槛,订阅用户数可以看到近些年保持稳健提升增长。Office 商业版和消费版的收入增速自 FY23Q2 开始有向上转好的趋势。

根据微软公布数据显示,FY23Q3 Office 365 消费者版年费用户数达到 6540 万,截至 FY23Q3 商业版年费用户数达到 3.82 亿。微软表示,2022 年全球运行 Windows 10、 Windows 11 系统的设备月活达到了 14 亿台,则其订阅服务的年费会员付费率约为 32%,根据 FY2022 Office 产品及云服务 448 亿美元来测算,ARPU 值在 100 美元左 右。

3.2 云办公—Microsoft 365 Copilot 正式版推出,后续存在产品提价空间和动力

微软公司今年推出国际版 Microsoft 365 Copilot,为工作场所生产力工具带来全新一代人 工智能功能。微软 Copilot 将结合大型语言模型、业务数据和 Microsoft 365 应用,提高 生产效率,有望打开额外的变现增值空间。2023 年 6 月 2 日据海外科技媒体 The Information 报道,包括美国银行、沃尔玛和埃森哲在内的 600 多家微软最大的客户预计 将试用 Microsoft 365 Copilot 功能,额外分别为 1000 个订阅账户支付了高达 10 万美元 的年费,意味着 AI 相关增值功能为 100 美元/订阅账户。

在经历多轮小范围客户的定价测试后,2023 年 7 月 19 日微软宣布了 Microsoft 365 Copilot 产品企业版定价,每用户每月售价为 30 美元,全年 360 美元,较之前 B 端客户 小范围测试中 ARPU100 美元大幅提高。根据微软官网显示,Microsoft 365 商业标准版/ 商业高级版/企业版 E3/企业版 E5 的定价分别为每用户每月$12.5/$22/$36/$57,和之前 的定价相比,Copilot 功能带来的价值溢价超出市场预期,Copilot 带来的价值分别为之前 定价的 240%/136%/83%/53%,30 美金每月的定价可以侧面反映用户对 Copilot 产品的 接受度高,为公司后续其他产品定价打下基础。

2023 年 9 月 21 日,微软宣布 MS Copilot 365 将于 2023 年 11 月 1 日面向企业客户全面 推出,同时将在 Word、Excel 等中引入 Copilot。2023 年 9 月 26 日,Windows Copilot 跟随 Windows 11 免费更新推出。Bing 支持 OpenAI 最新图文模型 DALL.E 3,图片丰富 度相较 Midjourney 更优。并且从 Word 开始,微软还将文生图工具 Designer 集成到面向 消费者的 Microsoft 365 Copilot 中。而在 ToC 端,微软已开始在一小部分 Microsoft 365 消费者用户中测试 Microsoft 365 Copilot,并期待随着时间的推移将预览版扩展到更多人。

在基于 To B 端 Microsoft 365 Copilot 每个月每用户 30 美金的客单价保持不变的假设下, 我们预计微软 2024财年第一季度,即2023自然年 Q4季度的copilot渗透率可以达到4% (11 月 1 日上线),根据目前的付费订阅用户数,推导出未来 MS 365 Copilot 的逐季度 收入情况,我们预计 FY2024、FY2025、FY2026 财年 MS 365 Copilot 收入分别可以达 到 52.63 亿美元、129.3 亿美元、208.9 亿美元,占比 2022 财年 Microsoft Office 产品及 云服务收入分别为 12%、29%、47%。我们认为,后续 MS 365 Copilot 产品收入有望跟 随付费用户渗透率加速提升、ASP 客单价提高而提升。

而基于微软过往在Microsoft 365产品上的提价过程,我们认为,在Microsoft 365 Copilot 产品大规模推广开来,活跃用户和付费用户攀升至一定程度后,微软同样有望在 Copilot 产品端进行提价行为,提价后或将持续提高微软 Copilot 产品盈利能力,增厚公司利润。 Microsoft Office 365 于 2011 年 6 月推出,2021 年 8 月 19 日,微软宣布更改 Microsoft 365 的商业定价,这是自十年前推出 Office 365 以来的首次实质性定价更新,宣布的价 格调整在六个月后生效。2022 年 3 月 1 日,微软更新了以下商业产品的定价:Microsoft 365 商业基础版(从每用户 5 美元到 6 美元)、Microsoft 365 商业高级版(从 20 美元到 22美元)、Office 365 E1(从8美元到10美元)、Office 365 E3(从20美元到23美元)、 Office 365 E5(从 35 美元到 38 美元)和 Microsoft 365 E3(从 32 美元到 36 美元)。因 此,基于过往微软在相关产品上的提价行为以及后续用户规模提升带来的算力成本提升, 我们认为 Microsoft 365 Copilot 有望存在长期产品价格提升的空间和动力。

3.3 云办公—其他 SaaS 产品 Teams、Dynamics365,都逐步融合 AI 功能

1)Microsoft Teams

作为集聊天、视频会议、文件共享与编辑等功能于一体的办公平台软件,已成为云端生 产力平台 Microsoft 365 中智能远程中心枢纽,可与 office 365 办公套件一起使用。2023 年 2 月微软宣布推出 Premium 版本,亮点在于对 AI 能力的融合,每用户每个月 10 美金 的订阅费,可基于视频会议自动生成笔记、记录会议纪要等,FY23Q3 月活用户超 3 亿。

2)Dynamics 365

Dynamics365 是微软整合 CRM 和 ERP 的应用,即客户关系管理和企业资源规划的集合 系统,并且与微软生态的其他应用相互打通。Dynamics 的产品定位是兼有中小企业和 大型企业,主要竞争对手 Salesforce 主要面向大型企业客户。根据 Software Connect 数 据,2022年全球ERP市场份额中,微软得益于持续优秀的数据分析能力,占比为31.5%,全球第一,其次为 SAP、Oracle、Workday 等公司。Dynamics 365 Copilot 使用自然语 言赋能员工自动化任务、生成想法和获取洞见,购买方为企业客户,使用者为企业内部 的销售、客服、市场营销、供应链相关工作者,帮助客户实现例如自动编写恢复邮件、 生成总结、为客户提供查询服务来快速响应客户问题等。

3.4 微软云业务数据——短期行业波动不改长期向上趋势

微软智能云板块近几个季度增速跟随行业下降,但韧性恢复好于市场一致预期。 FY23Q2 智能云营收为 215 亿美元,同比增长 18%,为 FY2021 后首次跌破 20%。 其 中微软 Azure 和其他云服务营收同比增长 31%,增速较 1QFY23 持续下降, FY23Q3 同 比增速延续了持续下滑趋势跌至 27%。FY23Q3 智能云板块营收为 221 亿美元,同比增 速为 16.3%。FY23Q4 智能云营收 240 亿美元,同比增速为 14.7%。考虑到云基础设施 扩建的正常季度支出变化叠加 AI 方面的支出,微软预计 24 财年资本开支将出现逐季度 环比增长。

FY23Q4 微软云业务(偏 TO B 的口径)营收为 303 亿美元,涵盖了 Azure 及云服务、 office 商业版、LinkedIn 商业版、dynamics 365 等其他云资产收入。作为引领未来的先 导指标,FY23Q2 To B 端商业订单同比增速实现了由负转正,自 FY23Q1 的-3%恢复至 7%,FY23Q3 升至 11%。截至 FY23Q4To B 端待确认的合约余额亦回归至 2240 亿美元,处于历史高位,该指标为后续收入的增长释放了积极信号。

4、更多个人计算业务

4.1 更多个人计算业务——“Old Bing”搜索及广告业务

Bing 是全球仅次于 Google 的第二大搜索引擎,但与 Google 的市场份额差距过大。根据 Statista 数据,截止至 2023.01,谷歌占据 84.69%搜索引擎市场份额,Bing8.85%排次 之,Yahoo 占比 2.59%排在第三位。搜索引擎的核心竞争力在于先发优势,先发优势可 以更早的积累模糊数据,搜索引擎能够爬取的网页数量内容越多,更多的数据也可以优 化模型算法给用户更好的体验。Bing 落后的主要原因在于移动时代布局的落后导致失去 了先发优势,市场份额较低,给微软带来的广告收入也较低。

4.2 更多个人计算业务——“New Bing”搜索及广告业务

微软 Bing 目前已经接入 GPT-4,且无须排队等候体验。New Bing 未来将接入共享的插 件生态系统,提升用户体验;Bing Chat Enterprise 版本后续也将上线。

Bing 已成为 ChatGPT 默认搜索引擎,提供实时检索功能。既能提高 Bing 品牌效应,增大流量曝光,又能留存更多用户数据,完善搜索客户的回答准确性等。

虽然短期 Bing 市场份额数据不如预期亮眼,网站拥挤度数据并没有出现明显增长,且由 于诸多因素例如谷歌 Bard 的完善更迭、OpenAI 主站的流量吸引等,但随着用户推理数 据的完善、算力的缓解和 OpenAI 产品功能的迭代推新,我们中长期继续看好 Bing 市场 份额升高。

随着生成式 AI 的发展,后续对嵌入式广告模式变现方式的探索也是各家都要去找寻的方 向,包括像广告和回答问题的优先度以及如何避免太多广告影响用户体验、第三方网站 公司是否愿意谷歌抓取自家网站内容来训练谷歌大模型等诸多问题。

4.3 更多个人计算——Windows Copilot

2023 年 5 月,微软在 Microsoft Build 全球开发者上发布了 Windows Copilot 的演示版本 功能,其中涉及到了一些比较亮眼的功能比如处理办公任务时主动提醒开启专注模式、 夜晚主动提醒开启夜间模式,唤醒音乐软件播放喜欢的歌单,总结文章内容、网页内容、 文生图等功能,6 月底微软上线了开发者预览版本,但目前更新了一些基础功能,但作 为初代开发者版本来看已经得到市场一定的认可。微软对于 Windows Copilot 的定位并 不在于扩大 Windows 的操作系统营业收入规模,而是更像让其成为一个 AI 生态入口, 通过更新底层的操作系统 Copilot 化,让消费者接触到更多 Copilot 功能应用,例如 Bing、 Edge、Teams 等,培养用户的 AI 使用习惯,让更多的用户留在微软产品生态体系内。

4.4 更多个人计算——游戏(XboX&动视暴雪)

Xbox:美国微软公司创建的电子游戏品牌,随 2001 第一代 Xbox 游戏机发布而首次推 出。产品和服务包括家用游戏机、游戏制作与发行、线上游戏服务和内容订阅服务。动 视暴雪(Activision Blizzard, Inc. , Nasdaq: ATVI):全球最大的游戏开发商和发行商之一, 拥有《COD 使命召唤》《魔兽世界》《炉石传说》《暗黑》《Candy Crush》《守望先锋》 等多款经典游戏 IP。2021 年营业收入 88.0 亿美元,同比增长 8.9%。公司旗下三个公司 动视/暴雪/King 收入占比分别为 39.5%/19.7%/29.3%。

2022 年 1 月 18 日,微软发布声明,宣布就收购动视暴雪达成协议,将以每股 95 美元的 价格收购动视暴雪,收购总价达 687 亿美元(包括动视暴雪的净现金),成为微软史上最 大收购交易。2022 年 12 月 8 日,美国联邦贸易委员会 FTC 向微软提出了一项诉讼,试 图阻止其收购动视暴雪。2023 年 4 月 26 日,英国竞争和市场管理局表示微软收购动视 暴雪的交易被阻止以保护云游戏中的创新和选择,主要由于索尼一直持反对态度并向欧 洲和英国监管机构表达对微软垄断的担忧。

2023 年 5 月 15 日,交易得到了欧盟的批准。2023 年 7 月 11 日,美国加州法官驳回了 FTC 的初步禁令请求,允许微软完成这笔交易,后续继续观望英国竞争和市场管理局的 决定进程。2023 年 7 月,微软已与索尼签署了一份协议,在收购案完成后动视暴雪旗下 最受欢迎的游戏《使命召唤》将继续在索尼 PS 上发行,授权期 10 年。2023 年 10 月 13 日,微软正式发布公告以 687 亿美元收购动视暴雪,意味着微软成为世界上收入第三高 的游戏公司,仅次于腾讯和索尼。微软收购后有望补足自身一方游戏优质内容不足的短 板,动视暴雪的游戏研发能力也有望为微软游戏持续贡献优质游戏储备,同时微软 XGP 的订阅服务也有望打开空间,目前 XGP 订阅用户数为 2500 万。

四、微软:生成式 AI 浪潮下的先发布局,产品打开想象空间

1.1行业回顾:谷歌优先提出 Transformer 模型,技术水平超前

很长一段时间,文本生成采用的是类 RNN(循环神经网络)架构,但 RNN 也存在着诸 如顺序计算、并行计算能力偏弱等缺点——T 时刻的隐形状态 St 还依赖(t-1)时刻的状 态 S(t-1)的输出。尽管后期也出现了能解决一定长期记忆问题弱的 LSTM 架构,LSTM 通过引入额外的存储单元存储长期记忆信息并忘掉不再需要的信息,但 Transfomer 架构 的出现又带来了新的技术革命。 2017 年,谷歌提出 Transformer 模型,成为日后大语言模型的通用解。随后,谷歌、微 软等巨头,基于这一模型分别推出 BERT 和 GPT,在文本领域展开了激烈的竞争。 Transformer 本质上是字预测字的过程。通过上一个字,结合训练的技巧方法和下一个不 同字出现的概率,选取概率最高的来输出。Transformer 算法的革命性在于其避免了 RNN 中的顺序计算问题、长序列处理问题,且通过自注意力机制和多头注意力机制可以 使模型更好的理解和生成文本。自注意力机制将序列中的任意两个位置之间的距离缩小 为一个常量,可以使模型对输入序列的不同位置进行加权,从而更好的捕捉输入序列之间的依赖关系,使模型在处理长序列时更加高效和准确。 Transformer 模型内部创造性地采用了自注意力结构(Self-Attention),相比 NLP 中的两 大主流结构 RNN(循环神经网络)、CNN(卷积神经网络),每层具有更佳的计算复杂度, 能更好地学习语法、语义等,提高训练和计算效率;虽然原理仍然是利用前面的 词 语 预测后面的词语但它可以利用并行性一次预测整个事情。随着 Transformer 模型层深增 加,能够学习到的知识数量逐渐以指数级增加。

GPT 模型的迭代对比

GPT-1 之前,传统 NLP 模型往往需要大量人工标注的数据进行有监督训练,但只能做到 特定领域功能性强,无法做到通用,且成本比较昂贵。Open AI 采用 Transformer 模型的 Decoder 部分作为主结构,经过无标签训练得到通用模型后进行微调。随着后续 ChatGPT 和 GPT-4 的问世,带来了技术热潮。在 GPT-3 的基础上,OpenAI 引入了监督 学习—“预训练+微调+奖励机制”,具备了更准确的人类意图、逻辑能力。

参数量和预训练数据量的不断增加让 GPT-3.5 量变到质变,后基于人类反馈强化学习 (RLHF)对模型进行反馈和指导,每一次 GPT 模型给出的反馈都会交由数据评估员对 生成的结果打分,让 gpt 针对打分情况进行自我优化,这一技术革新,使得 GPT 系列 的内容生成表现有了明显的提升。

大语言模型的能力涌现现象

人工智能方面,过往公众比较熟知的是 AlphaGo 围棋领域的能力,其实大多时候的性能 表现、逻辑推理能力都比较不稳定。而自 GPT 模型发布以来,大语言模型的知识体量、 逻辑推理、能够顺畅和人类沟通的能力相比于过往均有增强。 除了在算法上的不断迭代, 例如监督学习、微调、RLHF 等方式之外,大语言模型的涌现现象值得探究,即在训练 参数和数据量等超过一定数量级之后,大模型会出现超出预期的性能表现。

大语言模型的参数量指标不是唯一决定性因素

OpenAI 提出了大语言模型遵循“伸缩法则”(scaling law)——大模型性能与每个单独 的因素(训练时长、参数量、数据质量、数据量规模等)都有相关性关系,体现为 Test Loss 的降低,也就是模型性能提升,但具体去看这些因素如何综合影响模型表现还在进 一步的探索当中。

DeepMind 此前发布了 2800 亿参数的 Gopher,统计了 Gopher 高昂的训练成本,但预测 出最优模型应该小 4 倍参数量,并且在多 4 倍的数据量上进行训练,才能更充分。然后 Deepmind 又训练了一个更小的、700 亿参数的模型 Chinchilla,但在更大规模的数据量 上训练,最终证实 Chinchilla 的性能不输于 Gopher,可以看到我们平时简单关注的参数 量并不完全意味着“越大越好”。对比来看,OpenAI 的结论是优先增加模型参数量,然 后才是训练数据量,但这样会造成推理成本高昂,1750 亿的参数可能并没有充分训练。

2.1 大语言模型格局竞争:微软 VS 谷歌

谷歌技术研发早,早期抢占优势地位,后续双方在细分领域各有胜负,谷歌甚至一度推 出万亿参数大模型,但 OpenAI 后续胜在结合了 RLHF 等技术提升了迭代速度、效率和 使用效果,同时诞生了 ChatGPT、GPT4 以及插件等产品,逐渐拉开差距,但对于谷歌 而言,差距或可以通过产品迭代、数据积累去逐渐缩小,2023 年 5 月发布的 Palm2 大模型也同样比较亮眼,也在研发谷歌自身的多模态大模型。

2.1.1 大语言模型格局竞争:微软和 OpenAI 侧的持续迭代,提高生态化能力

1)软件侧:GPT 模型插件功能迭代,扩大生态

2023.04.20,Open AI 联合创始人 Greg Brockman 演示了 GPT-4 潜在新功能和插件, GPT-4具备了一样的跨业务流程、平台和系统的端到端自动化插件功能,OpenAI通过不 断迭代、补全缺点来吸引用户,实现了持续的进化。

技术原理:首先通过 ChatGPT+DALL-E 实现菜谱生成,然后通过 API 与货物配送商 Instacart 实现数据连接将菜品加入到你的购物车,最后通过自动化平台 Zapier 将内容上 传至社交平台上。在整个自动化业务流程中 Open AI 将 DALL-E,多个平台 API 融合到 了 GPT-4 中,从而实现了初级 AGI 功能。截至 8 月 2 日,ChatGPT 共有 735 多个插件 上线,涉及餐饮、旅行订票、教育、购物等诸多应用场景。

2.1.2 大语言模型格局竞争:开源的 Amazon、Meta

Open AI 在早期的几个版本完全开源后,后续版本部分开源(论文形式公布技术细节), 而到了 GPT-4 目前没有对外公布技术细节,以 API 接口形式提供给用户,逐渐变得不那 么“开源”;而 Google 的 BERT、T5、LaMDA 大模型以及亚马逊的 Bedrock 和 Meta 的 LLaMA 大模型则对外开源。

1)Amazon“Bedrock”基础大模型

Bedrock 是由亚马逊自研 Titan 大模型 + 初创公司 AI21Labs、Anthropic(Claude)和 Stability AI 等基础模型构成的。Titan 系列模型分为两种,一种是用于内容生成的文本模 型,另一种是可创建矢量嵌入的嵌入模型,用于创建高效搜索功能等。分别由人工智能 研究初创公司 Anthropic 和 AI21 实验室开发,客户将能够使用自己的数据定制 Titan 模 型, 数据永远不会用于训练 Titan 模型,以确保包括竞争对手在内的其他客户最终不会从 这些数据中受益。Amazon 大语言模型想要实现的宗旨是:普惠、保证数据隐私、实现 个性化定制以及可以实现轻松开发。

2)Meta 大模型 LLaMA&Llama2

Llama1 模型各方面表现优异:在逻辑推理等方面优于 GPT-3, 在代码生成方面优于 PaLM——诠释了数据质量和数据量的重要性。

在微软 Inspire 活动中,Meta 公布了开源大模型的第二代版本 Llama 2,免费且可用于商 用,但日活超过 7 亿的产品需要单独申请商用权限,而第一代版本因为开源协议问题一 直都是不可以免费商用。LLaMA 2 包含了 70 亿、130 亿和 700 亿参数 3 个版本,其训练 数据相较于上一代提升了40%,上下文长度也是第一代的2倍,在2万亿token上训练。 Llama2 在很多测试指标方面接近 gpt3.5,但和 gpt4 还有一定距离。

2.1.3 大语言模型格局竞争:其他(Claude、StableLM)

StableLM

2023.04.19,文生图明星创业公司 Stable Diffusion 的母公司 Stability AI 宣布正式开源一 款全新大语言模型:StableLM。该模型的 Alpha 版本有 30 亿和 70 亿参数,并将于后续 开放 150 亿和 650 亿的参数模型。Stability AI 的创始人自 2020 年从 OpenAI 团队离开 后,一直秉承着开源开放的理念,持续推出了多款 AI 开源模型。在 GitHub 项目中, StableLM 提供了几个基础演示,包括聊天、撰写书信等功能,还不够相对完善。

3.1 垂直应用层产品发展迅速,开源建立自身生态圈层

Stability AI:公司成立于 2020 年,于 2022 年 9 月开源文生图模型 Stable Diffusion,成 为目前 AI 绘画赛道的佼佼者。目前 Stability AI 已经在全球积累了超过 20 万名开发人员 和 7 个研究中心社区,各渠道累计日活跃用户数超过 1,000 万,截至去年 10 月已有超过 20 万开发者下载,日益成熟的生态建设是推升公司估值的主要驱动力之一,公司上一轮 融资额为 101Million Dollars,而公司目前也开源了自己的大语言模型 Stable LM。

Midjourney:2022 年 3 月推出的 AI 绘画工具,创始人 David Holz,Midjourney 架设在 Discord 频道上,在频道中使用/image 命令并输入生成图片的文字描述,拥有了超 1000 万社区成员,是目前用户最多的服务器,年营收约为 1 亿美元。 Character AI:是一个基于大规模自然语言训练的 Chatbot Website,由 Noam Shazeer 和 Daniel De Freitas 于 2022 年 9 月创建,当前估值 10 亿美元。与其他 Chatbots 不同, 该网站预先创建了许多聊天角色,例如名人、历史和虚构人物。用户可以直接与这些角 色聊天,也可以创建自己的角色。

3.2 海外部分生成式 AI+行业应用

1)教育行业——Khanmigo 可汗学院

可汗学院 AI 版本接入 GPT-4 大模型 ,每位学生拥有自己的辅导老师,大模型会拒绝学 生直接索要答案的行为,反而会一步步引导学生如何分步骤思考。

2)医疗行业——Nuance(2021 年被微软收购)

DAX Express 是一款 AI 临床笔记软件,接入 GPT-4,可在病人就诊后短时间内快速生成 临床笔记草稿,查看病人就诊摘要等,提高医生的效率。

3)法律行业——Harvey

Harvey 允许律师用简单的指令描述任务内容,然后接收系统生成的结果,无需手动编辑 法律文件或查阅资料,快速生成法律论据和草案,同行业竞品也已经有比如 Augrented、 Casetext、Klarity 等。2023 年 3 月 15 日,PWC 普华永道宣布了和 Harvey 在 AI 方面的 深度合作,通过生成式 AI 技术和产品致力于打造 PWC 成为四大里面法律商业解决方案 中的佼佼者。

3.3 大语言模型算力成本高昂

算力需求与模型参数量呈正相关关系。GPT 的算力需求分别发生在访问阶段和训练阶段, 访问阶段是指用户在使用 GPT 时,因提出问题所造成的算力消耗;训练阶段是指在训练GPT模型时所消耗的算力。训练费用参考:GPT-3的发展历程,OpenAI 从 45TB 的文件 中过滤出 570GB 的数据集,仅训练费用就高达 1200 万美金。根据 Meta AI 发布的论文 《LLaMA: Open and Efficient Foundation Language Models》,里面展示了 LLaMA 模型 的计算量和所需算力情况,报告里显示 Meta 训练的这个 650 亿参数量的模型花了 21 天, 基于 2000 个+英伟达 80GB 存储量的 GPU,则计算下来单次训练成本:2048 GPUs x $3.93 GPU per hour x 24 hours x 21 days 约等于 4 million 美金。

后期运营成本:ChatGPT 日活 2500 万,假设每个人每天生成 1000tokens(假设 promt+complete),则 750 个字,则共计生成 187 亿字,250 亿 tokens,gpt-4 每 1000tokens0.03 美元,则每天的运营算力成本为近 75 万美金上下。

3.4 领先大语言模型的核心壁垒在于多环节 know-how

1)模型规模。2)计算资源上的储备差异。3)加速算法。OpenAI 在训练大模型时采用了一些高效的加速算法,包括自适应计算算 法、分布式训练算法等可以帮助 OpenAI 加速大模型训练,更快实现开发; 4)数据资源。国外巨头在全球范围内拥有更广泛的用户和数据资源; 5)多模态应用。OpenAI 同时开发了很多大模型算法技术,图片、编程、语音相关,如 codex、whisper、dall-e 等,具有一定领先优势; 6)细节 Know-How。包括数据怎么清洗、标注以及模型的结构设计,如何训练推理等这 些工程化的能力需要经验总结。

3.5 微软和 OpenAI 相辅相成,投资和业务合作愈发深厚

现在的 OpenAI由营利性公司 OpenAI LP和非营利性母公司 OpenAI Inc组成。2015年, OpenAI 作为一家非营利组织成立,目标是以安全的方式实现通用人工智能(AGI),使 全人类平等收益,而不是为公司的股东创造利润,也因此创始人山姆·奥特曼(Sam Altman)不持有股份。但在 2019 年,OpenAI 从非营利组织转变为有“利润上限”的营 利组织,并建立了一个独特的结构——投资回报有上限(投资利润不超过投资额的 100 倍),任何超出的部分都将返还给非营利组织。据外媒 The Information 报道,目前 OpenAI仍处于亏损中,2021年亏损2.7亿美元,2022年可能预计亏损达到5.4亿美元。 而据 Wall Street Journal 最新的一篇报道称,OpenAI 可能正在与潜在的投资者进行谈判, 寻求以 860 亿美金的估值出售其现有员工股票。

3.6 闭源模型侧,微软有望从多维度受益

大模型厂商会充当“模型运营商”的角色,持续对“算法基础设施”进行维护、迭代; 通过 API 等方式向下游 B 端或 C 端客户提供大模型能力,并据此实现盈利。而其他小模 型厂商调用大模型能力增强模型效果之后,再向产业中的企业赋能。OpenAI 已开始尝试根据使用情况差异化定价:C 端个人体验 GPT-4 需要支付每月 20 美元的 ChatGPT Plus 会员费,B 端客户根据 API 调用处理的内容长度支付相应的费用。

1)云计算底层 Azure 维度

微软 Azure API 接口端服务:更多的客户公司、第三方网站、产品 APP 等接入 Azure OpenAI Service,随着产品用户使用量的增大,对微软底层 Azure 的使用服务越多。

2)顶层 SaaS 产品维度

微软矩阵产品在陆续接入 Copilot 后,消费者有望为 AI 功能付费带来营收增长空间。

3)搜索引擎广告维度

New Bing 接入 AI 新功能后有望带来更多留存客户,吸引广告主投放。

4)MaaS 模型服务维度

MaaS(Model as a Service,模型即服务),有能力的大公司提供预训练模型,使得垂直 行业的小公司能够构建和部署 AI 模型,而无需投资构建和维护自己的模型所需的基础设 施、硬件和专业知识。省去了大模型所需的前期算力投入、训练推理成本、人力成本、 时间成本等,垂直领域的小模型的开发成本会降低,例如某个企业可以对外提供基于行 业的 AI 大模型,则模型本身就可以作为一项服务提供给企业客户。该商业模式的盈利方 式还在探索当中。

五、微软&OpenAI 共同探索多模态模型发展

多模态大模型可以处理来自不同模态(如视频、图像、语音、文本等)的多种信息。它 是通过联合训练多种模态的信息来实现的,可以应用于多个领域,如自然语言处理、多模态推理、计算机视觉和音频处理等,实现模态之间的转换和统一。相比于纯文本大语 言模型,多模态模型也有自己的基座模型、预训练模型以及带有涌现能力的模型,如在 基础模型 CLIP、DALLE 的基础上也已衍生出类似 Flamingo、PaLM-E 等视觉多模态语 言模型,通用大语言模型在高速迭代中,各行业也正期待着在多模态大模型方向上能有 类似“ChatGPT 时刻”的出现。

文本、图像生成领域一直是生成式 AI 发展的重要方向,在扩散模型成为目前主流之前, GAN(Generative Adversarial Networks)技术一直是比较流行的生成模型之一,英伟 达和微软在早期均有所探索,如英伟达的 StyleGAN 系列。后面随着技术的迭代发展, OpenAI 陆续推出了 DALL-E 的三个版本,也诞生了 Stable Diffusion 系列、Midjourney 等爆款文生图领域相关产品,而 DALL-E3 目前的生成效果较好,其原生构建在 ChatGPT 基础上,用 ChatGPT 来构建、拓展和优化 Prompt,在生成画面的丰富度、细 节、清晰度等方面表现较为优秀,人们对文图大模型领域的探索一直在进行。

5.1 OpenAI Dall-E 文本-图像模型

1)DALL·E

DALL·E 是一个经过训练的 GPT-3 120 亿参数版本,它可以根据文本描述生成图像,使 用的是文本-图像对的数据集,根据文本输入和可选的图像开头自回归生成 256×256 大 小的图像。DALLE 沿用了 OpenAI 擅长的基于 GPT 的技术路线(GPT+VQ-VAE)。在此 之前,OpenAI 已于 2020 年 6 月发布了 Image-GPT 图像模型。DALLE 模型根据提供的 文本生成了几个图片样本,然后将所有样本通过 CLIP 模型进行排序,并选择排名靠前 的一个作为模型的结果。

2)CLIP

CLIP(Contrastive Language–Image Pre-training)建立在大量关于零样本转移、自然 语言监督和多模态学习的工作基础上,是一种基于对比文本-图像对的预训练方法或者模 型,OpenAI 从互联网端采集了 4 亿的文本-图像对用于训练 CLIP 模型。CLIP 包括两个模型:Text Encoder 和 Image Encoder,其中 Text Encoder 用来提取文本 的特征,可以采用 NLP 中常用的 text transformer 模型;而 Image Encoder 用来提取图 像的特征,可以采用常用 CNN 模型或者 vision transformer。CLIP 对比模型可以给来自 同一对的图像和文本产生高相似度得分(如斜对角线上蓝色方块内),而对不匹配的文本 和图像产生低分(斜对角线蓝色方块外),得分最高的对应即是结果。

3)DALL·E 2

DALL·E 2 于 2022 年 2 月推出,可以根据文本描述,结合概念、属性和风格创建原创的、 逼真的图像,也可以扩展图像以超出原始画布的范围,从而创建广阔的新作品。同时也 能增添或者删除图片中的元素,例如阴影、反射、纹理等,相比于 DALL·E 在准确度方 面提升了至少 4 倍,达到了 1024*1024 像素。DALL·E2 采用了不同的技术方案:扩散 模型。其效果比 DALLE 提升很多。但是,DALL·E2 在图像细节、丰富度、物体属性维 度等方面表现得仍略有瑕疵。

4)DALL·E 3

2023 年 9 月,OpenAI 推出最新得文生图模型 DALL·E-3,在语义理解、颗粒处理、图 像质量等方面,比之前发布的 DALL·E-2 实现大幅度提升,可生成写实、二次元、平面、 创意、朋克、3D 等多种类型,图片质量、丰富度和准确度相较竞争对手某些维度更优, 在语意、细节理解上表现更好。除了较好得生图效果之外, DALL・E 3 的最大特点是与 ChatGPT 集成,它原生构建在 ChatGPT 之上,用 ChatGPT 来创建、拓展和优化 prompt。能更好地理解上下文,并且处理较长的 prompt 效果会更好,将 prompt 中的措 辞都尽可能表现出来。同时在安全性方面,OpenAI 在 DALL・E 3 上投入了大量工作, 包括制定强有力的安全措施,以防止创建「有害」的图像。OpenAI 表示其与外部「红 队」成员(一个故意试图破坏系统以测试系统安全性的团队)合作,并依赖输入分类器 (一种教语言模型忽略某些单词以避免显式或暴力 prompt 的方法)。DALL・E 3 也无法 生成公众人物的图像。

北美时间 10 月 3 日微软宣布,OpenAI 最新的 DALL-E 3 图像生成器现在可供所有微软 Bing Chat 和 Bing Image Creator 用户免费使用,微软有望持续受益于 OpenAI 技术迭 代。

5.2 多模态 ChatGPT 升级

美东时间 2023 年 9 月 25 日,OpenAI 在官网宣布,对 ChatGPT 进行重磅升级实现看 图、听声音、输出语音内容三大功能。OpenAI 表示将向 Plus 和企业版用户提供看、听、 说功能。语音功能将在 iOS 和 Android 上使用,图片识别全平台可以使用。升级后的多 模态 GPT3.5 和 GPT4 能够解读图片中的内容,并根据图像信息进行响应。同时在语音 处理方面,增加了语音交互功能。其语音识别采用 OpenAI 的 Whisper 模型。对于语音 合成功能,OpenAI 采用新颖的“文本转语音模型”。此功能发布后,用户可以选择通过配 置其应用程序设置进行语音交互来激活它。可以从五种不同的人工声音中进行选择,每 种声音都有独特的名称,例如“Juniper”、“Breeze”。

5.3 多模态 GPT-4V 的工作模式

GPT-4V 的输入支持纯文本、单个图像-文本对、交错图像-文本对三种情况,遵循文字说 明、视觉指向和视觉参考提示、视觉+文本等多种提示技术,可以逐渐达到多种能力,例 如:识别不同种类的东西、理解图像中人与物体之间的空间关系、确定位置、计算数量; 以及对场景文本、表格图表的推理能力、多语言文本识别描述、代码能力、多模态尝试 理解和推理能力等。 在与多模态系统的人机交互中,指向特定空间位置是一项基本能力,例如进行基于视觉 的对话,GPT-4V 可以很好地理解直接画在图像上的视觉指针。同时,微软研究人员也 探索了 GPT-4V 在时间和视频理解上的应用,探索时序预测、时序排序、时序定位、时序推理和基础时序理解等能力有助于衡量模型在一系列静态图像中理解事件顺序、预测 未来事件发生和分析随时间变化的活动的能力。

5.4 微软探索提出多模态模型 CoDi

北美时间 2023 年 6 月 29 日,微软 Azure 团队和北卡罗莱纳大学以及人员发布了一篇论 文《通过可组合扩散实现任意生成》介绍了一种新颖的生成模型 CoDi(Composable Diffusion),能够垮多种模式处理并同时生成内容,CoDi 允许从输入模态的各种组合中 协同生成跨越各种模态的高质量和一致的输出。简单来说,通过组合训练、给每个模态 打造一个潜在扩散模型 LDM 和桥接对齐策略来解决 A 模型生成 B 模态数据集缺失的问 题,就是以带文本模态的数据集为中介来对齐另外几种模态去创造共享特征空间,后续 通过给每个 LDM 和环境编码器增加一个交叉注意力模块去进一步增加生成的模态数量, 这样模型也具备了多模态输入、输出的能力。

5.5 微软在文生 3D 领域的探索—RODIN扩散模型

2023 年 3 月,由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次 实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身(Avatar)的功能。仅 需一张图片甚至一句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D 头像成为可能,为 3D 内容创作领域打开了更多想象空间。在 3D 生成领域此前有不 少研究通过利用 GAN 或 VAE 技术从 2D 图像中训练数据生成 3D 图像但效果一般,微软 首次提出 3D Diffusion Model,利用扩散模型的表达能力来建模 3D 内容,通过多张视角 图来训练 3D 模型。

六、财务分析

微软受益于云转型及数字化转型加深,公司 FY2018-2023 营业收入自 1103.6 亿美元增 长至 2119.15 亿美元,对应复合增速 14%。其中 FY2023 生产力和业务流程板块占比32.7%,智能云板块占比 41.5%,更多个人计算板块占比 25.8%。受益于底层基础设施 的规模效应,公司费用率近几年保持持续降低的态势,FY2023 三大费用占营收比重为 27.1%。 近年来营业成本保持稳定,在游戏及云业务上加大投入带来的成本增量可部分被设备使 用期限延长所致的折旧摊薄所抵消,毛利率近五年稳中提升,净利润率自 FY2018 年后 恢复正常区间内并稳健增长,目前保持在 36%+的水平,我们预计后续仍将稳中有升的 态势。进入到 2023 财年以来,受制于全球宏观经济影响、汇率因素、个人 PC 需求下滑 等不利因素,各业务线收入同比均有不同程度的下滑,看好后续需求恢复后,以及 GPT 大模型接入到微软各产品线后给微软带来的收入增量贡献,我们预计后续业绩有望恢复 增长。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3