GPU行业深度报告：AI产业化再加速，智能大时代已开启

您所在的位置：网站首页 › wifi网络修改加速8-10倍 › GPU行业深度报告：AI产业化再加速，智能大时代已开启

GPU行业深度报告：AI产业化再加速，智能大时代已开启

2023-03-27 16:55| 来源: 网络整理| 查看: 265

（报告出品方/作者：华金证券，孙远峰、王臣复、王海维）

1.由专用走向通用，GPU赛道壁垒高筑

什么是GPU

图形处理器（graphics processing unit，缩写：GPU），又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。 NVIDIA公司在1999年发布GeForce 256图形处理芯片时首先提出GPU的概念。从此NVIDIA显卡的芯片就用这个新名字GPU来称呼。GPU使显卡削减了对CPU的依赖，并执行部分原本CPU的工作，尤其是在3D图形处理时。

始于图形处理设备

最早计算机是黑白显示的时代，机器对于显示的要求极低，随着计算机的普及和软件的多样化，使用者对于显示的要求越来越高。VGA（Video Graphics Array，视频图形阵列）是一种标准的显示接口，是IBM于1987年提出的一个使用模拟信号的电脑显示标准。VGA标准由于可以呈现的彩色显示能力大大加强，因此迅速成为了显示设备的标准，也推动了VGA Card也即是显卡的诞生。早期的VGA Card的唯一功能是输出图像，图形运算全部依赖CPU，当微软Windows操作系统出现后，大量的图形运算占据了CPU的大量资源，如果没有专门的芯片来处理图形运算，Windows界面运作会大受影响而变得卡顿，因此出现专门处理图形运算的芯片成为必然趋势。 1993年1月，英伟达创立，1999年，英伟达发布了划时代的产品GeForce 256，首次推出了所谓图形处理器（GPU，Graphic Processing Unit）的概念，它带来了3D图形性能的一次革命。

浮点计算能力与可编程性结合

GeForce 256 是一款用于实时图形处理的专用处理器，GeForce图形处理器的发布，实现了顶点的矩阵变换和光照计算，图形实时处理应用需要高内存带宽和大量的浮点计算能力。2001年英伟达发布了第三代显示核心GeForce3，GeForce3不仅集成了来自之前GeForce 256和GeForce2芯片的“静态”座标转换和照明引擎，更增加了称为“顶点着色单元”的可编程顶点处理器功能。游戏开发者可借由加上顶点程序，让游戏产生令人惊艳的全新效果。可编程性与浮点计算能力相结合，基于GPU的通用计算也开始出现，GPU朝着通用计算的方向持续演进。2006年，英伟达 CUDA（Compute Unified Device Architecture，统一计算设备架构），及对应工业标准的OpenCL的出现，让GPU实现更广泛的通用计算功能，GPGPU的概念落地。

GPU发展三大方向

GPU最初用在PC和移动端上运行绘图运算工作的微处理器，与CPU集成以集成显卡（核显）的形态发挥功能。NVIDIA于2007年率先推出独立GPU（独显），使其作为“协处理器”在PC和服务器端负责加速计算，承接CPU计算密集部分的工作负载，同时由CPU继续运行其余程序代码。 2019年NVIDIA的中国GTC大会设置了两大主题：AI和图形。从大会的关注重点可以看出，GPU未来趋势主要是3个：大规模扩展计算能力的高性能计算（GPGPU）、人工智能计算（AIGPU）、更加逼真的图形展现（光线追踪RayTracingGPU）。

GeForce RTX 40系列，时代最强

2022秋季GTC大会上，英伟达发布GeForce RTX® 40系列GPU，旨在为游戏玩家和创作者提供革命性性能，其中新旗舰产品RTX 4090 GPU的性能相较上一代提升最高可达4倍。作为全球首款基于全新NVIDIA® Ada Lovelace架构的GPU，RTX 40 系列在性能和效率上都实现了巨大的代际飞跃，根据NVIDIA创始人兼首席执行官黄仁勋的介绍， RTX光线追踪和神经网络渲染的时代正在全面展开。 RTX 40系列GPU具有一系列新的技术创新：包括流式多处理器具有高达83 TFLOPS的着色器能力、第三代RT Cores的有效光线追踪计算能力达到 191 TFLOPS、第四代Tensor Cores具有高达1.32 Petaflops的FP8张量处理性能、着色器执行重排序（SER）通过即时重新安排着色器负载来提高执行效率、Ada光流加速器带来2倍的性能提升、架构上改进来实现与TSMC 4N定制工艺技术紧密结合等。

2. 产业化路径显现，全球AI竞赛再加速

AI技术赋能实体经济面临的瓶颈

过去，绝大部分人工智能企业和研究机构遵循算法、算力和数据三位一体的研究范式，即以一定的算力和数据为基础，使用开源算法框架训练智能模型。而这也导致了当前大部分人工智能处于“手工作坊式”阶段，面对各类行业的下游应用，AI逐渐展现出碎片化、多样化的特点，也出现了模型通用性不高的缺陷。这不仅是AI技术面临的挑战，也限制了AI的产业化进程。随着人工智能赋能实体经济进入深水区，企业通常面临数据资源有限、算力投资难度大、模型泛化能力差、高水平人才稀缺的发展瓶颈。

ChatGPT的破圈

聊天生成型预训练变换模型（Chat Generative Pre-trained Transformer）简称ChatGPT，是OpenAI开发的人工智慧聊天机器人程序，于2022年11月推出，上线两个月后已有上亿用户。 ChatGPT目前仍以文字方式互动，而除了可以用人类自然对话方式来互动，还可以用于甚为复杂的语言工作，包括自动生成文本、自动问答、自动摘要等多种任务。

ChatGPT的成功离不开预训练大模型

人工智能需要用大量的数据对其进行训练，理论上来讲，投喂数据越多、数据质量越高，模型效果就会越好。而预训练 (Pre-trained Models,PTMs)，就是预先训练好的模型，可以帮助人们降低模型创建和训练的成本。预训练大模型需要深度学习的算法，也需要大的数据、大的算力，做自监督学习（模型直接从无标签数据中自行学习，无需标注数据），再面向不同的任务、在不同的应用场景里做少量任务数据进行迁移学习，进而应用于很多场景。 ChatGPT能够实现当前的交互，离不开OpenAI在AI预训练大模型领域的积累。

预训练模型的发展历程

预训练的研究最早起源于迁移学习。迁移学习的核心思想，即运用已有的知识来学习新的知识，通俗来说就是将一个预训练的模型被重新用在另一个任务中。早期的预训练模型主要基于有标签数据。而在NLP领域，由于下游任务的多样性以及数据标注的复杂性，导致无法获得一个像ImageNet这样大规模的有标签数据，所以NLP领域尝试使用自监督学习的方法来获取预训练模型，自监督学习的主要思想就是利用文本间的内在联系为监督信号。2017年出现的Transformer结构，给NLP领域预训练模型的发展带来了绝大的突破。 Transformer的成功，也诱使CV领域加入了自监督预训练模型的赛道。如今，自监督预训练已经成为当前人工智能研究的重点，几乎所有的最新的PTM都是采用类Transformer 结构与自监督学习的方法。

Transformer架构成主流

2017年，谷歌团队首先提出Transformer模型。该团队将Transformer概括为一句话：“Attention is AllYouNeed.”目前Transformer已经成为自然语言处理领域的主流模型，基于Transformer的预训练语言模型更是成为主流。除了NLP 之外，Transformer 也逐渐成为很多基于序列的语音应用的主流AI模型，在很多场景中已取代RNN/LSTM，比如自动语音识别、语音合成等等。 Transformer受欢迎的主要原因是其架构引入了并行化，它利用了强大的TPU和并行训练，从而减少了训练时间。

3. 全维智能化大时代，国产算力行则必至

全球数据中心负载任务量快速增长

大规模张量运算、矩阵运算是人工智能在计算层面的突出需求，高并行度的深度学习算法在视觉、语音和自然语言处理等领域上的广泛应用使得计算能力需求呈现指数级增长。根据IDC的预测，从2018年至2025年，全球的数据增长量达到5倍以上，将从2018年的32ZB增至2025年的175ZB。中国将在2025年以48.6ZB的数据量及27.8%的占比成为全球最大的数据汇集地。根据Cisco的预计，2021年全球数据中心负载任务量将超过2016年的两倍，从2016年的不到250万个负载任务量增长到2021年的近570万个负载任务量。

全球计算产业投资空间巨大

根据《鲲鹏计算产业发展白皮书》内容显示，数字化浪潮正重塑世界经济格局，数字经济正在成为全球可持续增长的引擎。IDC预测，到2023年数字经济产值将占到全球GDP的62%，全球进入数字经济时代。新的计算产业链将推动全球计算产业快速发展，带动全球数字经济走向繁荣。 IDC预测，到2023年，全球计算产业投资空间1.14万亿美元。中国计算产业投资空间1043亿美元，接近全球的10%，是全球计算产业发展的主要推动力和增长引擎。

预训练大模型对于GPU的需求

根据TrendForce的估计，2020年，GPT模型处理训练数据所需的GPU数量达到了20000左右。展望未来，GPT模型（或ChatGPT）商业化所需的GPU数量预计将达到30000个以上。这些均使用英伟达的A100 GPU作为计算基础。根据中关村在线的新闻显示，目前英伟达A100显卡的售价在1.00~1.50万美元之间。英伟达还将A100作为DGXA100系统的一部分进行销售，该系统具有八块A100，两块AMD Rome 7742 CPU，售价高达199,000美元。

国内市场需求将保持高增长

人工智能领域的应用目前处于技术和需求融合的高速发展阶段，在运算加速方面逐渐形成了以GPGPU解决方案为主的局面。根据前瞻产业研究院的数据，未来几年内，中国人工智能芯片市场规模将保持年均40%至50%的增长速度，到2024年，市场规模将达到785亿元。聚集强大人工智能算力的智算中心是中国数字经济高速发展的产物，是一种新型的公共基础设施。国家已经出台了相关政策，并把智算中心列为“新基建”。

云计算及云部署方式

云计算广义的来说是厂商通过建立网络服务器集群，向各种不同类型客户提供在线软件服务、硬件租借、数据存储、计算分析等不同类型的服务。云计算按后台位置主要分为公有云、私有云（含政务云）、混合云三种形态。目前国内主流公有云如阿里云、华为云、腾讯云等。私有云如政务云、金融云、工业云、物流云等。

企业上云持续向细分行业渗透

据Gartner公司测算，2015-2021年，全球政府和企业的云计算市场渗透率逐年上升，由4.3%上升至15.3%。云计算用户已经遍及互联网、政务、金融、教育、制造等各个行业。在中国，互联网行业是云计算产业的主流应用行业，占比约为1/3；在政策驱动下，中国政务云近年来实现高增长，政务云占比约为29%；交通物流、金融、制造等行业领域的云计算应用水平正在快速提高，占据了更重要的市场地位。

4.重点公司分析

瑞芯微

瑞芯微主要致力于大规模集成电路及应用方案的设计、开发和销售，在大规模SoC芯片设计、数模混合芯片设计、影像处理、高清视频编解码、人工智能及系统软件开发上具有丰富的经验和技术储备，形成了多层次、多平台、多场景的专业解决方案，赋能智能硬件、机器视觉、行业应用、消费电子、汽车电子等多元领域。公司产品涵盖智能应用处理器芯片、数模混合芯片、接口转换芯片、无线连接芯片及与自研芯片相关的模组产品等，并为客户提供技术服务。

晶晨股份

晶晨半导体是全球布局、国内领先的无晶圆半导体系统设计厂商，为智能机顶盒、智能电视、音视频系统终端、无线连接及车载信息娱乐系统等多个产品领域提供多媒体SoC芯片和系统级解决方案，业务覆盖全球主要经济区域，积累了全球知名的客户群。产品技术先进性和市场覆盖率位居行业前列，为智能机顶盒芯片的领导者、智能电视芯片的引领者和音视频系统终端芯片的开拓者。晶晨半导体拥有丰富的SoC全流程设计经验，坚持超高清多媒体编解码和显示处理、内容安全保护、系统IP等核心软硬件技术开发，整合业界领先的CPU/GPU技术和先进制程工艺，实现前所未有的成本、性能和功耗优化，提供基于多种开放平台的完整系统解决方案，帮助全球顶级运营商、OEM、ODM等客户快速部署市场。

星宸科技

公司为全球领先的视频监控芯片企业，主营业务为视频监控芯片的研发及销售，产品主要应用于智能安防、视频对讲、智能车载等领域。公司在芯片设计全流程具有丰富经验，可支撑大型先进工艺下的SoC设计。公司自研全套AI技术，包含AI处理器指令集、AI处理器IP及其编译器、仿真器等全套AI处理器工具链。公司拥有大量核心IP资源，包含图像IP、视频IP、高速模拟IP和音频IP等。公司在视频监控领域持续研发创新，在图像信号处理、音视频编解码、显示处理等领域具有领先优势，并积极投入AI等新领域的芯片研发。公司拥有ISP技术、AI处理器技术、多模视频编码技术、高速高精度模拟电路技术、先进制程SoC芯片设计技术等多项核心技术，公司拥有已授权专利92项，其中境内发明专利11项，境外专利81项；在申请中专利154项，其中境内发明专利63项，境外专利91项。

全志科技

公司是领先的智能应用处理器SoC、高性能模拟器件和无线互联芯片设计厂商。公司目前的主营业务为系智能应用处理器SoC、高性能模拟器件和无线互联芯片的研发与设计。主要产品为智能应用处理器SoC、高性能模拟器件和无线互联芯片，产品广泛适用于智能硬件、平板电脑、智能家电、车联网、机器人、虚拟现实、网络机顶盒以及电源模拟器件、无线通信模组、智能物联网等多个产品领域。公司以客户为中心，凝聚卓越团队和坚持核心技术长期投入，在超高清视频编解码、高性能CPU/GPU/AI多核整合、先进工艺的高集成度、超低功耗、全栈集成平台等方面提供具有市场突出竞争力的系统解决方案和贴心服务。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】。

【本文地址】

GPU行业深度报告：AI产业化再加速，智能大时代已开启

GPU行业深度报告：AI产业化再加速，智能大时代已开启

今日新闻

推荐新闻