知丘

您所在的位置:网站首页 p100显卡什么级别 知丘

知丘

2023-04-22 15:13| 来源: 网络整理| 查看: 265

本次【热门研选】我们邀请业内资深专家, 探讨GPU行业发展,了解训练和推理GPU的差异,全球市场价格和 需 求情况。

核心结论

1. 训练卡和推理卡产品在精度、功耗、显存、接口都会有显区别。整体来说,训练卡一定可以做推理,但成本不划算;推理卡也可以做小模型的训练,但速度慢。

2. 未来生态上,各互联网大厂有充分动力自研推理卡,这一块壁垒不如训练卡高,谷歌、亚马逊基本在用自己的推理卡,国内推理芯片领域中,阿里研发进度靠前。

3. 训练卡生态壁垒较高,大量算法不断出现的情况下,仍需一个通用性计算平台,目前只有英伟达的GPU通用性最好,结合其CUDA的软件积累,优势会持续保持。目前也出现了一些训练卡去挑战英伟达,但替代难度较大。

4. 本轮AI发展会首先带动硬件基础设施的需求,海外互联网大厂会加大硬件、芯片、算法等领域的投资和研发。国内还会叠加国产化趋势的逻辑,头部芯片公司会首先受益,包括寒武纪等。

Q&A(部分)

Q: 首先想请教一下关于 GPU分层训练和推理,这两者之间差异是什么?似乎出了ChatGPT这种大模型后,大家训练推理都用A100。而之前,除了A100,似乎还有 T4 这种专门用来推理而不训练的,那么能不能先简单介绍一下这两者的区别?

训练是为了构建模型,产生模型相应的参数,通过数据来驱动。

从计算的角度来讲,训练分两个阶段,一个是前向的计算,一个是反向的计算。

而推理只需要做前向的计算,也就是模型训练好了,参数都固定了。当执行推理的时候,只需要去把你的输入、结合训练出来的模型和带有参数的模型,做一次前向的计算,就能推导出结果。

简单讲,训练和推理的任务特点是不一样的,这个特点不一样,就会导致卡的定义会不一样。

以英伟达的训练大卡产品为例,从 P100到V100,再到A100,再到H100,也就四代。

其实在早期的时候,训练和推理的界限还是比较模糊的,因为 P100 的时候还没有T4,两者是隔代的,T4 和V100可以认为同一时期的。

而这两类卡的差别,刚才也提到,由于任务不同,会有很显著的区别。

这个区别主要体现在板卡的一些关键性的stack,比如数据精度,功耗,显存等,显存又包括类型,容量,还有显存的带宽,以及板卡的接口,甚至跨卡跨机器的互联的接口。这些在训练卡上和推理卡上有不同的定义。

分别看这些区别:

首先数据精度,从现在的深度学习的算法的需求上看,目前要设计一个算法,还是以浮点精度为主。浮点精度以 FP32以及FP16和 FP32的混合精度为主。当然,最近两年又出现了TF32。

但总体来讲,目前主要是以三种精度来进行训练:FP32、FIP16 和 FP32 的混合精度,以及TF32。

用浮点精度来训练的原因在于:它有更大的数据表达范围,在训练的过程中,数值的范围可能会非常大,所以对于模型的精度的收敛或者训练的曲线的收敛是至关重要的。所以训练卡肯定会包含浮点的各种精度。

对于推理任务来讲,并不一定要浮点的精度, 甚至在一些成熟的比如机器视觉类的模型上、 NLP类的模型上,可以尝试把浮点的数据或者参数,通过量化的技术,映射到一个映射bar定点的空间。

这个转换是有精度损失的,但是在大量的模型的实际的工程过程中,其实可以达到很小的精度损失,甚至某些情况下,定点的精度可能比浮点的模型的精度还可能略微增加。

换句话讲,很多推理任务都可以尝试用定点计算。当然定点计算还有一些其他的优势,比如能耗上,定点所需要的计算量远远小于浮点的,消耗的能量也更小。

而且,早期英伟达为了推理,衍生出了Tensor core,现在已经演进了很多代,但是从第一代开始,设计的初衷就在于,在可控精度损失的情况下,可以实现浮点到定点转换。英伟达尝试在芯片设计上增加了Tensor core,以前都是 CUDA call。

Tensor core的计算效能要远远高于CUDA call,表现在能耗还是计算的速度等指标上更好,对 IO读写的要求也是成倍数的缩小

另外,小的数据类型,其占用的内存的空间也小。对比FP32和INT8,H32 是4字节的,占了4 byte, INT8 只要1 byte,内存的占用只要 1/ 4,相应的,读一个 FP32的数据和读一个 INT8 的数据,IO的量也减少了 1/ 4。而且读和访存通常是成对出现的,有读有写,这又有一个 2倍的放大计算。

计算方面,定点计算可以用更少的计算资源,特别是芯片的面积和成本挂钩的情况下,如果只保留定点计算,理论上芯片的大小,或者说是使用的wafer的面积小,成本也有很大的优势。

以上这些指标等都还是针对单卡的,而现在的模型,比如NLP、GM 模型,或者是一个推荐模型等,这些模型通常都很大,比纯视觉类的推理模型要大很多,就意味着在训练模型的时候,单卡是很难完成训练任务的,甚至模型的参数都放不下。

所以,通常是需要一个很大的集群去完成任务的。网上也有很多信息在推测ChatGPT究竟用多少张卡。比较可信的一种说法是,可能已经用了上万张卡做训练。而上万张卡要协同去完成一个很大的训练任务,必然涉及到卡与卡之间数据的交互、通信以及跨机器通讯。

通常一台机器,一台服务器可能只能插8 张A100,而1万张卡,需要的是一个很大的服务器集群,跨机器的通讯也会衍生出对卡的一些接口的定义的要求。

但是到推理的时候往往不需要这么大的模型。

现在有一些极端的做法,可能会把一个 ChatGPT的推理就放在一台机器,单机8卡的规模,甚至可能再结合一些压缩技术,甚至有可能实现单卡完成一个ChatGPT的推理。

大模型的产生,对训练卡和推理卡又衍生出通讯方面的不同要求。通讯的要求,一个是接口,一个更大的带宽保证更多数据交互。但对推理卡来说,只需要限制于单机8卡,甚至单机单卡都不需要跨卡机通讯,那么在纯粹的推理卡上,有可能会阉割掉一些相关的定义。

对于英伟达来说,跨机跨卡主要是NV link 接口,以及跨机器要通过IB,或通过网卡结合 rdma等,去完成跨机器的通讯。NV link 以及 NV switch 已经到第四代了。IB技术是来自于 英伟达收购的Mellanox,技术基本一家独大。

显存方面,训练卡的计算分前向和反向。不论是前向还是反向,都需要使用一部分显存来保留前向或者后向的中间结果。所以,训练既要做前项又要做反向,同时要驻留一部分数据,故通常训练卡的显存要大, IO也比推理要多,带宽也会定义得更高一些。

早期,HBM出现之前,英伟达早期的显存主要是GDDR. GDDR卡已经延续到第6代,后来出现HBM,也已经发展到第3代。顶尖的训练卡都是配合HBM的,显存的类型也发生了相应的变化。

而推理卡的要求就没有那么苛刻了,有些数据中心是有一些高端的纯粹的推理卡,比如A30、A40配的都是HBM,而A10配就是GDDR。消费类基本用的都是GDDR。两者价格有显著的区别。

功耗方面,主要跟计算类型有关系。

训练通常要浮点计算,浮点计算的消耗的能量要大于定点计算。所以,对于训练卡,需要有足够的供电或者更高的功耗设计,比如现在的H100,比 A100 还先进了一代,功耗已经达到了单卡700瓦。

但是推理主要靠定点计算,能耗要求很低,比如T4 这种很经典的推理卡,单卡功耗只有70 瓦,有些高端的或者新一代的 A12,达到了150 瓦,但一般不会超过 200 瓦。

为了提供足够的功耗,相应的一些接口设计也不一样,比如最顶尖的无论是 A100 还是H100,都有一个 SXM 的接口,提供更高的这个功耗,带宽也会宽一些。而普通一点的推理卡或低端一点训练卡走 P3E 就 OK 了。

所以,总结起来,两种计算任务不同,导致了对卡的定义会有不同。

Q:但ChatGPT, 无论是训练还是推理,用的好像都是英伟达A100的卡(训练芯片),这是为什么?

因为模型刚刚出来,可能在推理端的一些极致优化还没有那么到位,所以是可以用A100的,而且A100在设计上已经兼顾了训练和推理。

当然为了推理设计,它要结合MIG技术,即对单卡进行切割,做推理任务的时候,可以把一张卡最多做 7个实例,相当于1张卡顶 7 张卡,分别去部署 7个并行的推理任务,实现单卡通过 MEG 达到高效推理的部署。

这样的好处在于集群设计会比较简单。比如,晚上用大量时间做训练,而白天则可以用MIG切割做推理,通过动态分时高效利用卡资源。

当然,不排除之后会在推理方面继续做极致的优化,因为可能还有一些小厂商买不起A100,且只做推理,那么有可能把模型进行压缩优化,尝试放在一些相对小一点的推理卡上。

Q:有没有一个直观点的价格比较,比如同样的算力下,和A100训练卡对应的推理卡的价格是怎样的?

A100 价格可以在公开资料上看到,价格是可信的,大概在1万到1.5万美金之间,甚至会达到2万,根据量的不同价格会有不同。另外,不同客户可能拿的价格不一样。

A30这样推理芯片的价格,单卡可能就是A100三分之一左右。消费类的卡就更有性价比,比如 4090 可能差不多2000美金。像3090,上一代的极具性价比的消费类卡,也有大量的人在用。

Q:如果执行同样的推理任务,用 A30 去搭,跟用 A100 去搭,成本上差多少?

其实数据中心类的卡去比,性价比并不会有很大的差别。你要达到一个很讲究推理极度的性价比,可能有些小一点的客户,会尝试用 RTX 的卡或者 A6000 这种专业类的显卡,而不是用面向数据中心的那种卡去降本。

如果非要对比A100和A30,两张卡的算力相差三分之一,价格相差也在这个区间内。

英伟达的定价不会让你占太多便宜的,肯定是 A100 稍微贵一点,但3张A30的价格比 A100 也便宜不了多少。

Q:国内一些互联网厂商,比如腾讯,其大量使用 A10,A100实际使用的并不多。那么,不同的客户会去如何选择他们的算力卡呢?

如果从推理任务来讲,A10应该是有更有性价比的,因为 A10的定位就是偏推理的。

对于腾讯的互联网大厂,不可能用 A10 去做训练,因为A10的内存容量小,它的训练效率很低,只可能做推理,而且会把模型压缩到单卡或者单机内的多卡完成推理。

Q:能不能评估全球市场整体需求,因为英伟达基本上一家独占,那么比如A100,A30,等一些大的品类上的价跟量的情况?

英伟达的卡特别多,很难具体算出A100、A30 具体的有多少张。

可以用ChatGPT去大致估算一下:Microsoft大概部署了1万多张;刚才提到ChatGPT的规模可能已经达到2万张A100;,再加上4-5家头部互联网厂商的跟进,乘个4达到8万张。可见,光ChatGPT可能就催生出这个增量了。当然,这里面的A100可能还包括一些存量的卡,综合下来,估计10万张以内差不多。

这个是只算了训练的,没有包括推理。

Q:按理说,需求起来后,推理卡的需求应该会更大,但为什么统计出来的结果是训练卡的规模更大?

是的,现阶段可能还是A100在分时复用,或者做了一些切割,部分做训练,部分做推理。

Q:国内市场大概的情况能介绍一下吗?

国内类似的模型应该还在摸索阶段。

从业务类型来讲,ChatGPT出现之前,消耗 GPU 卡比较多的业务应该是推荐系统。一个大厂估计能购买小几万张V100的卡,小一点的互联网厂也会采购大几千张。

现在,A100买不到了,A800作为替代,但刚开始供货不久,还没达到采购和部署的峰值。所以目前还是在用存量V100,再增加A30、A40的卡顶替一下。

Q:国内这些厂商,用V100 是用来做训练还是用来做推理?

V100 主要是训练。

Q:如果是这样,说明训练的量也很大,比如字节推荐算法买的很多,每年训练算法都会有小几万张卡的需求。

它的推荐系统其实不仅仅做训练,有可能连推理都部署在上面了。可能训练跟推理用的都是V100。

Q:所以对于英伟达来说,它未必很在乎训练和推理的区别。只不过是厂商如果想要专门布置一套推理或训练的系统,会自己去选择最合适的?

对。英伟达不用推荐,厂商会自己根据性价比去选择。

Q:所以,把GPU划分成训练和推理并非是很严谨的?

训练卡一定能做推理,但运营成本上未必划算。

技术角度上,英伟达的一些推理卡也可以做训练,比如训练个小模型,单卡就能放得下,是肯定可以跑的。大模型也可以通过PCIE通讯做分布式训练,但是训练的速度会变慢,迭代模型毕竟也有时间上的要求。

Q: 这波模型爆发给业内的大厂带来哪些影响?

我理解,这波ChatGPT出来之前,国内外大厂很多是从宏观的大环境下去考量的,但这波ChatGPT的出现让很多人感到意外。

但这一波ChatGPT确实让互联网大厂有很强的危机感。微软已经把ChatGPT等功能都集成在自己的各个软件上面了。这会改变最终消费者的使用习惯,如果微软的Bing让消费者体验非常好,那么其他搜索引擎必须要投入,包括硬件、算法,不然就是被淘汰,这是生死之战。未来竞争可能比较残酷。

Q:各家互联网大厂都在自研芯片,这会对整个AI产生怎样的影响?

现在英伟达几乎是一家独大,掌握了主动权、定价权、供应等。

大厂自研,其实还是为了降低成本。

英伟达的产品一定是优先考虑通用性的,因为它要面向各类AI客户,所以在一些特殊场景下,英伟达的软硬件方案未必是最优的。

大厂从优化的角度考虑,也有动力去做一些定制化芯片,比如谷歌的TPU,虽然没有外售,但据一些公开数据显示,其有一些指标可能优于英伟达的GPU,但其通用性肯定不如英伟达的产品。所以,在谷歌自己的特定业务上,基于对自身软件业务的了解,可以充分把软件的特点考虑到硬件设计上,达到一个很好性价比。

另外,大厂的业务量都很大,对卡的数量要求也高。而芯片在下单的时候,往往是量越大,价格就越优惠,从这个意义上讲,大厂把自己芯片的量做上去也提升了芯片下单时的议价权。

最后是研发的节奏,自研芯片的话,大厂也不用受制于英伟达芯片的研发进度了。

Q:由于模型在不断地训练迭代,芯片,比如谷歌的TPU,能够满足模型的持续迭代吗?还是它只适合于某一类模型?

模型还是比较特定的,主要是跟着较大的应用业务走的。

现在的 AI 的算法还是以矩阵乘加为主。无论是传统的 CNN 还是Transformer,都要运用大量的矩阵乘加,当然中间会穿插着一些别的 IO 的或者激活的非矩阵运算。

理论上,大量的专用芯片首先肯定要把矩阵乘加做得非常高效。另外,这种非矩阵的一些算法,算子非常多,但是不需要全部支持,可能只需要支持其所需要的业务的模型的函数,或者非矩阵的一些算子。所以,其通用性肯定是要差一些。

当然并不是芯片真的不能跑那些模型,因为有些 ASIC里面会集成一些CPU,从计算的角度来讲, CPU 是最通用的,只是计算效率低而已。如果把这些 CPU 的资源用上,那么理论上通用性也不存在什么问题,但是整个网络跑下来,跑模型未必高效。

对于谷歌来讲,可能它的芯片可能还是围绕着它的搜索引擎等业务,针对自然语言设计,衍生出 NLP 语音等服务。但是,它可能对 CV 类的要求没有那么强,那么CV 类的效率可能就不高了。

现在有些小算力的AI芯片,比如SOC做安防摄像头,只会跑一些小的视觉模型,可能也就经典的5-10个模型,芯片就围绕这些模型做大量的定制化裁剪,它的运营效率可能比 GPU 高很多。

Q:未来有没有可能一个大模型一统江湖?一个强大的人工智能模型搞定所有问题?

理想的状态下有可能。

因为所有的东西本质上都是数据,无论是视觉类的数据,还是 NLP 的数据,其实都可以通过结构化统一起来,再加上大量足够大的模型,容纳足够大的参数,做到端的效果。ChatGPT是通过文字对,实际上还可以拓展成多模态, 比如文字到图片,图片到文字,文字到语音等。当然,现在的阶段可能还是分阶段实现,但理论上,模型是可以实现端到端的转换的。

但还需要一些时间。另外一些场景并不一定要大模型,虽然用大模型能解决问题,但是如果考虑功耗、面积、价格等因素,就有点杀鸡用牛刀的感觉了。

Q:假设未来有一个大模型可以解决70-80%的任务,那么这种大模型会不会各家都自己做?比如,谷歌自己有TPU,干脆就不用英伟达的通用型GPU了?

现在训练的模型还在演绎,在ChatGPT、自动驾驶等场景,大量的算法还在不断出现,还需要一个通用性的计算平台。那么现在最通用的只有英伟达的GPU了。

但是在一些垂直行业和场景中,只要有足够的量,那么相应的互联网厂商就有动力去做推理的定制化的推理芯片。

其实很多大厂已经在做了。很多互联网头部厂家已经在针对自己最大的、算法比较固定的业务,做相应的推理端的布局。

Q:所以,未来,英伟达在训练端还是会有一个很高的市占率,但在推理端可能会被互联网大厂的这种自研的芯片给替代掉?

对,推理端现在已经有大量的替代了。亚马逊和谷歌,推理是基本上用自己的。国内的阿里也在研发更新的推理芯片。

即使是训练端,英伟达也面临一些挑战,也出现了一些训练卡,但英伟达自己的CUDA生态提高了护城河,所以训练的替代相对推理来说会更加漫长,难度也更高。

Q:CUDA对英伟达的重要性会提高还是下降?

会越来越重要,超过硬件。

硬件受制于摩尔定律、制程等因素,曲线已经越来越平缓。

英伟达要维护自己产品的竞争力,一定是加大软件投入,它也是这么定义自己的。

对于训练和推理,训练的软件部分也更重要。因为推理则可以解耦,其他家可以自己做充分的优化,做类似Tensor RT的优化。

Q:为什么各家要在推理端做类似Tensor RT的推理优化引擎?

构建训练的时候,各家都会用的英伟达的GPU,英伟达自己也在贡献不同的算子算法。但英伟达在写这些算子算法的时候,并没有考虑很高效地去使用硬件,只需要让整个算法的逻辑通过这些算子的叠加能够运行起来就行,训练的极致要求没有那么高。

到推理阶段的时候,如果英伟达用自己的卡,就会用Tensor RT,用一些优化手段,比如算子融合,再到底层用编译器转化成一些高效的硬件指令。而其他厂家不可能在推理的极致优化上和Tensor RT去做兼容,最多是在非硬件部分,比如接口做API,在定义的时候可能会类似,但是,不同的ASIC,底层指令集不一样,相应编辑器也不同,优化的方式也不同,所以只能自己做,才能实现在自己的卡上实现极致的推理性能。

Q:国内也有人提兼容CUDA?

训练层面,有TensorFlow, Pytorch等,这些框架都是按照英伟达的GPU写的,其AI及底层算子都是CUDA的算子,算法工程师也是按照这个写的模型和训练的任务。其他家要接入进来,在接口上是一样的,只要把后端自己不同的东西封装成一个跟Cuda一样的API,就很容易接进去。当算法功能做训练的时候就不需要改代码了。对于后来者很容易打开市场,因为迁移成本降低了。这种层面的兼容CUDA,也就是做到接口层。

到真正的算子级别,为了写出高效的算子,一定是跟自己的硬件有关的,必须自己做。因为各家都没有英伟达的优势,英伟达在 CUDA 编程生态上也做了很多年的积累,有大量的开放的代码,编程模式也相对更容易。

很多人都会写英伟达CUDA算子,而其他厂商,在早期的时候,所有的算子都得靠自己去写。而且就算能写,还有后续的问题:因为算法变化很多,比如Pytorch现在有 2000 多个算子,某一个厂商要追平2000个算子是要花很多人力的,而且算法还不断地增加新算子,那需要不断地跟着英伟达的节奏去追算子和版本。

Q:未来推理端是不是一个很分散的格局?

厂商在打造某一类模型,比如视觉模型的时候,会围绕着一些比较成熟、流行的算法模型,把推理模型快速通过自己的推理优化引擎去实现,只需要构建一个工具,把浮点模型解析、优化,这个路径相对比较容易实现,因为可以限定模型的范围。

但是训练就不一样了,没有哪个客户说我买一张GPU只是为了训练一个CV类的机器,而不去考虑 NLP。

Q:HBM会是未来的一个趋势吗?

对于训练任务来讲,HBM必然是。甚至有些高端的就直接用HBM 了,因为它带宽确实有很大的优势,当然,成本也很高。

其实从现在的模型总体来看,影响的因素不在于计算,而在于IO。很多模型的性能其实是卡在 IO 上了。即使是英伟达的GPU,算力提升那么快,但它的带宽的提升是缓慢的,这是芯片的底层技术的限制。

所以,一些比如AI DSA芯片,就没有采用英伟达的存内计算或进存计算架构,而是尽可能让数据驻留在和计算最近的内存上。

内存又分很多层级、很多种,比如从系统级来讲,以一个服务器为例,首先有一个和CPU 相连接的一个DDR,服务器会配一个32G或64G,甚至更大的100多G的 DDR。这个DDR 是受CPU控制的,即最初的数据要通过 CPU的DDR 放,然后通过 PCI 接口或者别的接口把 DDR 数据再搬运到 GPU里面的device的DDR。对于 GPU 来讲,就是 GDDR 或者 HDM。

目前,一个单卡的容量也就是80G,英伟达最大的H100和A100做的显存最大容量就是80GB, 这是设备上最大的一级内存。

再往内部收,CPU内部有共享内存,它的访存速度比 GPU 的显卡要快几十倍,差不多十倍的数量级,甚至一百倍的数量级。但其劣势是容量很小,而且从芯片设计的角度来讲,成本也比 GDDR 要高很多倍。这是 GPU 的一个架构。

当然现在有些芯片,就有大量的SRAM,可能远远大于 GPU 的,其优势就在于可以尽可能把计算驻留在卡上,减少卡内卡外的读写,实现较好的性能。

总体来讲,相对于纯粹的算力,IO才是需要解决的问题。

Q:所以,美国对中国禁掉A100,只能用 A800 来代替,对国内的影响还是挺大的吧?

A100其实只卡了一个NV Link。单卡其实区别不大,也就是说,跑一个单卡的任务,A100和A800没有区别。

但如果一个任务通过数据并行或者模型过程分布到多卡甚至集群上,那A800的性能必然不如A100。因为IO 有卡内的IO,也有卡间的IO,美国卡的是卡间的IO,所以对集群计算、大模型的影响还是很大的。

Q:A800跟A100价格差多少?

价格似乎差不多。英伟达没必要把A800卖得更便宜。

Q:如果A100和A800同样训练一个大模型,差别有多大?

这个很难估。如果是单机8卡的话,单机内A800可能得打个八折,具体得看模型。但是跨集群的场景下,差别是否会放大就不太清楚了。

Q:这种差别可以通过比如超频的方式去抹平吗?

首先,超频不太可能,因为所有的固件都是英伟达提供的,你没办法改、没能力去改固件。其它能做的就是软件技术了。软件技术无非就是模型的稀疏化,这些技术是各家可以自己独立做的。

Q: 现在各家互联网大厂都在做推理卡,哪家走 得 比较靠前? 有没有第三方厂商出来帮大厂做定制化开发?

国内阿里应该会好一些,毕竟寒光也推迟了好几年了,也有平头哥专门的硬件团队在积累经验。现在还在搞X5,投入的决心很大。

其实国内的这些大的云端厂商在算力规则上已经越来越接近英伟达了, 追赶是非常快的。

难度主要还是软件的生态,至少有3-5年差距。而且如果没有很好的生态伙伴,差距可能会进一步拉大,因为光靠自己写算子做模型优化,人力总是有限的,财力也没有英伟达那么大。

Q:国内有哪些可以在AI受益的领域?

要长期看了。国内这些头部的芯片公司肯定是受益的。但是要根本性的解决的还是生产的问题,即是否能稳定的生产。

Q:寒武纪未来有可能在国内市场抢到一些英瑞达的市场份额吗?

只要生产解决了,是有可能的,因为国产化是一个不可逆的场景。国内从安全角度肯定会推国产化,另外,一些买不到英伟达GPU的公司,也必须要找一个对可用的替代产品。

Q:从 CNN 到Transformer, AI 整个底层的模型也在不断的变,这是怎么影响GPU或者算力芯片行业的?

首先,英伟达自己会做大量的算法研究,经常发布研究成果,影响某些特定应用场景算法的发展。另外,一些独立研究机构也会做类似研究,发布成果去影响行业生态。

相对来说,主流的AI 框架和 CUDA 有一定的绑定,但不完全绑定。另外,Pytorch2. 0出来以后,你能明显地感到 Pytorch 并不想只绑定英伟达的GPU,而是会引入一些非英伟达的GPU,比如也支持了英特尔和AMD的。理论上,从架构角度讲也可以支持其他的DSA芯片,甚至国内的也可以接入Pytorch。如果Trition继续发展,形成一个和 CUDA 平等的一个编程的语言,那么大家在算子接入的兼容性上,就可以更容易地接入Pytorch 的框架。

这对于芯片厂商而言是非常有帮助的。而且,Pytorch还可以把一些碎片化的算子通过重新定义降低数量级,从 2000 降到200,那么算子的负担对于非英伟达生态的后来者来说,也大大被减轻了。当然,这是理想的一个状态,如果实现了,可以让AI更加多样化,甚至有可能颠覆掉CUDA生态。

您可能还想看:

【 买方研选】 AI大语言模型 线下专家沙龙 # HOT

【 买方研选】 AI芯片+ChatGPT线下沙龙 # HOT

【 买方研选】AI芯片专家线下沙龙纪要 # HOT

【买方研选】RISC-V架构发展情况调研 # HOT

【买方研选】ChatGPT线下调研访谈纪要 # HOT

【买方研选】 汽车经销商调研访谈纪要 #NEW

【买方研选】月子中心 专家访谈纪要 #NEW

【买方研选】技术进步提升VR设备体验,硬件销售将放量在即

【买方研选】钙钛矿沙龙专家纪要

【买方研选】多年积累产品力对标海外巨头,泰晶国产替代将持续

▼   买方研选 ▼ 更多来自买方的投资干货,尽在【买方研选】平台。您还可以通过我们发起调研需求。欢迎扫描下方二维码提交您的注册意向,我们会对您进行机构投资者身份审核后在第一时间联系您哦~ 👇

免责声明 [买方研选系列]是机构投资者分享调研结果或者原创观点的平台。 文中转发、摘编的其他专业人士或机构撰写的研究观点及数据仅代表其本人/该机构的分析判断,不代表本机构观点,对其中的信息及观点不做任何形式的确认或保证。本机构不对任何人依据或使用本机构平台所载资料的行为或由此而引致的任何后果承担任何责任。 本机构平台文章所载意见、评估及预测仅为该资料出具日的观点和判断,不保证有关观点或分析判断在未来不发生变更。 本机构平台所载信息、意见不构成买卖任何证券、基金及其他金融工具的投资决策建议或推荐,且在任何时候均不构成对任何人具有针对性的、指导具体投资的操作意见,读者应当对本机构平台文章中的信息和意见进行评估,全面认识金融市场和金融产品的风险收益特征,根据自身情况自主做出决策并自行承担风险。市场有风险,投资需谨慎。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3