苹果全新M1 Ultra解密:“拼装”出来的全球最强芯片?

您所在的位置:网站首页 m1运行armwin10 苹果全新M1 Ultra解密:“拼装”出来的全球最强芯片?

苹果全新M1 Ultra解密:“拼装”出来的全球最强芯片?

2023-03-19 12:57| 来源: 网络整理| 查看: 265

2022年第一季度,苹果公司发布了 “M1Ultra”,是 Apple 芯片中又一款颠覆性的产品,再次震撼个人电脑业界。M1 Ultra采用了Apple创新性的UltraFusion封装架构,通过两枚 M1 Max 晶粒的内部互连,打造出一款性能与实力都达到空前水平的 SoC 芯片,可提供令人震撼的算力,同时依然保持着业内领先的能耗比水平。

这款全新的 SoC 芯片内部总共集成1,140 亿只晶体管,数量达到Mac 电脑芯片的历史之最。M1Ultra内可配置最高达128GB 的高带宽、低延迟的统一内存,在 20 核中央处理器、64 核图形处理器和 32 核神经网络引擎的调用下,实现惊人性能,助力开发者编译代码,艺术工作者渲染规模庞大的 3D 场景,而视频制作专业人士将视频转码为 ProRes 格式的速度,相比配置了 Afterburner 加速卡的 28 核 Mac Pro 最高可提升至 5.6 倍。

下面,让我们一起对这款颠覆性的产品一探究竟。

01 | 开创性UItraFusion架构

M1 Ultra 是对性能极强、能效极高的M1 Max 的进一步升级。它采用 Apple 定制的UltraFusion 封装架构,将两枚 M1 Max 芯片的晶粒直接连接在一起。提升性能最常用的做法,是通过主板来连接两枚芯片,但这通常伴随着许多弊端,包括延迟增加、带宽减少、功耗增加等。而 Apple 的创新性UltraFusion 架构是利用硅中介层来连接多枚芯片,可同时传输超过 10,000 个信号,从而实现高达2.5TB/s 低延迟处理器互联带宽,相比业内领先的高端多芯片,实现了4 倍多的互联带宽。这种架构能让M1 Ultra 在工作时依然表现出一枚芯片的整体性,也会被所有软件识别为一枚完整芯片,开发者无需重写代码就能直接运用它的强大性能。这在史上从无先例。

02 | 空前的性能与能效

M1 Ultra 采用了性能无比强劲的20 核中央处理器,由 16 个高性能核心和 4 个高能效核心组成。 使用它处理多线程任务的速度,相比市面上功耗范围相近的16 核台式个人电脑芯片中速度最快的型号还要高出 90% 之多。而M1 Ultra 在达到上述台式个人电脑芯片的峰值性能时,功耗却要低 100 瓦。如此惊人的能效意味着更低的能耗和更安静的风扇运行状态,哪怕是像 Logic Pro 这样的App在运行对性能要求极高的工作流时也不例外,比如在处理大量的虚拟乐器、音频插件、音效时。而在处理涉及大量图形的工作流时,例如3D 渲染和复杂的图像处理,M1 Ultra 则有一块相当于M1 芯片 8 倍规格的 64 核图形处理器,运行速度超越市面上最高端的个人电脑图形处理器的同时,功耗却要低 200 瓦。

M1 Ultra 内的 32 核神经网络引擎每秒运算次数最多可达 22 万亿次,能加速完成最复杂的机器学习任务。 不仅如此,由于内置的媒体处理引擎的能力也提升至 M1 Max 的两倍,M1Ultra 处理 ProRes 格式视频编解码任务的吞吐能力同样提升至史上最高。实际上,配备M1 Ultra 芯片的全新 Mac Studio 系统最高可同时播放多达18 条 8K ProRes 422 格式的视频流,没有任何一款其他Apple 芯片能够做到这一点。

03 | 软硬件整合无缝运行

软硬件的深度整合一直是 Mac 体验的核心组成。macOS Monterey 专为 Apple 芯片设计,能够充分利用 M1 Ultra 在中央处理器、图形处理器、内存带宽上的巨大升级。Metal 等开发者技术可帮助各类 App充分利用这款新芯片的强大性能,对 Core ML 的相关优化则可借助于全新的32 核神经网络引擎,以前所未有的高速运行机器学习模型。

用户现可在 Mac 上使用的App数量达到史上最高,包括如今也能在Mac 上运行的各类 iPhone App和 iPad App,以及能够充分发挥出 M1 系列芯片性能的通用 App。而目前尚未升级成为通用 App 的各类 App,则可借助于 Apple 的 Rosetta 2技术无缝运行。

图1 CPU和内存延时比较图2 M1 Max + M1 Max = M1 Ultra04 | 采用业界芯片封装新范例

苹果将这种封装架构称为UltraFusion,是业界 2.5D 芯片封装的最新范例。虽然从实施到实施的细节非常不同,但该技术的基础是相同的。在所有情况下,在两个芯片下面放置某种interposer,然后两个芯片之间的信号通过interposer进行传输。芯片的超精细制造能力意味着可以在两个芯片之间铺设大量的线路(在苹果的案例中,超过10000条)这使得两个芯片之间可以实现超宽、超高的带宽连接。

M1 Max 约为 19.05 x22.06 毫米或 420.2 mm²,因此即使芯片边缘接触芯片边缘。台积电CoWoS 型中介层的最小尺寸为 840 mm²,正好处于光罩限制。那是很多硅(即费用),所以现在我们有了英特尔的EMIB等桥接技术,这似乎更有可能。

苹果官方说,他们在这里使用的是silicon interposer——这项技术的通用术语。但是,从苹果的宣传视频和模拟动画来看,他们似乎在使用某种小型硅桥(siliconbridge)。这与英特尔的EMIB技术或ElevatedFanout Bridge(EFB)技术在实施上相似。这两种技术都已经在市场上使用了多年,所以苹果不是第一个使用该技术的厂商。但他们使用它的目的相当有趣。

通过UltraFusion,苹果能够在两个M1 Max芯片之间提供令人难以置信的2.5TB/s的带宽。即使我们假设这是一个总数(将两个方向加起来),这仍然意味着他们在每个方向有1.25TB/s的带宽。所有这些都接近于一些芯片使用的内部带宽,并超过了苹果800GB/s的DRAM总带宽。

图3 苹果自评性能对功耗曲线05 | GPU性能赶超英伟达

通过UltraFusion,苹果已经成为第一个将两个独立的GPU透明地结合起来的芯片供应商。虽然我们还要等待后续的效果,但苹果对他们的成就及其性能感到兴奋。特别是,苹果声称M1Ultra的GPU性能超过了英伟达的GeForce RTX3090,后者是目前市场上速度最快的显卡。此外,他们的能耗仅为100多W,比RTX 3090少200W。

图4 苹果 GPU性能功耗曲线(对比NVDIA GeForce RTX3090)

下图是苹果自己发布的和AMD Raden Pro W6900x (NAVI21,TSMC7nm工艺,Die Size 520 mm²)对比。NAVI21是AMD 最新版的性能最强的显卡。

图5 Ultra &AMD

在Die互连方面,下图是一种Die连接方式的猜想,总共消耗面积大约30mm²,对比总面积 30/420.2=7.14%,总的消耗还是比AMD的Raden好,AMD 大约浪费10%面积。

图6 Die互连部分放大图图7 外部猜想Chiplet Pad 照片

在产品结构方面,下图是某媒体给出的解剖 MacStudio产品散热结构, 由于两块芯片,功耗加倍、面积还大, 但改用铜散热,降温效果明显。

图8 第三方计算和游戏基准测试PK

此外,Apple 在其基准幻灯片中声称,M1 Ultra GPU 将提供与 NVIDIA 的旗舰 GeForce RTX 3090 显卡类似的性能,同时减少 200W 的功率。但这只是一种说法,因为The Verge在他们的 Mac Studio (Ultra) 评论中发布的真实基准显示了完全不同的画面。

游戏方面,使用《古墓丽影》在 1080p、1440p 和 2160p 分辨率下进行对比。NVIDIA GeForce RTX3090 Ti 在 4K 分辨率下表现出高达 32% 的性能提升,位居榜首。除此之外,评论者注意到所有三种分辨率都有明显的微卡顿,因此看起来对于游戏来说,NVIDIA 和 AMD 的 GeForce 和Radeon GPU 仍将是首选。

计算方面,Mac Studio 专为内容创作者和工作站使用而设计,因此,AppleM1 Ultra GPU 在这些特定基准测试中应该相当不错。在Geekbench 5 OpenCL 基准测试中,NVIDIA GeForce RTX 3090 得分为215,034 分,而 Apple M1 Ultra SOC 仅获得83,121 分。这对于台式 PC 上的 GeForce 显卡来说是 2.6 倍。即使我们使用 Apple 优化的 API(例如 Metal),RTX3090 的速度仍然快 2.1 倍。

06 | Chiplet技术创新大势所趋

笔者认为,这里有一件值得注意的有趣的事情,虽然 M1Ultra 基本上是 M1 Max 配置的两倍,但在测试中的计算和游戏基准测试中,性能却并不能很好地扩展翻倍。实际上,M1Ultra 的性能比 Max 芯片高出约 25-30%。看来,Chiplet SoC的架构设计才是关键——没有好的架构设计,仅靠芯片互连技术连接在一起的“拼装”,是无法达到1+1=2的效果的。为此,多Graphic Core互联并行计算,也就是“Chiplet模式”才是最终的解决之道。但这还需要不断优化,尤其在任务划分、数据存储、数据同步等方面更多地紧密配合,以及芯片软硬件研发者与合作厂家的共同努力。

在性价比方面,比较而言,官方基准测试是在有利于 M1Ultra GPU 而不是实际应用程序的特定工作负载下执行的。相比之下,GeForce RTX 3090 目前的售价约为 2000 美元(包含CPU),而配备完整64 核配置和 128 GB 内存的 Mac Studio售价为 5800 美元。如果你想用Mac Studio玩游戏,性价比方面略低;如果用来办公,那就再好不过了,它轻巧美观,如果再配上苹果大显示器就是商务和图形视频编辑工作者的首选。

纵观当前的发展趋势,Chiplet技术在CPU方面已有AMD 为我们找到一条行之有效之路,但在GPU上还需要国内外科技企业继续探索,期望有先锋者可以在业界闯出一条新路,能够真正将二十多年的GPU和CPU现有工作模式进行大胆创新。因为笔者相信,在现有的多xPU异构计算系统发展中,我们将会看到越来越多的技术模式创新,它们可以长期支持不同产品、各类业务应用场景,特别是自动驾驶、智能穿戴甚至元宇宙领域等,想必这也是人们迫切需要的。总之,未来已来,就让我们一起拭目以待!

(资料引用说明:部分测评信息摘自苹果官网;部分测评图片摘自边缘、techinsights)

*特别声明:本篇文章为特约作者授权本账号发表,公众号或其他自媒体转载,请发送消息至本号后台,注明【转载】,谢谢。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3