英特尔Xe

您所在的位置:网站首页 英特尔核显编码怎么看 英特尔Xe

英特尔Xe

#英特尔Xe| 来源: 网络整理| 查看: 265

随着11代酷睿Tiger Lake真是发布,名为Xe-LP的核显距离我们越来越近。早已传遍大江南北的奥德赛计划终于变成消费级产品,率先进入到笔记本和小型化PC中。事实上,已经明确重返GPU领域的英特尔正在一路猛进,试图成为NVIDIA、AMD之后第三家主打性能GPU的厂商。

而与NVIDIA、AMD所不同,英特尔是极少数能够从设计研发到制造全部包揽的IDM厂商,他们的产品从数据中心、HPC再到笔记本均有覆盖,所有产品将支撑英特尔可以更快速的打开GPU市场。而事实上Xe-LP架构仅仅是Xe架构的一个分支,它与Xe-HP、Xe-HPC一起横跨集成、独显、发烧显卡、数据中心、高性能计算集群,乃至超级计算机。

打从一开始,Xe的起点就很高。

有意思的是,在后来三个架构的基础上,英特尔又追加了Xe-HPG架构,仅针对游戏产品,并计划在2021年发货,并且脱离IDM体系,完成设计后交给第三方制造。没有错,英特尔也开始垂延诸如PlayStation、Xbox以及Switch市场,AMD和NVIDIA近几年在商业上做出了许多成功的范例。

一篇文章说完整个Xe体系不太可能,今天我们趁热打铁,只说说与11代酷睿相关的Tiger Lake,它有哪些特点?可以实现什么样的性能?从现有架构中能否窥探出未来独显DG1的定位?

独显与核显并行

早在一个月前的架构日上,英特尔已经明确表示Tiger Lake不会是Xe-LP出现的唯一场所,独显DG1同样基于Xe-LP打造。但DG1并非针对台式PC设计,它是一块独立的芯片,与笔记本CPU或者其他移动设备CPU进行配对,这也是英特尔20多年来首款真正意义上的独显,并且仍然基于10nm SuperFin工艺打造。

是的,发烧友们畅想用英特尔最高规格的工艺挑战N/A两家(最好是同面积)的梦想,现在已经实现了一半,另外一半就看英特尔放下牙膏,来把大的。

DG1计划今年开始量产,人们最有希望现在高性能Tiger Lake笔记比恩中看到这款产品。同时4个DG1 GPU将会合成1个SG1专业显卡,专门处理视频编码市场,以此替代早前的Xeon Visual Compute Accelerator系列,由此可见DG1的可塑性很高。

虽然在独显领域属于后起之秀, Xe-LP起手支持DirectX FL 12_1 API,支持比率可变着色,也就是能够实现基本的VRS技术。但遗憾的是,目前AMD和NVIDIA已经开始直接进入12_2级别,也就是被大为宣传的DirectX 12 Ultimate,包括光线追踪Varable Rate Shading 2.0、网格着色器Mesh Shader、采样器反馈Sampler Feedback。对于最新的显示技术,英特尔仍然站在门口,还缺临门一脚。

更多执行单元

事实上Xe-LP并非专注高性能的产品,它更多的发挥体现在GPU的架构细节上,诸如DG1到SG1独显的模块化升级,Xe-LP更多考虑了延展性的问题。

可以这么理解,Xe-LP架构本身就是一个通用模块,它像乐高一样,不断堆叠之后还能实现更丰富的效果和更高的性能。而即便是Tiger Lake核显本身,Xe-LP也是由多个通用架构组成,例如几何图形单元、栅格单元、线程分配器、EU、纹理单元、ROP等等。

借助Xe-LP的延展性,英特尔几乎将所有单元扩充了50%,这意味着Xe-LP比原本的Gen 11增加了50%执行单元,包括增加50%的EU,50%的纹理单元以及50%的ROP。

与此同时,Xe-LP也升级了几何前端,与早期英特尔GPU所以不一样的地方在于,原本1个时钟内只能实现1个背面删除,而在Xe-LP上提升到了2个,这使得GPU峰值性能提升了1倍。

除了性能提升,Xe-LP结构设计也意味着更大的改变。我们知道,从一个时钟周期内输出多个三角形数量必定意味着结构变得更为复杂,因为单个频率2次以上的三角形输出本质上是将穿行变成并行的过程。由于几何引擎已经成为Slice的一部分,意味着更大的Xe-LP设计可以进一步扩展几何前端。而在Gen9 GT4e之前,几何引擎是被设置在Slice外边。

接下来是时钟频率。与英特尔的Willow Cove CPU一样,英特尔希望通过10nm SuperFin工艺提升效能和时钟频率,因此Gen11除了提升50%的执行单元,另外一个杀手锏便是更高的频率。例如英特尔Ice Lake最高频率为1.1GHz,DG1能够达到1.6GHz或者更高就不稀奇了。

SubSlice重构

从Haswell时代的Gen7.5开始,英特尔在EU上一层引入了SubSlice概念,这样的设计类似于NVIDIA的SM,在GPU中构建较小的模块,用来专注各种各样形式的计算、着色、纹理化操作。

Gen11中拥有8个SubSlice,每一个SubSlice包含8个EU,在Xe-LP架构下可以扩大每一个SubSlice的数量,并减少Xe Slice的数量,可见架构的灵活性。

Xe-LP完全体拥有6个SubSlice,如上一章所说每个SubSlice单元数量实际上都有所翻翻,其中EU数量增加了一倍,达到16个,子纹理采样器吞吐量已经从4像素/时钟,提升到了8像素/时钟。每个SubSlice还获得一个L1数据/纹理缓存,容量为64KB,可以在L2数据和纹理存储之间动态分配。

从结果上看,英特尔核显扩展形式已经完全不同,Ice Lake可以提供64个EU和8个SubSlice,或者48个EU和6个SubSlice、32个EU和4个SubSlice。而在Xe-LP中,96个EU只分配到了6个SubSlice中,如果推测得当,低一档配置的64EU性能下降可能会更为明显。

Xe-LP EU长啥样?

现在我们来聊聊EU。作为Xe-LP GPU架构中最小的线程级构建块,英特尔已经针对其进行了数次调整,包括此次的Xe-LP。

从Gen11开始,EU由一个线程控制单元和两组4-wide SIMD单元组成,其中一组负责浮点运算或者整数运算,另外一组负责浮点运算或者特殊函数运算。EU则不再是一个独立的控制区域,两个EU共享一个线程控制单元。

而到了Xe-LP,SIMD单元进行了重组,本质上8-wide SIMD单元相当于两个捆绑起来的的4-wide SIMD,用来执行2倍的INT16、INT32整数运算,亦或者浮点运算能力。至于特殊函数运算则交给旁边新增的2 wide SIMD,也就是ALU单元进行。这意味着在执行特殊函数运算的时候,整数运算或者浮点运算都不会被打断。

按照英特尔的说法,这样的设计更适合目前英特尔在实际应用中所要解决的工作负载。从整体上看,Xe-LP在整体上进一步简化了线程调度的流程,原本的硬件计分板机制变成了软件计分板,交给编译器来负责。

编译器负责计分板机制意味着要有更强大的提前计划能力,好处是可以节省更多硬件单元。早期NVIDIA在开普勒架构中曾经采用过类似的机制,事实证明只要运用得当,效率将会得到提高。

在吞吐量上,尽管ALU得到了补充,但实际每个EU的FP和ALU数量仍然相同,这使得Gen11与Xe-LP相比吞吐量上差别不大,唯独INT16提升到每EU每频率32OPS,并且支持64OPS的INT8吞吐。从结果上看,由于INT16整数吞吐量增加了一倍,并加入了INT8,势必会更强劲一些。

INT8加入目前在游戏领域作用不是太多,但过去几年中,INT8在神经网络推理中变得越来越流行,增加对INT8的支持可以让Xe-LP在AI性能上有着更强的表现。

新L1缓存和双环总线

Xe-LP的位置其实非常有意思,它介于集成GPU和独立GPU之间,需要兼容CPU共享的IMC,同时还能兼容诸如DG1这样的独立显卡使用。因此从SubSlice开始,Xe-LP引入了全新的L1缓存。

英特尔确认每个SubSlice缓存有64KB,并且可以根据需要在L1缓存和纹理缓存之间动态分配,一次提高加载、存储性能。

此外L3缓存也得大奥了升级,在容量和带宽上进一步提升。其中容量最高可以达到16MB,Gen11仅为3MB。有意思的是,英特尔在宣传Tiger Lake L3缓存为12MB,实际分配给GPU的L3缓存大概在3.8MB。

除了容量增大,L3缓存传输速率增加了一倍,Xe-LP能够做到L3缓存以每时钟128字节进行传输,这意味着在1.6GHz的频率下,L3可以获得190GB/sec的带宽。这个升级对ROP以及GPU的其他部分信息交换都将非常重要。

Tiger Lake最厉害的变化还在于增加了第二条Ring总线,这让4个CPU内核和iGPU获得了第二个环路,这也使得iGPU需要准备第二个图形技术接口GTI。这样做的好处是,在其他功能保持不变的前提下,Tiger Lake的GPU和IMC之间带宽增加了一倍,Tiger Lake上的Xe-LP不仅能够以每时钟频率64字节进行传输,还可以使用2个Ring总线发送2个64字节的请求,从而实现128字节/时钟表现。同时也可以看到,iGPU已经开始对CPU内部带宽提出了更高的要求。

为此,Xe-LP在压缩算法上也带来了更多的优化,例如颜色和深度压缩算法的新版本。同时数据压缩功能还将扩展到媒体和显示界面中,图形引擎、媒体引擎和显示器之间可以直接交换压缩状态的数据。

媒体性能和显示接口

在Xe-LP上,英特尔引入了对AV1的支持,在随后的产品更新中,NVIDIA和AMD也都引入了对这个新编码的支持。相对于专利费昂贵的H.265,AV1免费、开源,由开放媒体联盟(AOMedia)行业联盟于2018年初联合开发并最终定稿,对于视频特别是短视频而言,占用资源可以更少。

顺带一提,开放媒体联盟(AOMedia)行业联盟由思科、谷歌、网飞、亚马逊、苹果、Facebook、英特尔、微软等多家企业联合组成,起点高,声势浩大。

你可以理解AV1是实际上免费编码器H.264/AVC的继任者,HEVC在耕耘多年之后已经获得所有GPU支持,AV1自然而然成为下一步发展。在形式上,AV1与HEVC相似,质量略好于HEVC,但缺点是对CPU负担要求更高,因此硬件解码成为必须。

除此之外,英特尔还得会HDR、Dolby Vision播放提供了原生支持,确保HDR能够继续向PC推广。

在显示输出接口方面,Xe-LP也终于增加了第四条显示管道,这意味着GPU可以同时驱动4个独立显示器,这使得笔记本充当多屏幕台式机的属性更为凸显。

值得注意的是,英特尔还添加了对第二个DisplayPort的支持,这对双屏输出而言更为有用。

从整体上来看,Xe-LP提供了DisplayPort 1.4和HDMI 2.0,目前支持HDMI 2.1的NVIDIA RTX 30系列已经上市,高端8K电视也已经开始采用HDMI 2.1接口。不过值得一提的是,Thunderbolt 4接口也已经在Tiger Lake的支持中。

新一代轻薄本值得期待

英特尔的目标很明确,他们希望将Gen11的图形性能提升一倍,Xe-LP为此融入了更多的EU、模块并获得更高的频率,这显然对10nm SuperFin工艺节点提出了更苛刻的要求。英特尔希望通过Xe-LP与Tiger Lake配合获得更高的游戏帧率和画质,从而推进轻薄本的整体性能表现。

更重要的是,Xe-LP不是一个简单的图形解决方案,它即可以运用于核显,又可以运用于独立显卡,Xe-LP背后DG1显然也更让人期待。

更重要的是,雅典娜计划开始落地成为intel evo平台,更多轻薄笔记本开始在图形性能、人工智能化发力。笔记本使用体验开始向手机看齐,这一点是更为重要的。显然Xe-LP架构作为其中关键因素之一,在未来intel evo平台中将不可避免发挥着重要作用。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3