NVIDIA GeForce RTX 4070 FE首发评测:2K游戏无敌手,AI再进阶

您所在的位置:网站首页 gddr6x最高温度 NVIDIA GeForce RTX 4070 FE首发评测:2K游戏无敌手,AI再进阶

NVIDIA GeForce RTX 4070 FE首发评测:2K游戏无敌手,AI再进阶

2023-04-13 03:11| 来源: 网络整理| 查看: 265

0 分享至

用微信扫码二维码

分享至好友和朋友圈

由于产品线布局的变换,GeForce RTX 4070 Ti一不小心成了70系的首发,但论价格和定位而言,不含Ti的GeForce RTX 4070在当下更具吸引力,特别是万元以内台式机,当下急缺一款能确保2K分辨率光追最高画质下轻松越过100FPS门槛的产品。而在历经GeForce RTX 4090到RTX 4070 Ti补全,以及RTX 40全系Laptop GPU登录笔记本后,我们终于迎来了NVIDIA GeForce RTX 4070的登场,正式迈向探索GeForce RTX 40系列主流体验之路。

那么GeForce RTX 4070将会通过什么样的表现回应玩家们的期待,在游戏,内容制作,以及时下大热的AI创作上的性能表现如何,4799元的定价又能否与性能配合处让人满意的性价比?随着性能解禁,现在就让我们奉上公版NVIDIA GeForce RTX 4070 Founders Edition首发评测。

再遇AD104

没有想到AD104是我们近期遇到最多的GPU型号,从GeForce RTX 4070 Ti到GeForce RTX 4080 Laptop GPU均源自对AD104针对细分定位的修改。

AD104与同门师兄一样,采用台积电4N英伟达定制工艺打造,芯片尺寸295mm²,晶体管数量为358亿个,相对AD102而言属于中型芯片。因此AD104也保留了Ada Lovelace架构的完整结构,即GPU中包含了若干个GPC(Graphics Processing Clusters,图形处理集群),GPC下包含若干个TPC(Texture Processing Clusters,纹理处理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。每个GPC之间包含的TPC数量相等,当GPU进行定位区分的时候再进行GPC、TPC的物理屏蔽实现。

完整的AD104包含5个GPC,每个GPC包含6组TPC,每组TPC包含2个流式多处理器(Streaming Multiprocessors,SM)。

SM是可以看成诸多核心的集合体,从Maxwell架构开始引入了处理块(Sub-Core)概念。每个SM包含4个处理块,每个处理块包含1个64KB寄存器堆,1个L0指令缓存,1个Warp调度器,1个调度单元,4个加载/存储单元,1个特殊功能单元(Special Function Unit,SFU)用于执行超越函数指令(比如正弦、余弦、倒数、平方根等)和图形差值算法指令。每个SM下的128个CUDA Core随处理块分成4组,每组CUDA由16个专门用于FP32的CUDA Core,16个可以在FP32和INT32之间切换的CUDA Core组成。

更重要的是,由于工艺和架构的提升,Ada Lovelace架构拥有庞大的L2缓存设计,根据定位的不同,GeForce RTX 40系列相对上一代GeForce RTX 30系列在GPU L2缓存上拥有数倍乃至十几倍的容量提升,这是相当夸张的。

更大的L2缓存有助于提高随机存取的命中率,而更快的L2缓存能提升运算单元的效率。AD104中所有GPC都需要通过L2缓存完成所有访存操作,因此庞大的L2缓存搭配每个SM下均包含4个第四代Tensor Core,1个第三代RT Core,成为后续游戏实时光线追踪和DLSS 3性能提升的重要前提。

让我们把目光放到GeForce RTX 4070。GeForce RTX 4070使用的AD104 GPU版为AD104-250-A1,采用了4个GPC结构,并在其中的1个GPC中屏蔽了1个TPC,从而获得了23个TPC,46个SM,共计拥有5888个CUDA Core,184个第四代Tensor Core和46个第三代RT Core,以及184个纹理单元和64个ROP Units。

值得注意的是,在内存结构上,GeForce RTX 4070同样拥有6个32-bit内存控制器组成的192-bit内存接口,并搭配12GB GDDR6X显存,显存带宽与GeForce RTX 4070 Ti是相同的504GB/s。

唯独可惜为了与Ti进行区分,在GeForce RTX 4070视频编解码引擎上仅使用了1个第八代NVENC和1个第五代NVDEC,虽然同样拥有12GB显存,但无法开启双AV1编码器。这样的设计主要用于区分不同定位GPU之间的专业创作性能,例如专业版的AD104中会给与2个NVENC和4个NVDEC以加速视频编解码性能,但对于游戏玩家而言,这样的设计变化在游戏中是不会感受出来的。

至此,我们基本掌握了GeForce RTX 4070的大致结构,作为参考,这里罗列出历代70系列的大致规格作为对比。

回归小巧Founders Edition

回归到GeForce RTX 4070 Founders Edition本体。在看惯了三槽的RTX 40系列,双槽的GeForce RTX 4070 Founders Edition显得格外小巧。事实上也确实如此,GeForce RTX 4070 Founders Edition不仅厚度缩减到了2槽,长度也控制到了336mm,可以轻松安装到标准ATX机箱,或者诸如NUC Extreme这样的小型化机箱中。

同时我们也看到GeForce RTX 4070对功耗进行了控制,以进一步提升能耗比,仅有200W的TGP无论相比GeForce RTX 2070 Super的215W还是GeForce RTX 3070 Ti的290W都小了不少。因此,即便GeForce RTX 4070 Founders Edition使用了16pin(12VHPWR)接口设计,但随机包装中仅配送了2x8pin转接线,可见对功耗需求不高。

作为Founders Edition,GeForce RTX 4070 Founders Edition同样也继承了前辈们的很多传统,比如使用了与旗舰GeForce RTX 4090 Founders Edition相同的设计元素、前后双轴风扇、镂空的压铸件铝制散热片设计。相对上一代GeForce RTX 3070 Founders Edition,RTX 4070在散热结构上也更为紧凑,并在GPU贴合底座使用了铜基座设计,并通过4根热管将热量快速扩展到铝制散热片中,以提升冷却性能。

不仅如此,GeForce RTX 4070 Founders Edition的双轴风扇也提供了更好的气体流动性,能够提供比GeForce RTX 3070 Ti FE更强的20%气体流动提升。

同样,12GB GDDR6X的耗电与发热量是不能忽视的。GeForce RTX 4070 Founders Edition使用了8层PCB板以确保给GPU和vRAM提供干净的店里,并使用了6相电源供电设计,其中2相被设计为专为21Gbps的GDDR6X供电。

在接口配置上,GeForce RTX 4070 Founders Edition与同门师兄相同,包括3个DisplayPort 1.4a和1个HDMI 2.1接口。

在实际的压力测试状态下,可以看到GeForce RTX 4070 Founders Edition GPU的最高温度为65℃,最高功耗为200W。如果这时候用红外线进行检测,可以发现在室温23℃的环境下,最高温度64.3℃,GeForce RTX 4070 Founders Edition表面温度参考如下。

当然在实际游戏体验中,GeForce RTX 4070 Founders Edition的实际功耗会低于TGP,这里我们对5款游戏的1080p、2K、4K分辨率最高画质下RTX 4070实际功耗进行比较,可以看到2K分辨率下的功耗表现不到190W,唯有4K最高画质下更容易接近RTX 4070的TGP规格。由此也证明了Ada Lovelace架构的能耗比上的优越性。

2K游戏无敌手

解决完散热和架构的问题,让我们进入喜闻乐见的跑分环节。照例先搬出我们的测试平台,这里为了确保GeForce RTX 4070性能完全释放,这里使用了英特尔Core i9-13900K,七彩虹Colorful CNV DDR5-6000 16GB x2,ROG MAXIMUS Z790 HERO,Thermaltake TPI RGB PLUS 1250W作为基准,同时也引入GeForce RTX 2070 Super、GeForce RTX 3070 Ti作为对比。

在检验DirectX 11和DirectX 12项目中,主要使用3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal进行对比。可以看到GeForce RTX 4070在对比RTX 3070 Ti表现非常明显,至少有20%的提升,对比RTX 2070 Super,差距更大,平均提升接近90%。

在主流常见的几款常规的3A游戏中,可以看到游戏的表现与基准软件测试的预期基本相同,GeForce RTX 4070在对比RTX 3070 Ti的提升大概20%左右,对比RTX 2070 Super提升则可以接近100%。

而随着游戏技术的快速迭代以及NVIDIA的大力推广,新推出的游戏重心已经放到了DLSS 3上。DLSS 3是一套包含了提升游戏帧率、降低系统延迟的完整解决方案。它通过引入光流加速器(Optical Flow Acceleration,OFA)与DLSS相结合的办法,构建出了一个更为立体的分析方式,将卷积自编码器的输入源扩展到几个部分,分别是:之前帧与当下帧,由光流加速器生成的光流场、游戏运动矢量和深度等数据。这时候DLSS 3甚至承担起渲染过程中7/8的工作,让CPU和GPU进完成其中1/8的渲染即可,从而节省出大量的计算资源专注到更有用的地方。

这意味着游戏一旦支持DLSS 3,那么效率将是成倍的提升。但也需要注意,DLSS 3运行的前提是GeForce RTX 40的第四代Tensor Core,第三代以及第三代以前Tensor Core仅能支持到DLSS 2.X,即实现DLSS 3的部分功能,帧率提升虽然也很明显,但幅度没有DLSS 3来得更为夸张。

这里我们引入3DMark DLSS 2 2K、3DMark DLSS 3 4K、3DMark DLSS 3 8K进行对比。需要注意的是RTX 2070 Super与RTX 3070 Ti均不支持DLSS 3,在测试中不同分辨率均以DLSS 2进行。

这时候我们就能看到GeForce RTX 4070搭配DLSS 3的优越性了,如果对比RTX 3070 Ti,RTX 4070可以提升从80%到450%,而如果对比RTX 2070 Super,帧率更是能够提升高达157%到929%,DLSS 3在高分辨率的流畅运行差距非常巨大,原因是RTX 3070 Ti和RTX 2070 Super在8K分辨率帧率只有个位数。

由于GeForce RTX 4070在2K分辨率下有不错的表现,这里我们着重在2K分辨率最高画质下进行测试。目前为止已经有超过50款游戏宣布支持DLSS 3技术,并有超过30款游戏上市,其中大部分游戏均为3A大作。如果算上以往对DLSS支持的游戏,则已经超过260款。还是那句话,显卡尽可能买新不买旧。

在实际测试中,可以看到,GeForce RTX 4070相对RTX 3070 Ti提升有20%左右的提升,而相对GeForce RTX 2070 Super,提升则可以来到50%到120%。

DLSS 3带来的另一个厉害之处则是降低系统延迟。DLSS 3在实现AI插帧的同时,势必会导致系统延迟在一定程度上增加,导致关键操作和关键帧排在渲染序列尾端。不过NVIDIA在降低系统延迟上已经做了大量的工作,原本独立于DLSS的Reflex技术直接集成在DLSS 3,也就是游戏在开启DLSS 3的同时,Reflex也被默认开启,而不需要单独设置。

这里我们对数款游戏进行系统延迟检测,可以看到,在开启DLSS 3之后,系统延迟可以降低10%到60%,当然也有与之前维持在同一水准的,但可以证明开启DLSS 3之后不会对玩家的操作响应产生影响,并且还会有较为明显的帮助。

高举AI大旗

AI创作已经成为我们无法绕过的话题,特别是在GeForce RTX 40系列发布之后,基于PC本地的深度学习与AI创作变得更为轻而易举。比如通过AI快速的创作全新内容,通过简单的文字描述在本地绘出需要的创作场景图片,并随着AI工具交互设计愈发人性化,每个人触碰AI几乎变得唾手可得。

这里我们以Stable Diffusion 2.1为例作为参考。Stable Diffusion是2022年推出的深度学习文本到图像转变的AICG工具,这套工具由初创公司Stability AI和非营利组织、学术人员共同合作开发,因此它相对需要收费的Midjourney有更好的开放性和扩展性,并提供一系列的插件实现更多功能,比如AI图片修复、文本提示引导图像,甚至是图像翻译等等,可以预见在未来会不断融入更强大的功能。

Stable Diffusion运行的前提是需要至少8GB以上的显存vRAM和AI性能足够强劲的GPU进行,否则本地体验不如直接购买云端服务来的直接。

这里我们利用一段固定的文字描述来引导Stable Diffusion 2.1为我们创建20张符合描述的建筑风景图片。在UI界面中设置GeForce RTX 4070一次同时运算2张图片,一共运行10次,即20张。每张图片分辨率为768x768分辨率,采样步数设置为50。

文字描述参考如下:

beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting, ++dreamlike, vignette

顺带说明,如果只使用Core i9-13900K根据文字描述创建其中1张AI图片,至少需要花费11分钟以上的时间,因此不再放在评测中比较。

在对比中,我们使用了GeForce RTX 4070与GeForce RTX 3070 Ti、GeForce RTX 3080 10GB进行参照,记录下每个GPU花费的时间,并进一步推算出每分钟生成的图像效率(Images Per Minute)。

在实际对比中可以看到,GeForce RTX 4070能够轻松实现于GeForce RTX 4080 10GB的性能,并且相比GeForce RTX 3070 Ti提升40%以上,也意味着同样的成果,可以为我们节省40%的时间。

另外一项AI测试则是基于AI提升图像分辨率的ON1 Resize AI 2022,原理是对低分辨率图片无损提升至高分辨率图片,用于巨幅海报输出,依靠AI性能可以获得更快的出图,并计算生成图片的时间,数值越少意味着效率越高。

在实际测试中可以看到,GeForce RTX 4070相对GeForce RTX 3080 10GB提升15%以上的效率,而相对GeForce RTX 3070 Ti,效率更是能够提40%以上。可见GeForce RTX 4070上的第四代Tensor Core搭配大容量L2缓存表现是相当出众的。

即使你没有创作内容的计划,AI让视频清晰化的功能随着新驱动发布和GeForce RTX 4070的解禁得到进一步扩展,现在你可以NVIDIA控制面板-调整视频图像设置中找到名为“RTX视频增强”的选项。顾名思义,这是利用RTX Video Super Resolution (VSR)技术,通过AI、TensorCore来增强视频播放质量,让低分辨率视频在4K分辨率屏幕上获得更好的显示效果,以增强视频观看体验。

这项功能目前也已经开始实装到4月12日以后更新的VLC播放器中,并且效果立竿见影。这里我们分别开启和关闭RTX视频增强超分辨率选项,并播放一段1080p视频,抓取两个视频的效果。

能够轻松看到VSR ON之后画面细腻感一下提升了一个档次,同时从资源管理器也看到GeForce RTX 4070的GPU占用率达到了50%,说明在质量4的情况下,将1080p视频实时提升至4K分辨率是需要消耗不少运算资源。

左为VSR OFF,右为VSR ON

这里我们不妨在将录制的画面放大到细节,左侧原画质下字体显示模糊,而一旦VSR ON之后,字体立马清晰了很多。现在这项功能已经能够从VLC播放器上免费获得,前提是需要有GeForce RTX 30或GeForce RTX 40以上的GPU。

左为VSR OFF,右为VSR ON

将内容制作进行到底

最后让我们回到内容制作环节。无论是Intel高端CPU还是NVIDIA Studio驱动,不断向消费级产品下放内容创作加速功能。凭借着NVIDIA在行业内的影响,主流的专业软件也已经向NVIDIA技术看齐。

前面我们提到,GeForce RTX 4070保留了1个NVENC和1个NVDEC,包含了AV1编解码器的功能,AV1编码器能比H.264编码器效率高出40%。这意味着AV1编码器能够利用现阶段可以进行1080p串流视频的带宽,实现1440p甚至更好的画质,比如同样的带宽占用下,在哔哩哔哩可以轻松播放2K或者4K的视频,而播放4K的带宽也将可以用来播放更高分辨率的内容。

另外一个不得不提的就是NVIDIA Omniverse Create。NVIDIA Omniverse作为视觉和数字孪生工业模拟应用的入库哦,已经打破了诸多专业软件之间不兼容的限制,旨在统一虚拟空间下模拟与现实相同的环境与场景,加速工业、创意、内容制作的效率。

不仅如此,NVIDIA Omniverse Create还引入了已经在好莱坞付诸应用的通用场景描述(USD)格式,并不断添加更多的通用素材包,使得创作变得更为轻松。因此NVIDIA Omniverse也被认为是构建元宇宙最理想的入口之一。

这里我们主要使用NVIDIA Omniverse Create分别在2K、4K分辨率下对Campfire、Flowers4、Incense、Jade Tiger、Warehouse五个场景进行预览测试,并计算平均值,可以看到在2K分辨率下,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升160%,相对GeForce RTX 3080 10GB提升也有90%,主要原因是DLSS 3帮助加速了整个创作场景的运行。

同样在4K分辨率预览模式下,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升140%,相对GeForce RTX 3080 10GB提升也有100%。

接下来是画面渲染测试。我们先使用了Blender Benchmark检测GeForce RTX 4070的输出能力,在Moster、Junkshop、Classroom三个场景中,可以看到GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升40%,相对GeForce RTX 3080 10GB提升为20%左右。

同样在V-Ray 5 Benchmark中会分别考验CUDA和光线追踪性能,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升25%,相对GeForce RTX 3080 10GB提升大约为10%。

Octane Render RTX是同样是测试GPU的光线追踪性能表现,在一个复杂场景下考验GPU每秒产生的样本率,GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升40%,相对GeForce RTX 3080 10GB提升大约为10%左右。

SPECviewperf 2020则是通过建模对象或渲染体的旋转和缩放检视,来检测在各种专业设计领域(包含能源勘探、医学、建筑设计、机械设计、汽车设计、飞机设计等各种领域)的图形性能,也是工程人员在日常中最常遇见的场景,其中包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks等主流软件。

可以看到GeForce RTX 4070相比GeForce RTX 3070 Ti性能提升200%,相对GeForce RTX 3080 10GB提升大约为10%左右。

在一番体验之后,GeForce RTX 4070 Founders Edition着实给人留下了不错的印象,不仅仅是强大的DLSS 3技术为其带来了2K分辨率开启最高画质光追下的流畅体验,强大的AI性能,让GeForce RTX 4070轻松游刃于AI内容创作、RTX视频增强以及诸多专业软件之中,已经可以满足平常使用时的绝大多数场景。

更重要的是,GeForce RTX 4070 Founders Edition小巧的身形与低功耗表现,回归到了大部分玩家印象中的显卡形态,更轻易安装到主机箱中,不再为空间与走线所烦恼。同时也带来了2K分辨率轻松超过100FPS的表现,对于GeForce RTX 2070 SUPER玩家而言,升级带来的收益相当巨大。

同时Founders Edition作为公版的影响力,也势必带领一众AIC重新审视外观设计。毕竟小巧、高能效比、高性价比,这也是更多数主流玩家所需要的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/ 返回网易首页 下载网易新闻客户端


【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3