AI绘画电脑配置要求,哪里可以省钱?

您所在的位置:网站首页 cpu跑满显卡没跑满 AI绘画电脑配置要求,哪里可以省钱?

AI绘画电脑配置要求,哪里可以省钱?

2023-03-22 18:37| 来源: 网络整理| 查看: 265

Hello大家好,我是健哥。从去年下半年就开始大火的Novel AI绘画,激发了很多年轻人对深度学习和人工智能的好奇心,即使自己学的并不是计算机或者理科相关的内容,对二次元绘画的创作需求依然是源源不断,毕竟谁不喜欢看艺术图呢。

封面图来源于@勘云工造

Novel AI背后的开源项目是Stable Diffusion。

正好我有个同学,让我组一台双4090来AI画画,但又要比较省钱的配置。想花钱的配置好弄,直接服务器那套拉满就行了,想省钱的话,那就要精打细算一点了,所以我们借这次机会简单探索一下Stable Diffusion对电脑硬件配置的要求,看看哪边可以省省。

这位编辑就非常认真地把ANI三家的显卡都尝试测了一遍。从三家的软件适配来说,深度学习领域是N卡的天下,AMD显卡和Intel的显卡在这里就表现不佳。

毕竟CUDA、Tensor Core都是老黄搞出来的,开发者也是基于CUDA和Tensor Core去开发的。虽然这几年英伟达在游戏玩家口中经常被骂,但当AMD还在折腾GCN(指2019年2月,AMD发布Radeon VII显卡),英特尔还在吹AVX-512的时候(指2019年10月,英特尔发布Cascade Lake CPU,并宣传AVX-512能为AI运算加速),老黄早就提前布局人工智能赛道了(指2018年9月,英伟达发布RTX 20系列GPU),领先AMD和英特尔到不知道哪里去了,而且市值还是他们的4倍。文章作者测试了512x512分辨率的小图和2048x1152的大图两种情况下的每秒钟迭代次数,小图是每张图100次迭代,一次跑10张图计算平均迭代速度,结果小图测试下4090的效率大约是3060的4倍,而且这个性能表现基本算是符合3DMark里的理论性能差距,前提是只看N卡。

但是到了高分辨率的大图下就不太一样了,大图是25次迭代,每次生成3张图片取平均值,在这里40系的效率就大幅领先30系,这主要得益于40系新一代的Tensor Core,让深度学习的效率大幅提升,顺便提一下,这张条形图中还有一些深色的数据条块,那个是在关闭xFormers库下的成绩,这个xFormer是什么我们接下来会提。

接下来就是我们自己的测试了,测试开始前我们先来过一下测试平台和测试项目,CPU是英特尔酷睿i7-13700KF,主板微星B760M迫击炮MAX D5,内存芝奇16G×2 DDR5 6000C30,显卡用了电竞叛客RTX 4090、RTX 3060 Ti和RTX 3060,另外还有公版3080,目前我们手头就这些显卡了。

其他配件还有软件环境相关的请看图,就不一一念了。驱动版本528.49。

测试的设定我们仿照上面Tom’s Hardware的文章里的设定,共设置了3个预设,分别是512x512分辨率,每张图片100次迭代,共10张;1280x720分辨率,50次迭代,共10张,1920x1080分辨率,20次迭代,共5张。

在这里肯定有观众问为什么不设定2K或者4K分辨率的图片?这个直接看最终成绩就知道了,让3060跑1080p分辨率要花的时间都已经很长了,100次迭代每次要2.3秒左右,跑一次就要4分钟起,2K 4K等图片就实在没有时间去等了。

可以看到在低分辨率下我们这个4090甚至效率还不如3080,跑了很多次都是如此,可能是和我们的Check Point文件有关,或是和设定有关。但高分辨率的图像都是非常符合预期,而且分辨率越高4090的优势就越明显。

显卡的性能跑完了,但衍生出了很多和显卡相关的问题,比如显存容量、多卡并行、PCIe带宽问题,说实话这些问题也困扰了我们很久,既然这次有机会测这么多显卡,那就都研究一下吧。

先来研究第一个问题,AI绘画图片需要多大的显存?我们试了一下,使用我们拿到的Check Point文件,在不加载xFormers并且生成1080p分辨率图片的情况下,RTX 3060的显存占用可以有10GB左右。

而多数20/30系显卡的显存容量都是8GB,图还没开始跑显存就爆了,就像这个RTX 3060 Ti和RTX 3080一样,直接报错,只能降低生成图片的分辨率去跑,这就会非常尴尬。

所以xFormers这个工具库就尤为重要,它不仅可以大幅提升图片生成的速度,还能显著降低显存的占用。

比如3060在有了xFormers加持后,速度提升了约82%,显存占用也只有5GB左右了。

所以我们强烈建议在使用Stable Diffusion的时候加载xFormers,至于如何下载和加载,网上教程还是比较多的,我们这边就不作教学了。上面的显卡成绩和接下来的数据都是启用xFormers的,我们就不再分开讨论了。这里再多提一句有意思的,最近不少所谓2080Ti 魔改22G的,最早是俄罗斯有个博主发出来了,甚至现在都有店铺专门做改装方案的,大概就是如果显卡的BIOS支持的话,把以前1G显存换成2G的,享受下RTX 2080 Ti变RTX 6000的感觉,可能一些跑计算吃显存的学生党会比较关注。有兴趣的可以自己搜搜了解下,我这里没多研究,就不多发表意见了。

第二个问题,可以多显卡一起跑吗?如果是多个显卡同时运行一个图片生成作业,那是不行的,目前软件还没有做这方面的适配和优化,两张3060往上一插,同时也只有一张在跑。所以要让两张3060都跑起来,只能采取一些比较笨的办法,就是开两个Stable Diffusion进程,让第二个进程使用另外一张显卡跑。这里需要一些小代码,以Windows系统为例,复制一份webui.bat文件,右键编辑,在下方插入这么一行命令:

其中xx是数字,这样就可以指定这个Stable Diffusion进程调用哪个GPU,比如我想用4090打游戏,在打游戏的同时使用闲置的3060画画,任务管理器里GPU 0是4090,GPU 1是3060,那我就在上面的值里写1,这样我就指定了用GPU 1也就是3060去画画,就没有4090什么事了。同样的如果你想用两张4090同时跑,那就同时运行两个进程,其中一个进程选GPU 0,另一个进程选GPU 1就行了。

这样其实组双卡就会有很多便宜的选择了,因为目前主流的英特尔B和Z系列主板,最下面基本都有个PCIe4.0×4规格的×16插槽,反而这时候面临的问题是,4090基本都是三槽甚至三槽半的卡,选择机箱的时候得注意有几个PCIe插槽位置,或者干脆直接用PCIe延长线。

接下来是一些PCIe相关的题外话,既然都拿4090来了,我们就顺便测试了3DMark和实际游戏中PCIe带宽对4090的影响,4090跑PCIe 4.0×8甚至×4到底多大影响。先是3DMark,可以看到,除了专门测PCIe带宽的PCIe特性测试能直接看出带宽区别外,常规的理论显卡得分4.0×16和4.0×8基本没有区别,到4.0×4才稍微掉了一点性能,大概8%左右。

AIDA64 GPGPU的测试也表明除了显存读写受到了PCIe带宽的影响较大以外,其他性能的影响都不是很大。

接着看下实际游戏,分辨率是4K,除了CS:GO是低画质之外其余游戏均为最高画质,游戏中的平均帧区别其实和跑分类似,4.0×16和4.0×8差距不大,但4.0×4就有10%左右的区别了,最低帧方面,×16和×8其实还能接受,除了彩虹六号:围攻最低帧低了8%之外其他的和平均帧一样在2-3%之间,4.0×4的最低帧就掉得非常多。

所以打游戏的话还是非常不建议4090跑在4.0×4,或者说3.0×8上,那些还在用老平台的就别想着只换显卡了,平台也得跟上的。虽然4090在不同PCIe速率下的的测试表明,4.0×8的带宽其实并不怎么影响4090的发挥,不过讲句玩笑话,一张两万的4090就按损失2%的性能,也400块钱,买几万块电脑的应该不是太在意400块钱吧。

以上都是和显卡相关的测试,接下来是内存和CPU部分的测试,看看这部分能不能省点钱。内存频率、D5/D4内存有没有区别呢?CPU我们用稍微差一点的有没有区别呢?我们也都测试了一下,所用的内存设置如图:DDR5组我们选了16G×2,4800JEDEC默认规格和6000C30的游戏规格,DDR4则是选择了8G×2的3600C18还有3200C16这两种规格。

从结果来说,用D5还是D4,高频还是低频,基本没有区别,4090表示都能吃得消。

CPU部分我们则是把这颗13700KF关闭所有小核,只留6个大核心,并且把频率降低到4GHz,Ring频率也降低到4GHz,模拟一颗i5-12400F,不过三缓无法关闭所以还是i7的30MB三缓。结果是性能有一丢丢的损失,类似于4.0×16降成4.0×4那种,所以CPU的性能这块不太需要担心,不过我们还是推荐i5-13400F起步。

但是在测试过程中我们也发现了一些和内存相关的问题,比如,我们的1080p图片每张大小约4MB左右,生成完的图片可能会被存放在内存中,一旦生成的图片数量过多,内存就会被占用得很多,我们使用DDR5 32G×2的内存跑1080p分辨率的图片,跑8000张,每张图片迭代20次,一开始内存占用7.6 GB看着还行,第二天下午就占用了40多GB,到第二天晚上也就是22小时后,内存已经占用到60GB了。(实际上可以使用特定命令参数释放内存)

而且在图片输出阶段内存会直接吃满,电脑会假死。所以16GB只能是平时闲得无聊,简单跑跑画画,如果要正经生成图片,还得准备较多容量的内存,也就是说虽然对内存的性能要求不高,但对容量要求还是比较高的,尤其是7×24小时不间断运行的绘画用户,内存容量可以说是越大越好没有上限,DDR4 32G一根也就四五百块钱,直接插两根32G算了,后续觉得不够用再加,主要的投资还是以显卡为主。

功耗和温度方面,4090在跑512×512这种小图片的时候其实负载也不是很高,可能是因为迭代次数太快导致GPU占空比更低,功耗大概300瓦出头。

而跑1080p分辨率的图片功耗就是400W了,比打游戏的功耗还高点,考虑到很多人跑图电脑肯定都是不关的,甚至是7×24小时不间断运行,同样单卡的情况下比前两年挖矿时候的发热还要大,所以机箱散热通风还是要做好的。不得不感叹一句,40系显卡逃过了挖矿最后还是没能逃过深度学习。

简单总结一下,AI绘画非常看重显卡的TensorCore性能,40系显卡的优势很大,有这方面需求的应该优先考虑40系显卡,如果有多张显卡也可以分开跑,对PCIe带宽的要求并不大,对CPU和内存性能也没有什么太大要求,主要还是在显卡上,另外如果是重负载密集型的跑图的话,需要准备大容量内存,并且做好显卡的散热。

最后我给同学的配置是:

CPU 英特尔 酷睿i5-13400

主板 入门级Z690

内存 海盗船 复仇者DDR4 3200 32G*2 

SSD 三星PM9A1 2TB

HDD 西数企业盘16T

显卡 映众电竞叛客4090×2

机箱 海盗船 780T

电源 海韵PRIMEPX1300

机箱又塞了几个利民的便宜风扇,相信这个配置给他做AI绘画还是足够了吧。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3