AI绘画电脑配置要求，哪里可以省钱？

您所在的位置：网站首页 › cpu跑满显卡没跑满 › AI绘画电脑配置要求，哪里可以省钱？

AI绘画电脑配置要求，哪里可以省钱？

2023-03-22 18:37| 来源: 网络整理| 查看: 265

Hello大家好，我是健哥。从去年下半年就开始大火的Novel AI绘画，激发了很多年轻人对深度学习和人工智能的好奇心，即使自己学的并不是计算机或者理科相关的内容，对二次元绘画的创作需求依然是源源不断，毕竟谁不喜欢看艺术图呢。

封面图来源于@勘云工造

Novel AI背后的开源项目是Stable Diffusion。

正好我有个同学，让我组一台双4090来AI画画，但又要比较省钱的配置。想花钱的配置好弄，直接服务器那套拉满就行了，想省钱的话，那就要精打细算一点了，所以我们借这次机会简单探索一下Stable Diffusion对电脑硬件配置的要求，看看哪边可以省省。

这位编辑就非常认真地把ANI三家的显卡都尝试测了一遍。从三家的软件适配来说，深度学习领域是N卡的天下，AMD显卡和Intel的显卡在这里就表现不佳。

毕竟CUDA、Tensor Core都是老黄搞出来的，开发者也是基于CUDA和Tensor Core去开发的。虽然这几年英伟达在游戏玩家口中经常被骂，但当AMD还在折腾GCN（指2019年2月，AMD发布Radeon VII显卡），英特尔还在吹AVX-512的时候（指2019年10月，英特尔发布Cascade Lake CPU，并宣传AVX-512能为AI运算加速），老黄早就提前布局人工智能赛道了（指2018年9月，英伟达发布RTX 20系列GPU），领先AMD和英特尔到不知道哪里去了，而且市值还是他们的4倍。文章作者测试了512x512分辨率的小图和2048x1152的大图两种情况下的每秒钟迭代次数，小图是每张图100次迭代，一次跑10张图计算平均迭代速度，结果小图测试下4090的效率大约是3060的4倍，而且这个性能表现基本算是符合3DMark里的理论性能差距，前提是只看N卡。

但是到了高分辨率的大图下就不太一样了，大图是25次迭代，每次生成3张图片取平均值，在这里40系的效率就大幅领先30系，这主要得益于40系新一代的Tensor Core，让深度学习的效率大幅提升，顺便提一下，这张条形图中还有一些深色的数据条块，那个是在关闭xFormers库下的成绩，这个xFormer是什么我们接下来会提。

接下来就是我们自己的测试了，测试开始前我们先来过一下测试平台和测试项目，CPU是英特尔酷睿i7-13700KF，主板微星B760M迫击炮MAX D5，内存芝奇16G×2 DDR5 6000C30，显卡用了电竞叛客RTX 4090、RTX 3060 Ti和RTX 3060，另外还有公版3080，目前我们手头就这些显卡了。

其他配件还有软件环境相关的请看图，就不一一念了。驱动版本528.49。

测试的设定我们仿照上面Tom’s Hardware的文章里的设定，共设置了3个预设，分别是512x512分辨率，每张图片100次迭代，共10张；1280x720分辨率，50次迭代，共10张，1920x1080分辨率，20次迭代，共5张。

在这里肯定有观众问为什么不设定2K或者4K分辨率的图片？这个直接看最终成绩就知道了，让3060跑1080p分辨率要花的时间都已经很长了，100次迭代每次要2.3秒左右，跑一次就要4分钟起，2K 4K等图片就实在没有时间去等了。

可以看到在低分辨率下我们这个4090甚至效率还不如3080，跑了很多次都是如此，可能是和我们的Check Point文件有关，或是和设定有关。但高分辨率的图像都是非常符合预期，而且分辨率越高4090的优势就越明显。

显卡的性能跑完了，但衍生出了很多和显卡相关的问题，比如显存容量、多卡并行、PCIe带宽问题，说实话这些问题也困扰了我们很久，既然这次有机会测这么多显卡，那就都研究一下吧。

先来研究第一个问题，AI绘画图片需要多大的显存？我们试了一下，使用我们拿到的Check Point文件，在不加载xFormers并且生成1080p分辨率图片的情况下，RTX 3060的显存占用可以有10GB左右。

而多数20/30系显卡的显存容量都是8GB，图还没开始跑显存就爆了，就像这个RTX 3060 Ti和RTX 3080一样，直接报错，只能降低生成图片的分辨率去跑，这就会非常尴尬。

所以xFormers这个工具库就尤为重要，它不仅可以大幅提升图片生成的速度，还能显著降低显存的占用。

比如3060在有了xFormers加持后，速度提升了约82%，显存占用也只有5GB左右了。

所以我们强烈建议在使用Stable Diffusion的时候加载xFormers，至于如何下载和加载，网上教程还是比较多的，我们这边就不作教学了。上面的显卡成绩和接下来的数据都是启用xFormers的，我们就不再分开讨论了。这里再多提一句有意思的，最近不少所谓2080Ti 魔改22G的，最早是俄罗斯有个博主发出来了，甚至现在都有店铺专门做改装方案的，大概就是如果显卡的BIOS支持的话，把以前1G显存换成2G的，享受下RTX 2080 Ti变RTX 6000的感觉，可能一些跑计算吃显存的学生党会比较关注。有兴趣的可以自己搜搜了解下，我这里没多研究，就不多发表意见了。

第二个问题，可以多显卡一起跑吗？如果是多个显卡同时运行一个图片生成作业，那是不行的，目前软件还没有做这方面的适配和优化，两张3060往上一插，同时也只有一张在跑。所以要让两张3060都跑起来，只能采取一些比较笨的办法，就是开两个Stable Diffusion进程，让第二个进程使用另外一张显卡跑。这里需要一些小代码，以Windows系统为例，复制一份webui.bat文件，右键编辑，在下方插入这么一行命令：

其中xx是数字，这样就可以指定这个Stable Diffusion进程调用哪个GPU，比如我想用4090打游戏，在打游戏的同时使用闲置的3060画画，任务管理器里GPU 0是4090，GPU 1是3060，那我就在上面的值里写1，这样我就指定了用GPU 1也就是3060去画画，就没有4090什么事了。同样的如果你想用两张4090同时跑，那就同时运行两个进程，其中一个进程选GPU 0，另一个进程选GPU 1就行了。

这样其实组双卡就会有很多便宜的选择了，因为目前主流的英特尔B和Z系列主板，最下面基本都有个PCIe4.0×4规格的×16插槽，反而这时候面临的问题是，4090基本都是三槽甚至三槽半的卡，选择机箱的时候得注意有几个PCIe插槽位置，或者干脆直接用PCIe延长线。

接下来是一些PCIe相关的题外话，既然都拿4090来了，我们就顺便测试了3DMark和实际游戏中PCIe带宽对4090的影响，4090跑PCIe 4.0×8甚至×4到底多大影响。先是3DMark，可以看到，除了专门测PCIe带宽的PCIe特性测试能直接看出带宽区别外，常规的理论显卡得分4.0×16和4.0×8基本没有区别，到4.0×4才稍微掉了一点性能，大概8%左右。

AIDA64 GPGPU的测试也表明除了显存读写受到了PCIe带宽的影响较大以外，其他性能的影响都不是很大。

接着看下实际游戏，分辨率是4K，除了CS:GO是低画质之外其余游戏均为最高画质，游戏中的平均帧区别其实和跑分类似，4.0×16和4.0×8差距不大，但4.0×4就有10%左右的区别了，最低帧方面，×16和×8其实还能接受，除了彩虹六号：围攻最低帧低了8%之外其他的和平均帧一样在2-3%之间，4.0×4的最低帧就掉得非常多。

所以打游戏的话还是非常不建议4090跑在4.0×4，或者说3.0×8上，那些还在用老平台的就别想着只换显卡了，平台也得跟上的。虽然4090在不同PCIe速率下的的测试表明，4.0×8的带宽其实并不怎么影响4090的发挥，不过讲句玩笑话，一张两万的4090就按损失2%的性能，也400块钱，买几万块电脑的应该不是太在意400块钱吧。

以上都是和显卡相关的测试，接下来是内存和CPU部分的测试，看看这部分能不能省点钱。内存频率、D5/D4内存有没有区别呢？CPU我们用稍微差一点的有没有区别呢？我们也都测试了一下，所用的内存设置如图：DDR5组我们选了16G×2，4800JEDEC默认规格和6000C30的游戏规格，DDR4则是选择了8G×2的3600C18还有3200C16这两种规格。

从结果来说，用D5还是D4，高频还是低频，基本没有区别，4090表示都能吃得消。

CPU部分我们则是把这颗13700KF关闭所有小核，只留6个大核心，并且把频率降低到4GHz，Ring频率也降低到4GHz，模拟一颗i5-12400F，不过三缓无法关闭所以还是i7的30MB三缓。结果是性能有一丢丢的损失，类似于4.0×16降成4.0×4那种，所以CPU的性能这块不太需要担心，不过我们还是推荐i5-13400F起步。

但是在测试过程中我们也发现了一些和内存相关的问题，比如，我们的1080p图片每张大小约4MB左右，生成完的图片可能会被存放在内存中，一旦生成的图片数量过多，内存就会被占用得很多，我们使用DDR5 32G×2的内存跑1080p分辨率的图片，跑8000张，每张图片迭代20次，一开始内存占用7.6 GB看着还行，第二天下午就占用了40多GB，到第二天晚上也就是22小时后，内存已经占用到60GB了。（实际上可以使用特定命令参数释放内存）

而且在图片输出阶段内存会直接吃满，电脑会假死。所以16GB只能是平时闲得无聊，简单跑跑画画，如果要正经生成图片，还得准备较多容量的内存，也就是说虽然对内存的性能要求不高，但对容量要求还是比较高的，尤其是7×24小时不间断运行的绘画用户，内存容量可以说是越大越好没有上限，DDR4 32G一根也就四五百块钱，直接插两根32G算了，后续觉得不够用再加，主要的投资还是以显卡为主。

功耗和温度方面，4090在跑512×512这种小图片的时候其实负载也不是很高，可能是因为迭代次数太快导致GPU占空比更低，功耗大概300瓦出头。

而跑1080p分辨率的图片功耗就是400W了，比打游戏的功耗还高点，考虑到很多人跑图电脑肯定都是不关的，甚至是7×24小时不间断运行，同样单卡的情况下比前两年挖矿时候的发热还要大，所以机箱散热通风还是要做好的。不得不感叹一句，40系显卡逃过了挖矿最后还是没能逃过深度学习。

简单总结一下，AI绘画非常看重显卡的TensorCore性能，40系显卡的优势很大，有这方面需求的应该优先考虑40系显卡，如果有多张显卡也可以分开跑，对PCIe带宽的要求并不大，对CPU和内存性能也没有什么太大要求，主要还是在显卡上，另外如果是重负载密集型的跑图的话，需要准备大容量内存，并且做好显卡的散热。

最后我给同学的配置是：

CPU 英特尔酷睿i5-13400

主板入门级Z690

内存海盗船复仇者DDR4 3200 32G*2

SSD 三星PM9A1 2TB

HDD 西数企业盘16T

显卡映众电竞叛客4090×2

机箱海盗船 780T

电源海韵PRIMEPX1300

机箱又塞了几个利民的便宜风扇，相信这个配置给他做AI绘画还是足够了吧。

【本文地址】

AI绘画电脑配置要求，哪里可以省钱？

AI绘画电脑配置要求，哪里可以省钱？

今日新闻

推荐新闻