【AI绘画】全部模型种类总结 / 使用方法 / 简易训练指导

您所在的位置:网站首页 电脑绘画怎么用 【AI绘画】全部模型种类总结 / 使用方法 / 简易训练指导

【AI绘画】全部模型种类总结 / 使用方法 / 简易训练指导

2023-10-07 01:59| 来源: 网络整理| 查看: 265

引言

目前,AI绘画 的各种模型层出不穷,哪些模型都有什么用?又如何使用?对刚入坑或者不怎么下载别人模型使用的人造成了很大困扰。也没有一个统一的总结或者教程指导。

这篇文章将会为你介绍目前所有 AI绘画[1] 的模型种类、使用方法、简单的训练指导。

欢迎分享给更多的人看到这篇文章,希望可以为你们解惑。

[1] 此处的AI绘画,特指 stable-diffusion 。

本文严禁转载

1  绪论

1.1 绪论

不同的模型会带来不同的画风、认识不同的概念(人物/物体/动作),这是模型众多的原因。

常说的 NovelAI 就是特指 NovelAI 制作的一款 日系二次元特化 的模型。

而 stable-diffusion 1.5 2.0 这些模型是较为通用的、现实模型,无法画出二次元图片

stable-diffusion 模型

1.2 模型概况

当前,常见的模型可以分为两大类:大模型 [2],用于微调大模型的小型模型。

[2] 这里的大模型特指标准的 latent-diffusion 模型。拥有完整的 TextEncoder、U-Net、VAE。

由于想要炼制、微调(finetune)大模型十分困难,需要好显卡、算力,所以更多的人选择去炼制小型模型。这些小型模型通过作用在大模型的不同部分,来简单的修改大模型,从而达到目的。

常见的用于微调大模型的小型模型又分为以下几种:Textual inversion (常说的Embedding模型)、Hypernetwork模型、LoRA模型。

此外,还有一种叫做 VAE 的模型,通常来讲 VAE 可以看做是类似滤镜一样的东西[3]。他会影响出图的画面的色彩和某些极其微小的细节。大模型本身里面就自带 VAE 的,但是一些融合模型的 VAE 烂掉了 (典型:Anything-v3),需要外置 VAE 的覆盖来救救。有时画面发灰就是因为这个原因。

[3] VAE,  Variational autoencoder。变分自编码器,负责将潜空间的数据转换为正常图像。

由于模型的种类不同、作用位置也不同,所以想要使用这些模型文件必须分清这些模型类别,并且正确的使用对应的方法模型才会生效。

如何区分这些模型对新手来说是一件非常困难的事情,因为他们都可以拥有一样的后缀名(下一节将详细展开说明)。通常没有专业知识的人员应该通过文件大小来简单判断模型类别。

针对此,我特意开发了这个工具来快速辨别模型种类。只需要把模型拖进来就行

链接:https://spell.novelai.dev/

2 模型种类及使用方法一览

2.1 模型后缀名之谜

目前,常见的 AI绘画 用模型后缀名有如下几种:

1. ckpt ,2. pt ,3. pth,4. safetensors,5(特殊)webui 特殊模型保存方法:PNG、WEBP图片格式。

暂且抛开第五种不谈。这几种后缀名都是标准的模型,从后缀名是无法判断具体是哪一种类的模型。

其中,1,2,3 这三种是 pytorch[2] 的标准模型保存格式,由于使用了 Pickle,会有一定的安全风险(自行百度:pickle反序列化攻击)。第四种为一种新型的模型格式,正如同他的名字,safe。为了解决前面的这几种模型的安全风险而出现的。safetensors 格式与 pytorch 的模型可以通过工具进行任意转换,只是保存数据的方式不同,内容数据没有任何区别。

[2] Pytorch, 深度学习框架 https://pytorch.org/

2.2 常见模型种类及使用方法

以下所有模型都可以保存为 safetensors 格式,故常见格式中都不再提及safentensors。

safetensors模型 需要 webui 更新到2022年12月底以后的版本才能用!!!!直接更新2023年!!!别再问了!!!

辨别模型类型请使用这个工具:https://spell.novelai.dev/

2.2.1 大模型

大模型。常见格式为 ckpt,一个字,大。大小在GB级别,常见有 2G、4G、7G模型。

模型大小不代表模型质量

使用方法:放在这个文件夹内。

在 webui 左上角选择对应的模型。

部分合并出来的大模型VAE烂掉了,画面会发灰,这时候需要你去设置中手动选择vae并应用保存。

2.2.1 Embedding (Textual inversion)

俗称的 embedding 模型。常见格式为 pt、png图片、webp图片。大小一般在 KB 级别。

使用方法:

放在这个文件夹里面,生成图片的时候需要带上 文件名 作为 tag。

例如,上面这张图里面的 shiratama_at_2-3000.pt 这个模型,使用的时候就需要带上这个tag:shiratama_at_2-3000

2.2.2 Hypernetwork

常见格式为 pt。大小一般在几十兆到几百兆不等。由于这种模型可以自定义的参数非常之多,一些离谱的 Hypernetwork 模型可以达到 GB 级别。

使用方法:放在图中文件夹内。

旧版的时候在设置里面可以找到选项,选择对应的即可使用。

新版改版了(2023年第2周左右)使用方法如图所示

2.2.3 LoRA

常见格式为 pt、ckpt。大小一般在8mb~144mb不等。

使用方法:目前有两种用法。

一种是插件方式使用,参考这个视频。

另一种是新版本,原生支持lora。

模型需要放在 models/Lora 文件夹。使用方法如图所示,点击一个模型以后会向提示词列表添加类似这么一个tag, 也可以直接用这个tag调用lora模型。

2.2.4 VAE 模型

常见格式为 .pt

使用方法:将其放在 models/VAE 文件夹。

放置完毕后,在设置页面进行如下选择并保存。

3 模型训练方式简易指导

3.1 Embedding (Textual inversion)

可训练:画风√ 人物√ | 推荐训练:人物

配置要求:显存6GB以上。

训练速度:中等 | 训练难度:中等

综合评价:☆☆☆

评价:比较基础的一种,局限性较大,但是可以用

训练教程:

3.2 Hypernetwork

可训练:画风√ 人物√ | 推荐训练:画风

配置要求:显存6GB以上。

训练速度:中等 | 训练难度:难

综合评价:☆☆

评价:非常强大的一种模型,但是想训练好很难,不推荐训练。

训练教程:不更新了

3.3 LoRA

可训练:画风? 人物√  概念√ | 推荐训练:人物

配置要求:显存8GB以上。

训练速度:快 | 训练难度:简单

综合评价:☆☆☆☆

评价:非常好训练 好出效果的人物训练,配置要求低,图要求少。

备注:LoRA 本身也应该归类到 Dreambooth,但是这里还是分开讲。

本地训练教程:

云端训练教程:

3.4 Dreambooth / Native Train

可训练:画风√ 人物√ 概念√ | 推荐训练:Dreambooth 推荐人物,Native Train 推荐画风

配置要求:显存12GB以上。

训练速度:慢 | 训练难度:可以简单可以很难

综合评价:☆☆☆☆☆

评价:微调大模型,非常强大的训练方式,但是使用上会不那么灵活,推荐训练画风用,人物使用 LoRA 训练。

训练教程:

3.5 DreamArtist

没怎么接触过,不做评论。

总结

本篇文章中介绍了不同模型种类及训练方式。由于时间仓促,并没能提供全部的训练教程

三连+关注 后续更新更多训练教程。也希望可以多多分享这篇文章,来帮助更多的人普及这些知识。本文章禁止无授权转载。

冷知识:专栏长按点赞就可以投币三连!点赞对我很重要!!



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3