AI作画离线版V4.1，Stable Diffusion动画、Dream Booth训练、音视频转字幕功能来啦！

您所在的位置：网站首页 › vue图片转绘画显示 › AI作画离线版V4.1，Stable Diffusion动画、Dream Booth训练、音视频转字幕功能来啦！

AI作画离线版V4.1，Stable Diffusion动画、Dream Booth训练、音视频转字幕功能来啦！

2024-01-29 10:32| 来源: 网络整理| 查看: 265

好久没更新了，本周V4.1带来了非常多的功能，主要是Stable Diffusion动画、Dream Booth训练以及音视频转字幕功能。

V4.1版本：2022-10-13

1、Stable Diffusion（下面简称SD）作画功能支持2D动画功能（支持参考图模式，选择参考图，即可以参考图引导动画帧生成；支持三轴移动、缩放、角度调整等）、参考视频功能，动画模式2D输入描述支持帧数设置，如下换行描述（三个冒号后面跟着帧序号）：

a:::10

b:::20

c:::30

代表，a描述有10帧，b描述20帧。。。。

2、加入Dream Booth模型训练功能，CPU和显卡两种方式都可以，显卡目前24G显存可以，CPU训练内存32G以上估计就可以；鼠标悬停训练参数旁边的问号有参数解释；训练完成后会自动在模型目录对11GB大小的模型进行裁剪到2GB大小；支持DB断点模型选择；模型名字显示步数； 3、SD作画增加局部修改功能，点击局部修改按钮，对图片继续涂鸦，即可局部修改，不过此功能效果有些图片有限； 4、SD文字描述支持负描述，所谓负描述就是不想让画面出现的元素； 5、SD支持调用第三方的ckpt格式的SD模型，SD参数设置下方选择自定义模型按钮即可； 6、SD支持图片仿造功能，不过需要至少16G显存，SD参数设置最下方，选择待仿造图片，无需描述，即可生成类似风格图片； 7、SD作画16代显卡黑图问题修复，SD设置里勾选16代即可； 8、伴奏人声分离4G显卡可以用了，伴奏人声分离设置勾选低显存占用模式即可； 9、加入音视频转文字功能，批量选择音视频，即可生成srt字幕文件和纯文字txt版文件，支持大量国外语言； 10、修复图片转3D找不到图片的报错问题； 11、修复图片高清放大、老照片修复，DD或SD作画写到图片的配置丢失问题。

01 软件概览

软件名字叫做：AI作画离线版V4.1(基于Disco Diffusion 5.6与Stable Diffusion 1.4），基于GitHub上的开源项目Disco Diffusion与Stable Diffusion。如下，软件主界面，还是以操作简单为主：

02 软件安装

软件非常大，因为有很多离线模型，下载完成后，按照网盘里的pdf教程即可进行体验。软件界面如下所示：

03 软件功能

介绍功能一：DD(Disco Diffusion)作画软件目录文件夹的settings.json就是作图配置文件，当然离线版本可通过界面进行设置了。

1、描述词设定：描述词之前手动修改json文件经常有小伙伴少输入标点导致出错，界面化可以避免这个问题，如下默认的描述，每段（回车换行算一段）都是同一描述的不同权重关键词。

上面的描述对应的手动修改json如下，也就是界面化无需引号、逗号来分割同一描述的不同权重部分。

队列模式下的描述词设定：当如下勾选了队列模式后，通过固定的句式，可以生成大量的配置文件，也就可以实现生成多套参数的图。

比如我的文字描述这样描述：a beautiful girl by {400|1|艺术家}，当点击保存设置后就会生成400个艺术家的不同配置文件。注意这个格式{400|1|艺术家}中的{}、|这些不能缺少，完全按照固定格式来，400代表生成400个配置文件，1代表by一个艺术家名字（如果设置成2就代表by两个艺术家名字混搭），艺术家代表的是软件目录下【描述风格库】文件夹下的艺术家.csv文件，而艺术家.csv文件如下所示，两列数据：

软件支持各位自建这种语料库，大家可以复制csv建立副本，然后在副本里修改，注意也是按照两列格式来，第一列是描述，第二列是解释。比如下面我建的颜色.csv文件，简单写了一下，也是一定严格两列来哈，且都放在软件目录下的【描述风格库】文件夹。

2、帮助相关：对于大多数参数，都加入了帮助按钮，鼠标划到对应帮助图标，驻留即可显示参数含义，如下所示，当然大多数都是翻译的官方文档，加入自己的一点注解。

如果想要加入自己对参数的注释，可以修改软件目录下的tip.json，如下对应的描述修改即可，\n为换行。

3、参考图：参考图也人性化了，直接点击按钮选择图片即可，注意看参数旁边的问号，一般加入参考图时，skip_steps这个参数需要设置大一些。

参考图的可玩性很高，比如下面的图都是基于参考图，用的自定义模型人像1.5，AI继续绘制的，有的图我也不用贴上参考图了吧：

队列模式下的参考图：当如下勾选了队列模式后，可以批量选择多张参考图，可以生成大量的配置文件，也就可以实现生成相同参数但参考图不同的图。

4、AI作画模型选择：参数设置里提供两种绘图Diffusion模型引擎选择，原版DD、像素版DD以及其他自定义的PT格式模型，如下图设置：

像素模式作画引擎也可以试试，如下就是像素风格的图，也挺有意思：

自定义模型比如选择国画风或者人像的PT模型文件，然后保存设置即可。

如下演示的是国画模型和人像1.5模型的测试样图：

5、扩散模型训练：上面的自定义模型，诸如人像和国画都可以通过训练来实现，如下点击自己训练Diffusion模型按钮即可打开训练设置界面，4.1版本支持在原来的模型基础上继续训练，支持训练多少步停下训练，具体操作可以看视频：https://www.bilibili.com/video/BV1Ca411S71s。

6、提前终止作画：当作画步数超过5步时，点击提前终止按钮即可终止作画，如下动图所示：

7、导入配置：支持导入图片输出目录images_out文件下的DD作画json配置文件或者生成的图片，如下点击导入配置按钮即可：

默认写入作图参数到输出图片中，考虑到隐私问题，软件支持去掉此功能，如下去掉勾选即可：

8、AI图片描述解析：如下按钮点击，选择图片，稍等片刻即可显示出描述，当然这个描述有所出入，但当作描述来用画出的图也确实不错。

下面演示几张图，解析出来的描述：a couple of people riding bikes down a road, a matte painting by Makoto Shinkai, featured on pixiv, rayonism, official art, anamorphic lens flare, matte painting

a group of iron man standing next to each other in the ocean, a comic book panel by Paul Pelletier, featured on deviantart, antipodeans, marvel comics, reimagined by industrial light and magic, imax

a painting of a landscape with mountains and trees, a detailed matte painting by Katsukawa Shunsen, pixiv, shin hanga, ukiyo-e, matte painting, detailed painting

a painting of a man with flowers in his lap, an ultrafine detailed painting by Albert Swinden, pexels, metaphysical painting, creative commons attribution, chalk art, detailed painting

功能二：SD(Stable Diffusion)作画

SD作画功能和DD功能基本一致，同样支持队列模式、参考图等功能，SD作画速度更快，且画的更加具象，下面主要介绍SD的参数设置。同样SD也是具有文字描述和参考图功能，还有一些其他参数，大家可以鼠标悬停到参数旁边的问号就会有说明。

1、描述词设定：描述词句式基本和DD一样，但SD作画多了个负描述，负描述默认可以不写，负描述如果写，就代表不想让绘画结果出现的元素。

2、绘图参数：图片尺寸和DD一样，需要64的倍数，当然随便填写尺寸也行，软件会自动转换；绘图步数和DD类似，不过SD步数50就够了，多了没啥意义；绘制图片轮数代表每次画几张图；描述相关度默认数值就可以，当然可以尝试10以上数值；随机种子默认0，代表每次种子随机，设置大于零的固定值，如果其他参数一样，则SD出图完全一样，这点和DD不一样哈。

3、显存占用模式选择：软件提供不同显存占用模式：适中、低、很低、非常低、高和极高几种模式，其中非常低可以实现4G显存画出1024×1024极限尺寸，当然速度也比较慢，且至少需要16G内存；而高可以实现自适应显存占用，速度比较均衡。

4、16代黑图问题：针对GTX 16系列，诸如1660等显卡，SD作画会黑图，需要勾选如下选项，可以正常出画。

5、参考图：和DD一样，SD也支持参考图，不过参数比较简单，基本上就是导入原图，修改描述，设置图片差异度参数即可，注意差异度参数范围0-1，1代表与参考图差异最大哈。

如下，试试SD参考图，实现真人参考图用二次元描述实现真人二次元效果：

6、动画：SD动画选择2D，即可开启动画模式，动画也可以设置参考图，支持动画变化角度、缩放大小、xyz轴移位等。

文字描述需要如下格式，每一次换行都是一个过渡描述，每个过渡描述末尾三个冒号后面跟着的数字，代表动画帧数。

SD动画如果选择参考视频，则可以导入视频，实现视频风格转换，参考视频模式下，就和逐帧参考图一个意思了，只是比较便捷。

7、自定义SD模型选择：支持选择第三方ckpt格式的SD模型，如下所示，选择ckpt所在路径即可实现利用第三方ckpt模型作画。

8、图片风格仿造：这个功能需要至少16G显存，无需描述，导入图片即可实现图片仿造，目前仅是个实验功能，效果不是太稳定，如下仿造下面这张图：

如下为仿造的两张图：

9、局部修改：如下点击局部修改按钮，可以实现涂鸦部分区域实现局部修改功能，此功能效果也比较有限，换脸什么的还可以，如下演示：

10、Dream Booth训练：DB训练是非常厉害的一个功能，如下点击打开进入DB训练界面：

DB训练是非常厉害的一个功能，如下点击打开进入DB训练界面，DB实现的功能是学会你训练图片的风格或者相貌。我来举个例子，我训练图和正则图都选择四张滑稽表情。

然后标识词写做huaxiaoji，项目名随便写我来举个例子，我训练图和正则图都选择四张滑稽表情；训练设备支持CPU（需要16G内存，挺慢）和显卡（需要24G显存），模型尺寸256和512选择，我选择256就不错，后面参数是ckpt模型保存及训练停止步数，一般400-800步效果不错。

训练完后，在模型输出目录找到ckpt文件，然后SD模型自定义选择这个ckpt文件，正常描述即可，注意描述里带着huaxiaoji标识词，如下都是滑稽模型出的图：

当然参考图也支持哈，人像二次元滑稽化，如下所示：

功能三：图片AI高清放大

设置不同的放大模型和图片放大倍数，高清放大图片输出目录为软件目录\images_out\AI_ultra_HD，当输入的图片尺寸很大时，容易超显存，这时我们修改拼图大小这个参数即可，比如设置拼图大小512时，6G显存选择realesrgan_x4plus模型对1920*1080图片进行4倍放大测试不超显存。

AI高清放大是一个免费的独立功能，如下软件主界面点击高清放大按钮，选择图片（支持批量），即可高清放大图片。

如下，小图经过高清放大的对比效果，二次元和三次元都能胜任。

功能四：老照片修复

如下软件主界面点击老照片修复按钮，选择图片（支持批量），即可高清修复老照片，仅对人像进行高清修复。

如下，经过高清人脸修复对比效果动图演示：

功能五：AI图片转3D

AI图片转3D输出视频目录：软件目录\video；AI图片转3D也是一个独立免费功能，如下参数设置可以设置生成视频时长和摄像头位置（位置一般不改）：

然后，如下软件主界面点击图片转3D，选择图片（支持批量），转换图片成如下的视频形式，这个转换速度较慢，5到30分钟一张图。

基本上就是原作项目介绍的这种效果，一张精图转换成3D的效果，不过相比原作我做了改进，支持原图尺寸大小的视频。

功能六：图片风格仿造

如下点击图片风格仿造按钮，选择图片即可自动出几张风格相近的图，此功能需要至少10GB显存，参数设置可以设置每次仿造图片数。

功能七：二次元生成

如下点击二次元小姐姐生成按钮，即可绘制上百张二次元图片：

如下可在参数设置里，设置各种参数以生成不同类型的二次元小姐姐：

功能八：三次元生成

和二次元生成功能一样，如下点击三次元生成按钮，即可绘制多张三次元全身图：

如下可在参数设置里，设置各种参数以生成不同类型的三次元图片：

功能九：AI写小说

如下点击AI写小说按钮，设置开头，即可续写不同轮数的文字：

点击训练小说，如下可以选择自己的小说语料txt，训练自己的模型：

功能十：伴奏人声分离

如下点击伴奏人声分离按钮，选择歌曲（支持批量），即可自动分离人声、伴奏、鼓点和低音，效果很厉害。

若显存4G及以下，可以如下参数设置勾选低显存占用模式即可：

功能十一：音视频转文字

如下点击音视频转文字按钮，选择音频或者视频，即可进行语音识别，输出字幕和文字版txt文件。

音视频转文字功能，支持很多国家语言，若选择汉语，则不过什么语言的音视频，最终都会自动翻译成中文字幕和txt文件，方便快捷，不过翻译效果有限，最好还是选择原视频语言进行识别。

如下，选取的日文视频演讲识别字幕效果，红框为软件识别自动翻译的字幕：

04 显卡要求

需要至少3GB显存，且必须是英伟达显卡，AMD、intel等不支持。各种显存测试参数可参考：https://docs.qq.com/sheet/DTGxSSkNJcnVhV1VP。

05 激活

软件点击AI作画按钮后，会弹出激活窗设定，按照指示联系我获取激活码即可。

06 小结

这个项目确实很有意思，唯一的问题就是对显卡要求高，最起码需要英伟达3G及以上显存，AMD等其他显卡不支持，感兴趣的可以体验一下4.1版本了，更详细的作图参数、教程多刷刷B站相关视频即可。

【本文地址】

AI作画离线版V4.1，Stable Diffusion动画、Dream Booth训练、音视频转字幕功能来啦！

AI作画离线版V4.1，Stable Diffusion动画、Dream Booth训练、音视频转字幕功能来啦！

今日新闻

推荐新闻