别再MOV2MOV了,目前为止最好的AI动画制作教程

您所在的位置:网站首页 剪贴画制作视频教程图片素材 别再MOV2MOV了,目前为止最好的AI动画制作教程

别再MOV2MOV了,目前为止最好的AI动画制作教程

2024-07-12 19:29| 来源: 网络整理| 查看: 265

为什么要多帧混合渲染,为什么又说多帧渲染已经过时了?

controlnet的设置为什么每个教程都不一样?

为什么参数一致,我渲染出来的画面和其他人效果差很多?

为什么我的AI动画人物不会眨眼,没有生动的表情?

--------------------------

汇总了B站各大AI动画up的教程,并且实践了一个月的时间,这里想给那些有能力,并且想做AI动画的伙伴们介绍一条我总结的,简洁有效并且稳定度高的最优解。

本教程需要一些AI绘画基础,并不是面对0基础人员,如果你没有学习过stable diffusion的基本操作或者对Controlnet插件毫无了解,可以先看看秋葉aaaki等up的教程,做到会存放大模型,会安装插件并且有基本的视频剪辑能力。

--------------------------

一、准备工作

@秋葉aaaki 的最新整合包(BV1iM4y1y7oA),或者用其他整合包都可以。

Controlnet插件:https://github.com/Mikubill/sd-webui-controlnet 秋叶的包中已经整合了就可以不用下载了。

Controlnet模型:https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main下载地址。

需要至少下载softedge和depth这两个模型。

inset插件:https://github.com/ClockZinc/sd-webui-IS-NET-pro,本教程的核心之一,该插件由大江户战士的插件为基础,星瞳毒唯改良并整合。

一个优秀的大模型,这里推荐meinaMIX,截至教程时期,已经更新到V9版本,这是我认为最适合做二次元风格的大模型(https://civitai.com/models/7240/meinamix)

Tagger插件,本教程的核心之一,用于提取图片的tag,训练过lora的伙伴们应该有接触过。

--------------------------

二、AI动画的一些原理和问题

1.我听说过多帧混合,是什么原理,为什么不用?

多帧混合图例(大江户战士)

多帧混合是大江户战士开启AI动画稳定时代的一个决定性插件,简单来说,他的优势是通过一次性将三张图合并至一张渲染,来达到减小图片之间差距的作用,推动AI动画的稳定。

同时很明显的缺点就是,3张图一起渲染需要相当大的算力,一般的显卡几乎带不动高分辨率的图片,从而大多数人只能退而求其次降低分辨率。而AI动画,分辨率是决定性的因素,现在新版本的controlnet可以达到稳定性的水平,所以基本可以说多帧混合已经不适用这个新版本了。

但是大江户战士这个插件最有用的部分,并不是三张图一起渲染这么简单,而是他每张图都会读取单独的tag,从而达到更加稳定画面的作用。

这里选用的是星瞳毒唯改良并整合之后的单帧渲染脚本,仅使用一张图渲染,同时可以读取单张图的tag。不选择mov2mov的原因就在读取tag这里。

2.新版本controlnet加入了什么,为什么这么重要?

图片来自BV16P411S7c7

新版本controlnet中,对于原有处理器和对应模型做了升级,这里截取筱旒的视频讲解中一部分内容,如果你不想了解所有的处理器,那么对于以人物为主的AI动画来说,我们需要使用的就是depth和HED。

depth可以很好的分辩你的人物和背景,并且分析你人物身体部位的前后关系,如果你的原视频来自于3d模型或者真人,这个预处理器的效果就会非常出色。

HED是原来版本中的边缘及细节检测,它能够识别人物的轮廓和身体服饰等细节,这是AI动画稳定度的关键,新版本中升级成为softedge,并给出四个处理器,四个处理器讲解可以参考V16P411S7c7,这里直接选择PIDInet做案例。

3.为什么选择meinaMIX?

meinamix

AI动画让人困扰的有时候是,你重绘拉高了画面波动就变大了,重绘拉低了和原图感觉没什么区别,我又想二次元感觉多一些,又想多保留一些人物特征在。

那么我推荐meinaMIX大模型,这个模型非常万能,不需要VAE,不论是挂群机器人api生图,还是自己作图,不需要非常严格的tag都能出非常好的效果,同时对于AI动画来说,是我尝试过无数模型后选择的最优解。

(左)MMD截图(右)Meinamix的AI绘画效果

4.为什么不用mov2mov?

首先单帧预读tag的能力mov2mov是不具备的,这个功能是实现稳定的一个重要要素。

其次单帧/多帧渲染可以实时观察生成图片效果,及时中断并调整图片,并且可以继续工作,对于崩坏帧、错误帧可以单独提出来修改。还可以将一个文件分给几台电脑同时渲染,操作上繁琐一些,我一般就是用2-3台电脑同时跑一个任务。

 而mov2mov很难做到这一点。

5.为什么我的AI动画人物不会眨眼,没有生动的表情?

其实看AI动画的表情可以判断一个作者究竟是用了什么参数。

没有表情的动画有几种可能:

是原视频MMD就没有表情参数,甚至没有做眨眼

锁了SEED(大概率),或者人物Lora权重过高(小概率)

人物脸部占画面比例过小。

本教程中建议不是特殊情况不要锁seed,正面作用没有负面大。

三、操作流程

1.选取素材。

视频素材非常重要,不论是你自己找的跳舞视频或者音乐MV,或者自己做的MMD,游戏录像。人物尽量和背景差距较大,受到的干扰少。人物占比要大,及时是竖屏视频,也最好做好裁切,人物占比每大一分,ai绘图的细节就会完全不同。

2.视频切片。

isnet_pro插件截图

主要有两种方法,第一是安装的isnet插件中,视频生成“帧”功能,在这里拖入预制好的视频,选择输出帧率(每秒多少张),选择裁切时间,粘贴进输出文件夹地址。点击gene frame即可生成。

mov2mov插件也有同样的功能。

第二种发放是通过PR软件,另存为JPG序列,这里不做过多说明。

3.生成TAG

使用Tagger插件(秋叶的包自带这个插件,没有的可以自行安装)

在批量处理文件夹中,填入输入目录,也就是图片序列的目录,输出目录不填写。

注意底下排除提示词,如果你觉得图片中有些你认为识别会误导分析的元素,填写在这里。比如我制作洛天依的视频,我会填入black hair,让它默认去掉黑色头发的tag,避免发色混乱。

或者你是一个裸 足的视频,可以加入barefoot,避免将反光识别成白色袜子等。

填写好之后,点击反推提示词。

然后等待每一张图片的txt文本生成。

等全部tag跑完之后,点击卸载所有反推模型,完成这一步,如果不卸载会占用大量显存,影响下一步操作。

4.参数填写。

正向提示词中填入masterpiece, best quality,以及人物的lora(如果有的话),其他的提示词不要过多填写,脚本会读取txt中的tag。

负面提示词尽量少填,简明扼要。

采样方法选择DPM++ 2M Karras

宽度和高度严格按照你生成的切片宽高填写(可以右键图片属性查看)。

重绘幅度在0.55起测试,如果波动较大就调小,如果效果不明显就调大,这里是第一个需要在跑图中调整的参数。

Controlnet第一个选择depth_zoe,模型选择下载的depth新模型,权重为1,其他的不变。

Controlnet第二个选择softedge_pidinet或者HED,模型选择softedge,

权重在0.6起步,如果测试画面变化较大,则调大该数值,最高到1.

脚本选择multi-frame rendering

输入输入和输出的目录

将重绘幅度选择和上面一样的数值

勾选“单图模式”和“read tags from text files”

最后回到最上方,点击生成即可。

点击生成后可以在目标文件夹中看到图片一张张的生成,如果存在问题,可以中断生成进程,修改参数,并重新点击生成按钮。

5.合并序列

在PR中或者inset_pro中将生成的图片合成视频,按照要求填写参数即可。

以上整个流程中,需要你测试的参数只有两个,

一个是重绘幅度,在0.5-0.7之间调整,记住脚本中的重绘幅度也需要同步调整。

第二个是softedge的权重,这个代表了你生成图像和原本图形的相似度,如果你不想测试那就直接拉到1,如果你的画面变化不大,那么可以尝试使用0.6-1之间的权重,达到更好的画面效果。

四、总结

controlnet为画面创造了非常多的可能性,教程中几个模型目前也是测试阶段,就已经表现出了惊人的效果。在后续的版本中我相信会有更大的突破。

操作看起来繁琐,但是想要追求良好的最终效果,没有哪种方法是简单的,大量的up在前方探索了道路,我也经历了非常多的尝试,才总结出来这些内容。

看到b站推送的一些粗制滥造的AI动画,播放量不低,那些用心的教程,插件的设计作者反而关注寥寥,有些感慨。我也希望一些已经火了的up,能够通过这个教程,掌握好depth和softedge的使用,能够用好单帧渲染,把AI动画质量提升起来。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3