别再MOV2MOV了，目前为止最好的AI动画制作教程

您所在的位置：网站首页 › 剪贴画制作视频教程图片素材 › 别再MOV2MOV了，目前为止最好的AI动画制作教程

别再MOV2MOV了，目前为止最好的AI动画制作教程

2024-07-12 19:29| 来源: 网络整理| 查看: 265

为什么要多帧混合渲染，为什么又说多帧渲染已经过时了？

controlnet的设置为什么每个教程都不一样？

为什么参数一致，我渲染出来的画面和其他人效果差很多？

为什么我的AI动画人物不会眨眼，没有生动的表情？

--------------------------

汇总了B站各大AI动画up的教程，并且实践了一个月的时间，这里想给那些有能力，并且想做AI动画的伙伴们介绍一条我总结的，简洁有效并且稳定度高的最优解。

本教程需要一些AI绘画基础，并不是面对0基础人员，如果你没有学习过stable diffusion的基本操作或者对Controlnet插件毫无了解，可以先看看秋葉aaaki等up的教程，做到会存放大模型，会安装插件并且有基本的视频剪辑能力。

--------------------------

一、准备工作

@秋葉aaaki 的最新整合包（BV1iM4y1y7oA），或者用其他整合包都可以。

Controlnet插件：https://github.com/Mikubill/sd-webui-controlnet 秋叶的包中已经整合了就可以不用下载了。

Controlnet模型：https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main下载地址。

需要至少下载softedge和depth这两个模型。

inset插件：https://github.com/ClockZinc/sd-webui-IS-NET-pro，本教程的核心之一，该插件由大江户战士的插件为基础，星瞳毒唯改良并整合。

一个优秀的大模型，这里推荐meinaMIX，截至教程时期，已经更新到V9版本，这是我认为最适合做二次元风格的大模型（https://civitai.com/models/7240/meinamix）

Tagger插件，本教程的核心之一，用于提取图片的tag，训练过lora的伙伴们应该有接触过。

--------------------------

二、AI动画的一些原理和问题

1.我听说过多帧混合，是什么原理，为什么不用？

多帧混合图例（大江户战士）

多帧混合是大江户战士开启AI动画稳定时代的一个决定性插件，简单来说，他的优势是通过一次性将三张图合并至一张渲染，来达到减小图片之间差距的作用，推动AI动画的稳定。

同时很明显的缺点就是，3张图一起渲染需要相当大的算力，一般的显卡几乎带不动高分辨率的图片，从而大多数人只能退而求其次降低分辨率。而AI动画，分辨率是决定性的因素，现在新版本的controlnet可以达到稳定性的水平，所以基本可以说多帧混合已经不适用这个新版本了。

但是大江户战士这个插件最有用的部分，并不是三张图一起渲染这么简单，而是他每张图都会读取单独的tag，从而达到更加稳定画面的作用。

这里选用的是星瞳毒唯改良并整合之后的单帧渲染脚本，仅使用一张图渲染，同时可以读取单张图的tag。不选择mov2mov的原因就在读取tag这里。

2.新版本controlnet加入了什么，为什么这么重要？

图片来自BV16P411S7c7

新版本controlnet中，对于原有处理器和对应模型做了升级，这里截取筱旒的视频讲解中一部分内容，如果你不想了解所有的处理器，那么对于以人物为主的AI动画来说，我们需要使用的就是depth和HED。

depth可以很好的分辩你的人物和背景，并且分析你人物身体部位的前后关系，如果你的原视频来自于3d模型或者真人，这个预处理器的效果就会非常出色。

HED是原来版本中的边缘及细节检测，它能够识别人物的轮廓和身体服饰等细节，这是AI动画稳定度的关键，新版本中升级成为softedge，并给出四个处理器，四个处理器讲解可以参考V16P411S7c7，这里直接选择PIDInet做案例。

3.为什么选择meinaMIX？

meinamix

AI动画让人困扰的有时候是，你重绘拉高了画面波动就变大了，重绘拉低了和原图感觉没什么区别，我又想二次元感觉多一些，又想多保留一些人物特征在。

那么我推荐meinaMIX大模型，这个模型非常万能，不需要VAE，不论是挂群机器人api生图，还是自己作图，不需要非常严格的tag都能出非常好的效果，同时对于AI动画来说，是我尝试过无数模型后选择的最优解。

(左)MMD截图（右）Meinamix的AI绘画效果

4.为什么不用mov2mov？

首先单帧预读tag的能力mov2mov是不具备的，这个功能是实现稳定的一个重要要素。

其次单帧/多帧渲染可以实时观察生成图片效果，及时中断并调整图片，并且可以继续工作，对于崩坏帧、错误帧可以单独提出来修改。还可以将一个文件分给几台电脑同时渲染，操作上繁琐一些，我一般就是用2-3台电脑同时跑一个任务。

而mov2mov很难做到这一点。

5.为什么我的AI动画人物不会眨眼，没有生动的表情？

其实看AI动画的表情可以判断一个作者究竟是用了什么参数。

没有表情的动画有几种可能：

是原视频MMD就没有表情参数，甚至没有做眨眼

锁了SEED（大概率），或者人物Lora权重过高（小概率）

人物脸部占画面比例过小。

本教程中建议不是特殊情况不要锁seed，正面作用没有负面大。

三、操作流程

1.选取素材。

视频素材非常重要，不论是你自己找的跳舞视频或者音乐MV，或者自己做的MMD，游戏录像。人物尽量和背景差距较大，受到的干扰少。人物占比要大，及时是竖屏视频，也最好做好裁切，人物占比每大一分，ai绘图的细节就会完全不同。

2.视频切片。

isnet_pro插件截图

主要有两种方法，第一是安装的isnet插件中，视频生成“帧”功能，在这里拖入预制好的视频，选择输出帧率（每秒多少张），选择裁切时间，粘贴进输出文件夹地址。点击gene frame即可生成。

mov2mov插件也有同样的功能。

第二种发放是通过PR软件，另存为JPG序列，这里不做过多说明。

3.生成TAG

使用Tagger插件（秋叶的包自带这个插件，没有的可以自行安装）

在批量处理文件夹中，填入输入目录，也就是图片序列的目录，输出目录不填写。

注意底下排除提示词，如果你觉得图片中有些你认为识别会误导分析的元素，填写在这里。比如我制作洛天依的视频，我会填入black hair，让它默认去掉黑色头发的tag，避免发色混乱。

或者你是一个裸足的视频，可以加入barefoot，避免将反光识别成白色袜子等。

填写好之后，点击反推提示词。

然后等待每一张图片的txt文本生成。

等全部tag跑完之后，点击卸载所有反推模型，完成这一步，如果不卸载会占用大量显存，影响下一步操作。

4.参数填写。

正向提示词中填入masterpiece, best quality,以及人物的lora（如果有的话），其他的提示词不要过多填写，脚本会读取txt中的tag。

负面提示词尽量少填，简明扼要。

采样方法选择DPM++ 2M Karras

宽度和高度严格按照你生成的切片宽高填写（可以右键图片属性查看）。

重绘幅度在0.55起测试，如果波动较大就调小，如果效果不明显就调大，这里是第一个需要在跑图中调整的参数。

Controlnet第一个选择depth_zoe，模型选择下载的depth新模型，权重为1，其他的不变。

Controlnet第二个选择softedge_pidinet或者HED，模型选择softedge，

权重在0.6起步，如果测试画面变化较大，则调大该数值，最高到1.

脚本选择multi-frame rendering

输入输入和输出的目录

将重绘幅度选择和上面一样的数值

勾选“单图模式”和“read tags from text files”

最后回到最上方，点击生成即可。

点击生成后可以在目标文件夹中看到图片一张张的生成，如果存在问题，可以中断生成进程，修改参数，并重新点击生成按钮。

5.合并序列

在PR中或者inset_pro中将生成的图片合成视频，按照要求填写参数即可。

以上整个流程中，需要你测试的参数只有两个，

一个是重绘幅度，在0.5-0.7之间调整，记住脚本中的重绘幅度也需要同步调整。

第二个是softedge的权重，这个代表了你生成图像和原本图形的相似度，如果你不想测试那就直接拉到1，如果你的画面变化不大，那么可以尝试使用0.6-1之间的权重，达到更好的画面效果。

四、总结

controlnet为画面创造了非常多的可能性，教程中几个模型目前也是测试阶段，就已经表现出了惊人的效果。在后续的版本中我相信会有更大的突破。

操作看起来繁琐，但是想要追求良好的最终效果，没有哪种方法是简单的，大量的up在前方探索了道路，我也经历了非常多的尝试，才总结出来这些内容。

看到b站推送的一些粗制滥造的AI动画，播放量不低，那些用心的教程，插件的设计作者反而关注寥寥，有些感慨。我也希望一些已经火了的up，能够通过这个教程，掌握好depth和softedge的使用，能够用好单帧渲染，把AI动画质量提升起来。

【本文地址】

别再MOV2MOV了，目前为止最好的AI动画制作教程

别再MOV2MOV了，目前为止最好的AI动画制作教程

今日新闻

推荐新闻