deepfacelab DFL基础扫盲篇!

您所在的位置:网站首页 万能Xseg模型 deepfacelab DFL基础扫盲篇!

deepfacelab DFL基础扫盲篇!

2024-07-17 14:06| 来源: 网络整理| 查看: 265

第 1 步 - DFL 基础知识

DeepFaceLab 2.0由几个 .bat 组成,这些脚本用于运行创建 deepfakes 所需的各种进程,在主文件夹中你会看到

它们和 2 个文件夹:

_internal - 内部文件,使 DFL 工作的东西,不要敏感!

工作区——这是您的模型、视频、帧、数据集和最终视频输出所在的位置。

基本术语:

SRC - 总是指我们试图将其面部交换到目标视频或照片中的人的内容(帧、面部)。

SRC set/SRC dataset/Source dataset/SRC faces - 提取的人脸(源人脸的平方比图像文件,包含附加数据,如地

标、掩码、xseg 标签、原始帧上的位置/大小/旋转)我们正在尝试换成视频。

DST - 总是指我们在其中交换面孔的目标视频(或 DST/DST 视频)中的内容(帧、面孔)。

DST set/DST dataset/Target dataset/DST faces - 提取的目标人脸的集合我们将替换为与 SRC 相似、相同格式并

包含与 SRC 面孔相同类型的数据。

帧 - 从源视频或目标视频中提取的帧,在提取帧后,它们分别放置在“data_src”或“data_dst”文件夹中。

Faces - 从使用的视频或照片中提取的原始帧中提取的面部 SRC/DST 图像。

模型 - 构成用户可以创建/训练的 SAEHD、AMP 和 XSeg 模型的文件集合,所有这些都放在“工作区”文件夹内的

“模型”文件夹中,基本描述模型如下(稍后在指南中更详细) ):

1. SAEHD - 最流行和最常用的模型,基于不同的体系结构有几种不同的变体,每个都有自己的优点和缺点,但一

般来说,当 SRC 和 DST 有一些相似之处时,它意味着交换面孔,特别是一般面孔/头部形状。可以自由重复使

用、预训练,并且通常可以提供质量不错的快速结果,但某些架构可能会遭受低相似度或光线和颜色匹配不佳的

困扰。

2. AMP - 新的实验模型,可以更好地适应源数据并保留其形状,这意味着您可以使用它来交换看起来完全不同的

面孔,但这需要手动合成,因为 DFL 没有更高级的遮罩技术,例如背景修复. 与 SAEHD 不同的是,它没有不同的

架构可供选择,而且在重用方面不太通用,需要更长的训练时间,也没有预训练选项,但可以提供更高的质量,

结果看起来更像 SRC。

3. Quick 96 - 测试模型,采用SAEHD DF-UD 96分辨率参数和Full Face人脸类型,用于快速测试。

4. XSeg - 用户可训练的遮罩模型,用于为 SRC 和 DST 面部生成更精确的遮罩,可以排除各种障碍物(取决于

SRC 和 DST 面部上的用户标签),DFL 带有经过训练的通用全脸遮罩模型,如果您可以使用不想立即创建自己的

标签。

XSeg 标签 - 用户在 XSeg 编辑器中创建的定义面部形状的标签,也可能包括排除(或首先不包括)SRC 和 DST 面

部障碍物,用于训练 XSeg 模型以生成掩码。

面具 - 由 XSeg 模型生成,需要面具来定义应该训练的面部区域(无论是 SRC 还是 DST 面部),以及定义合并期

间最终掩蔽 (DST) 所需的形状和障碍物。默认情况下,一种基本面具也嵌入到提取的面部中,它源自面部标志,

它是一种基本面具,可用于使用全脸模型或更低的面部类型进行基本交换(稍后将详细介绍面部类型和面具)指

南)

现在您已经了解了一些基本术语,是时候弄清楚您到底想做什么了。

根据您要面对的视频的复杂程度,您可能只需要很少的采访,或者您可能需要收集更多的源内容来创建您的 SRC

数据集,其中可能还包括高分辨率照片、电影、电视节目和依此类推,我们的想法是构建一个包含目标视频中存

在的尽可能多的角度、表情和光照条件的集合,因为你可能会怀疑这是制作好的 deepfake 最重要的部分,但并

不总是可能的找到所有需要的镜头,因此即使您学会了所有技巧和技术,您制作的所有视频也永远无法获得

100% 的成功,除非您只专注于非常简单的视频。请记住,这与面孔的数量无关,而与表情的多样性有关,

一个好的 deepfake 还需要你的源人和目标人的头部形状相似,虽然可以交换看起来完全不同的人,新的 AMP 模

型承诺稍微解决不同脸型的问题,但宽度仍然很重要头部的长度以及下巴、下巴和面部的一般比例相似,以获得

最佳效果。如果两个人的表情也差不多那就更好了。

假设您知道您将使用什么视频作为目标,您收集了大量源数据来创建源集,或者至少确保有足够的数据并且质量

很好,无论是您的源人还是目标人有类似形状的头,现在我们可以继续实际创建视频的过程,请按照以下步骤操

作:

第 2 步 - 工作区清理/删除:

1) Clear Workspace - 删除“workspace”文件夹中的所有数据,当你下载新版本的DFL时,“workspace”文件夹中

默认有一些演示文件,你可以用它来练习你的第一个假动作,你可以删除它们手动或使用此 .bat 来清除您的“工

作区”文件夹,但由于您很少在完成项目后删除模型和数据集,因此此 .bat 基本上无用且危险,因为您可能会不

小心删除所有工作,因此我推荐您删除这个.bat。

第 3 步 - 源内容收集和提取:

要创建高质量的源数据集,您需要找到主题的源材料,可以是照片或视频,视频是首选,因为需要覆盖所有可能

的面部外观的各种表情和角度,以便模型可以正确地学习它,另一方面,照片通常提供出色的细节,非常适合简

单的正面场景,并且会提供更清晰的结果。您还可以组合视频和照片。以下是您需要确保的一些事项,以便您的

源数据集尽可能好。

1. 视频/照片应涵盖所有或至少大部分可能的面部/头部角度- 向上、向下、向左、向右、直视镜头以及介于两者之

间的一切,实现这一目标的最佳方法是使用不止一次采访和多部电影,而不是依赖单一视频(主要是一个角度和

一些小的变化和一种照明类型)。

提示: 如果您的 DST 视频不包含某些角度(如侧面轮廓)或照明条件,则无需包含具有此类照明和角度的源,

您可以创建一个仅适用于特定类型的角度和照明的源集,或者创建一个更大更通用的集合,应该适用于多个不同

的目标视频。这取决于您将使用多少不同的视频,但请记住,使用太多不同的来源实际上会降低结果的相似性,

如果您可以覆盖所有角度并且所需的照明条件很少且来源较少,那么实际上使用较少的内容总是更好从而使 SRC

集更小。

2. 视频/照片应涵盖所有不同的面部表情- 包括张开/闭合的嘴巴、张开/闭上的眼睛、微笑、皱眉、眼睛看向不同

的方向 - 表情的多样性越多,效果越好。

3. 源内容应该是一致的——你不希望模糊、低分辨率和严重压缩的面孔与清晰、锐利和高质量的面孔相邻,所以

你应该只使用你能找到的质量最好的视频和照片,如果你能的话t 或某些角度/表情仅出现在较低质量/模糊的视

频/照片中,那么您应该保留这些并尝试放大它们。

可以使用 Topaz 等软件直接在帧或视频上进行升级,或者在 DFDNet、DFL Enhance、Remini、GPEN 等人脸

(提取后)上进行升级(新的升级方法一直在创造,机器学习也在不断发展)。

提示:在以下情况下,良好的一致性尤为重要:留胡子的

效果



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3