deepfacelab DFL基础扫盲篇！

您所在的位置：网站首页 › 万能Xseg模型 › deepfacelab DFL基础扫盲篇！

deepfacelab DFL基础扫盲篇！

2024-07-17 14:06| 来源: 网络整理| 查看: 265

第 1 步 - DFL 基础知识

DeepFaceLab 2.0由几个 .bat 组成，这些脚本用于运行创建 deepfakes 所需的各种进程，在主文件夹中你会看到

它们和 2 个文件夹：

_internal - 内部文件，使 DFL 工作的东西，不要敏感！

工作区——这是您的模型、视频、帧、数据集和最终视频输出所在的位置。

基本术语：

SRC - 总是指我们试图将其面部交换到目标视频或照片中的人的内容（帧、面部）。

SRC set/SRC dataset/Source dataset/SRC faces - 提取的人脸（源人脸的平方比图像文件，包含附加数据，如地

标、掩码、xseg 标签、原始帧上的位置/大小/旋转）我们正在尝试换成视频。

DST - 总是指我们在其中交换面孔的目标视频（或 DST/DST 视频）中的内容（帧、面孔）。

DST set/DST dataset/Target dataset/DST faces - 提取的目标人脸的集合我们将替换为与 SRC 相似、相同格式并

包含与 SRC 面孔相同类型的数据。

帧 - 从源视频或目标视频中提取的帧，在提取帧后，它们分别放置在“data_src”或“data_dst”文件夹中。

Faces - 从使用的视频或照片中提取的原始帧中提取的面部 SRC/DST 图像。

模型 - 构成用户可以创建/训练的 SAEHD、AMP 和 XSeg 模型的文件集合，所有这些都放在“工作区”文件夹内的

“模型”文件夹中，基本描述模型如下（稍后在指南中更详细） ):

1. SAEHD - 最流行和最常用的模型，基于不同的体系结构有几种不同的变体，每个都有自己的优点和缺点，但一

般来说，当 SRC 和 DST 有一些相似之处时，它意味着交换面孔，特别是一般面孔/头部形状。可以自由重复使

用、预训练，并且通常可以提供质量不错的快速结果，但某些架构可能会遭受低相似度或光线和颜色匹配不佳的

困扰。

2. AMP - 新的实验模型，可以更好地适应源数据并保留其形状，这意味着您可以使用它来交换看起来完全不同的

面孔，但这需要手动合成，因为 DFL 没有更高级的遮罩技术，例如背景修复. 与 SAEHD 不同的是，它没有不同的

架构可供选择，而且在重用方面不太通用，需要更长的训练时间，也没有预训练选项，但可以提供更高的质量，

结果看起来更像 SRC。

3. Quick 96 - 测试模型，采用SAEHD DF-UD 96分辨率参数和Full Face人脸类型，用于快速测试。

4. XSeg - 用户可训练的遮罩模型，用于为 SRC 和 DST 面部生成更精确的遮罩，可以排除各种障碍物（取决于

SRC 和 DST 面部上的用户标签），DFL 带有经过训练的通用全脸遮罩模型，如果您可以使用不想立即创建自己的

标签。

XSeg 标签 - 用户在 XSeg 编辑器中创建的定义面部形状的标签，也可能包括排除（或首先不包括）SRC 和 DST 面

部障碍物，用于训练 XSeg 模型以生成掩码。

面具 - 由 XSeg 模型生成，需要面具来定义应该训练的面部区域（无论是 SRC 还是 DST 面部），以及定义合并期

间最终掩蔽 (DST) 所需的形状和障碍物。默认情况下，一种基本面具也嵌入到提取的面部中，它源自面部标志，

它是一种基本面具，可用于使用全脸模型或更低的面部类型进行基本交换（稍后将详细介绍面部类型和面具）指

南）

现在您已经了解了一些基本术语，是时候弄清楚您到底想做什么了。

根据您要面对的视频的复杂程度，您可能只需要很少的采访，或者您可能需要收集更多的源内容来创建您的 SRC

数据集，其中可能还包括高分辨率照片、电影、电视节目和依此类推，我们的想法是构建一个包含目标视频中存

在的尽可能多的角度、表情和光照条件的集合，因为你可能会怀疑这是制作好的 deepfake 最重要的部分，但并

不总是可能的找到所有需要的镜头，因此即使您学会了所有技巧和技术，您制作的所有视频也永远无法获得

100% 的成功，除非您只专注于非常简单的视频。请记住，这与面孔的数量无关，而与表情的多样性有关，

一个好的 deepfake 还需要你的源人和目标人的头部形状相似，虽然可以交换看起来完全不同的人，新的 AMP 模

型承诺稍微解决不同脸型的问题，但宽度仍然很重要头部的长度以及下巴、下巴和面部的一般比例相似，以获得

最佳效果。如果两个人的表情也差不多那就更好了。

假设您知道您将使用什么视频作为目标，您收集了大量源数据来创建源集，或者至少确保有足够的数据并且质量

很好，无论是您的源人还是目标人有类似形状的头，现在我们可以继续实际创建视频的过程，请按照以下步骤操

作：

第 2 步 - 工作区清理/删除：

1) Clear Workspace - 删除“workspace”文件夹中的所有数据，当你下载新版本的DFL时，“workspace”文件夹中

默认有一些演示文件，你可以用它来练习你的第一个假动作，你可以删除它们手动或使用此 .bat 来清除您的“工

作区”文件夹，但由于您很少在完成项目后删除模型和数据集，因此此 .bat 基本上无用且危险，因为您可能会不

小心删除所有工作，因此我推荐您删除这个.bat。

第 3 步 - 源内容收集和提取：

要创建高质量的源数据集，您需要找到主题的源材料，可以是照片或视频，视频是首选，因为需要覆盖所有可能

的面部外观的各种表情和角度，以便模型可以正确地学习它，另一方面，照片通常提供出色的细节，非常适合简

单的正面场景，并且会提供更清晰的结果。您还可以组合视频和照片。以下是您需要确保的一些事项，以便您的

源数据集尽可能好。

1. 视频/照片应涵盖所有或至少大部分可能的面部/头部角度- 向上、向下、向左、向右、直视镜头以及介于两者之

间的一切，实现这一目标的最佳方法是使用不止一次采访和多部电影，而不是依赖单一视频（主要是一个角度和

一些小的变化和一种照明类型）。

提示：如果您的 DST 视频不包含某些角度（如侧面轮廓）或照明条件，则无需包含具有此类照明和角度的源，

您可以创建一个仅适用于特定类型的角度和照明的源集，或者创建一个更大更通用的集合，应该适用于多个不同

的目标视频。这取决于您将使用多少不同的视频，但请记住，使用太多不同的来源实际上会降低结果的相似性，

如果您可以覆盖所有角度并且所需的照明条件很少且来源较少，那么实际上使用较少的内容总是更好从而使 SRC

集更小。

2. 视频/照片应涵盖所有不同的面部表情- 包括张开/闭合的嘴巴、张开/闭上的眼睛、微笑、皱眉、眼睛看向不同

的方向 - 表情的多样性越多，效果越好。

3. 源内容应该是一致的——你不希望模糊、低分辨率和严重压缩的面孔与清晰、锐利和高质量的面孔相邻，所以

你应该只使用你能找到的质量最好的视频和照片，如果你能的话t 或某些角度/表情仅出现在较低质量/模糊的视

频/照片中，那么您应该保留这些并尝试放大它们。

可以使用 Topaz 等软件直接在帧或视频上进行升级，或者在 DFDNet、DFL Enhance、Remini、GPEN 等人脸

（提取后）上进行升级（新的升级方法一直在创造，机器学习也在不断发展）。

提示：在以下情况下，良好的一致性尤为重要：留胡子的

效果

【本文地址】

deepfacelab DFL基础扫盲篇！

deepfacelab DFL基础扫盲篇！

今日新闻

推荐新闻