Mist:为画作添加防止Stable Diffusion模仿画风的水印

您所在的位置:网站首页 教育部谈艺术课进入中考 Mist:为画作添加防止Stable Diffusion模仿画风的水印

Mist:为画作添加防止Stable Diffusion模仿画风的水印

#Mist:为画作添加防止Stable Diffusion模仿画风的水印| 来源: 网络整理| 查看: 265

先进行一下自我介绍。我们是三个本科毕业于上海交通大学的学生。其中两人来自计算机系,一人来自法学院。我们将在此介绍我们开发的一个防止AI绘画模仿画风的开源工具Mist。

自从去年八月Stable Diffusion发布以来,对于AI绘画给艺术圈带来冲击的新闻就层出不穷。最开始,有人使用AI绘画工具复刻已逝名家的画风;然后,AI绘画的“作品”获得了绘画比赛的冠军;接着,AI绘画具备了低成本高质量的定制化能力,并开始向着摄影行业进军;现在,已经传出电商和游戏行业因为AI绘画的降临而裁员的消息。

无论人们是否情愿,又是否相信AI绘画的“作品”可称为艺术,AI绘画作为新生产力的代表,势必将对艺术圈的生态造成冲击。大潮固然难以阻挡,但是,作为个体的艺术家至少应该拥有的,是宣示自己的作品不被用于训练绘画AI的权利。然而这种权利在艺术宣传高度依赖于网络的现在也成了一种泡影。有心人可以随意在网络上搜集艺术家的工作,然后把它们交给绘画AI。只需不到一天的训练时间,艺术家的风格即可被复制,然后以几毛钱一张的成本生产“作品”。

因此,艺术家对于自身作品免于被用于训练AI的权利事实上处于一种不受保护的状态。从法律意义上,个体很难对无处不在而又很难循迹的复制行为追责;从技术意义上,没有技术能够对上述的复制过程起到哪怕一点阻碍。

这也是我们开发Mist的目的:在AI绘画的大潮前为希望保护自己作品的艺术家个体提供一个便捷的、开源的、持续更新和维护的工具。

Mist是什么

简单来说,Mist是一个水印添加工具。它可以通过给图像添加微小的水印,借此让绘画AI无法正确识别图像中的内容。例如:通过给熊猫的照片添加水印,AI会将熊猫识别成老虎。自然,绘画AI基于错误的识别结果进行的创作也将脱离原图像的风格和内容,从而失去其复制画风、模仿内容的能力。

下面的图例展示Mist的简单用例。梵高的《向日葵》等画作经过Mist添加水印后,用于训练绘画AI的textual inversion画风模仿功能(也就是常说的“私炉”)。该功能根据其风格生成的图片图像质量极差,完全失去了作为绘画作品的可用性。

当然,Mist不仅仅能用于防止textural inversion模仿作品画风,甚至不仅仅适用于Stable Diffusion。它对目前主流的支持画风模仿的AI绘画应用都有不错的效果。下图展示了Mist针对基于Stable Diffusion的Textual inversion,Dreambooth和另外两个AI绘画应用Scenario.gg与NovelAI的效果。

在实际应用中,给图像添加水印面临的最大问题是,水印往往在经过截图、缩放等去噪手段之后便失去了足够的强度。而Mist对此做了专门强化。我们对比了Mist和前段时间发布的相似工具Glaze在对图片进行部分缩放之后的效果,Mist仍能保持对AI绘画生成的干扰效果,而Glaze则完全失效了。

另一个值得关心的问题是,Mist有多快?这个问题的答案是直接的:只需三分钟,Mist即可为一张512x512的图像增加水印。因此,用户完全可能在个人电脑上完成为大批图像增加水印的工作。

Mist的原理

由于Mist相关的论文仍在投稿中,具体的原理介绍会在论文可以公开宣传后给出。我们这里仅用比较通俗的语言简单介绍Mist的原理。我们知道,所有以神经网络为基础的AI均是通过优化降低损失函数(loss function)来进行训练了。损失函数可以表示成 L=L(x,\theta) 的形式。它既和神经网络的参数有关,又和输入(图像)有关。一般来说,损失函数衡量着神经网络目前的输出和我们希望得到的输出之间的距离。距离越小,神经网络的输出就更靠近我们的期望。自然,我们希望经过优化,损失函数尽可能的小。反向传播是目前最为流行的优化算法。简单来说,反向传播通过在一批固定的输入 x 上,让神经网络的参数 \theta 一步步向着让loss减小的方向移动,从而让神经网络能够针对输入,输出我们想要的结果。

然而,神经网络的Loss函数同样也能够用来做其他的事情。比如,如果固定一个训练好的神经网络参数 \theta ,以增大Loss函数为目标,在一定像素范围内改变输入的图片 x ,使其变为 x' ,我们可以使得这个神经网络在面对这个特殊的输入 x' 时,无法输出它本应输出的结果。研究者们发现,为明显改变神经网络的输出,输入图片需要改变的像素是很少的。这种技术被称为“对抗攻击”。这一技术最简单的应用正如前文所提到的,可以通过为图片添加水印,让一张熊猫的照片被AI识别为老虎。这一次,我们沿用这一技术的思想,得到了其在AI绘画背后的隐式扩散模型(Latent Diffusion Model)上的形式,从而能够使得扩散模型无法识别加了水印的图片,进而无法模仿其风格。

具体而言,隐式扩散模型的可以被看作两层模块的组合:编码解码层将图片投射到一个比图片本身更小的隐空间表示中(例如,如果图片的尺寸是512x512,那么隐空间表示的尺寸会是64x64),而扩散模型层则在这个隐空间中进行样本的采样,再由编码解码层将样本投射回真实的图片空间。针对这一架构,我们分别用两个损失函数衡量两个不同层的输出效果。其中,编码解码层的损失函数 L_{textural} 衡量着经过编码后,一张带有水印的图片和其原图在隐空间的表示之间的距离;而扩散模型层的损失函数 L_{semantic} 则衡量着图片的隐空间表示被扩散模型认为是真实样本的负概率。前者的增大使得图片无法正常地被投射到隐空间,而后者的增大则让扩散模型无法正确地归类图片的语义信息。我们将这两者以一定比例 \alpha 进行组合,即可得到Mist最终优化的损失函数:

L=L_{semantic}+\alpha L_{textural}

通过在极小尺度内改变输入图片x,我们最大化这一损失函数,从而使得改变后的图片 x' 具备了从纹理上和语义上抵抗绘画AI正常识别的能力。

现状与未来

如前文所言,在去年八月之前,谁也不会想到AI绘画能以如此迅猛的速度崛起,而对AI绘画风格模仿的防护无论是在社会科学还是在技术意义上都更是一个崭新的问题。目前,我们已经以WebUI软件和开源代码(均见底部的链接)两种形式发布了Mist,给出了对这一问题的一个稚嫩的解决方案。Mist并不是首个着眼于这个问题的应用(参见来自芝加哥大学的闭源工作Glaze)。但是,我们从前人的经验中认识到,在AI时代处理和缓和AI与人的关系问题、站在人的一侧思考,绝非封闭式的小作坊所能企及,哪怕想要解决的仅是一个小小的子问题。为此,我们决定以开源全部代码的方式发布Mist,希望借此建立一个由对防AI画风模仿的用户和对此感兴趣的开发者共同组成的开源社区。我们希望能够吸引更多的艺术圈的朋友和对对抗学习有兴趣的研究者与开发者使用Mist,并通过这一社区对其提出改善意见。而我们也将对Mist进行持续维护和更新,使其成为当前最好的防AI复制技术和用户进行交互的长期落脚点。

更长远地说,我们希望借助开源社区的力量,尝试共同推进一些AI时代版权保护的相关技术,讨论AI和版权保护的最新进展,从而扩大这一议题的影响力。同时,我们也将持续关注大模型时代的AI在法律、道德和社会层面上的各种问题,并尝试用技术和非技术的方式尝试给出一些解决方案。

欢迎大家通过Discord和QQ群的方式加入我们。另外,如对Mist涉及的技术细节感兴趣,也可通过邮箱联系我们:[email protected]

社区Discord群:https://discord.gg/nvg5s5JaQj

QQ群:162664199

WebUI软件下载地址:https://huggingface.co/mist-project

Github地址:https://github.com/mist-project/mist

主页地址:https://mist-project.github.io/



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3