夸张人脸图片

您所在的位置:网站首页 adience数据集 夸张人脸图片

夸张人脸图片

2023-04-03 12:51| 来源: 网络整理| 查看: 265

VCG.COM

素材购买

供稿咨询

售后服务

VCG 官方微信

常用公开人脸数据集汇总 - 知乎

目录

人脸数据汇总

人脸检测

人脸关键点检测

人脸表情

年轻与性别

人脸姿态

人脸识别

常用人脸数据详细介绍

人脸检测

人脸关键点检测

人脸表情

年轻与性别

人脸姿态

人脸识别

人脸数据集续更新完善中~~~

一. 人脸数据汇总

1.人脸检测

人脸检测是要定位出图像中人脸的位置。

Caltech 10000 (2007)

这是一个灰度人脸数据集,使用Google图片搜索引擎用关键词爬取所得,包含了7,092张图,10,524个人脸,平均分辨率在304x312,除此之外还提供双眼,鼻子和嘴巴共4个坐标位置。在早期被使用的较多,现在的方法已经很少用灰度数据集做评测。

链接

FDDB (2010)

这是被广泛用于人脸检测方法评测的一个数据集,FDDB(Face Detection Data Set and Benchmark),它的提出是用于研究无约束人脸检测。所谓无约束指的是人脸表情、尺度、姿态、外观等具有较大的可变性。FDDB的图片都来自于 Faces in the Wild 数据集,图片来源于美联社和路透社的新闻报道图片,所以大部分都是名人,而且是自然环境下拍摄的。共2845张图片,里面有5171张人脸图像。在FDDB当中采用了椭圆标记法,它可以适应人脸的轮廓。具体来说,每个标注的椭圆形人脸由六个元素组成。(ra, rb, Θ, cx, cy, s),其中ra,rb是椭圆的半长轴、半短轴,cx, cy是椭圆的中心点坐标,Θ是长轴与水平轴夹角(头往左偏Θ为正,头往右偏Θ为负),s则是置信度得分。标注的结果是通过多人独立完成标注之后取标注的平均值,而且排除了以下的样本:长或宽小于20个像素的人脸区域;设定一个阈值,将像素低于阈值的区域标记为非人脸;远离相机的人脸区域被标记为非人脸;人脸被遮挡,2个眼睛都不在区域内的标记为非人脸。

链接

AFW (2013)

FW数据集是人脸关键点检测非常早期使用的数据集,共包含205个图像,其中有473个标记的人脸。每一个人脸提供了方形边界框,6个关键点和3个姿势角度的标注。

WIDER Face (2015)

FDDB评测标准由于只有几千张图像,这样的数据集在人脸的姿态、尺度、表情、遮挡和背景等多样性上非常有限,训练出来的模型难以被很好的评判,算法很快就达到饱和。在这样的背景下香港中文大学提出了Wider-face数据集,在很长一段时间里,大型互联网公司和科研机构都在Wider-face上做人脸检测算法竞赛。Wider-face总共有32203张图片,共有393703张人脸,比FDDB数据集大10倍,而且在面部的尺寸、姿势、遮挡、表情、妆容、光照上都有很大的变化,算法不仅标注了框,还提供了遮挡和姿态的信息,自发布后广泛应用于评估性能比传统方法更强大的卷积神经网络。

链接

MALF(2015)

Multi-Attribute Labelled Faces ,MALF是为了更加细粒度地评估野外环境中人脸检测模型而设计的数据库。数据主要来源于Internet,包含5250个图像,11931个人脸。每一幅图像包含正方形边界框,头部姿态的俯仰程度,包括小中大三个等级的标注。该数据集忽略了小于20*20或者非常难以检测的人脸,共包含大约838个人脸,占该数据集的7%。同时该数据集还提供了性别,是否带眼镜,是否遮挡,是否是夸张的表情等辅助信息。

链接

2.人脸关键点检测

AR Face Database(1998) 标注:22

包括126个人,超过4000张图。

链接

XM2VTS (1999)标注:68

包含295个人,2360张正面图,大部分的图像是无表情,而且在同样的光照环境下。

链接

BioID(2001)

约1000幅图像,每个人脸标定20个关键点。

链接

FRGC-V2(2002)标注:5

共466个人的4950张图,包括均匀的光照条件下的高质量图和不均匀的光照条件下的低质量图,标注了5个关键点。

链接

CMU Multi-PIE(2010) 标注:39~68

包含6152张图像

链接

LFPW(CVPR2011)标注:29

Localizing Parts of Faces Using a Consensus of Exemplars

1432张图片,每张图片上有29个点。

链接

AFLW(ECCV 2011)标注:21

Annotated Facial Landmarks in the Wild: A Large-scale, Real-world Database

包括多姿态、多视角的大规模人脸数据库,一般用于评估面部关键点检测效果,图片来自于flickr的爬取。总共有21,997张图,25,993张面孔,由于是肉眼标记,不可见的关键点不进行标注。除了关键点之外,还提供了矩形框和椭圆框的脸部位还提供了矩形框和椭圆框的脸部位置标注,其中椭圆框的标注方法与FDDB相同。另外还有从平均3D人脸重建提供的3D的人脸姿态角标注。大部分图像是彩色图,也有少部分是灰度图,59%为女性,41%为男性,这个数据集非常适合做多角度多人脸检测,关键点定位和头部姿态估计,是关键点检测领域里非常重要的一个数据集。

链接

Helen(ECCV2012)标注:68

Interactive Facial Feature Localization

包括训练集和测试集,测试集包含了330张人脸图片,训练集包括了2000张人脸图片

链接

IBUG(2013)标注:68

随着300W一起发布的数据集,包含了135张人脸图片,每张人脸图片被标注了68个特征点。

链接

AFW(Annotated Faces in the Wild)(CVPR2012)标注:6

Face detection, pose estimation and landmark localization in the wild

AFW数据集是人脸关键点检测非常早期使用的数据集,共包含205个图像,其中有473个标记的人脸。每一个人脸提供了方形边界框,6个关键点和3个姿势角度的标注,数据库虽然不大,额外的好处是作者给出了其2012 CVPR的论文和程序以及训练好的模型。

链接

COFW(ICCV2013)标注:29

Robust face landmark estimation under occlusion

遮挡图像较多,包括1852张图像,其中训练姐1345张图像,测试集507张图像

链接

300W(ICCV2013)标注:68

300 Faces in-the-Wild Challenge: The first facial landmark localization Challenge

包含了300张室内图和300张室外图,其中数据集内部的表情,光照条件,姿态,遮挡,脸部大小变化非常大,因为是通过Google搜索“party”, “conference”等较难等场景搜集而来。该数据集标注了68个关键点,一定程度上在这个数据集能取得好结果的,在其他数据集也能取得好结果。该数据集每个图像上包含不止一张人脸,但是对于每张图像只标注一张人脸。其中:AFW(337),Helen(train 2000+test 330),IBUG(135),LFPW(train 811+test 224)。共计3148张图像,测试集有554+135=689张图像。

链接

300-W challenge(ICCV2013)标注:68

300 Faces in-the-Wild Challenge: The first facial landmark localization Challenge

300-W challenge所使用的训练数据集实际上并不是一个全新的数据集,它是采用了半监督的标注工具,将AFLW,AFW,Helen,IBUG,LFPW,FRGC-V2,XM2VTS等数据集进行了统一标注然后得到的,关键信息是68个点

链接

300-VW(ICCV2015)标注:68

在ICCV2015年拓展成了视频标注,即300 Videos in the Wild (300-VW)

链接

MTFL/MAFL(2014)标注:68

这里包含了两个数据集。Multi-Task Facial Landmark (MTFL) 数据集包含了12,995 张脸,5个关键点标注,另外也提供了性别,是否微笑,是否佩戴眼镜以及头部姿态的信息。Multi-Attribute Facial Landmark (MAFL) 数据集则包含了20,000张脸,5个关键点标注与40个面部属性,实际上后面被包含在了Celeba数据集中,该数据集我们后面会进行介绍。这两个数据集都使用TCDCN方法将其拓展到了68个关键点的标注。

链接

OCFW(2014):标注:68

3837幅图像,每个人脸标定68个关键点。

链接

CelebA(2015)标注:5

10177个人,共202599幅人脸图像。

链接

SCUT-FBP(2017)标注:86

数据集共5500个正面人脸,年龄分布为15-60,全部都是自然表情。包含不同的性别分布和种族分布(2000亚洲女性,2000亚洲男性,750高加索男性,750高加索女性),数据分别来自于数据堂,US Adult database等。每一张图由60个人进行评分,共评为5个等级,这60个人的年龄分布为18~27岁,均为年轻人。适用于基于apperance/shape等的模型研究。

链接

WFLW(ECCV2018)标注:98

Look at Boundary: A Boundary-Aware Face Alignment Algorithm

图像,其中7500训练集,2500测试集,标注信息除了98个关键点之外,还有遮挡,姿态,妆容,光照, 模糊和表情等信息的标注。

数据集

论文开源code

3.人脸表情

人脸表情识别(facial expression recognition, FER)是人脸属性识别技术中的一个重要组成部分,在人机交互、安全控制、直播娱乐、自动驾驶等领域都非常具有应用价值

JAFFE (1998)

这是比较小和老的数据库。该数据库是由10位日本女性在实验环境下根据指示做出各种表情,再由照相机拍摄获取的人脸表情图像。整个数据库一共有213张图像,10个人,全部都是女性,每个人做出7种表情,这7种表情分别是:sad, happy, angry, disgust, surprise, fear, neutral,每组大概20张样图。

链接

KDEF与AKDEF(1998)

这个数据集最初是被开发用于心理和医学研究目的。它主要用于知觉,注意,情绪,记忆等实验。在创建数据集的过程中,特意使用比较均匀,柔和的光照,被采集者身穿统一的T恤颜色。这个数据集,包含70个人,35个男性,35个女性,年龄在20至30岁之间。没有胡须,耳环或眼镜,且没有明显的化妆。7种不同的表情,每个表情有5个角度。总共4900张彩色图,尺寸为562*762像素。

链接

GENKI(2009)

GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像,GENKI-4K包含4000个图像,分为“笑”和“不笑”两种,每个图片拥有不同的尺度大小,姿势,光照变化,头部姿态,可专门用于做笑脸识别。这些图像包括广泛的背景,光照条件,地理位置,个人身份和种族等。

链接

RaFD(2010)

该数据集是Radboud大学Nijmegen行为科学研究所整理的,这是一个高质量的脸部数据库,总共包含67个模特,其中20名白人男性成年人,19名白人女性成年人,4个白人男孩,6个白人女孩,18名摩洛哥男性成年人。总共8040张图,包含8种表情,即愤怒,厌恶,恐惧,快乐,悲伤,惊奇,蔑视和中立。每一个表情,包含3个不同的注视方向,且使用5个相机从不同的角度同时拍摄的。

链接

CK(2010)

这个数据库是在Cohn-Kanade Dataset的基础上扩展来的,它包含137个人的不同人脸表情视频帧。这个数据库比起JAFFE要大的多。而且也可以免费获取,包含表情的标注和基本动作单元的标注。

链接

Fer2013(2013)

该数据集包含共26190张48*48灰度图,图片的分辨率比较低,共6种表情。分别为0 anger生气、1 disgust 厌恶、2 fear 恐惧、3 happy 开心、4 sad 伤心、5 surprised 惊讶、6 normal 中性。

链接

RAF(2017)

包含总共29672 张图片,其中7个基本表情和12 个复合表情,而且每张图还提供了5个精确的人脸关键点,年龄范围和性别标注。

链接

EmotionNet(2017)

共950,000张图,其中包含基本表情,复合表情,以及表情单元的标注。

链接

表情识别目前的关注点已经从实验室环境下转移到具有挑战性的真实场景条件下,研究者们开始利用深度学习技术来解决如光照变化、遮挡、非正面头部姿势等问题,仍然有很多的问题需要解决。

另一方面,尽管目前表情识别技术被广泛研究,但是我们所定义的表情只涵盖了特定种类的一小部分,尤其是面部表情,而实际上人类还有很多其他的表情。表情的研究相对于颜值年龄等要难得多,应用也要广泛的多,相信这几年会不断出现有意思的应用。

4.年龄与性别

人脸的年龄和性别识别在安全控制,人机交互领域有着非常广泛的使用,而且由于人脸差异性,人脸的年龄估计仍然是一个难点。

FGNet(2000)

第一个意义重大的年龄数据集,包含了82个人的1002张图,年龄范围是0到69岁。

链接

CACD2000(2013)

这是一个名人数据集,包含了2,000个人的163446张名人图片,其范围是16到62岁。

链接

Adience(2014)

采用iPhone5或更新的智能手机拍摄的数据,共2284个人26580张图像。它的标注采用的是年龄段的形式而不是具体的年龄,其中年龄段为(0-2, 4-6, 8-13, 15-20, 25-32, 38-43, 48-53, 60+)

链接

IMDB-wiki(2015)

IMDB-WIKI人脸数据库是由IMDB数据库和Wikipedia数据库组成,其中IMDB人脸数据库包含了460,723张人脸图片,而Wikipedia人脸数据库包含了62,328张人脸数据库,总共523,051张人脸数据。都是从IMDb和维基百科上爬取的名人图片,根据照片拍摄时间戳和出生日期计算得到的年龄信息,以及性别信息,对于年龄识别和性别识别的研究有着重要的意义,这是目前年龄和性别识别最大的数据集。

链接

MORPH(2017)

包括13,000多个人的55,000张图,年龄范围是16到77。

链接

5.人脸姿态

人脸的姿态估计在考勤,支付以及各类社交应用中有非常广泛的应用。

6.人脸识别

二. 常用人脸数据详细介绍

1.人脸检测

2.人脸关键点检测

2.1 CMU Multi-PIE

为了系统地捕捉具有不同姿势和照明的图像,我们使用了一个由15个摄像头和18个闪光灯连接到一组Linux pc上的系统。13个摄像头位于头部高度,间隔15°,另外两个摄像头位于受试者上方,模拟典型的监控场景。下图显示了摄像机的位置。

下图显示了所有15个带有正面闪光灯照明的相机视图。

在一个记录过程中,每个相机捕获20张照片:一张没有任何闪光灯照明,18张照片每个闪光灯单独发射,然后另一张没有任何闪光灯。所有相机在0.7秒内总共拍摄了300张照片。下面我们展示了正面拍摄的全部20张照明图片。

高分辨率的图像:

我们使用佳能EOS 10D(630万像素CMOS相机)和Macro Ring Lite MR-14X Ring flash拍摄正面图像。受试者坐在离摄像机很近的蓝色背景前。得到的图像大小为3072 x 2048,受试者的瞳孔间距通常超过400像素。

面部表情

在这四段录音的每一段中,受试者都被要求展示不同的面部表情。下图显示了在每个会话中捕获的表达式的图像。

2.2 LFPW

LFPW (Labeled Face Parts in the Wild) 展示了从互联网上收集的新数据集.共1432张图片,每张图片上有29个点。

人脸关键点标注顺序如下图所示:

2.3 AFLW

Annotated Facial Landmarks in the Wild (AFLW)提供了大量从网上收集的带注释的面部图像,展示了各种各样的外观(如姿势、表情、种族、年龄、性别)以及一般的成像和环境条件。总共有大约25k张脸被标注上了多达21个地标。

2.4 Helen

数据集包括2000张训练图像和330张测试图像

2.5 COFW

所有图片都是手注释的29地标,标注了地标位置以及它们的occlusion /no occlusion 状态。COFW的平均 occlusion 率超过23%。

2.6 300W

该数据集每个图像上包含不止一张人脸,但是对于每张图像只标注一张人脸。其中:AFW(337),Helen(train 2000+test 330),IBUG(135),LFPW(train 811+test 224)。共计3148张图像,测试集有554+135=689张图像。

2.7 WFLW

Wider Facial Landmarks in-the-wild (WFLW)包含10000个面部(7500个用于训练,2500个用于测试)和98个全手工标注的地标。除了地标标注外,新数据集还包含了丰富的属性标注,即,遮挡,姿势,化妆,照明,模糊和现有的综合分析算法的表达。与以前的数据集相比,新数据集中的人脸在表情、姿态和遮挡方面存在较大的变化。我们可以简单地评估提出的数据集上的位姿、遮挡和表达式的鲁棒性,而不是在不同数据集中的多个评估协议之间切换。

Landmark Definition

Multi-View Illustration

3.人脸表情

4.年龄与性别

5.人脸姿态

6.人脸识别

参考:

常用公开人脸数据集汇总,持续更新中~~ - 程序员大本营

什么软件可以让照片中的脸部动起来比如摇头 张嘴? - 知乎

想让人脸出现摇头张嘴的效果,需要通过AI智能技术来实现。

下面我就分享4款可以制作动态照片的软件给大家,不管你是想摇头,还是张嘴都能轻松实现。

一、Silimini

这是一个动态表情软件,提供多种动态表情模板,动画效果生动逼真,能让我们体验好玩有趣的动图特效。

我们只需选择喜欢的模板,上传照片,就能一键制作动画表情,最后还能将动起来的图片高清保存到本地相册,非常方便。

不过这个软件只有这一个功能,相对于其他动态图片软件来说,功能少了一些。

二、FacePic

这是我平时比较经常使用的特效软件,拥有卡通动漫、动态照片、古装模板、百变发型、抠图换背景等多种特效功能,基本上火爆的功能都可以在这里找到,而且均采用AI智能技术,上传图片即可获得相应的效果,使用体验感非常好。

它的动态照片功能就可以让人物的脸部特征动起来,有动态照片、Only You、蚂蚁呀嘿、AI眨眼等效果可以选择,只需上传图片,选择具体的动态效果,就能一键生成动态照片,很是不错。

三、Styler

一个十分有趣的图片特效工具,像什么照片动起来、一键抠图、时光机、无损放大、图片流动功能都有,其照片动起来功能就能帮我们实现人物摇头、张嘴的效果,操作上还蛮简单的。

选择【照片动起来】功能,点击【选择照片】上传照片,选择照片动起来的效果,然后点击【下一步】即可生成动态图片。

四、AI玩图

一个图片编辑小程序来的,它提供了照片动起来、动漫风格、肖像素描等,每个功能都非常有趣。

其中的【照片动起来】功能便可以帮我们实现动态照片的效果,点击该功能后,会弹出操作提示,我们跟着提示进行操作就可以了。

这里需要提醒大家一下,我们需要上传清晰、正面人脸以及无遮挡的照片,才可以被识别出来,不然是无法进行照片动起来操作的~

以上就是今天分享的全部内容啦,希望对大家有所帮助~

觉得内容不错的话,就点个赞支持一下啦!

这里是

@趣小弟

,欢迎大家关注,我会多多分享一些有趣优质的内容!!!VCG.COM

素材购买

供稿咨询

售后服务

VCG 官方微信

CVPR'21 | 鬼畜来袭! 3DCaricShop: 夸张人脸画像的重建 - 知乎

公众号:

将门创投

(thejiangmen)

作者:邱宇达

夸张人脸图像是一种广泛应用的艺术表达形式。它通过对人脸五官的特征进行夸张处理,增加作品的幽默或讽刺效果,从而使图像能更好地被观众识别并记忆。这类作品的绘制,需要掌握一定的专业技能,并花费较长的时间来完成。

近期,

研究人员尝试采用机器学习的方式创作夸张图像

。如何从这类作品中,

重建出对应的三维人脸模型

,也引起了关注。

论文链接:

https://

arxiv.org/pdf/2103.0820

4.pdf

目前,从二维夸张人脸图像中重建出对应三维模型的任务,主要面临两个挑战。 1. 缺少准确记录夸张人脸三维信息的数据。2. 主流的人脸重建方法,依赖于参数化框架或者Shape-from-Shading,难以还原形状变化更为复杂的夸张人脸。

文章作者针对上述问题完成了两项工作:

1.

构建了一个全新的数据集 3DCaricShop

。该数据集包含2000组人脸图像和对应三维模型(由建模师手动完成),并标注有相机参数和三维关键点,如上图左侧。

2. 为了试验该数据库的有效性,提出了一个

baseline的方法

,实现从单视角夸张人脸图像中重建三维模 型的目标,如上图右侧。

作者

结合隐式函数重建和参数化网格表达两种方法,

设计了一个

能适应复杂几何结构且输出模型具有拓扑一致特征的框架,

从而从图像中获得形状准确且能便捷地进行动画编辑的网格模型。文章通过对比数据库里形状的多样性展示了3DCaricShop与现有三维人脸数据库的区别,并通过与现有方法的对比以及消融实验说明了baseline方法的有效,详见实验分析部分。

一、3DCaricShop数据集

3DCaricShop包含2000组图片-模型数据。作者从二维漫画数据集WebCaricature中挑选了2000张风格迥异的图片,然后由专业建模师根据图片,使用ZBrush创作出尽可能匹配的三维网格模型。

上述创作的三维模型具有不同的网格拓扑结构。为了构造数据集的参数空间,所有的三维模型都进行了同拓扑处理:

1)对每个面部模型人工标注了44个三维关键点;

2)在三维关键点引导下进行非刚性配准,将一个预定义的模板网格形变成每个模型的形状。 除了对图像和三维模型做了关键点标注,3DCaricShop还为每个三维模型提供对应图像的相机矩阵,使模型和图像能够匹配对齐。

数据库分析

文章通过统计三维人脸各个区域的点坐标方差,分析数据库中人脸形状的多样性。下表展示了 3DCaricShop在形状多样性上,明显优于现有的真实人脸和合成人脸数据库。

二、方法概述

单视角的人脸重建是计算机视觉中的经典任务,主流的参数化方法和Shape-from-Shading的方法能从照片出很好的估计出人脸形状。但受制于夸张图像中更为复杂的人脸形变,和画家的各类艺术色彩风格,上述方法都不能直接迁移到夸张人脸的重建任务。

近年来随着深度学习的成功,像素对齐隐式函数重建 (Pixel-aligned Implicit Function, PIFu) 通过直接从庞大的数据集中直接学习形状先验,已经在人体的三维重建任务中取得了很好的效果。

隐式函数重建出的模型虽然很好地反映了图像的形状信息,但由于预测出的网格拓扑不一致,难以适应人脸模型的众多应用,如动画、纹理编辑。因此作者进一步地采用非刚性配准(non-rigid registration, NICP)将一个人脸模板变形成隐式重建的形状,完成拓扑的统一。

而在变形的过程中,需要有稀疏的对应点作为变形的引导来提高准确度,为了获取隐式重建结果中的三维关键点,作者提出了新颖的

多视角协作的三维关键点检测方法 (View-collaborative 3D Landmark Detection)

来预测模型上的人脸关键点三维坐标。

三、网络结构

上图是文章方法的框架,包括隐式重建、三维关键点估计和非刚性变形三个模块。输入一张漫画图像,该框架首先使用PIFu方法生成三维形状。关键点估计模块通过将隐式重建的结果投影到二维三视角图像,获取初步估计结果后,再根据结合二维图像和三维图结构对关键点预测进行优化。得到三维形状和预测关键点后,通过多阶段的非刚性形变得到拓扑一致的结果。

隐式重建

基于3DCaricShop数据库,文章构建了人脸图像+人脸法向量图和人脸形状隐式场的训练数据对,训练一个能够从单张彩色图像中预测出三维形状的网络。

三维关键点预测

网络结构如上图所示。直接在三维空间上检测出网格的关键点比较困难,作者通过渲染得到人脸模型的三视角图片,在图片上先完成二维关键点检测,反投影到三维空间得到关键点的初始结果。将初始结果连接成图结构后,进一步结合三视角图片的图像特征与图结构的特征,利用多个视角之间的固有联系,逐步地优化三维关键点的预测结果。这个优化过程类似于人工进行关键点标注的过程:在单个视角下观察模型,进行点的选取之后,再旋转到另一个视角下,观察是否需要调整关键点的位置。在多次调整后,得到满意的标注结果。

损失函数

利用数据集提供的3D和2D的关键点真实值,同时对预测的三维关键点进行监督,使预测更加准确。损失函数定义为

模型拓扑一致化

获取三维模型上的关键点坐标后,与模板模型上的关键点相对应,使用非刚性变形(non-rigid registration),让模板网格拟合隐式重建的结果。但是由于夸张人脸的形状变化多样,模板模型和目标形状之间可能存在较大差异,使得网格在形变过程中产生面片交叉等瑕疵。为了解决这个问题,作者

迭代地对结果进行非刚性变形和PCA空间投影

,经过模型的变形后投影,能够修复变形产生的瑕疵,同时生成更接近目标形状的中间结果,从而使得变形模块更加鲁棒。其中,夸张人脸模型的PCA参数化空间,是利用3DCaricShop的同拓扑三维数据构建的。

四、实验分析

文章在3DCaricShop的数据集上进行了实验。详细的实验设置请查看论文。

重建结果

下图展示了本文方法的一些重建结果。

重建比较

采用平均P2S(point-to-surface)作为评价指标,测量预测模型的各个点到人脸表面的单向距离。下表展示本文方法和其他现有方法的比较,该方法在3DCaricShop测试集上实现了最小的P2S。

消融实验

三维关键点检测

:评价标准使用MPJPE,即平均每个关节位置误差。文章分析了三种情况:1)直接使用从预测的2D关键点反投影获取的初始3D坐标,不进行后续的优化(w/o GCN refinement); 2)利用基于体素的方 法估计3D热图(V2V); 3)从第一次设置开始,使用全局图来细化3D地标,不使用VC-GCN块(global only ); 4)只使用局部索引从全局视图收集局部特征(w/o G2L ; 5) 本文方法(basic。下表证实了该方法的三维关键点检测设计的有效性:

关键点引导的配准

文章评估了三种模型变形的流程:

1)直接执行非刚性变形,不参考对应关键点信息;

2)使用对应关键点引导非刚性变形,不对结果进行PCA空间投影;

3)本文方法。

结果如下图所示,表明该方法可以获得更高质量的网络,并能捕获到准确的形状信息。

应用展示

在获取重建结果后,可以很简便地将一个示例的动画编辑效果转移到其他的重建结果上。

五、总结

本文构建了一个

图像-三维模型的夸张人脸数据库3DCaricShop

,并基于该数据提出了一种

结合了隐式重建与PCA参数化空间的baseline方法

,实现了从单张夸张人脸图像中,重建出形状准确且拓扑一致的三维模型的任务。实验结果证实了3DCaricShop数据库和baseline方法的有效性。

作者介绍

邱宇达

,香港中文大学(深圳)的一年级博士生。目前师从韩晓光老师,研究课题为人脸三维的理解与重建。于CVPR 2021发表论文:

3DCaricShop, A Dataset and A Baseline Method for Single-view 3D Caricature Face Reconstruction.

个人主页:

https://

github.com/qiuyuda

- The End -

将门创投

· 让创新获得认可

如果喜欢,别忘了赞同、关注、分享三连哦!笔芯❤

有点夸张、有点扭曲!速览GAN如何夸张漫画化人脸! - 知乎

本文首发于微信公众号”

机器学习与生成对抗网络

“,更多有趣分享、欢迎文末扫码关注!

这次整理的是,用GAN将

人脸夸张漫画化

的方向!

1 (2018-07-24) Unpaired Photo-to-Caricature Translation on Faces in the Wild

https://

arxiv.xilesou.top/pdf/1

711.10735.pdf

条件生成对抗网络(cGAN)使得图像间的转换取得了很大的进步。一些基于循环一致性损失的、无需配对训练数集的方法,例如DualGAN,CycleGAN和DiscoGAN确实很受欢迎。但是,对于需要高级视觉信息转换的翻译任务来说,例如从普通照片到极具讽刺、夸张和艺术形变性的漫画的转换仍然是非常具有挑战性的。

本文提出了一种基于学习的方法来解决此类问题。为了在转换时,兼顾局部统计量和全局结构,设计了一个带有粗区分和一个细区分判别器的双路模型。对于生成器,使用了感知损失,对抗损失和一致性损失,以实现两个不同领域的表示学习。另外,可以通过辅助噪音输入来了解风格。

2 (2018-11-1) CariGANs Unpaired Photo-to-Caricature Translation

https://

arxiv.xilesou.top/pdf/1

811.00222.pdf

人脸漫画化是一种传达夸张、幽默或讽刺意味的艺术表示形式。本文提出了一个无需成对训练数据集的照片到漫画转换的生成对抗网络(GAN):CariGAN。

使用两个模块来显式地建模几何夸大和外观风格化:一个是CariGeoGAN,仅对几何形变上进行建模,即从面部照片到漫画的几何转换;另一个是CariStyGAN,在风格的外观层面上将漫画风格转移到面部照片。这样,一个困难的跨域转换问题被分解为两个更简单的任务。

与先进的方法相比,CariGAN生成的漫画更接近于手绘,同时更好地保持原有人脸的个性特征。此外,还允许用户控制形状的夸张程度和变化,或给出示例漫画来生成相应的风格。

3 (2018-11-20) CariGAN Caricature Generation through Weakly Paired Adversarial Learning

https://

arxiv.xilesou.top/pdf/1

811.00445.pdf

传统的漫画生成方法主要使用low-level的几何变换(例如图像扭曲)来生成夸张的漫画图像,这些图像在内容和风格方面缺乏丰富性和多样性。尽管生成对抗网络(GAN)使得图像间的转换成为可能,但由于漫画这种图像数据分布的巨大差异,导致基于GAN的模型应用于此任务上的效果不尽人意。

本文将漫画生成建模为一个只需要弱配对训练数据集的图像转换任务,提出CariGAN来解决问题。具体地,为了强制进行合理的夸张和面部变形,采用面部特征点作为附加条件来约束所生成的图像,并设计了一种图像融合机制来鼓励模型将注意力集中在面部关键部位上,以便可以在这些区域中生成更生动的细节。同时,提出了一种多样性损失,以鼓励产生多样化的结果,以帮助减轻常规基于GAN的模型的“模式崩溃”问题。在大规模“ WebCaricature”数据集上的实验表明,与最新模型相比,CariGAN可以生成更多具有更多样性的漫画。

在模型中,随机噪声控制着图像的颜色和样式等。但实际上,提出的模型可能会 “模式崩溃”,即输入噪声可能不会影响最终结果。为解决“模式崩溃”问题,提出了一种多样性损失,以迫使模型生成具有更大多样性的图像。基本思想是:假设由两种不同噪声(但具有相同的输入面部和脸部mask)生成的两种漫画图像之间的差异,是这两种噪声之间的差异的线性函数。

例如为生成器提供了一个人脸图像x和一个二进制mask,但具有两个不同的噪声z1和z2。生成器针对这两个输入分别输出两漫画,即xˆ1和xˆ2。有:xˆ1 = G(x,p,z1),xˆ2 = G(x,p,z2)。而鉴别器D的最后一个卷积层中提取这两个漫画的特征。将提取的特征表示为f1 = D(xˆ1,p),f2 = D(xˆ2,p)。

提取的特征实际上暗含生成图像的身份,姿势和样式等信息。但由于这两个特征是从具有相同人脸的两个假漫画中提取的,因此将这两个特征之间的差异视为风格和其他不重要属性之间的差异是合理的。从而将两个特征之间的差异强制为两个输入噪声之间的差异的线性函数。如此一来,生成的的多样性可以通过输入噪声明确控制:

4 (2019-04-16) WarpGAN Automatic Caricature Generation

https://

arxiv.xilesou.top/pdf/1

811.10100.pdf

本文提出WarpGAN,一种全自动网络,可在输入面部照片的情况下生成漫画。 除了能够迁移丰富的纹理风格外,WarpGAN还学会自动预测一组控制点,这些控制点可以将照片扭曲成漫画,同时保留人脸身份信息。

本文引入了一种保持身份信息的对抗性损失,以帮助判别器区分不同的个人。 此外,WarpGAN可通过控制夸张程度和视觉风格来定制生成的漫画类型。在公共领域数据集WebCaricature上的实验结果表明,WarpGAN能够生成漫画,这些漫画不仅保留身份,而且为每张输入的照片输出一组多样化的漫画。经过五位漫画专家认为,WarpGAN产生的漫画在视觉上与手绘漫画相当逼近。

与前面几种方法的比较:

5 (2020-01-07) MW-GAN: Multi-Warping GAN for Caricature Generation with Multi-Style Geometric Exaggeration

https://

arxiv.xilesou.top/pdf/2

001.01870.pdf

本文提出Multi-Warping GAN(MW-GAN),包括分别用于进行风格转换和几何夸张形变的网络。通过双向设计去架起图像风格、脸部特征点与相应的潜码空间之间的“桥梁”,生成具有任意风格和几何夸张程度的漫画。此外,将保留身份的损失同时应用于图像空间和脸部特征点空间,从而极大地提高了所生成漫画的质量。实验表明,与现有方法相比,MW-GAN生成的漫画具有更好的质量。

先到这吧~(

整理不易,劳烦记得点个赞啦~

欢迎关注公众号哦,目前整理了几个有趣、详细的

GAN方向小综述

,如

异常检测、虚拟换衣、妆容迁移、主动学习、医学图像生成、人脸老化、人脸转正、去雨

等等(

持续更新中

):

夸张 | 卡通艺术人脸照片特效制作-改图鸭

夸张卡通人脸特效

在线夸张卡通人脸特效功能,利用AI算法一键生成夸张风格的卡通人脸艺术照片。

立即制作

人物图片_人物高清摄影照片_正版图片素材网

人物

人物专题,是由VCG.COM精选视觉中国优质创意内容,为你提供人物主题正版图片素材下载与授权服务,助力您的品牌提升

分享到小程序


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3