细粒度识别综述

您所在的位置:网站首页 考生特征是什么意思 细粒度识别综述

细粒度识别综述

2024-05-28 21:10| 来源: 网络整理| 查看: 265

最近在写一篇关于细粒度识别的综述文章,不完全统计看了有将近两百篇文章。学术界的审稿周期太长了,等到文章改完,审完,估计明年去了。本来也不打算在学术圈继续混了,干脆写一篇博客,把重要内容都总结出来,希望你看这一篇,十来分钟的时间,就能对整个细粒度识别的前世今生有个大致的了解。

首先什么是细粒度识别呢?就是比普通的图像识别(分类)再精细化一些,比如不但要识别这是一条狗,还要说出它是拉布拉多还是哈士奇。客观来说,这个领域目前已经过了最火的时期,每年发表在顶会上的文章寥寥无几,大部分也缺乏很好的insight。但是它并没有被解决掉,相反还差的很远。

数据集方面,CUB-200-2011,Stanford-Cars,FGVC-Airplane,这三个比较常见,另外还有用NABirds,Stanford-Dogs的等等。大概的套路是,选上面几个数据集跑实验,paper最后列几个表,说明自己的方法比别人都好。我自己审稿的经验就是不要太看重这几个表,如果能做成和SOTA相类似的结果就已经可以了,比如大家互相差个1%以内都是很不错的,关键是idea本身有没有意思。之前几年大家的风气就是不约而同得做到比SOTA高0.x%个百分点,你很难说清楚这是随机误差还是算法本身的差距。不一定非得搞到SOTA才能说明一个方法有效,如果你提供了看问题的另一个角度,那么文章本身也是有意义的。

为什么要搞这么一个细粒度识别呢?很有意思的是,细粒度识别是极少的甚至是唯一一个人类输给算法的视觉应用。你想分割检测姿态识别啥的,人类都能秒杀,唯独细粒度识别,一个普通人真的很难分清楚Western Gull和California Gull在视觉上有啥区别,我搞了这么多年我也分不清。你可能说了,Imagenet上算法不是超过人类了吗?非也,首先这个人类的准确率是Andrej Karpathy花了一下午的时间自己统计出来的,这个结论的通用性先放到一边,主要是Andrej自己承认准确率不高的主要原因是ImageNet里面有很多细粒度的类别他不认识。最后还是回到细粒度识别上来了。李飞飞组在ImageNet上统计过分类的难度,发现细粒度的类别是最难的,Confusion Matrix里面很容易看出来,这也许是细粒度识别为什么成为焦点的原因吧。

这篇综述的最大特点就是全,不只包括了神经网络模型,还追根溯源到人工特征阶段的模型。好了,废话少叙,细粒度识别可以分成六大门派,注意他们不是同时存在的,而是各领风骚数年。按照大致的时间顺序总结如下:

第一大门派:分割派。掌门人VGG团队

该门派的秘籍是,细粒度图像中前景都很像,背景却纷繁复杂,干扰分类,所以要先分割出前景,再做识别。前景分割的方法无非是GrabCut这种统计像素分布模型。

第二大门派:Human-in-the-loop,掌门人Serge Belongie团队

该门派认为应该把人力和计算机算法结合起来,各取所长。比如人类擅长做姿态识别,attribute prediction这种中层特征提取的活,但是不善于记忆不同类别究竟拥有哪些特征。把人类总结的特征输入到一个分类器,让算法自动分类。

上面两个门派活跃于深度学习派一统江湖之前,现在基本已经失传了。下面几个门派的特点是教众甚多,不像之前两个集中在某个组,导致很难找到掌门人,但这也是一个方法影响力的体现。

第三大门派:高阶Pooling门派,掌门人Tsung-Yu Lin

在深度学习之前,大家通常跟特征打交道,例如怎么把多个特征融合到一块,怎么学习一个更好的dictionary等等。深度学习之后,特征都自动学好了,大家的注意力慢慢转移到了Pooling上。Bilinear Pooling提出干脆把两个网络的特征做一个outer product。这之后,铺天盖地的高阶pooling的paper就出现了。Compact bilinear pooling, alpha-pooling, kernel-pooling等等



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3