细粒度识别综述

2024-05-28 21:10| 来源: 网络整理| 查看: 265

最近在写一篇关于细粒度识别的综述文章，不完全统计看了有将近两百篇文章。学术界的审稿周期太长了，等到文章改完，审完，估计明年去了。本来也不打算在学术圈继续混了，干脆写一篇博客，把重要内容都总结出来，希望你看这一篇，十来分钟的时间，就能对整个细粒度识别的前世今生有个大致的了解。

首先什么是细粒度识别呢？就是比普通的图像识别（分类）再精细化一些，比如不但要识别这是一条狗，还要说出它是拉布拉多还是哈士奇。客观来说，这个领域目前已经过了最火的时期，每年发表在顶会上的文章寥寥无几，大部分也缺乏很好的insight。但是它并没有被解决掉，相反还差的很远。

数据集方面，CUB-200-2011，Stanford-Cars，FGVC-Airplane，这三个比较常见，另外还有用NABirds，Stanford-Dogs的等等。大概的套路是，选上面几个数据集跑实验，paper最后列几个表，说明自己的方法比别人都好。我自己审稿的经验就是不要太看重这几个表，如果能做成和SOTA相类似的结果就已经可以了，比如大家互相差个1%以内都是很不错的，关键是idea本身有没有意思。之前几年大家的风气就是不约而同得做到比SOTA高0.x%个百分点，你很难说清楚这是随机误差还是算法本身的差距。不一定非得搞到SOTA才能说明一个方法有效，如果你提供了看问题的另一个角度，那么文章本身也是有意义的。

为什么要搞这么一个细粒度识别呢？很有意思的是，细粒度识别是极少的甚至是唯一一个人类输给算法的视觉应用。你想分割检测姿态识别啥的，人类都能秒杀，唯独细粒度识别，一个普通人真的很难分清楚Western Gull和California Gull在视觉上有啥区别，我搞了这么多年我也分不清。你可能说了，Imagenet上算法不是超过人类了吗？非也，首先这个人类的准确率是Andrej Karpathy花了一下午的时间自己统计出来的，这个结论的通用性先放到一边，主要是Andrej自己承认准确率不高的主要原因是ImageNet里面有很多细粒度的类别他不认识。最后还是回到细粒度识别上来了。李飞飞组在ImageNet上统计过分类的难度，发现细粒度的类别是最难的，Confusion Matrix里面很容易看出来，这也许是细粒度识别为什么成为焦点的原因吧。

这篇综述的最大特点就是全，不只包括了神经网络模型，还追根溯源到人工特征阶段的模型。好了，废话少叙，细粒度识别可以分成六大门派，注意他们不是同时存在的，而是各领风骚数年。按照大致的时间顺序总结如下：

第一大门派：分割派。掌门人VGG团队

该门派的秘籍是，细粒度图像中前景都很像，背景却纷繁复杂，干扰分类，所以要先分割出前景，再做识别。前景分割的方法无非是GrabCut这种统计像素分布模型。

第二大门派：Human-in-the-loop，掌门人Serge Belongie团队

该门派认为应该把人力和计算机算法结合起来，各取所长。比如人类擅长做姿态识别，attribute prediction这种中层特征提取的活，但是不善于记忆不同类别究竟拥有哪些特征。把人类总结的特征输入到一个分类器，让算法自动分类。

上面两个门派活跃于深度学习派一统江湖之前，现在基本已经失传了。下面几个门派的特点是教众甚多，不像之前两个集中在某个组，导致很难找到掌门人，但这也是一个方法影响力的体现。

第三大门派：高阶Pooling门派，掌门人Tsung-Yu Lin

在深度学习之前，大家通常跟特征打交道，例如怎么把多个特征融合到一块，怎么学习一个更好的dictionary等等。深度学习之后，特征都自动学好了，大家的注意力慢慢转移到了Pooling上。Bilinear Pooling提出干脆把两个网络的特征做一个outer product。这之后，铺天盖地的高阶pooling的paper就出现了。Compact bilinear pooling, alpha-pooling, kernel-pooling等等

【本文地址】

细粒度识别综述

细粒度识别综述

今日新闻

推荐新闻