MoCo：动量对比的无监督视觉表示学习

您所在的位置：网站首页 › 有意思的诗句的ap › MoCo：动量对比的无监督视觉表示学习

MoCo：动量对比的无监督视觉表示学习

#MoCo：动量对比的无监督视觉表示学习| 来源: 网络整理| 查看: 265

我们提出动量对比度（MoCo）用于无监督的视觉表示学习。从将对比度学习作为字典查找的角度来看，我们构建了带有队列和平均移动编码器的动态字典。这样可以即时构建大型且一致的字典，从而促进对比度无监督学习。 MoCo在ImageNet分类上提供了有竞争力的结果。更重要的是，MoCo学习到的表示形式可以很好地转移到下游任务。 MoCo在PASCAL VOC，COCO和其他数据集上的7种检测/细分任务中，可以胜过其受监督的预训练同行，有时甚至可以大大超过它。这表明在许多视觉任务中，无监督和有监督的表征学习之间的鸿沟已被大大消除。

介绍

如GPT和BERT所示，无监督表示学习在自然语言处理中非常成功。但是在计算机视觉中，有监督的预训练仍然占主导地位，而无监督的方法通常滞后。原因可能是由于它们各自信号空间的差异。语言任务具有离散的信号空间（单词，子单词单元等），用于构建标记化的词典，可以在此基础上进行无监督学习。相比之下，计算机视觉还涉及字典的构建，因为原始信号位于连续的高维空间中，并且没有为人类交流而设计的结构（例如，与单词不同）。

最近的一些研究提出了使用与对比损失有关的方法进行无监督视觉表示学习的有希望的结果。尽管受到各种动机的驱使，但这些方法可以被视为构建动态词典。字典中的“键”（令牌）是从数据（例如图像或图像块）中采样的，并由编码器网络表示。无监督学习训练编码器执行字典查找：编码的“查询”应类似于其匹配关键字，而与其他关键字不相似。学习被表述为最大程度地减少对比损失。

从这个角度出发，我们假设构建字典是合乎需要的：（i）大和（ii）在训练过程中保持一致。直观上，较大的字典可能会更好地对连续、高维视觉空间进行采样，而字典中的键应由相同或相似的编码器表示，以便它们与查询的比较是一致的。但是，使用对比损失的现有方法可能会受到这两个方面之一的限制（稍后在上下文中进行讨论）。

图 1.

我们提出动量对比度（MoCo）作为一种建立大型且一致的词典的方式，以进行无监督学习而形成对比损失（图1）。我们将字典作为数据样本的队列进行维护：将当前小批处理的编码表示放入队列，而将最早的小批处理移除队列。队列使字典大小与小批处理大小分离，从而使其更大。此外，由于字典键来自前面的几个小批处理，因此提出了一种慢速键编码器，该键编码器被实现为查询编码器的基于动量的移动平均值，以保持一致性。

MoCo是一种用于建立用于对比学习的动态词典的机制，可用于各种任务。在本文中，我们遵循一个简单的实例判别任务：如果查询是相同图像的编码视图，则查询将与关键字匹配。使用此任务，MoCo在ImageNet数据集中的线性分类的通用协议下显示了竞争结果。

无监督学习的主要目的是预先训练可通过微调转移到下游任务的表示形式（即特征）。我们显示，在与检测或分割有关的7个下游任务中，MoCo无监督的预训练可以超过其ImageNet受监督的模型，在某些情况下，是很显著的超过。在这些实验中，我们探索了在ImageNet或十亿个Instagram图像集上经过预训练的MoCo，这表明MoCo可以在更真实的世界、十亿图像的规模场景中很好地工作。这些结果表明，在许多计算机视觉任务中，MoCo可以极大地弥合无监督和有监督的表示学习之间的差距，并且可以在某些应用程序中替代ImageNet有监督的预训练。

【本文地址】

MoCo：动量对比的无监督视觉表示学习

MoCo：动量对比的无监督视觉表示学习

今日新闻

推荐新闻