![](https://img-blog.csdnimg.cn/79c2d78d6fb64ce09b5302469a20f333.png)
论文:https://arxiv.org/pdf/2301.00808.pdf
摘要:在改进的架构和更好的表征学习框架的推动下,视觉领域在21世纪实现了快速现代化和性能提升。例如ConvNeXt为代表的ConvNet在各种场景下都表现出了很强的性能。虽然这些模型最初是为使用ImageNet标签的监督学习而设计的,但他们也能受益于自监督学习,如MAE。然而,发现简单地将这两种方法结合起来会导致较差的性能。本文提出一个完全卷积的MAE框架和一个新的全局相应归一化层GRN,可以添加到ConvNeXt架构中,以增强通道间的特性经济。这种自监督学习技术和架构的改进的共同设计产生了一个新的模型family,称为ConvNeXt V2,它显著提高了纯convnet在各种识别基准上的性能,包括ImageNet分类,COCO目标检测和ADE20k分割。还提供了各种尺寸的预训练ConvNeXt v2模型,从而在ImageNet上具有76.7%精度的3.7M Atto model和88.9%精度的650M huge model。
提出一个完全卷积的MAE框架和一个新的全局相应归一化层GRN,可以添加到ConvNeXt架构中,以增强通道间的特性经济。这种自监督学习技术和架构的改进的共同设计产生了一个新的模型family,称为ConvNeXt V2,它显著提高了纯convnet在各种识别基准上的性能,包
|