4.1 PyTorch:图像分类实战

您所在的位置：网站首页 › cnn图像分类代码python图像分三类 › 4.1 PyTorch:图像分类实战

4.1 PyTorch:图像分类实战

2024-05-24 20:55| 来源: 网络整理| 查看: 265

之前已经把基本知识都讲完了，本节实战一下。

常见的图像分类今典模型、图像分类原理、代码实例。

一、常见的图像分类今典模型

在实际工作中，大家应该不太会去自己设计一个神经网络网的（因为不可控的变量太多），而是直接选择一些大神设计好的网络直接使用。那网络模型那么多，如何验证大神们提出的网络确实是可靠、可用的呢？

ImageNet--数据集

在业界中有个标杆——ImageNet，大家都用它来评价提出模型的好与坏

ImageNet 本身包含了一个非常大的数据集，并且从 2010 年开始，每年都会举办一次著名的 ImageNet 大规模视觉识别挑战赛（The ImageNet Large Scale Visual Recognition Challenge ，ILSVRC），比赛包含了图像分类、目标检测与图像分割等任务。

其中，图像分类比赛使用的数据集是一份有 1000 个类别的庞大数据集，只要能在这个比赛中脱颖而出的模型，都可以说是经典网络结构，这些网络在实际项目中基本都是首选。从 2012 年开始，伴随着深度学习的发展，几乎每一年都有非常经典的网络结构诞生，下表为历年来 ImageNet 上 Top-5 的错误率。

VGG

VGG取得了 ILSVRC 2014 比赛分类项目的第 2 名和定位项目的第 1 名的优异成绩。

VGG 突破的一些重点：

证明了随着模型深度的增加，模型效果也会越来越好。使用较小的 3x3 的卷积，代替了 AlexNet 中的 11x11、7x7 以及 5x5 的大卷积核。

关于第二点，VGG 中将 5x5 的卷积用 2 层 3x3 的卷积替换；将 7x7 的卷积用 3 层 3x3 的卷积替换。这样做首先可以减少网络的参数，其次是可以在相同感受野的前提下，加深网络的层数，从而提取出更加多样的非线性信息。

可参考：3.7 PyTorch_卷积-04：感受野及小卷积核优点

GoogLeNet

2014 年分类比赛的冠军是GoogLeNet（VGG 同年）。GoogLeNet 的核心是 Inception 模块。这个时期的 Inception 模块是 v1 版本，后续还有 v2、v3 以及 v4 版本。

GoogLeNet 解决了什么样的问题？研究人员发现，对于同一个类别的图片，主要物体在不同图片中，所占的区域大小均有不同，例如下图所示。

如果使用 AlexNet 或者 VGG 中标准卷积的话，每一层只能以相同的尺寸的卷积核来提取图片中的特征。但是正如上图所示，很可能物体以不同的尺寸出现在图片中，那么能否以不同尺度的卷积来提取不同的特征

【本文地址】

4.1 PyTorch:图像分类实战

4.1 PyTorch:图像分类实战

今日新闻

推荐新闻