4.1 PyTorch:图像分类实战

您所在的位置:网站首页 cnn图像分类代码python图像分三类 4.1 PyTorch:图像分类实战

4.1 PyTorch:图像分类实战

2024-05-24 20:55| 来源: 网络整理| 查看: 265

之前已经把基本知识都讲完了,本节实战一下。

常见的图像分类今典模型、图像分类原理、代码实例。

一、常见的图像分类今典模型

在实际工作中,大家应该不太会去自己设计一个神经网络网的(因为不可控的变量太多),而是直接选择一些大神设计好的网络直接使用。那网络模型那么多,如何验证大神们提出的网络确实是可靠、可用的呢?

ImageNet--数据集

在业界中有个标杆——ImageNet,大家都用它来评价提出模型的好与坏

ImageNet 本身包含了一个非常大的数据集,并且从 2010 年开始,每年都会举办一次著名的 ImageNet 大规模视觉识别挑战赛(The ImageNet Large Scale Visual Recognition Challenge ,ILSVRC),比赛包含了图像分类、目标检测与图像分割等任务。

其中,图像分类比赛使用的数据集是一份有 1000 个类别的庞大数据集,只要能在这个比赛中脱颖而出的模型,都可以说是经典网络结构,这些网络在实际项目中基本都是首选。从 2012 年开始,伴随着深度学习的发展,几乎每一年都有非常经典的网络结构诞生,下表为历年来 ImageNet 上 Top-5 的错误率。

VGG

VGG取得了 ILSVRC 2014 比赛分类项目的第 2 名和定位项目的第 1 名的优异成绩。

VGG 突破的一些重点:

证明了随着模型深度的增加,模型效果也会越来越好。使用较小的 3x3 的卷积,代替了 AlexNet 中的 11x11、7x7 以及 5x5 的大卷积核。

关于第二点,VGG 中将 5x5 的卷积用 2 层 3x3 的卷积替换;将 7x7 的卷积用 3 层 3x3 的卷积替换。这样做首先可以减少网络的参数,其次是可以在相同感受野的前提下,加深网络的层数,从而提取出更加多样的非线性信息。

可参考:3.7 PyTorch_卷积-04:感受野及小卷积核优点

GoogLeNet

2014 年分类比赛的冠军是GoogLeNet(VGG 同年)。GoogLeNet 的核心是 Inception 模块。这个时期的 Inception 模块是 v1 版本,后续还有 v2、v3 以及 v4 版本。

GoogLeNet 解决了什么样的问题?研究人员发现,对于同一个类别的图片,主要物体在不同图片中,所占的区域大小均有不同,例如下图所示。

如果使用 AlexNet 或者 VGG 中标准卷积的话,每一层只能以相同的尺寸的卷积核来提取图片中的特征。但是正如上图所示,很可能物体以不同的尺寸出现在图片中,那么能否以不同尺度的卷积来提取不同的特征



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3