彻底搞懂感受野的含义与计算

2024-05-24 11:04| 来源: 网络整理| 查看: 265

导读：本文解释了感受野的概念，并举出了感受野大小及中心的计算公式，是一篇很好的入门文章。

原文作者：shine-lee。本文已获授权，转载请联系作者。什么是感受野The receptive field is defined as the region in the input space that a particular CNN’s feature is looking at (i.e. be affected by).—— A guide to receptive field arithmetic for Convolutional Neural Networks

感受野（Receptive Field），指的是神经网络中神经元“看到的”输入区域，在卷积神经网络中，feature map上某个元素的计算受输入图像上某个区域的影响，这个区域即该元素的感受野。

卷积神经网络中，越深层的神经元看到的输入区域越大，如下图所示，kernel size 均为3×3，stride均为1，绿色标记的是Layer2每个神经元看到的区域，黄色标记的是Layer3 看到的区域，具体地，Layer2每个神经元可看到Layer1上3×3 大小的区域，Layer3 每个神经元看到Layer2 上3×3 大小的区域，该区域可以又看到Layer1上5×5 大小的区域。

所以，感受野是个相对概念，某层feature map上的元素看到前面不同层上的区域范围是不同的，通常在不特殊指定的情况下，感受野指的是看到输入图像上的区域。

为了具体计算感受野，这里借鉴视觉系统中的概念：

receptive field=center+surround

准确计算感受野，需要回答两个子问，即视野中心在哪和视野范围多大。

只有看到”合适范围的信息”才可能做出正确的判断，否则就可能“盲人摸象”或者“一览众山小”；目标识别问题中，我们需要知道神经元看到是哪个区域，才能合理推断物体在哪以及判断是什么物体。

但是，网络架构多种多样，每层的参数配置也不尽相同，感受野具体该怎么计算？

约定

在正式计算之前，先对数学符号做如下约定，

k：kernel sizep：padding sizes：stride sizeLayer：用Layer表示feature map，特别地，Layer0为输入图像；Conv：用Conv表示卷积，k、p、s为卷积层的超参数，Convl的输入和输出分别为Layerl−1和Layerl+1；n：feature map size为n×n，这里假定height=width；r：receptive field size为r×r，这里假定感受

【本文地址】

彻底搞懂感受野的含义与计算

彻底搞懂感受野的含义与计算

今日新闻

推荐新闻