【频域深度学习】Learning in the Frequency Domain |
您所在的位置:网站首页 › 频域处理图像的步骤有哪些内容 › 【频域深度学习】Learning in the Frequency Domain |
引言
我们应该都学习过信号与系统,知道信号可以分为时域、空间域以及频域等等。显然一般的深度学习方法,以图像为例,模型的输入为图像本身,属于空间域信息,那么我们是否可以利用频域信息来进行图像处理呢? 转换为频域最常见的是通过傅里叶变换从时域或者空间域转换到频域。傅里叶变换将信号信息转换成每个成分频率上的幅度和相位。 第一篇用CNN在频域(DCT系数)而不是空域(RGB)上直接学习的文章是On using CNN with DCT based Image Data,这篇文章在图像分类任务上做的实验,包括MNIST、CIFAR10。Faster Neural Networks Straight from JPEG相比On using CNN with DCT based Image Data,用更大的模型(ResNet50)在更大的分类数据集(ImageNet分类任务)上做了更多的实验。我们今天介绍的论文相比Faster Neural Networks Straight from JPEG,将应用从图像分类拓广到了实例分割。 Learning in the Frequency Domain 摘要深层神经网络在计算机视觉任务中取得了显著的成功。现有的神经网络主要工作在输入尺寸固定的空间域。在实际应用中,图像通常很大,必须降采样到预定的神经网络输入大小。尽管下采样操作减少了计算量和所需的通信带宽,但它同时删除了冗余和显著信息,从而导致精度下降。在数字信号处理理论的启发下,我们从频率角度分析了频谱偏差,提出了一种基于学习的频率选择方法来识别可以去除而不损失精度的微小频率分量。所提出的频域学习方法利用了ResNet-50、MobileNetV2和Mask R-CNN等神经网络的相同结构,同时接受频域信息作为输入。实验结果表明,采用静态信道选择的频域学习方法比传统的空间下采样方法具有更高的精度,同时进一步减小了输入数据量。对于输入大小相同的ImageNet分类,该方法在ResNet-50和MobileNetV2上分别提高了1.60%和0.63%的top-1精度。即使在输入大小为一半的情况下,该方法仍能将ResNet-50的前1位精度提高1.42%。此外,我们观察到掩模R-CNN的平均精度提高了0.8%,例如在COCO数据集上的分割。 动机 现在计算机视觉工作受到计算资源的限制。由于内存限制,大多数CNN模型只接受低分辨率的RGB图像(例如224×224)。然而,现代相机拍摄的图像通常要大得多。例如,现代标准认为高清晰度(HD)分辨率图像(1920×1080)相对较小。甚至**ImageNet数据集中的平均图像分辨率为482×415,**大约是大多数CNN模型所接受的大小的四倍。图像缩小不可避免地会导致信息丢失和精度下降。先前的工作旨在通过学习任务感知的缩小网络来减少信息丢失。然而,这些网络都是特定于任务的,需要额外的计算,这在实际应用中是不利的。受人类视觉系统(HVS)对不同频率分量不敏感的观察[11]的启发,我们在频域内分析了图像分类、检测和分割任务,发现CNN模型对低频信道和高频信道的敏感性更高。 贡献 我们提出了一种频域学习方法(使用DCT系数作为输入),该方法对现有的采用RGB输入的CNN模型几乎不需要修改。我们在ResNet50和MobileNetV2上验证了我们的方法用于图像分类任务,在Mask R-CNN上验证了我们的方法用于实例分割任务。结果表明,频域学习比传统的空间降采样方法(将图像空间大小调整为224×224,大多数CNN模型的默认输入大小)在预处理阶段更好地保留了图像信息,从而提高了精度。我们从频率的角度来分析频谱偏差。结果表明,CNN模型对低频信道比高频信道更敏感,类似于人类视觉系统(HVS)。提出了一种基于学习的动态信道选择方法,用于识别在推理过程中静态去除的平凡频率分量。据我们所知,这是第一个探索在频域中学习目标检测和实例分割的工作。我们的方法旨在减少输入数据的大小,而不是模型的复杂性。 模型本文提出了一种通用的频域学习方法,包括数据预处理流水线和输入数据大小剪枝方法。 在传统的方法中,高分辨率的RGB图像通常在CPU上进行预处理,然后传输到GPU/AI加速器进行实时推理。由于RGB格式的未压缩图像通常很大,因此CPU和GPU/AI加速器之间的通信带宽要求通常很高。这种通信带宽可能是系统性能的瓶颈,如图1(a)所示。为了降低计算成本和通信带宽要求,将高分辨率的RGB图像降采样为较小的图像,这往往会导致信息丢失,从而降低推理精度。 预处理流程如下图所示,同样空间领域中传统的预处理流程和增强流程必不可少,包括图像大小调整,裁剪和翻转(下图中的spatial resize and crop)。然后将图像转换为YCbCr颜色空间也就是频域(对应下图DCT transform)。之后,将相同频率的二维DCT系数分组到一个channel,以形成三维DCT立方体(下图中的DCT reshape)。 通过通道选择,选择了影响较大的频道的子集(下图的DCT channel select)。 YCbCr颜色空间中的选定channel被concat在一起以形成一个张量(下图中的DCT concatenate)。 最后,通过从训练数据集计算出的均值和方差对每个channel进行归一化。
在图像分类任务中,CNN模型通常采用224×224×3形状的输入特征,这些特征通常是从分辨率更高的图像中降采样得到的。在频域进行分类时,可以将较大的图像作为输入。以ResNet50为例,将频域中的输入特征连接到第一剩余块,信道数调整为192,形成56×56×192形状的输入特征,它是由448×448×3大小的输入图像进行dct变换,在空间域中比224×224×3大小的输入图像保留4倍多的信息,代价是输入特征大小的4倍。同样,对于MobileNetV2模型,输入特征形状为112×112×192,由大小为896×896×3的图像重塑。 由于输入特征的不同通道处于不同的频率,我们推测某些频率通道对后续的图像分类、目标检测、实例分割等任务的信息量较小,去除平凡的频率通道不会导致性能下降。因此,我们提出了一种基于学习的信道选择机制来利用每个输入频率信道的相对重要性。我们采用动态门模块,为每个频率通道分配一个二进制分数。显著通道被评为1,其他通道被评为0。零分输入频率通道与网络分离。从而减小了输入数据的大小,降低了域转换的计算复杂度和通信带宽需求。该门模块简单,可以作为模型的一部分应用于在线推理。 频域中的输入特征由分辨率远高于空域对应的图像生成。但是,ImageNet数据集中的一些图像的分辨率较低。我们执行与空间域中类似的预处理步骤,包括调整大小并裁剪到更大的图像大小,在需要时执行上采样。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |