超分辨率重建开山之作

2024-01-08 06:34| 来源: 网络整理| 查看: 265

论文及代码地址：Learning a Deep Convolutional Network for Image Super-Resolution)

基于卷积神经网络的影像超分辨率重建

摘要：

我们提出了一种基于深度学习的单影像超分辨率重建方法。我们直接以端对端的方式学习高分辨率影像和低分辨率影像之间的mapping。Mapping可以用一个深度卷积神经网络来表示，通过输入低分辨率的影像输出高分辨率的影像。之后我们会展示传统的稀疏编码的方式也可以看做一个深度卷积网络。但是，和传统的方法能够单独处理每个成分不同，我们的方法共同对所有图层进行优化。我们的CNN有个lightstructure的结构，已经证明了有目前最好的重建质量，并且对于实际的线上应用有最快的速度。我们探索了不同的网格结构和参数设置以实现精度和速度之间的平衡。更进一步的，我们扩展了我们的网络去同时获取三通道的影像，并且得到了更好的整体重建质量。

关键词：超分辨率、深度卷积神经网络、稀疏编码

介绍

单影像的超分辨率重建是计算机视觉的一个经典问题，目的是从低分辨的影像中恢复高分辨的影像。这个问题本质上是病态的因为给定任意的低分辨率的像素都有多种解决策略。换句话说，这是一个不确定的反问题，它的解决方案不唯一。这样的问题通常可以通过强大的先验知识来约束解空间。目前学习的最先进的方法大都采用基于样本的方法。这些方法要么利用相同影像的内部相似性，要么从外在的低高分辨率的样本对中学习它们的mapping函数。外在的基于样本的方法能够完成普通影像的超分辨率重建，或者能够设计用来适应大部分任务如：根据提供的训练样本进行人脸超分。

基于稀疏编码的方法是最具代表性的外在的基于样本的超分辨率重建方法之一。这个方法的处理流程主要包括几个阶段：首先，从输入的影像中密集的裁切一些重叠的图块并进行预处理（比如数据的中心化处理和归一化处理），之后这些图块会被一个低分辨率的字典编码。为了重构高分辨率的图块，稀疏的参数会传递到高分辨率的字典中。重叠的图块会通过如加权平均的方法进行合并以产生最后的输出。这种处理流程被绝大部分外在的基于样本的方法所共用，这些方法把注意力都放在学习和优化字典上，或者就是构建高效的maping函数上。然而，处理过程中的接下来的步骤很少被优化和在一个统一的优化框架中考虑。

这篇文章中，我们展示了前述的处理过程等价于一个深度卷积神经网络（详见3.2节）。受到这个事实的激励，我们考虑了一种在低高分辨率影像间直接学习一个端对端的mapping的卷积神经网络。我们的方法在本质上和现有的外部基于样本的方法不同，在我们的方法中没有明确地学习字典和对图块空间的构建进行复写。更多的，图块的抽取和合并同样可以作为一个卷积层，包括在优化中。在我们的方法中，完整的超分辨率重建流程是完全通过学习和极少的预处理和后处理获得的。

我们将提出的方法命名为超分辨率重建卷积神经网络SRCNN。提出的SRCNN方法有许多吸引人的特性。首先，它的结构是基于简单的思想故意设计的，并且现在和当前的方法相比提供了更高的精度。图1显示了一个样本的对比。其次，由于合适的滤波器和图层数量，我们的方法在实际的线上应用具有高速率即使是在CPU上。我们的方法比起多数的基于样本的方法更快，因为它完全的前馈特性并且不需要解决任何使用上的优化问题。第三，当使用更大和更多样化的数据集的时候，或者是更大更深层次的模型的时候，实验结果显示网络的重建质量有着更大的提升。相反的，更大的数据集/模型能够给当前的基于样本的方法带来挑战。此外，我们提出的网络能够同时涵盖三通道的彩色影像以实现提升超分辨率重建的表现。

整体来说，这项研究的共享主要是这三方面：

我们提出了一种完全卷积神经网络用于影像的超分辨率重建，网络通过直接在低高分辨率影像间学习端对端的mapping，而除了优化之外仅需极少的预处理和后处理。我们在我们提出的基于深度学习的超分辨率重建方法和传统的基于稀疏编码的超分辨率重建方法之间建立联系，这种关系对网络结构的设计提供了指导；我们证明了深度学习对于超分辨率重建这种传统的计算机视觉问题很有用，能够实现好的精度和速度。

这项工作的初步版本已经发表了。现在的工作在原始的版本上加了有意义的方法。首先，我们改进了SRCNN通过在非线性的mapping层上采用更大的滤波器尺寸，并且通过添加非线性的mapping层探索了更深的结构。第二，我们对SRCNN进行扩展以便于能同时处理三通道（YCbCr或RGB）的影像。实验上，我们证明了与单通道的结果相比表现能够提升。第三，加上了对原始结果的大量的新的分析和生动的解释。我们同样对原始的实验进行了扩展，从Set5和Set14测试影像到BSD200影像。另外，我们和一些最新发表的方法进行了对比并且证明我们的方法在使用不同的评价矩阵的时候性能仍然优于这些方法。

2 相关工作 2.1 影像超分辨率重建

根据影像的先验知识，单张影像的超分辨重建算法可以分为四类：预测模型、基于边缘的方法，影像统计的方法和基于块（基于样本）的方法。这些方法在Yang的工作中被完全的调查和评估过，根据这些结果，基于样本的方法实现了当前最好的表现。

内部的基于样本的方法利用自身的相似特性和从输入的影像中形成样本对。它首先在Glasner的工作中被提出来，并且许多变量被提出来用于加速执行。外在的基于样本的方法从外在的数据集中学习了从低分辨率到高分辨率的mapping。这些方法在怎么学习关于低高分辨率的影像的紧凑的字典和多种空间上，以及怎样通过在这样的空间中进行方案的表达上都有所不同。在Freeman等人的早先工作中，字典被直接表示为低高分辨率的图块对，并且输入图块的最邻近图块在低分辨率空间中找到，其对应的高分辨率的图块用于重构。Chang等人介绍一种流行的嵌入技术作为对了最邻近NN方法的改变。Ynag等人的工作，上述的NN进展对应了一个更复杂的稀疏编码公式。其他mapping公式如核回归，简单函数、随机森林和锚框邻近回归，也被提出用来更进一步的提升mapping的精度和速度。基于稀疏编码的方法和它的一些提升已经超过了当下最好的SR方法。这些方法中，图块专用于优化，图块的提取和合并步骤被作为预/后处理而分开进行。

SR算法的主体是基于灰度尺度或者单通道影像的超分辨率重建，对于彩色影像，之前提到的方法首先将这个问题转换到了不同的颜色空间上，而且SR仅仅应用在了亮度通道上。这里同样有许多工作致力于同时解决多通道，比如Kim和Kwon和Die等人应用他们的模型在每个RGB通道上并且结合了这些通道产生最终的结果。然而，他们都没有分析SR的不同通道的表现以及恢复这些三个通道的必要性。

2.2 卷积神经网络

卷积神经网络可以追溯到十年前，深度CNN网络最近因为它在图像分类上的成功应用展示出了它的爆炸式的受欢迎程度，它们同样能应用在其他计算机视觉的领域，比如目标检测、面部识别、行人检测等。许多因素是CNN风靡的关键原因：1 在现在的GPU高效的训练 2.矫正线性单元RELU的提出使得在同样实现高精度的同时收敛更快；3.对于训练大模型获取的丰富数据集更加简单。我们的方法同样收益与这些成就。

2.3 影像恢复的深度学习

有很多的深度学习方法用于影像的恢复。多层感知机（MLP）所有的图层都是全连接的（与卷积相反），应用于自然影像的降噪和后模糊降噪。许多和我们工作更相近的，卷积神经网络用于自然影像的降噪和移除噪声组合（尘土、雨滴）。这些恢复问题或多或少都是由降噪驱动的。Cui等人在内部的基于样本的概念方法之下，提出在他们超分辨率重建的流程中使用嵌入的自动编码网络。深度模型并没有被确切的设计成端对端的方案，因为级联的每个层需要独立地优化自相似性搜索过程和自动编码器。相反的，SRCNN速度更快。这并不仅仅是一个质量更好的方法，而且是实际最有用的一个。

3 超分辨率重建的卷积神经网络 3.1公式

想想一张单低分辨率影像，我们首先使用双三次插值将尺度放大到我们想要的尺度，这就是我们提到的唯一使用的预处理。把插值过的影像记为Y。我们的目标是从Y中恢复一张和地表真实高分辨率影像X尽可能相似的影像F(Y)。为了便于演示，我们仍然将Y称为低分辨率影像，即使它和X有着一样的规格。我们希望学习一种mapping。从概念上看它由三部分操作组成：

图块的提取和重新表达。这个操作从低分辨率影像Y中提取了（重叠的）图块并且将每个图块表示为一个高维度的矢量，这些矢量包括一组特征映射，其数量等于矢量的维度。非线性mapping。这个操作非线性的将每个高维矢量映射到另一个高维矢量上。每个映射的矢量概念上来说是一个高分辨率图块的表达。这些矢量包括了另外一组特征映射。重建。这个操作包含了上述的高分辨率patch-wise的表征到形成最终的高分辨率影像。这个影像被期待和地表真实X一样。

我们将会展示所有的这些卷积神经网络中的操作。这个网络的回顾在图片2中已经描述。接下来我们会详述对每个操作的定义。

3.1.1图块的提取和重新表达

在图像恢复中一种比较流行的方法就是密集的提取图块然后将它们表示为一组预训练的基础如PCA(主成分分析法，用于数据降维压缩以保留重要特征),DCT(离散余弦变换)、Harra等。这等价于用一组卷积核对影像进行卷积，每个卷积核就是一个基。我们将这些基的优化囊括到网络的优化中。正式地，我们的第一层可以表示为操作F1:

式中：W1和B1对应的代表着滤波器和基，*代表卷积操作。这里，W1对应n1个c*f1*f1的卷积核，c是输入影像的通道数，f1是卷积核的空间尺度。更形象的我们在影像上应用了n1个卷积，每个卷积的卷积核大小是c*f1*f1。输出是由n1张特征图组成。B1是一个n维的矢量，它的每个元素都和滤波器有关系。我们将RELU作为滤波器的回应。

3.1.2 非线性mapping

每个图块在第一层中都提取了n1维的特征。我们将每个n1维的矢量匹配到一个n2维的矢量。这就等价于使用n2个大小为1*1的滤波器，这种解译只对1*1的滤波器有效。但是它很容易被概括到一些更大的滤波器比如3*3或5*5.这样的情况，非线性的mapping就不是输入影像的一个patch了。相反的它成为了输入影像上的一个3*3或5*5的patch。第二层的操作是：

式中，w2包含了n个大小为n1*f2*f2的滤波器，B2是n2维的。每个输出的n2维的矢量都可以概念性的表示为将会应用在重构的高分辨率的图块。

通过增加更多的卷积层来增加非线性的能力是可以的。但是它增加了模型的复杂度（每层有n2*f2*f2*n2个参数），因此需要更多的训练时间。我们将会探索更深的网络结构通过在4.3.3节中接介绍额外的非线性mapping图层。

3.1.3 重构

传统的方法中，预测得到的重叠的高分辨率图块经常用来合成最后的完整影像。合成可以看做是一组特征图（它的每个位置都是高分辨率图块展开的矢量形式）之上的一个预定义的过滤器。受到这样的启发，我们定义了一个卷积层去产生最后的高分辨率影像：

式中：W3对应着c个大小为n2*f3*f3的滤波器，B3是一个c维的矢量。

如果高分辨率图块的表达是在图像域中（如：我们能够简单的重塑表达去形成图块。）我们期望W3的行为首先将系数投影到图像域上然后再进行平均。无论哪种方式，W3是一组线性的滤波器。

有趣的是，虽然上述的三种操作都是收到不同的直觉的启发，它们都产生了相同的形式：卷积层。我们将所有的三种操作放在一起就形成了卷积神经网络（图2）。在这个模型中，所有的滤波器的权重和偏置都要被优化。尽管整体的结构是简洁的，我们的SRCNN模型是通过吸取超分辨率重建领域重大的进展带来的丰富的经验而谨慎的构建的。我们将在下一章中详述。

3.2 和稀疏编码方法的关系

如图3所示，我们展示了基于超分辨率方法的稀疏编码可以被看做是一个卷积神经网络。

在基于稀疏编码的方法中。我们假设从输入的影像中抽取一个低分辨率的图块，之后如Feature-Sign,稀疏编码的方法会首先将图块投影到一个（低分辨率）字典中。如果字典的大小是n1，这就等价于在输入的影像上使用n1个线性滤波器（f1*f1）进行操作（均值减法同样可以抽象为一种线性操作），如图3的左部分所示。

稀疏编码的方法之后将会迭代的处理这n1个系数。这个操作的输出是n2个系数，稀疏编码的方法中通常n1=n2.这n2个系数是高分辨率图块的重新表达。在这个意义上，稀疏编码的行为作为是非线性mapping操作的例子，支持的空间大小是1*1，如图3的中间部分所示。然而，稀疏编码的方法不是前馈的，即它是迭代的算法。相反的，我们非线性操作是完全前馈的并且能够被高效的计算。如果我们设置f2=1.然后我们的非线性操作可以被看做是一个像素尺度的完全连接层。值得一提的是，SRCNN中的稀疏编码方法指的是前两层，而不仅仅是第二层后者激活函数RELU。因此，SRCNN中的非线性操作同样能够通过学习而很好的优化。

上述的n2个系数（稀疏编码后）之后会投影到另一个字典中（高分辨率）以产生高分辨率的图块。然后会对这些重叠的高分辨率图块进行平均。正如之前讨论的，这等价于在n2特征层上的线性卷积。如果用于重建的高分辨率图块的大小为f3*f3，然后线性的滤波器大小也为f3*f3.如图3的右边部分。

上述的讨论说明基于SR的稀疏编码方法可以看做一种卷积神经网络（有非线性的mapping）。但是不是所有的操作都在基于稀疏编码的SR方法的优化中考虑过。相反的，在我们的卷积神经网络中，低分辨率的字典、高分辨率的字典、非线性的mapping以及均值减去和平均，都包括在了被优化的滤波器中。所以我们的方法优化了包含了所有操作的端到端的mapping。

上述的分析也能帮助我们设计超参数。比如，我们能够设置最后一层的滤波器尺寸小于第一层，这样我们就能更多的依赖高分辨率图块的中心部分（极端的，如果f3=1，我们就使用没有平均的中心像元）。我们同样能够设置n2

【本文地址】

超分辨率重建开山之作

超分辨率重建开山之作

今日新闻

推荐新闻