今日知识

您所在的位置:网站首页 高光谱图像数据增强 今日知识

今日知识

2024-07-14 12:26| 来源: 网络整理| 查看: 265

《A review of deep learning methods for semantic segmentation of remote sensing imagery》

首先·高光谱的语义分割和一般的语义分割的原理类似,都是

降维 - 特征提取 - 分类 这三大步骤

HSI具有数据量大,波段多,波段间相关性强等特性

在实际训练中,可能会出现维度比可用训练样本数量大得多的情况,训练样本缺乏,高维数据处理的高计算量

降维:即采用线性或非线性的映射方法将高维空间的样本映射到低维空间中,获得低维空间的数据等价表示,实现高维数据的可视化呈现

几种比较基础的图像分类模型:AlexNet,VGGNet,GoogLeNet

1:AlexNet(Krizhevsky et al., 2012)

AlexNet(Krizhevsky et al., 2012)由五个卷积层和三个全连接层组成。图1(a)展示了AlexNet的网络架构。卷积层也被称为特征提取层。在两个相邻的卷积层之间有一个池化层,其目的是减少维度,从而降低计算复杂度。常见的池化方案包括最大池化和平均池化。在AlexNet中,使用的是最大池化,它计算过滤器覆盖的图像中的最大值,并丢弃过滤器窗口中的噪声成分。

在AlexNet中,第一和第二卷积层分别应用11 × 11和5 × 5大小的滤波器进行特征提取,其他三个卷积层则使用较小的3 × 3滤波器。使用不同大小的滤波器的目的是适应不同尺度的对象。全连接层将扁平化的特征向量作为输入并学习分类函数。

AlexNet在CNN演变过程中有三方面的创新:

它应用了非饱和整流线性单元(ReLU)激活函数: f(x)=max⁡(x,0)f(x) = \max(x, 0)f(x)=max(x,0)。 该激活函数计算效率高,因为只需进行一次比较操作。

它应用了重叠最大池化,即每次滤波操作的步幅小于滤波器的大小。

它在全连接层中引入了dropout技术以减少过拟合,按照0.5的概率随机将输出置零。

2:VGGNet(Simonyan & Zisserman, 2015)

VGGNet(Simonyan & Zisserman, 2015)由多个卷积层和三个全连接层组成。图1(b)展示了VGG-16网络结构。通过改变卷积层的数量,可以创建一系列VGGNet,例如VGG-11和VGG-16。与AlexNet的一个显著区别在于,VGGNet在卷积层中使用3 × 3大小的滤波器(Lin, Chen, & Yan, 2014)。此外,卷积的步幅为一个像素。空间填充用于保留空间分辨率,即3 × 3卷积层的填充为一个像素。最大池化在2 × 2窗口上进行,步幅为两个像素。对于隐藏层中的每个神经元,使用ReLU激活函数。

VGGNet采用小滤波器减少了网络权重数量,从而降低了训练复杂度。多层卷积层后接最大池化层,其效果与AlexNet使用大滤波器的效果非常相似。卷积层的简化允许增加网络深度,并提高准确性。从卷积层提取的特征形成了多尺度层次结构,网络在许多任务中表现良好,如语义分割和目标检测(Gatys, Ecker, & Bethge, 2016)。这些特征可以被其他分类器如支持向量机(SVM)使用,而无需进行微调(Penatti, Nogueira, & dos Santos, 2015)。

3: GoogLeNet

GoogLeNet在三个方面进行了创新:采用了Inception模块、在训练阶段使用辅助分类器以及仅使用一个全连接层。图1(c)展示了GoogLeNet的结构。Inception模型对输入应用三种大小的滤波器:1 × 1、3 × 3、5 × 5,并将滤波结果与最大池化结果连接起来。Inception模型的一个简单版本如图1(d)所示。最大池化用于Inception模块之间,在最后一个Inception模块之后使用了带有dropout的平均池化(Lin et al., 2014)。

九个Inception模块和三个卷积层使GoogLeNet相当深。鉴于网络的深度较大,通过各层传播梯度的有效性成为一个问题。为了解决这个问题,GoogLeNet在中间层添加了辅助分类器。这些辅助分类器采用小型卷积网络的形式,接收Inception模块的输出。在训练过程中,这些分类器的损失被加入到网络的总损失中。在预测阶段,辅助分类器被排除在决策之外。

2.2 全卷积网络

Long等人(Long et al., 2015; Shelhamer, Long, & Darrell, 2017)扩展了AlexNet(Krizhevsky et al., 2012)、VGGNet(Simonyan & Zisserman, 2015)和GoogLeNet(Szegedy et al., 2015),并开发了用于图像语义分割的全卷积网络(Fully Convolutional Network, FCN)。FCN的基本思想包括三个步骤:多层卷积、反卷积和融合。FCN用卷积层替换了全连接层。具体来说,使用1 × 1卷积(也称为像素级卷积)为图像中的每个类别计算一个分数。由于卷积层后的池化操作,输出图像的大小比输入图像要小。

为了恢复原始图像的大小,这是分割过程的关键要求,使用反卷积进行双线性上采样,将这些粗略输出放大。反卷积过程遵循与卷积过程相同的机制,但其操作是通过填充矩阵并在反卷积滤波器内整合元素来“放大”输入。反卷积的步幅(或步长)与上采样因子成反比。因此,反卷积的结果是一个改进比例的标签矩阵。

尽管通过反卷积恢复了原始图像的大小,但类别分数被稀释,细节丢失。为了恢复空间细节,使用了跳跃架构,将从深层提取的语义信息与其前一层的位置信息结合起来,生成最终的分割结果。上采样后的深层与浅层的输出通过元素加法融合。图2展示了融合过程。

2.4 SegNet

SegNet(Badrinarayanan et al., 2017)由两个子网络组成:一个编码器网络和一个解码器网络。SegNet中的编码器网络包含多个卷积和最大池化操作以提取特征,其架构遵循全卷积网络(FCN)。该网络的深层提取具有更大语义意义的特征。然而,深层输出中的空间信息变得模糊。为了解决这个问题,SegNet存储元素索引(即滤波器窗口内元素的位置),并在解码器网络的上采样过程中使用它。

解码器网络遵循与编码器网络对称的结构。它通过卷积和引导上采样过程使用编码器网络的池化索引,将低分辨率特征映射到高分辨率版本。例如,一个2 × 2低分辨率特征图被扩展到一个4 × 4的矩阵,填充零。2 × 2图的内容被放置到相应编码器层中4 × 4矩阵中从中池化的位置。这样的池化索引重用有助于恢复空间信息并提高边界准确性。它与U-Net的架构相似,但不同之处在于U-Net将提取的特征传递到相应的解码器,然后将其连接到上采样特征图中。SegNet的示意网络架构如图4所示。

2.5. DeepLab

遥感语义分割面临的挑战:

(1) 对像素级精度的需求,(2) 非传统数据的分析,(3) 缺乏训练样本。

图像中的每个像素都有其语义意义,这使得遥感影像与大多数公共图像数据库(如PASCAL VOC (Zhao & Du, 2016))中的风景和人像图像有显著不同。除了传统的“目标”如建筑物和桥梁之外,遥感影像还包含具有语义意义的“背景”如水体、道路和开阔地。这些目标和背景需要准确的界定,以便进一步提取几何属性,如宽度和周长(Dechesne et al., 2017; Rottensteiner et al., 2012; Volpi & Ferrari, 2015)。因此,像素级的空间精度,特别是在不同目标的边界处,是遥感影像语义分割的最终目标(Liu et al., 2018; Marmanis et al., 2018)

除了常规的三通道栅格图像,点云和具有大量通道的数据(例如高光谱图像)也是常见的遥感数据形式。针对栅格矩阵设计的卷积操作,使用深度神经网络从无序的3D点云中进行自动学习并非易事。点云在空间中分布不均,应用卷积操作并非直接明了,对每个点进行分类也很困难,尤其是在具有多种物体、尺度和遮挡的城市场景中。另一种非传统的数据形式是高光谱图像(HSI),这种图像通常具有数十甚至数百个通道,捕捉丰富的光谱信息。大量通道使得现有的深度学习框架难以应用于语义分割(Ball et al., 2017; Signoroni, Savardi, Baronio, & Benini, 2019)。

尽管图像量很大,但缺乏训练样本是一个常见问题(Ma, Wang, & Wang, 2016; Kemker, Luu, & Kanan, 2018)。训练一个高质量的深度神经网络模型需要大量的样本。此外,生成这样的训练集极其繁琐且劳动强度大(Gao et al., 2019)。严格来说,这是许多利用深度学习方法的现实世界应用中面临的挑战。然而,与风景图像不同,遥感影像通常需要经过广泛训练的专业人员才能在各种目标的界定(即标注)中达到满意的精度,而成功标注大量风景图像所采用的众包策略并不总是适用于遥感影像的处理。

对挑战的解决办法:

论文详细解释部分1:对像素级精度:结合多尺度特征、融合不同模态的数据以及利用后处理技术增强分割结果

略,看不懂。。。

总结版本:

1. 对像素级精度的需求

遥感图像中的每一个物体都包含有意义的信息,需要与相邻物体准确分离。为解决这一问题,已经投入了大量努力,开发了扩展全卷积网络(FCN)和正则化方法,如对象边界信息。新兴的深度学习方法在几个公共数据集上展示了显著改进的性能。这一成功在颜色和红外卫星图像中尤为突出,因为这些图像与用于风景和肖像计算机视觉任务的图像集最为相似。在整个综述中,我们发现拥有如ISPRS数据集和一些HSI图像集等公共数据集是非常重要的,这些数据集推动了深度学习方法的发展并促进了比较研究。另一方面,多样的数据模式和评估指标使得比较变得困难。

2. 非常规数据

除了RGB和红外图像外,点云和具有大量波段的HSI图像是遥感应用中的常见模式。处理这种非结构化的点云和丰富的通道数据需要重新设计网络结构或将非常规数据转换为类似RGB图像的格式。处理非常规数据的精度平均来说低于卫星图像。即使扩展了用于点数据的网络,其平均精度也在低于80%的范围内。

3. 尽管数据量大,但训练样本不足

这一挑战并非遥感应用独有,但在遥感领域尤其是对于非常规数据源如SAR、HSI和LiDAR而言更加紧迫。我们在文献回顾中发现,研究人员努力从HSI图像的小样本中学习,这主要是因为HSI数据集通常获取丰富光谱信息的像素数量较少。显然,有限的、带有标签的非常规遥感数据集使得开发和评估新的深度学习方法面临巨大挑战。利用未标记数据的半监督方法显示了潜力。

损失函数:交叉熵

不是很看得懂



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3