基于深度学习的岩石样本智能识别研究

您所在的位置:网站首页 岩矿分析与鉴定技术 基于深度学习的岩石样本智能识别研究

基于深度学习的岩石样本智能识别研究

2023-09-10 16:51| 来源: 网络整理| 查看: 265

1 前言 1.1 研究背景

岩石是现代建筑业和制造业的重要原材料,除了作为原材料使用以外,还可以对其进行勘探开发挖掘岩油气藏,若能智能且准确地识别岩石岩性、计算岩石含油量,这将会是一笔巨大的社会财富。 天然岩石有多种来源和用途,根据其不同的特征,可分为火成岩、沉积岩和变质岩三类。岩石的探测与识别是地质调查研究和矿产资源勘查的基础工作,岩石的精准识别与分类对地质的探测与识别极为重要,一般可通过多种方式进行鉴定,例如重磁、测井、地震、遥感、电磁、地球化学、手标本及薄片分析方法等方法。而现场的工作条件通常仅限于目视方法,包括对细粒岩石使用放大镜,视觉检测评估诸如颜色、成分、粒度和结构等属性。 近些年来,卫星和遥感技术的进步推动了多光谱遥感技术的发展,以分类不同类型的地物,包括岩石。但是,利用遥感技术在野外获取超高分辨率岩石图像的成本很高。因此,利用无人机和卫星携带的高光谱技术进行数据采集的高成本往往阻碍了岩石岩性识别的自动化。 而图像采集和计算机图像模式识别技术的迅速发展,使得从野外采集的图像中识别岩石的自动系统得以发展。这些技术为辅助地质学家判断和识别岩石岩性提供了极大的便利,也极大推进了深度学习算法在这一方向的落地可能。

1.2 研究任务

利用图像处理技术和深度学习算法解决以下两个任务: (1)岩性识别与分类 以白光环境下拍摄的岩石样本图像数据为基础,设计合适的机器学习或深度学习算法,构建岩石样本岩性智能识别模型。 (2)计算岩石含油面积百分含量 以荧光环境下拍摄的岩石样本图像数据为基础,借助石油在紫外线的照射下具有发光的特性,设计合适算法计算图像中岩石的含油面积百分比含量。

2 数据探索 2.1 类别不平衡问题

所提供的岩石样本数据中,存在着严重的类别不平衡问题,如图 2‑1所示。其中浅灰色细砂岩样本数量最多,占全体数据的26.98%;深灰色泥岩次之,占比23.81%;灰色细砂岩的样本数量最少,仅有5.72%,不足浅灰色细砂岩的四分之一。 图 2‑1 类别分布 如此类别不平衡的数据集,模型很容易过度拟合样本更多的类别,同时忽视对小样本类别的学习。因此类别不平衡问题是模型训练时不可忽视的重要问题。传统的处理类别不平衡问题的方法主要是重采样,重采样可划分为两类,一是对数量多的类别欠采样,二是对数量少的类别过采样。重采样后的数据集具有平衡的类别,但数据集中包含的信息并不会因此增加,故而可能会导致模型欠拟合于数量少的类别而过拟合数量多的类别。因此,可换个角度,从损失函数方面考虑类别不平衡问题的处理。

2.2 数据质量问题

经观察发现,样本中提供的七类岩石的类内差异较大,同时也可能混杂有标注错误的样本。以深灰色粉砂质泥岩为例,抽选编号为73、81、137的样本,如图 2‑2第一行所示。从中可见,同一类岩石的颜色、形态可能大相径庭,这无疑加大了分类的难度。图 2‑2按列展示了不同类别岩石可能存在的相似情况,在缺乏专业知识的人眼中,每一组图片可能相差无几(可能是错误标记)。此外,如此巨大的类内差异和微小的类间差异很容易掩盖错误标注的样本,从而误导模型训练时优化的方向,降低模型识别能力。 图 2‑2 样本差异示例 众所周知,拍摄环境对照片呈现的内容影响极大。如果按干燥程度区分,可将环境简单分为干燥、潮湿、有水三类;按光照情况划分,则可分为光照好和光照差两类。 以灰黑色泥岩为例,选取五个不同环境下拍摄的典型样本进行展示,如图 2‑3。对比40号和51号图像,可见越潮湿的岩石颜色越深。结合309号和198号图像,可发现当岩石间有水时,水面的反光甚至会掩盖岩石的纹理细节,即使在光照不好的情况下也不例外。整体上看,光照情况越好的图像的纹理细节越清晰,对岩石颜色的反映越真实。 图 2‑3 环境问题示例 此外在部分的岩石样本数据中,还存在着掺杂其他类别岩石或杂物的情况。以类别为浅灰色细砂岩的235号照片为例,如图 2‑4所示。图像混杂了大量橙色、褐色和黑色的小石块,同时落入一片树叶,遮挡将近八分之一的区域。如此杂乱的数据无疑是对数据预处理和模型提取特征能力的一大挑战。 图 2‑4 数据质量问题示例

2.3 图像格式问题

样本图像中存在bmp和jpg两种格式,且两种格式的图像大小和风格均有巨大差异。bmp格式图像无明显背景,大小为3000x4096(像素)。此类照片受环境因素影响大,光照、潮湿程度各异,且往往混有其他岩石或物体。jpg格式图片存在显著蓝色背景、大小为2048x2448(像素)。此类照片光照差异不大,岩石中的杂物也不多,但其中的岩石多为细小的碎块,难以提取纹理特征。 图 2‑5 图像格式问题数据示例

3 数据预处理

由于数据集中照片的分辨率较高且样本数较少,可选择通过裁切图像的方式增加样本数量。根据不同的模型特点,本文有针对性地使用了随机裁剪和网格裁剪这两种略有不同的增强方式,其示意图如图 3‑1。 其中随机裁剪即在原图上随机剪出预设大小的小块图像作为全新的样本,这种方式的优点在于生成的样本数量多,模型有机会学习到原始图像的所有信息。但由于该方式的随机性较强,难以预料裁剪出的内容,因此当数据质量不高时,依靠随机裁剪扩增的样本中可能包含大量的噪声。 而网格裁剪即按照预设的网格,将图像裁剪为相同尺寸的小块。使用网格裁剪扩增的样本具有固定的数量和内容,虽然会损失一部分横跨网格的信息,但更便于进行数据分析和预处理,从而剔除噪声数据。 图 3‑1 裁剪方案 通过前文的探索性数据分析,常发现某不知名红褐色石头混杂在样本中,且不属于任何一类。因此在裁剪后,选择计算红色和橙色在样本中所占的比例,通过实验确定阈值,从而剔除以红褐色岩石为主体的样本。此外,根据前文可知同一类岩石可能因光照、潮湿程度等环境因素改变颜色、纹理。因此为了增加模型的鲁棒性,选择采用随机增强策略对样本进行随机变换。 图像增强是一项通过简单图像变换使数据特征更明显的技术,现已逐渐推广到数据扩增用途。而随机增强即预先选择多种图像变换方案,并以一定概率随机组合这些变换,使得样本图像千变万化,从而训练模型提取图像中最关键的特征信息,使模型具有更强的泛化能力。为对抗样本中存在的光照、潮湿等环境因素的影响,选择水平翻转、垂直翻转、随机饱和度调节、随机亮度调节、随机对比度调节五种基础增强方案,并在训练模型时随机组合这些基础方案。以16号样本为例,五种基础增强方案的示意图如图 3‑2。 图 3‑2 随机增强示意图 综上所述,数据预处理技术路线图如下图 3‑3。 图 3‑3 预处理流程图

4 基于DCNN的岩性智能识别与分类

经过一系列的探索性数据分析,发现除轮廓、色彩等信息对岩石分类有帮助外,岩石的局部纹理特征也对分类效果起着至关重要的作用。因此,本文构建了全局-局部模型,用以提取图像全局和局部的纹理特征,再使用精心设计的融合模块将两种特征合并,馈入前馈神经网络,得到分类结果。 除此之外,注意到所提供的岩石图像中可能混入了其他种类的岩石,这会在一定程度上影响模型分类结果。因此本文基于EfficientNet-B3和MobileNet-V3构建了两个仅关注局部纹理的岩性识别与分类模型,借助置信学习剔除噪声数据,并提出了滑动窗口预测法以综合考量图像主体所属的类别,进一步削弱由图像数据质量问题带来的负面影响。 最后,再以“硬投票(Hard Voting)”的方式对三个模型的预测结果进行融合,从而得到更为鲁棒且精确的预测结果。

4.1 基于随机裁剪数据的图像分类模型

本节基于ResNeXt-50进行改进,充分融合图像的全局与局部信息,采用随机裁剪与图像缩放得到的图像作为训练集进行模型训练,得到最终的“全局-局部模型”。

4.1.1 ResNeXt网络构架

随着计算机硬件设备的不断升级,计算机视觉领域迅猛发展,用于图像识别的网络架构层出不穷。众所周知,网络的深度是决定模型性能的关键因素。理论上可以通过增加网络的层数,让模型获得提取更复杂、更有效的特征的能力,从而使得模型获得更好的性能。但2016年何凯明等人在ResNet 一文中指出网络的层数与模型的性能并非成正比的关系,深度高的模型甚至比深度低的模型效果可能更差,即网络退化。因此,何凯明团队提出“残差结构”来解决网络退化问题,如下图 4‑1所示。 图 4‑1 ResNet残差模块 当输入为 x x x 时,网络学习到的特征为 H ( x ) H(x) H(x),由于存在网络退化现象,ResNet 在原来的模块中增加一个旁路(shortcut),此时模型学习到的原始特征为 F ( x ) + x F(x)+x F(x)+x ,网络便只需学习 H ( x ) − x = F ( x ) H(x)-x=F(x) H(x)−x=F(x) 的残差信息,这与直接学习原始特征的网络相比更为简单且有效。此外,当残差为0时,该堆叠模块仅做了简单的恒等映射,不会使模型的性能下降,从而解决了模型层数越多,网络性能越差的问题。 图 4‑2 ResNet残差模块示意图 ResNeXt 是由Facebook在2017年提出的一种基于ResNet改进的网络架构。ResNeXt将ResNet网络中的“直线式”残差结构改为多分支的同构结构,其与ResNet的区别如图 4‑3所示。 图 4‑3 ResNet与ResNeXt残差模块对比图 下图 4‑4为一个没有偏置项的线性激活神经元,它是一个最简单的“split-transform-merge”结构,它将输入的 m m m 个元素,分配到 m m m 个分支进行权重加权,最后对所有的支路求和。由此神经网络的一个单元可以如下式所示: F ( x ) = ∑ i = 1 m w i ∗ x i F(x)=\sum_{i=1}^{m}{w_i}*x_i\\ F(x)=i=1∑m​wi​∗xi​ 图 4‑4 线性激活神经元 而ResNeXt就是借鉴了“split-transform-merge”想法,将原本的残差模块分成多个小组(即多种特征)进行独立的同构变换,最后再对其进行特征融合。ResNeXt的残差结构可以用如下公式表示: y = x + ∑ i − 1 C T i ( x ) y=x+\sum_{i-1}^{C}{T_i(x)}\\ y=x+i−1∑C​Ti​(x) 其中,C 表示每个残差模块中的分组个数, T i T_i Ti​ 表示特征 x x x 的任意变换。 与ResNet相比,ResNeXt在相同参数的情况下,错误率更低,模型性能更好,故选择ResNeXt-50作为以下模型的主干网络。

4.1.2 逐步细化模型

本次岩石总共分为7个类别,分别为黑色煤、深灰色泥岩、深灰色粉砂质泥岩、灰黑色泥岩、浅灰色细砂岩、灰色泥质粉砂岩以及灰色细砂岩。根据岩石特征以及类别,可将其大致划分为黑色煤、泥岩以及砂岩三类,然后再针对泥岩和砂岩这两类岩石进行类别细分。因此可针对不同的岩石类型以ResNeXt-50为主干网络分别训练三个模型,并将其组合成一个模型来逐步的对岩石进行分类,如图 4‑5所示。 图 4‑5 逐步细化模型 逐步细化模型中的三个子模型分别对应三个任务,期望通过多模型学习不同的特征达到正确分类的目标。但是,该模型存在一个缺点,即Model2与Model3是建立在Model1的划分基础上,一旦Model1分类错误,就意味着Model2、Model3的性能无论多好,都无法改变图像的大类,因此这张图片的预测类别肯定与真实类别不符。也就是说Model1的分类准确度决定了整个模型的性能上限。整个模型的准确率是Model2、Model3的准确率与Model1准确率的乘积之和。

4.1.3 全局-局部模型

由于逐步细化模型会出现准确率严重受限于以ResNeXt-50为主干的Model1,因此本文基于逐步细化模型作进一步改进。 逐步细化模型的主要思想是先分大类再细分小类。由于煤、砂岩和泥岩这三个大类别之间的差异较大,用于区分它们的模型(Model1)通常只需要对图像整体的色彩、结构有一定把握即可,我们把这样大尺度的信息称为全局特征。而进一步细分泥岩或砂岩的Model2、Model3则需要学习图像细节的纹理特征,才能更好地区分差异不大的子类别,我们把这样细粒度的特征称为局部信息。如下图 4‑6所示,逐步细化模型其实是全局信息与局部信息的“串联式”结构连接。 图 4‑6 逐步细化模型串联结构 在串联式结构中,Model1有绝对的话语权,控制了模型的上限。为解决这一问题,本文选择将Model1提取的全局特征与Model2提取的局部特征进行“并联”,构造全局-局部模型。该模型使得两模块并重,不再受限于单一模型,如图 4‑7所示。 图4-7 全局-局部模型 其中,Model1与Model2都是以ResNeXt-50为主干的模型架构。一般而言,ResNeXt-50网络只需要尺寸为224x224的输入即可。而赛题提供图像的两种分辨率(3000x4096、2048x2448)非常大,这就为多样化的预处理方式提供了基础。为了使全局-局部模型中的子模型各司其职,可以对图片进行不同的处理,从而使模型学到不同尺度的纹理特征。 首先,将整张图片直接缩放到448x448,再对其进行中心裁剪,得到分辨率为224x224的图像。处理过后的图像与原图相比损失了部分细节的纹理信息,但是图像的全局信息仍被保留了下来。将这一类图像放入到Model1中训练,可以使网络很好地学习到图像的全局信息。 其次,对原图像进行随机裁剪,同样得到一张448x448的图像,随后在将其缩放到224x224。与之前不同,这张图像虽然也是224x224的大小,但因其是先在原图上进行裁剪,再进行缩放,所以图像虽然损失了全局信息,但其很好的保存了局部的纹理细节,因此Model2能够很好的学习图像的局部信息。 图 4‑7 不同模块输入详解 最后,本文将Model1与Model2的最后一层全连接层移除,即移除类别输出层,此时的模型便成为了特征提取器。再将提取到的全局信息的特征与局部信息的特征拼接起来,馈入一个逐点卷积层,从而深度融合全局、局部信息,让全局-局部模型具有更好的性能。此外,全局-局部模型的并联式结构特点类似于ResNeXt中的“split-transform-merge”模式,这表明以ResNeXt-50为主干构建的全局-局部模型是合理、可行的。 图 4‑8 全局-局部模型详解

4.2 基于网格裁剪数据的图像分类模型

不同于4.1节,本节将使用网格裁剪得到的数据作为训练集进行模型训练,并采用EfficientNet-B3和MobileNet-V3两个不同的主干网络进行训练,得到两个图像分类模型。 同时,为降低标签错误、数据质量等问题带来的模型分类能力影响,此节通过置信学习对初始数据进行清洗,剔除错误标签的数据。将清洗后的数据划分为训练数据和验证数据,再载入EfficientNet-B3(MobileNet-V3)进行训练,并以验证数据的分类准确度高低作为模型是否完成训练的标准。完成模型训练后,根据训练得到的权重载入模型,以滑动窗口预测的方式投票得到最终预测结果,以Efficienet-B3为例,其流程如图 4‑9所示(MobileNet-V3的流程类同)。 图 4‑9 模型训练流程图

4.2.1 EfficientNet简介

EfficientNet 由Google于2019年提出,分为B0至B7八个版本,其中EfficientNet-B0最为基础、也是参数量最少的版本。EfficientNet的核心在于混合缩放,区别于传统的缩放方式,混合缩放通过定义混合缩放系数 ϕ \phi ϕ ,根据式4-2-1同时实现深度 d d d、宽度 w w w 、分辨率 r r r 三个维度的动态缩放。 d = α ϕ , w = β ϕ , r = λ ϕ (4-2-1) d=\alpha^\phi,w=\beta^\phi,r=\lambda^\phi\tag{4-2-1} d=αϕ,w=βϕ,r=λϕ(4-2-1) 上式满足约束条件 α   ⋅   β   ⋅   λ ≈ 2 \alpha\ \cdot\ \beta\ \cdot\ \lambda\approx2 α ⋅ β ⋅ λ≈2 且 α ≥ 1 , β ≥ 1 , λ ≥ 1 \alpha\geq1,\beta\geq1,\lambda\geq1 α≥1,β≥1,λ≥1 。 混合缩放形式如图 4‑10(e)所示。 图 4‑10 模型缩放方式

4.2.2 MobileNet-V3简介

MobileNet-V3 是Google基于MobileNet-V1和MobileNet-V2进行改进后的MobileNet网络系列又一力作,其使用NAS算法搜索得到大体的网络结构,继而使用NetAdapt算法确定卷积层的通道数目,最后进行人工的细微调整,得到网络的最终结构,并且为适应不同的算力场景,推出了Large和Small两个版本以匹配不同算力资源的设备(本文采用Large版本)。 此外,MobileNet系列的网络一直以能够部署在移动端,并能够拥有快速准确的模型预测结果为目的。而MobileNet-V3考虑到Sigmoid函数在移动端设备的计算成本很高,因而改用h-swish激活函数(式4-2-3)近似swish激活函数(式4-2-2)。 s w i s h ( x ) = x ⋅ σ ( x ) (4-2-2) swish(x)=x\cdot \sigma(x)\tag{4-2-2} swish(x)=x⋅σ(x)(4-2-2) h − s w i s h [ x ] = x ( R e L U 6 ⋅ ( x + 3 ) ) 6 (4–3) h-swish[x]=\frac{x(ReLU6\cdot(x+3))}{6}\tag{4--3} h−swish[x]=6x(ReLU6⋅(x+3))​(4–3) 其中 σ ( ⋅ ) \sigma(\cdot) σ(⋅) 为Sigmoid函数,ReLU6为ReLU6激活函数。 图 4‑11 swish和h-swish激活函数比较图

4.2.3 置信学习

置信学习是基于剪枝、计数和排序噪声数据,对噪声标签进行表征识别和学习的方法,其利用概率和带噪标签对非标准化的置信联合矩阵进行检验,估计联合分布,并借此对噪声数据进行剪枝。置信学习不需要超参数,只需要输入样本外预测概率和与噪声标签相关的数组,根据标签噪声概率输出有序样本以消除错误标签样本,流程如图 4‑12所示。 图 4‑12 置信学习

4.2.4 滑动窗口预测

考虑到岩石图像的数据质量问题,对于单标签的图像,其图像内部可能掺杂了其他类别的信息,但是经过综合考量,多数图像数据中的大部分内容能够对应标签信息,因此可视作图像内部存在“噪声”。 为尽可能降低此类数据质量带来的“噪声”问题,本文提出单张图像以滑动窗口方式进行预测的方法,从而得到单张图像不同位置的多个预测结果,这也正对应了模型训练时所采取的数据处理策略,最终取预测结果中的众数作为实际输入单张图像的最终预测结果,如图 4‑13所示。 若选用滑动距离 s 为窗口大小,则退化为对图像进行切块预测。 图 4‑13 滑动窗口预测示例

4.2.5 TTA

TTA 全称Test Time Augmentation,即测试时增强,旨在模型预测阶段,将待预测的原始图片进行水平翻转、垂直翻转、旋转等数据增强操作,得到多张图并分别预测,再对多个结果进行综合,进而得出最终输出结果,如图 4‑14所示。在测试时,利用TTA能够更好地增强模型预测效果,提高模型预测稳定性。因此,本文将采用TTA预测策略提高模型的岩性识别与分类能力。 图 4‑14 TTA示意图

4.3 训练策略 4.3.1 数据集划分

针对本章的岩石岩性识别与分类任务,将利用所提供的数据集中的白光环境图像数据进行模型训练、验证及测试。 经过多次模型的反复训练,发现训练数据的多少并不影响模型的识别能力,即训练数据多时的模型分类准确率与训练数据少时的模型分类准确率并无明显差异,受启于CBLoss 一文,这或许是因为样本中的“有效样本数”较少所导致,即样本数量上的“多”并不对应图像信息上的“多”,因此过多的训练集无法从实质上给模型提供过多的有效信息。 故此减少训练集数量以加快模型训练速度。本文通过分层抽样,将315张白光环境图像数据划分为152张训练集、93张验证集和70张测试集。其中,训练集用于模型训练,验证集用于判断模型是否完成训练及判断过拟合点,测试集用于说明模型的岩性识别与分类能力。

4.3.2 Adam

在优化器选择方面,选用Adam 优化器,Adam由Diederik等人于2015年提出,其结合了Monument、AdaGrad和RMSProp三种优化算法的优点,通过计算梯度的一阶矩估计和二阶矩估计,为不同的参数设计独立的自适应性学习率,具有实现简单、计算高效、对内存需求少、适用于不稳定目标函数等优点。

4.3.3 OneCycleLR

在学习率调整方面,选择使用OneCycleLR 方法,即在初始训练过程先提高学习率以让模型学习地更快,在训练到某一阶段时缓慢降低学习率以让模型找到全局最优解,学习率曲线示意图如图 4‑15所示。 图 4‑15 OneCycleLR学习率曲线

4.3.4 Focal Loss

经数据探索得出数据存在类别不平衡问题的结论,故此使用Focal loss作为损失函数,以解决类别不平衡问题。Focal Loss 由Facebook于2017年提出,在交叉熵损失函数(式4-3-1)基础上引入超参数 γ \gamma γ ,以减少易分类样本的权重,使得模型在训练时更专注于难分类的样本(式4-3-2)。 C E ( p , y ) = C E ( p t ) = − l o g ( p t ) (4-3-1) CE(p,y)=CE(p_t)=-log(p_t) \tag{4-3-1} CE(p,y)=CE(pt​)=−log(pt​)(4-3-1) F L ( p t ) = − ( 1 − p t ) γ l o g ( p t ) (4-3-2) FL(p_t)=-(1-p_t)^\gamma log(p_t)\tag{4-3-2} FL(pt​)=−(1−pt​)γlog(pt​)(4-3-2) 式4-3-1和式4-3-2中, p t = { p , y = 1 1 − p , o t h e r w i s e p_t=\begin {cases} p,&y=1\\1-p,&otherwise \end {cases} pt​={p,1−p,​y=1otherwise​

4.4 模型融合

考虑到不同的模型训练方式、不同的骨干网络会得到不同的模型识别能力,即前文4.1节和4.2节得到的三个不同模型在进行岩性识别与分类时,所关注的侧重点(图像区域)会有所不同,进而对于不同岩性类别的岩石分类能力也有所差异、各有所长。 因此为得到更为鲁棒、准确的岩性分类结果,本文基于取长补短、群策群力的原则,借助集成学习的思想,在结果测试时对三个模型的预测结果采用“硬投票(Hard Voting)”的方式输出得到最终的预测结果,其示意图如图 4‑16所示。 图 4‑16 模型融合示意图 若是出现三个模型的预测类别完全不一致的情况,即三个模型预测出三种岩石类别,则采取随机原则,随机选择其中一个模型的预测结果作为最终的集成结果(此类情况极少,在所用70张测试集数据中仅出现一例)。

5 岩石含油比例计算

在紫外线的照射下,石油会发出绿色或黄色的光芒,这是石油的发光特征。因此可以借助荧光环境下的图像数据,计算图像中黄绿色光点面积占岩石总面积的百分比,从而估计岩石的含油量。 由2.3节知,提供的数据中以bmp格式存储的照片无明显背景,岩石能够占满整幅画面,可以近似地把照片面积看作岩石面积;以jpg存储的照片有明显的蓝色背景,需要设计算法将蓝色背景剔除。因此对两种格式图像数据分别设计算法计算含油比例,技术路线图如图 5‑1所示。 图 5‑1 含油比例计算流程图

5.1 荧光区域分割 5.1.1 颜色空间转换

在计算机中,照片以矩阵的形式存储,其尺寸可记为(W,H,C),其中W和H即照片的宽和高,以像素为单位,而C表示通道数。使用目前应用最广泛的RGB颜色模式存储的照片的通道数C=3。这是因为RGB颜色模式通过混合红、绿、蓝三原色模拟其他的颜色,故需要三个通道分别表示对应三原色之一的强度。RGB颜色模式示意如图 5‑2所示。 图 5‑2 RGB颜色模式示意图 使用RGB标准几乎可以模拟人类肉眼可以感知到的所有颜色,但RGB色彩空间内的颜色大多是不连续的,难以通过限定色彩范围提取具有指定颜色的像素。因此,首先将RGB图像映射至HSV空间——一种依靠色调(Hue)、饱和度(Saturation)、明暗程度(Value)表示颜色的标准。借助HSV空间,可轻松地将颜色与色调(Hue)、饱和度(Saturation)、明暗程度(Value)的关系表示为下图 5‑3中的三维图像。可见在HSV颜色空间里,相近的颜色往往是相邻的,只需要规定H、S、V三轴的取值范围,即可筛选出想要的颜色。 图 5‑3 HSV颜色空间示意图

5.1.2 石油荧光分割

根据上述原理编写程序,效果如图 5‑4所示。其中最左侧的窗口中的白点即表示当前色彩范围提取到的石油光斑,中间窗口显示了荧光灯下拍摄的原照片。通过拖动右侧窗口的滑块,可以调节色彩空间范围,从而观察并分析HSV色彩范围对石油光斑分割的效果。为了减少石油的误判和漏判,经过大量实验分析,最终确定石油光斑颜色在HSV空间的下限为(26,43,47),上限为(77,255,255)。 图 5‑4 颜色提取示意图

5.2 轮廓检测

对于有明显背景的图片,需要设计算法找出岩石所在的区域,从而剔除背景,正确计算岩石面积。针对数据特点,本文设计了一个准确高效的轮廓检测流程。该流程可分为图像降噪、Canny边缘检测、形态学处理、轮廓检测四个步骤,技术路线图如下图 5‑5所示。 图 5‑5 轮廓检测流程图

5.2.1 图像降噪

由于所提供的图像数据是高分辨率的,包含许多细节纹理信息,然而任务目标为轮廓检测,只需要关注岩石堆的边缘即可,岩石内部的细节信息只会对轮廓检测带来负面影响。因此使用 3 × 3 3\times3 3×3 大小的高斯滤波器对图片迭代处理两次,效果示意图如下图 5‑6所示。 图 5‑6 图像降噪示意图

5.2.2 Canny边缘检测

Canny边缘检测算法 是目前最为常用的边缘检测算法之一。该算法于1986年由John F. Canny提出,具有低漏判率、低误判率等优良性质。Canny边缘检测算法需要设定两个阈值超参数 t 1 t_1 t1​ 和 t 2 ( t 1 < t 2 ) t_2(t_1



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3