用于土地使用和土地覆盖分类的landsat8的OLI波段组合的选择

您所在的位置:网站首页 landsat影像波段 用于土地使用和土地覆盖分类的landsat8的OLI波段组合的选择

用于土地使用和土地覆盖分类的landsat8的OLI波段组合的选择

2024-07-02 14:04| 来源: 网络整理| 查看: 265

建议直接看结论

paper: Selection of Landsat 8 OLI Band Combinations for Land Use and Land Cover Classification

ABSTRACT:

        利用卫星图像进行土地利用和土地覆盖(LULC)分类是监测地球变化的重要手段。为了生成LULC地图,经常使用监督分类方法。对于许多监督分类算法来说,特征独立性是一个隐含的假设。然而,这一假设很少得到验证。对于LULC分类,使用所有的波段作为模型的输入特性是默认的方法。但是,一些波段可能是高度相关的,这可能导致模型性能不稳定。本研究分析了4种主要的LULC类型(农田、森林、发达地区和水体)的多光谱波段间的相关性和多重共线性。在相关分析的指导下,使用不同的波段组合训练支持向量机(SVM)进行四类LULC分类,并对结果进行比较。从我们的实验中可以看出,4、5、6波段是最好的三波段组合,1、2、5、7波段是最好的四波段组合,其性能与使用所有波段进行LULC分类几乎相同。

INTRODUCTION:

        多光谱遥感影像被广泛用于制作LULC地图,用于土地利用和土地覆被监测、环境建模等多种应用。自1972年以来,Landsat项目持续提供高质量的中等空间分辨率和时间分辨率的地球表面多光谱影像。不间断、免费获取的长期图像数据档案已成为研究人员和科学家的重要数据来源。

       使用多光谱图像进行LULC映射,像素级监督分类是[5]中最常用的方法。具体来说,首先从目标多光谱图像中随机采样训练样本,并根据参考数据集如高分辨率图像进行标记。然后使用标记样本训练一个用于图像分类的模型。对于一些机器学习模型,如果一些特征高度相关,最好的做法是去除一些相关的特征,因为冗余的特征会导致模型性能不稳定,同时增加模型的复杂性。这个问题通常被称为“维数诅咒”或霍夫现象,指的是随着数据维数的增加分类准确率的下降,特别是对于小样本[5]。在LULC映射场景中,馈给模型的特性通常是[6]多光谱波段。因此,有必要研究多光谱波段之间的相关性以及对LULC进行分类的最有效波段组合。

       多光谱图像的最佳波段组合已经得到了广泛的研究。Mausel等人[7]深入研究了在一幅USDA-ARS图像上对6个农业用地特征进行分类的最佳波段组合。在所有组合中,第3、4、7、8段的性能最好。当仅使用3个波段时,准确率达到90%,当全部使用8个波段时,准确率慢慢提高到95%。Duro等人[8]使用了一种特征选择方法,仅使用40%的Landsat 5 TM、SPOT5和DEM数据的特征,也取得了相似的精度。Dwivedi和Rao[9]研究了20个Landsat TM的三波段组合,发现1、3、5波段是描述盐害土壤的最佳波段组合。此类研究要么关注于其他遥感数据集,而不是landsat8 OLI或特定的LULC类型,然而用于一般LULC分类的最佳landsat8 OLI波段组合却很少被研究。因此,本研究旨在弥补这一差距。

        在本文中,提出了一个分析landsat8 OLI波段之间相关性的实验。具体而言,选择耕地、森林、发达地区和水体四种主要的LULC类型来代表一般的LULC类型。在波段相关分析的基础上,选择不同的波段组合作为特征来训练SVM模型。然后将这些模型的分类结果进行比较,得出使用landsat8 OLI图像进行LULC分类的最佳波段组合。

METHODOLOGY : A. Data

        landsat8 OLI是LULC分类中使用最广泛的遥感数据集之一。landsat8 OLI提供了11个光谱波段,如表i所示。在本次研究中,我们选择波段1到波段7用于分析(即海岸带、蓝色、绿色、红色、近红外、短波红外I和短波红外II),波段8到11较少用于LULC分类。

        为了为每种LULC类型获得足够的样本点,我们选择四种LULC类型对应的四个场景进行样本生成。具体来说,选择了爱荷华州的一个场景进行农田样本的生成, 森林样本生成选取西弗吉尼亚州的一个场景,水样本生成选取密歇根湖的一部分,发达地区样本生成选取纽约市和费城的场景。选择具有相似获取日期和纬度的图像,以确保不同场景的日照条件相似。每个LULC类型所选图像的详细信息见表II。

        为了测试不同输入特征的模型性能,位于华盛顿特区的landsat8场景被选为测试图像。之所以选择测试地点,是因为现场出现了所有四种LULC类型。

        美国农业部NASS农田数据层(CDL) 被用作LULC的参考层。CDL是一个针对特定作物的土地覆盖数据层,每年为美国大陆创建,主要使用Landsat图像[10]。CDL有100多个类别,包括50多个特定作物类型和其他常见的LULC类型,如森林、水体和发达地区等。选择CDL 2017来匹配选定的landsat8图像年份。所选landsat8图像对应的CDL图层如图1所示。除了CDL, JRC的水分类层[11]作为水参考层,因为我们周围的主要水体都被CDL层遮盖。

        本研究中使用的所有数据都来自谷歌地球引擎(GEE)平台。GEE已经在他们的服务器上编目了各种与遥感相关的数据集,包括landsat8 OLI图像和CDL层。此外,GEE还提供了一个基于web的编程接口,使用户能够编写自定义应用程序来高效地处理高性能服务器[3][6][11]上的遥感数据。

B. Sample Generation

        对于农田,选择CDL类值1到54,包括美国的主要作物类型,如玉米、大豆。对于Forest, CDL类值为63 (' Forest ')和value 141 - 143(“落叶林”、“常绿林”和“混交林”)。CDL等级值123 (' 发达/中等强度’)和124(‘发达/高强度’)被选择用于发达区域样本的生成。由于低强度成像区域的图像像素常与建筑物和植被混在一起,因此没有纳入低强度成像区域。最后选取JRC水分类层中的永久水体进行水样生成。

        选取CDL类值对相应landsat8图像上不相关的像素进行掩模。然后从landsat8图像的未掩蔽区域随机生成点样本。在实现方面,这种过程在GEE上的执行略有不同。具体来说,首先从Landsat图像中随机生成样本,然后使用选定的CDL遮罩去除落在遮罩区域的点样本。手动调整每个场景的总样本点,使每个类的样本数量大致平衡。 具体来说,我们在农田中生成了368个采样点,在森林中生成了347个采样点,在发达地区生成了348个采样点,在水体中生成了350个采样点。将每个类的样本点组合为一个整体进行波段相关分析。

C. Correlation

       相关分析采用Pearson’s r。Pearson’s r的公式如式(1)所示。

       在上面的公式中,𝑥𝑖和𝑦𝑖从𝑖th样本的两个特征值,和\bar{x},\bar{y}是所有样本中特征x和特征y的平均值。

        另外,多个变量之间存在相关性,皮尔逊公式很难捕捉到相关性。因此,我们使用方差膨胀因子(VIF)来分析频带之间的多重共线性。具体来说,VIF度量的是多自变量模型与单自变量模型的方差之比。VIF是数据内多重共线性的一个很好的度量。VIF值一般大于10,表明数据存在严重的多重共线性。

D. Supervised Classification

        采用带线性核的支持向量机进行监督分类。支持向量机模型的目标是最大化决策边界到任意样本[6]的距离。

       SVM模型使用目标landsat8图像中随机生成的686个样本进行训练。使用不同的样本波段组合来训练支持向量机模型。模型采用1390个随机抽样点进行评估。分类结果的评价指标是总体精度(OA)和Kappa系数。

RESULTS

        四种LULC类型的所有波段的相关矩阵如图2所示。以0.8为r值的临界值,r值越大说明相关性越强,可以看出1到4段之间存在着严重的相关性。波段1和波段2是所有对波段中最相关的波段(r = 0.98)。波段往往与他们的邻居波段相关,但有一个例外是波段4和波段5 (r = 0.31)。此外,各频带之间的相关性通常会随着频带之间的差值的增加而减小,例如,6频带与其他频带之间的r值从0.84(5频带)逐渐减小到0.23(1频带),这直观上是有意义的,因为随着频带之间的差值的增加,频带之间的相似性会减小。值得注意的是,除6波段外,5波段与其他波段没有显著相关。

       所有波段的VIF值见表三。可以看出,所有VIF值的最小值为19,说明多重共线性严重。最高的两个VIF值分别为159.608和102.323,分别来自于波段1和波段2,说明波段1和波段2有较高的信息重叠。此外,4个VIF值最高的是在波段1 ~ 4,这与相关分析结果相似,波段1 ~ 4多为相关波段。所有的VIF值表明所有波段之间存在严重的多重共线性,因此需要通过特征选择来解决这个问题。

        通过相关分析和多重共线性分析,我们可以得出,第1 ~ 4段是高度相关的,特别是第1和第2段。此外,6和7也高度相关。因此,基于这些信息,我们使用的波段选择策略是在1 - 4波段中选择1到2个波段,在6 - 7波段中选择1到2个波段,并在任意组合中包含5波段。Mausel等人[7]表明,最佳波段组合的OA随着条带数量的增加而增加,达到4条,在模型中加入更多波段时趋于平稳。因此,我们的研究重点是3个波段组合和4个波段组合。采用不同的波段组合对具有线性核的SVM模型进行训练,各模型的验证OA和Kappa如图3所示。波段数从图的左边增加到图的右边。最右边的条代表默认模型,所有的条带都是特性。对比三波段组合和四波段组合,我们不能看出四波段组合优于三波段组合。最好的模型是以所有波段为输入特征的模型(OA: 0.902, Kappa: 0.853)。最佳的四波段组合为2、5、6、7 (OA: 0.896, Kappa: 0.844)、1、2、5、7 (OA: 0.900, Kappa: 0.852)。波段1,2,5,7取得了几乎相同的性能使用所有波段。最好的三波段组合是波段4,5,6 (OA: 0.872, Kappa:0.809),比最好的四波段组合略差。

        图4所示。显示了使用最佳四波段组合(波段1、2、5、7)、所有波段和参考文献的分类结果 CDL层重新分类为选定的四种LULC类型。使用波段1、2、5、7的分类结果与使用波段1、2、3、4、5、6、7的分类结果几乎相同,说明使用波段子集可以获得与使用所有波段相同的性能。

CONCLUSIONS:

在本研究中,对landsat8多光谱波段之间的相关性和多重共线性进行了分析。在分析的基础上,采用了几种三波段组合和四波段组合进行LULC分类,结果表明,4、5、6波段组合、1、2、5、7波段组合和2、5、6、7波段组合是4种主要LULC类型分类的最佳波段组合。

ACKNOWLEDGMENT

这项研究得到了美国宇航局土地使用和土地覆盖计划的基金资助。(Grant # NNX17AH95G, PI:Prof. Liping Di)。Landsat-5图片由美国地质调查局提供。

 

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3