基于机器学习的综合干旱监测建模及在西南地区应用

您所在的位置:网站首页 增强回归树模型BRT面板数据 基于机器学习的综合干旱监测建模及在西南地区应用

基于机器学习的综合干旱监测建模及在西南地区应用

2023-08-19 17:38| 来源: 网络整理| 查看: 265

干旱研究中使用了许多干旱指数,这些指数提供诸如水分供应状况和干旱的定量严重程度等信息。其中标准化降水指数(SPI),标准化降水蒸散指数(SPEI),帕默尔干旱指数(PDSI)和湿度异常指数(Z-index)被广泛使用。但这些指数通常只针对单个干旱类型或有限数量的数据源。遥感数据由于其具有宏观、快速和时空上数据连续的优点使得大面积高时间分辨率的干旱评估和监测成为可能。

由于干旱是由多种因素引起的,所以没有单一的指标可以完全解释干旱的复杂性和多样性。因此,将各种指标结合成为监测干旱的趋势。近年来很多学者尝试考虑将多种致旱因子结合来构建干旱模型并且已经开发了多种综合干旱指数。例如,植被健康指数VH通过加权组合地表温度(LST)和归一化植被指数(NDVI)计算得出,该指数由于其提供了与给定时期内输入数据的历史范围(最小值和最大值)相对应的干旱条件信息从而被广泛应用。RHEE等开发了归一化旱情状态指数SDCI(Scaled Drought Condition Index),综合了降水状态指数(Precipitation Condition Index, PCI)、温度状态指数(Temperature Condition Index, TCI)以及植被状态指数(Vegetation Condition Index, VCI),主要用于监测农业干旱。植被供水指数(VSWI)能够综合反映作物冠层表面温度和植被指数信息,用于检测植被胁迫、水分和干旱影响地区。当组合多个变量时,决定使用哪种加权方案至关重要。平等加权和线性组合方法由于其简单性而被普遍使用,但是各因素对干旱的影响在不同的地区、时间和干旱类型表现不同,因此应研究更先进和自适应的加权方法,以融合多种因素以更好地监测干旱。

本研究综合考虑了干旱形成过程中的多种因素,以确定它们如何有效地用于监测气象和农业干旱。研究目标为:(1)利用光学遥感数据、微波遥感数据计算出5种干旱相关指标,如TCI、PCI、SMCI、VCI和VSWI,并结合DEM、AWC为自变量,以综合气象干旱指数CI为因变量,训练三种机器学习模型——随机森林、增强回归树模型和人工神经网络,对比三种模型的结果,从中选取效果最优的模型;(2)评价最优干旱指标对于植被干旱的监测效果;(3)通过最优干旱指数对2009/2010干旱事件进行监测并与PDSI做对比。

1 研究区及数据

1.1 研究区概况

中国西南地区范围为20°N—35°N,96°E—113°E,由四川、重庆、贵州、云南、广西五省组成(见

图1

)。区域总面积约为1.37×106 km2,占国土面积的14.3%。该地区位于青藏高原与中国东部和南部平原的过渡地带。云南南部属热带季风气候,四川西部属高原气候和高山气候,其余地区均属亚热带季风气候。光热条件较好,但受季风气候和山地地形的明显影响,降水时空分布不均匀。喀斯特地貌普遍存在,水土流失严重,易受人类干扰和气候变化,尤其是干旱的影响。

图1 研究区概况与气象站点分布

1.2 数 据

1.2.1

遥感数据

MODIS提供了大量的环境和生物物理产品,可在https: //modis.gsfc.nasa.gov/上获得。MOD13A1为植被指数产品,每月两期数据,空间分辨率为1 km。MOD11A2为8天合成空间分辨率为1 km的地表温度(LST)产品。MCD12Q1为年合成的土地覆盖类型产品,空间分辨率为500 m。热带降水测量计划(Tropical Rainfall Measuring Mission, TRMM)是用于获取热带与亚热带区域降水量的项目,TRMM 3B43产品提供1998年1月至2015年11月的降水数据,空间分辨率为0.25°×0.25°。ESA CCI土壤水分数据产品是从欧洲航天局的气候变化倡议组织门户获取(European Space Agency′s Climate Change Initiative, ESA CCI, http: //www.esa-soilmoisturecci.org)。通过结合被动和主动微波仪器的不同卫星产品,ESA CCI产品提供了土壤水含量变化的时空连续记录。ESA CCI土壤水分数据通常检测到的是上部土壤层(即顶部几厘米)的水分。ESA CCI土壤水分数据集跨越1979年至2015年,时间分辨率为1 d, 空间分辨率为0.25°。为获取研究区高程数据,本文使用SRTM(Shuttle Radar Topography Mission)提供的地形产品数据,空间分辨率90 m, 该数据提供全球60°S至60°N的数字高程模型。土田间持水量(AWC)数据来自世界土壤数据库(HWSD)土壤数据集(v1.2),下载地址:https: //daac.ornl.gov/cgi-bin/dsviewer.plds_id=1247,数据空间分辨率为0.05°。以上数据均采用最近邻法重采样为空间分辨率1 km, NDVI通过最大合成法合成为月度数据,其余均采用平均法合成月度数据。

1.2.2

气象站点数据

本文采用西南五省478个主要气象站点(见图1)2001—2015年月平均温度和降水数据,数据已经过质量控制,剔除各站点的缺失及无效数据。

2 研究方法

2.1 模型构建原理

干旱是由多种致旱因素造成的,不仅与降水、土壤水分胁迫和植被生长状态有关,还涉及到土壤有效持水量、土地覆盖类型等因子。因此,结合多种干旱指数构建综合干旱监测模型有助于干旱监测。本文以7个变量作为模型输入变量,包括TCI,PCI,SMCI,VCI,VSWI,AWC以及DEM;以综合气象干旱指数CI为因变量构建基于遥感数据的干旱监测模型,并且分别对森林、灌木、草地三种植被类型建立模型,以获得更好的干旱监测效果。各变量具体计算公式如

表1

所列。在模型训练前,抽取气象站点周围10 km栅格点的平均值并计算自变量。使用R2和RMSE来评估机器学习模型的性能,通过测量实际值和预测值之间的差来计算样本标准差。技术路线如

图2

所示。

图2 技术路线

2.2 指标的建立

干旱的形成通常与气象条件、土壤水含量、植被绿度关系密切,同时土壤成分和海拔高度也有可能是干旱发生的原因之一,因此本文基于导致干旱发生的要素选取了TCI、PCI、SMCI、VCI、DEM和AWC作为模型的输入变量。TCI,PCI与气象干旱关系密切,TCI由MODIS数据计算,它关注了高温对植被生长的胁迫,TCI越大表示干旱越严重。PCI由TRMM数据计算,该数据提供了月降水量的估计数,PCI能够直接反应降水的异常。SMCI基于长时间序列的ESA CCI土壤湿度产品构建,能够定量刻画土壤的干湿异常程度。VCI和VSWI通过监测植被长势间接反映干旱的严重程度,相比于NDVI,VCI通过比值的方法降低了季节变化带来的噪音影响。VSWI综合了植被和温度信息,当植被受到干旱胁迫时,会关闭部分气孔以保持叶片含水量,从而导致了叶片水汽蒸发量降低,同时也会阻止叶片热量的散发,因此在干旱发生时植被冠层温度会升高,此时植被指数与叶片温度的比值会表现异常。VSWI能够有效地反映出土壤水分对作物长势状况的影响,从而间接反映干旱情况,VSWI越小植被受旱程度越严重。根据VSWI计算原理,该指数的获取是通过同时期的LST和NDVI,与历史数据无关。而TCI和VCI的计算需要以一段时间内的温度或植被绿度作为基线,通过比值来确定干旱程度。但是在气候变化背景下,不同的时间段会产生不同的基线,而VSWI的计算只需要瞬时的温度和绿度,并有明确的物理意义,因此在模型中可以弥补由气候变化导致的干旱评估误差。AWC代表土壤保持水分以及可供植被所用水分的潜力,能反映不同土壤对于干旱的影响。AWC通常是一个常数,一般不同土壤类型的田间持水量不同,其与土壤的粒径有关,黏土最大沙土最小。DEM解释了基本气候条件和太阳能收支差异,对准确监测区域干旱有着重要作用。

综合气象干旱指数(CI)不仅考虑了降水,还考虑了蒸散发等因素,与只考虑降水的干旱指标相比有较好的表现。综合气象干旱指数能够反映多种时间尺度的降水异常情况,对干旱发展的机制有较强的刻画能力。帕默尔干旱指数(PDSI)通过考虑降水、温度和蒸发等来量化特定时间内的干旱特征,在气象、农业等领域应用较为广泛,具体计算方法详见

文献[7]

。CI及PDSI的干旱等级如

表2

所列。

[7] PALMER W C.Meteorological drought[M].Marylond:US Department of Commerce,Weather Bureau,1965.

2.3 分析方法

在本文中,选择三个基于规则的机器学习方法-随机森林(RF),增强回归树模型(BRT)和人工神经网络(ANN)模型来建立综合干旱指数。

2.3.1

随机森林(RF)

RF基于分类和回归树(CART),通过选择训练样本和在树的每个节点上选择变量的两种随机方法生成了许多独立的树,以达到最终决策。这种随机性减轻了CART的典型弊端,例如过拟合问题和对训练样本配置的敏感性。RF由R统计软件(http: //www.r-project.org)的随机森林包实现,除树木数为1 000外,其余均为默认设置。

2.3.2

增强回归树(BRT)

与RF相似,BRT是基于CART的集成方法,BRT通过拟合和组合许多模型来提高单个CART模型的性能。它通过将随机性引入模型来提高预测性能,并通过控制学习率和树复杂度的参数来实现最佳预测。这种方法的优点是它可以处理不同类型的预测变量,容纳丢失的数据并处理预测变量之间的交互作用。在构建BRT模型时,定义树复杂度为5,学习率为0.01,包分数为0.5。

2.3.3

人工神经网络(ANN)

人工神经网络具有良好的自学习能力和逼近复杂非线性关系的能力,利用梯度下降法来求最优解,其泛化能力较强。本文采用了目前流行的具有反向传播学习算法的前馈网络结构。在基于进化的优化过程中,前馈网络结构可根据权重和偏差在每层隐藏层和神经元的数量进行自适应更改,以满足所需的置信水平。本文使用Python Sklearn库的人工神经网络算法,经过试错法来确定人工神经网络参数,并选取表现最优的参数组合。具体参数为:隐藏层数为8,神经元数量为100;权重优化器使用随机梯度下降法(SGD);用于隐藏层和输出层的激活函数为ReLU;学习率为0.01,其余参数均为默认。

3 结果与分析

3.1 模型的验证与评价

本文使用交叉验证的方法来评价模型的精度,即将所有样本随机分为训练集和测试集,样本量总数为86 040条,其中训练集占80%,测试集占20%。分别计算两组数据集的预测值与CI的R2和RMSE,由

表3

可知,ANN在3种机器学习模型中表现最好,训练集与测试集R2分别为0.94和0.82,RMSE分别为0.23和0.3。BRT和RF模型R2为0.7~0.88,RMSE为0.3~0.43。因此,与RF和BRT相比,ANN有着更好的学习能力。

本文又继续分析了三种综合干旱指数在森林,草地和灌木区域的表现(见

图3

)。三种干旱监测模型在评估草地地区的CI上表现最为出色,优于灌木,在森林地区的表现最差,这可能是因为NDVI在植被茂密地区容易出现饱和现象,敏感性下降,无法表现植被真实生长状态,因此导致模型精度下降。同时基于ANN的干旱指数在三个植被类型中均表现出色,RF模型次之,BRT模型表现最差。其中ANN对于草地的预测精度最高,预测值与观测值基本在1∶1线周围分布且较为集中,但对于森林区域,虽然散点也较为集中,但是整体略微偏离了1∶1线,出现了低估现象;随机森林散点图在草地区域表现较为集中,灌木和林区略微散乱,在林区偏离1∶1线较为严重,低估了CI值,对于CI值大于1或者小于-1时点的散乱程度增大,说明随机森林对于极端湿润或干旱事件的模拟性能较差,而对接近0的值预测能力较高;增强回归树模型整体效果欠佳,草地和灌木虽然散点较为集中,但是偏离1∶1线幅度较大,且林区散点更为散乱,均出现了低估现象。综上所述,基于ANN的干旱监测模型(ANN-CI)效果最好,被选为后续分析指标。

图3 RF,BRT,ANN在森林,灌木,草地区域的模型预测值与观测值散点图

3.2 生态干旱监测

为了验证ANN-CI对于植被受到干旱时的监测能力,本文选择基于ANN的干旱监测模型(ANN-CI)计算了2001—2015年全区平均值的时间序列,并与基于NDVI的距平指数(NDVIanomaly)的时间序列进行相关性分析。选取生长季的植被距平指数与ANN-CI并计算每年平均值。如

图4

所示,在空间上ANN-CI与NDVIanomaly指数的关系在65%的区域呈现正相关,48%面积上呈现显著正相关(通过了p



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3