一种传染病预测模型的构建方法

您所在的位置:网站首页 sir模型数学建模 一种传染病预测模型的构建方法

一种传染病预测模型的构建方法

2023-01-23 17:58| 来源: 网络整理| 查看: 265

一种传染病预测模型的构建方法

1.本发明涉及一种传染病预测模型的构建方法,适用于根据传染病相关搜索查询以及多气候变量实时解码与预测疫情动态变化,属于疫情预测技术领域。

背景技术:

2.鉴于新冠疫情对健康和社会经济的严重影响,及时、准确地预测区域范围内的传染病发病率,将极大有助于当地卫生资源管理和有效的疫情预防。此前研究提出了几种预测模型用以分析传染病动态,其中易感、感染和恢复(sir)模型是文献中应用最广泛的流行病模型之一,该模型在数学建模过程中主要考虑易感、感染和恢复的个体数量,以及传播率和恢复率。另一常用传染病模型,即易感、暴露、感染和恢复(seir)模型,其作为sir模型的一个扩展版本,在建模过程中通过增加已被感染的无症状个体比例这一新变量,进一步提高了对传染病传播预测的准确度。然而,上述模型大多是确定性的,即建模过程固定,依赖变量及参数过少。此外,上述模型缺乏关注人们的行为模式特征,如接种疫苗、购买外科口罩或去俱乐部的意愿,而这些行为模式可能增加或减少流行病的传播,对传染病的预测具有至关重要的影响。3.因此,为了探索监测和预测疾病爆发的新方法,反映人们行为模式的互联网搜索数据有望成为增强预测模型性能的重要来源。其中,从谷歌趋势(google trends)大数据平台获取的搜索查询数据在商业、经济、通信、疾病预测等领域均有广泛的应用。例如,ginsberg等人于2009年利用45个选定搜索词的查询数据检测了美国流感样疾病(ili)的动态变化。在另一项研究中,araz等人报告称,额外使用谷歌趋势数据显著提高了多元线性回归模型在预测ili就诊信息方面的性能。迄今为止,有相当多的文献表明,在对埃博拉、流感样疾病、麻疹和寨卡等流行病进行动态分析时,使用搜索查询大数据(例如谷歌趋势等)具有重要价值。4.目前,学者们基于大数据平台的搜索查询数据,提出了多种模型以预测流行病动态,如自回归综合移动平均模型(arima),以及多类机器学习算法等。然而,arima模型的一个主要问题是模型的稳定性较差,观测数据或者模型参数的微小变化都可能导致模型不稳定,对流行病的解码和预测性能下降。而基于机器学习的方法包括线性回归、深度神经网络、长短期记忆(lstm)网络等,都面临着需要大量数据的缺点,这在实际预测中往往较难满足。

技术实现要素:

5.本发明的技术解决问题是:克服现有技术的不足,提出一种传染病预测模型的构建方法,该方法采用维纳级联(wiener cascade)模型,基于大数据平台的搜索查询数据和气候数据。6.本发明的技术解决方案是:一种传染病预测模型的构建方法,该方法的步骤包括:步骤一,获取实验时间段内信号s(t),信号s(t)包括每日新增确诊病例数量、每日温度、每日湿度、与传染病相关的关键词搜索量。每日新增确诊病例数量作为目标变量,每日温度、每日湿度、关键词搜索量作为特征变量;步骤二,基于连续小波变换(cwt)对第一步获取的信号s(t)进行时频分析,得到信号时频谱图;所述的步骤二中,进行时频分析的方法为:步骤s1,选择满足“容许条件”的小波函数,表示为:其中,ψ(fk,t)表示小波函数,fk为振荡频率,t为时间,σ为时域的分辨率参数;步骤s2,基于步骤s1所述的小波函数对信号s(t)进行连续小波变换,得到信号s(t)的小波系数ws(fk, t),表达式为:其中,*表示复共轭,τ为时间积分变量。7.步骤三,基于步骤一获取的实验时间段内信号以及步骤二中获得的时频谱图选择与传染病相关特征变量x(n)建立维纳级联(wiener-cascade)模型,维纳级联(wiener-cascade)模型由一个动态线性单元p(即维纳滤波器)和一个静态非线性单元q组成;维纳滤波器p的输出同时作为非线性单元q的输入表示为:其中,u(n)为n时刻的预测发病率,xi (nꢀ‑ꢀj)表示第i个特征变量在nꢀ‑ꢀj时刻的取值,n表示特征变量的总数,m表示实验时间,aij为第i个特征在j时刻的维纳滤波系数,由维纳滤波系数aij组成的系数矩阵定义为a,所有特征变量的集合定义为特征集f(n) = { xi (nꢀ‑ꢀj), i = 1, 2,ꢀ…, n, j = 1, 2,ꢀ…, m }。构建非线性单元q,对一阶输出u(n)进行调整,生成最终输出y(n) = g(u(n))其中,y(n)为目标变量,n为离散时间变量,g(u(n))为三阶多项式,三阶多项式函数的权重通过最小二乘优化确定。8.维纳级联(wiener-cascade)模型的确定方法为:第一步:基于wiener-hopf方程估计系数矩阵a,实现特征集f(n)与目标变量y(n)之间的最佳动态线性拟合,表示为:a = (xtx)-1xty其中,x表示全部特征变量构成的矩阵,y表示目标变量矩阵;a = (xtx+λi)-1xty其中,λ是正则化常数,i表示单位矩阵;第二步:根据第一步中估计出的系数矩阵a与特征集f(n)获得u(n);第三步:根据第二步中所得u(n)和目标变量y(n),拟合u(n)和y(n)之间的三阶多项式,得到目标变量y(n),三阶多项式函数的权重通过最小二乘优化确定。9.步骤四,使用滑动窗口时间序列交叉验证算法训练并验证步骤三建立的维纳级联模型。交叉验证过程主要基于滑动窗口时间序列交叉验证算法(tscv),使用预测点之前的部分数据子集作为训练集,使用训练窗口之后的数据点作为测试集,对于每一次运行,都会获得被测数据点的预测精度,随后,在下一次运行时,训练和测试窗口会向时间序列的末尾移动数步,并重复上述估计过程;tscv算法的方法为:步骤s1:选择窗口长度l,它代表了训练集中包含的样本数量;步骤s2:根据上一步选择的窗口长度l,取原始时间序列开始处的前l个样本作为训练集,选择训练窗口后的单个观测值作为测试集;步骤s3:用步骤s2所述的训练集训练维纳级联模型;步骤s4:用步骤s3中训练过的模型对测试集的数据进行预测,并评估预测精度;步骤s5:将训练窗口向右移动,重复步骤s3~s4,直到整个时间序列被覆盖;步骤s6:计算步骤s4中所有预测精度的平均值。10.有益效果(1)本发明的方法中,维纳级联模型与传统线性回归模型和机器学习算法相比,不仅额外考虑了各种特征变量的时滞效应,充分整合了特征变量的历史信息,而且具有可解释性强、计算成本低、支持非线性关系建模等优点,有助于提高对传染病动态的解码与预测性能;(2)本发明的方法中,鉴于此前研究指出温度和湿度等气候变量均对新冠疫情等传染病发病率有显著影响,本发明亦将多气候变量(如温度、湿度等)整合进维纳级联预测模型中,并预期这些变量可能更好地实现对传染病发病率的动态预测。据我们所知,这也是首项同时整合人群搜索查询大数据与气候变量,并使用维纳级联模型进行传染性疾病解码与预测的新技术。11.(3)本发明面向新冠疫情等重大传染病预测与解码需求,首次提出了一套基于维纳级联模型的传染病疫情预测系统,同时整合了互联网搜索查询大数据和包括温度、湿度在内的气候数据,实现了对传染病疫情的精准检测,可望为动态配置防疫资源提供可行新途径。本发明所提出的新模型适用于传染病疫情的精准解码与预测,高效可靠,易于软件化。附图说明12.图1为本发明的方法流程示意图;图2 (a)为关键变量的时序表示及其时频谱图,包括新增确诊数、平均温度、平均湿度,以及搜索查询关键词“新冠症状”的搜索量;图2(b) 为每周新冠新增确诊病例的预测趋势(灰色)和实际趋势(黑色)。具体实施方式13.本发明基于与传染病相关的搜索查询数据以及气候变量,使用维纳级联方法构建预测模型,实现对传染病疫情的预测与监控。14.本发明的技术流程图如图1所示,详细过程如下:步骤1)获取实验时间段内信号s(t),信号s(t)包括每日新增确诊病例数量、每日温度、每日湿度、与传染病相关的关键词搜索量。每日新增确诊病例数量作为目标变量,每日温度、每日湿度、关键词搜索量作为特征变量;步骤2)为验证气候变量及与传染病相关关键词搜索量用于疾病疫情预测的有效性,本发明基于时频表示方法(tfr)对步骤1)中所述时间序列进行处理。15.原始的tfr方法基于傅立叶变换,如短时傅立叶变换(stft),其通过在固定时间间隔内进行傅里叶变换来获取频率分量,因此通常不适用于处理持续时间较短的暂态信号。为了解决上述基于傅立叶变换tfr方法的局限性,我们使用基于小波变换的tfr算法以生成更清晰的时频谱图。小波变换(cwt)相对于传统傅里叶变换的优点包括以下几点:(1)小波变换具有自适应的时频分辨率,即具有可调节的时频窗口,窗口宽度随频率变化,频率增高时时间窗口的宽度自动变窄,以提高分辨率。(2)在小波变换算法中,用户可以自由选择母小波函数以更好地匹配所分析信号,常用的母小波函数包括morlet小波、bump小波、harr小波等。鉴于上述优点,连续小波变换可用于分析各种应用场景下的瞬态行为,提取具有时变频率和振幅的振荡分量。以下是小波变换的计算过程和数学细节。16.步骤s1:选择满足容许条件的小波函数。傅里叶分析将信号分解为特定频率的正弦波,而小波分析则将信号分解为一系列具有不同尺度的母小波函数。母小波函数不同于正弦波,它是一种快速衰减的波状振荡,以morlet小波为例,其时域表达式为(1)其中,ψ(fk,t)表示小波函数,fk为振荡频率,t为时间,σ为时域的分辨率参数;步骤s2:基于步骤s1所述的小波函数对信号s(t)进行连续小波变换,得到信号s(t)的小波系数ws(fk, t),表达式为: (2)其中,*表示复共轭,τ为时间积分变量。17.由上述步骤生成的时频谱图如图2(a)所示。18.步骤3)基于步骤2)所述时频谱图选择与传染病相关的搜索查询和气候变量数据建立维纳级联(wiener-cascade)模型。维纳级联模型的示意图如图1所示,它由一个动态线性单元p(即维纳滤波器)和一个静态非线性单元q组成。具体来说:维纳滤波器p的输出,同时作为非线性单元q的输入,可以表示为ꢀꢀꢀ(3)其中u(n)为n时刻的预测发病率,xi (nꢀ‑ꢀj)表示第i个特征变量在nꢀ‑ꢀj时刻的取值,n表示特征变量的总数,m表示实验时间,aij为第i个特征在j时刻的维纳滤波系数,由维纳滤波系数aij组成的系数矩阵定义为a,所有特征变量的集合定义为特征集f(n) = { xi (nꢀ‑ꢀj), i = 1, 2,ꢀ…, n, j = 1, 2,ꢀ…, m }。19.在上述线性单元之后,构建非线性单元q,对一阶输出u(n)进行调整,生成最终输出y(n) = g(u(n))ꢀꢀꢀꢀꢀ(4)其中,y(n)为目标变量,n为离散时间变量,g(u(n))为三阶多项式,三阶多项式函数的权重通过最小二乘优化确定。20.维纳级联模型的计算过程如下:第一步:基于wiener-hopf方程估计系数矩阵a,实现特征集f(n)与目标变量y(n)之间的最佳动态线性拟合,表示为:a = (xtx)-1xtyꢀꢀ(5)其中,x表示全部特征变量构成的矩阵,y表示目标变量矩阵;a = (xtx+λi)-1xtyꢀꢀ(6)其中,λ是正则化常数,i表示单位矩阵;第二步:根据第一步中估计出的系数矩阵a与特征集f(n)获得u(n);第三步:根据第二步中所得u(n)和目标变量y(n),拟合u(n)和y(n)之间的三阶多项式,得到目标变量y(n),三阶多项式函数的权重通过最小二乘优化确定。21.步骤4)使用交叉验证方法训练并验证步骤3)中构建的模型性能。交叉验证方法种类较多,其中k折交叉验证是使用最广泛的一种。k折交叉验证方法简单,易于实现,常被用于评估和选择各类机器学习模型。然而,若将传统k折交叉验证应用于时间序列预测问题,则将严重破坏时间序列数据的时序结构,即可能出现采用未来数据预测过去数据这一情况,导致对预测性能的估计过于乐观。22.因此,本发明的交叉验证过程主要基于滑动窗口时间序列交叉验证算法(tscv),而不是传统的k折交叉验证。时间序列交叉验证与标准交叉验证方法不同,它使用预测点之前的部分数据子集作为训练集,使用训练窗口之后的数据点作为测试集。对于每一次运行,都会获得被测数据点的预测精度。随后,在下一次运行时,训练和测试窗口会向时间序列的末尾移动数步,并重复上述估计过程。tscv算法的工作流程具体解释如下:步骤s1:选择一个合适的窗口长度l,它代表了训练集中包含的样本数量;步骤s2:根据步骤s1选择的窗口长度l,取原始时间序列开始处的前l个样本作为训练集,选择训练窗口后的单个观测值作为测试集。图1中的示意图详细说明了训练集和测试集的分割方式,其中深灰色观测值代表训练集,黑色观测值代表测试集;步骤s3:用步骤s2所述的训练集训练维纳级联模型;步骤s4:用步骤s3中训练过的模型对测试集的数据进行预测,并评估预测精度(例如,可以选取测试集实际数据点与预测数据点之间的均方根误差rmse来评估);步骤s5:将训练窗口向右移动,重复步骤s3~s4,直到整个时间序列被覆盖,如图1所示。23.步骤s6:计算步骤s4中所有预测精度的平均值,以评估预测模型的整体性能。24.具体来说,以图1为例,每次使用连续5个数据点作为训练集,基于训练好的模型预测后续单个数据点,每一次运行窗口都向时间序列末尾滑动1步。25.步骤5)采用均方根误差和斯皮尔曼秩相关系数对模型预测性能进行评价。均方根误差(rmse)通过测量预测变量与实际变量之间的定量差异获得,可以写成ꢀꢀꢀ(7)其中,n、t和θ分别表示样本数量、实际值和预测值。26.此外,还计算了所构建模型的斯皮尔曼相关系数rho及其显著性p值。斯皮尔曼的秩相关系数rho衡量两个变量之间单调关系的强度和方向,而且对数据输入的分布没有要求,可以表示为ꢀꢀꢀꢀ(8)其中di表示两个时间序列的秩差,而n表示每个时间序列的长度。所有统计检验的显著性水平均设置为5%。27.本发明已在华盛顿哥伦比亚特区的每周新冠新增确诊数据上完成验证分析。基于与新冠疫情相关的搜索查询数据以及气候变量,使用维纳级联方法构建一个预测模型,精准预测了华盛顿哥伦比亚特区每周新冠疫情新增确诊数的复杂动态。结果表明,预测趋势与实际趋势间显著相关,验证了所提出方法能够预测与解码真实数据集中的复杂传染病动态。综上,基于用户搜索查询数据和气候数据构建的维纳级联模型可作为传染病预测与解码的新工具,有助于帮助卫生政策制定者在潜在疾病爆发之前分配卫生资源和规划预防解决方案,在传染病疫情预测领域中具有一定的潜在价值和应用前景。图2 (a) 关键变量的时序表示及其时频图谱,包括新增确诊数、平均温度、平均湿度,以及搜索查询关键词“新冠症状”的搜索量;图2(b) 每周新冠新增确诊病例的预测趋势(灰色)和实际趋势(黑色)。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3