基于新型冠状病毒肺炎疫情下的数据与模型思考

您所在的位置:网站首页 山东省聊城新型肺炎确诊病例有多少 基于新型冠状病毒肺炎疫情下的数据与模型思考

基于新型冠状病毒肺炎疫情下的数据与模型思考

#基于新型冠状病毒肺炎疫情下的数据与模型思考| 来源: 网络整理| 查看: 265

1. 数据采集

国家卫健委在其官方网站最显著位置增设疫情防控专题模块,涵盖疫情通报、防控动态、通知公告、医者风采、防控知识、你问我答、普法知识、新闻报道功能,其中本文全国疫情数据均来自疫情通报。

国家卫健委每日发布昨日数据,包括31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例、新增死亡病例、新增疑似病例、当日新增治愈出院病例、解除医学观察的密切接触者、累计治愈出院病例、累计死亡病例、累计报告确诊病例、现有疑似病例、累计追踪到密切接触者、尚在医学观察的密切接触者等统计数据,另外湖北省疫情数据再单独通报一次,并发布港澳台地区的通报确诊病例。疫情通报数据格式如下(文字+数字):

2020年1月10日起,每日通报疫情数据,1月10日至1月19日数据以武汉地区为主;2月12日,对湖北省以及湖北省以外其他省份的病例诊断标准进行了区分,湖北省增加了“临床诊断病例”分类,对疑似病例具有肺炎影像学特征者,确定为临床诊断病例,以便患者能及早按照确诊病例相关要求接受规范治疗,进一步提高救治成功率,因此会导致确诊病例数量突然大量增加;2月13日,湖北省因重复统计,核减108例;2月21日,湖北省将19日、20日核减的病例数重新加回到确诊病例,并对当日新增病例数进行了校正。疫情通报数据格式期间更改过一次,整体数据比较完善。

各省级疫情数据均来自各省卫健委网站疫情通报。各省卫健委疫情通报模块,大部分与上级单位一致,疫情前期每天通报昨天数据,中途更改为每半天通报一次,通报格式略有调整。无论是开始的“文字+数字”形式,还是现在 “文字+数字+图片”形式,均不便于被开发利用,需要对这些数据先做一些技术处理,将数据从这些文字中、图片中提取出来,整理成结构化数据。

2. 数据呈现

数据呈现主要从累计确诊病例、累计治愈病例、累计死亡病例、每日新增病例和累计疑似病例等五个方面展示全国及各地区疫情形势。

从上图,可以看出2月11日全国累计确诊病例持续增长,2月12日突然呈垂直增长,经查询材料发现,2月12日骤增的重要原因主要是,为做好新型冠状病毒肺炎患者早诊早治,落实好湖北病例应收尽收、应治尽治工作,按照《新型冠状病毒肺炎诊疗方案(试行第五版 修正版)》,对湖北省以及湖北省以外其他省份的病例诊断标准进行了区分,湖北省增加了“临床诊断病例”分类,对疑似病例具有肺炎影像学特征者,确定为临床诊断病例,湖北省报告的13,332例临床诊断病例纳入确诊病例统计,以此来降低病死率,所以导致当天,数据异常增长。累计疑似病例从2月8日起,持续下跌,每日增加确诊病例数自2月12日起,持续下跌,累计治愈病例数呈指数增长,可见疫情在全国上下齐心一致抗击疫情下,态势得到了良好的控制。

从每日确诊病例热力图中看出,2月12日颜色程度较深,表明这一天确诊病例较其他时间确诊人数众多。自2月下旬以来,颜色程度较浅,也印证了确诊病例每日持续下跌的事实。

(二)省级疫情数据(山东)

1. 数据采集

省卫健委与国家卫健委同样,在其官方网站最显著位置增设疫情防控专题模块,涵盖通知公告、防控动态、医者风采、健康知识、媒体视窗、一封家书等功能,其中本文省级疫情数据均来自通知公告。另外,省卫健委在官网首页增设了万众“疫”站 谨防严控和“疫”线视频两个专题模块。

省卫健委提供数据格式1月份与国家卫健委一致,“文字+数字”的形式对外公布,自1月30日12时~24时开始,通报形式变为“文字+数字+表格图片”,表格图片对于一般读者,便于阅读和理解,但是对于数据使用者来说,但还不好用,如要对这些数据进行分析,需要先将图片中的数据转化为机器可以读取和处理的结构化数据。数据表格在不同的时间发布,呈现为不连续的、碎片化,如果想要分析某段时期内的趋势,就要把之前发布的一条条通报搜寻出来,然后再把其中的数据整合起来。

为充分分析挖掘疫情数据,向社会提供可获取的、完整的、结构化的数据,用于疫情防控、帮助公众理解数据背后信息等应用的开发,省卫健委在官网通知公告中每日通报外,还通过省数据公共开放网,将全省及各地区疫情数据以开放数据为基本标准,向社会提供excel、csv、XML、json、API等形式的疫情数据服务,数据内容丰富,数据整体质量较高。

本部分利用的数据主要来源于省卫健委官方网站的通知公告,省公共数据开放网发布的疫情数据作为补充。

2. 数据呈现

省级数据呈现主要从累计确诊病例、累计治愈病例、累计死亡病例、每日新增病例和累计疑似病例等五个方面展示山东省及各地市疫情形势。

从上图,可以看出2月10日山东省累计确诊病例持续增长,2月11日至2月19日累计确诊病例增速放缓,但在2月20日,突然骤增,经查询材料发现,2月20日骤增的重要原因主要是,山东省任城监狱疫情感染事件造成的,当天仅任城监狱新增确诊200例,2月21日起累计确诊病例趋于平缓。累计疑似病例从2月13日起,持续下跌,每日增加确诊病例数自2月10日起,持续下跌,仅因任城监狱感染事件,出现异常数据外,其余时间一直保持下跌态势。累计治愈病例数持续增长,在省委省政府及各地市政府共同努力下,疫情发展态势得到了控制,为复工复产奠定了良好的基础。

从省每日确诊病例热力图中看出,2月20日颜色程度较深,表明这一天确诊病例较其他时间确诊人数众多。自2月下旬以来,颜色程度较浅,也印证了确诊病例每日持续下跌的事实。

(三)市级疫情数据(泰安)

1. 数据采集

同样,在市级卫健委官网醒目的位置,设置有新型冠状病毒肺炎疫情防控专栏。每半天更新上半天的数据,数据格式到目前为止,主要是“文字+数字”一直未有更改,但数据更新时间,多次调整(由一天更新一次,变为两次,中途又出现一天更新一次),自2月9日到现在,数据更新时间(一天两次)保持一致。

本部分采用的数据均来自本级卫健委官网发布的疫情通告,在数据存在异议的情况下,结合上级部门的数据进行校正。

2. 数据呈现

市级数据呈现主要从累计确诊病例、累计治愈病例、累计死亡病例、每日新增病例和累计疑似病例等五个方面展示泰安市及各县市区疫情形势。

从上图,可以看出2月10日泰安市累计确诊病例持续增长,2月11日至2月18日累计确诊病例不再增加,2月19日至2月21日增长速度放缓,随后不再有病例增加。累计疑似病例从2月4日起,持续下跌,每日增加确诊病例数自2月10日起,下跌至0,除2月19日至2月21日期间每日新增1例确诊病例外,后期均无新确诊病例。累计治愈病例数一直呈增长态势。

从市级每日确诊病例热力图中看出,2月10日颜色程度较深,表明这一天确诊病例较其他时间确诊人数众多,2月1日、2月5日确诊人数次之。自2月下旬以来,颜色程度较浅,印证了确诊病例每日持续下跌的事实。疫情态势的良好控制,得益于市委市政府在疫情期间积极落实上级防控政策,因地制宜的采取一系列符合现实状况的防控措施。

04

疫情模型

通过构建统计学模型、数学模型,或者利用机器学习、深度学习方法拟合疫情发展趋势,利用历史数据对未来的确诊病例等疫情形势进行预测,比如说,逻辑斯蒂生长曲线拟合数据,预测未来几天可能的发展趋势;或者利用时间序列模型构建预测模型;也可用LSTM构建预测模型,一种特殊的RNN网络。以上方法,除生长曲线外,其他模型,需要大量数据做训练,就目前情况看,数据量并不大,即使构建出模型,参考价值并不大,并没有与业务做融合,只是以数据理解数据。

另外一个建模思路,可以从传统疾病传播模型(SIS、SIR、SEIR等),建立传染病模型,结合此次冠状病毒的传播特性,利用现有的样本数估计出一个大概的参数,建立适当的传染病数学模型,能较为精准的预估疫情的发展趋势,当然这是一个较为复杂且专业的问题。近日,由钟南山院士团队研究构建的「具有饱和发病率(其解释,任何传染病都具有饱和发病率,即不可能完全被消灭) SIQS 传染病模型」虽然被国外权威期刊退回,但研究成果还是符合国内疫情发展趋势。

据有关学者介绍,SIQS传染病模型实际上是在传统SEIR模型基础上,加上两个干预因素,即国家的强力干预和春节后的回程高峰,另外,2020年2月28日,钟南山院士团队发表了一篇名为《公共卫生干预下COVID-19流行趋势的 SEIR和AI预测修正》,将2020年1月23日前后的人口迁移数据及最新的新冠肺炎流行病学数据整合到SEIR模型中生成流行曲线,同时,团队还利用人工智能技术,以2003年SARS数据为基础进行训练,从而更好地预测新冠疫情。研究团队还使用长短期记忆模型,预测新增感染数随时间的变化。对于基本训练数据集的处理,研究团队利用 2003年4-6 月SARS的病例统计,纳入COVID-19流行病学参数。从钟南山院士团队的研究成果来看,假设是一支纯技术团队,是无法作出解释性强、可信度高的预测模型,所以说数据建模不仅仅依靠的是技术工具,更多的是业务理论背景,模型不应该是冰冷的技术实现,更应该是有温度、有内涵的业务与技术的融合。

因本人不具备传染病、医疗专业领域相关知识,从非专业角度,尝试利用Logistic生长曲线模拟泰安地区累计确诊病例数量,并试着简单叙述传统疾病传播模型-SEIR。

(一)Logistic生长曲线

逻辑斯蒂曲线是由比利时数据学家首次发现的特殊曲线,后来,生物学家皮尔(R.Pearl)和L·J·Reed根据这一理论研究人口增长规则,因此,逻辑斯蒂生长曲线也被称为生长曲线或者珍珠德曲线。逻辑斯蒂生长曲线一般形式如下:

L,a,b均为未知参数,需要根据历史数据进行估计。生长曲线在现代商业、生产行业、生物科学等方面有着非常广泛的应用。

我们利用生长曲线模型,拟合泰安本地累计确诊病例数据,建立生长曲线模型。数据拟合如下图所示,蓝色部分显示的确诊病例观测值,红色部分显示的是确诊病例预测值,并计算出未来7天的确诊病例数据。

从上图预测值生成的曲线来看,生长曲线模型整体呈现“S”型,按照相关参考文献说明,生长曲线可以分为初期、中期和末期三个阶段:

在初期,虽然 t处于增长阶段,但是 y 的增长较为缓慢,这时曲线呈现较为平缓的上升;在中期,随着t的增长,y 的增长速度逐渐增快,曲线呈现快速上升的态势;当达到拐点(t,Y)后,因函数饱和程度的增长达到末期,随着t的增长 y 的增长较为缓慢,增长速度趋近于0,曲线呈水平状发展。

在了解模型特点后,假设外部因素干预事件发展,就会导致数据的突然增多或减少,会影响模型的预测精度。因此,logistic增长模型只是对疾病进行预估,并不能准确判断,也并不是最佳模型。当然可以通过模型优化,来提高预测精度,有的文献提出可以根据华罗庚提出的0.618选优法,对得到的模型进行优化(计算该模型是否能得到预测值和测量值最小残差平方和)。这里我们就不再展开,可以后期进行探讨学习。

(二)疾病传播模型-SEIR

查阅相关文献后,发现常见的传染病模型按照传染病类型分为SI、SIR、SIRS、SEIR 模型等,用于研究传染病的传播速度、空间范围、传播途径等问题,用来指导对传染病的预防和控制。模型中涉及S、E、I、R、r、β、γ、α参数:

S类:表示易感者 (Susceptible),指未得病者,但缺乏免疫能力,与感染者接触后容易受到感染;E类:表示暴露者 (Exposed),指接触过感染者,但暂无能力传染给其他人的人,对潜伏期长的传染病适用;I类:表示感病者 (Infectious),指染上传染病的人,可以传播给 S 类成员,将其变为 E 类或 I 类成员;R类:表示康复者 (Recovered),指被隔离或因病愈而具有免疫力的人。如免疫期有限,R类成员可以重新变为 S 类。

r:感染患者(I)每天接触的易感者数目;β:传染系数,由疾病本身的传播能力,人群的防控能力决定;

γ:恢复系数,一般为病程的倒数,例如流感的病程5天的话,那么它的γ就是1/5;α:潜伏者的发病概率,一般为潜伏期的倒数。

我们这里不再利用采集到的数据,模拟疫情发展形式,一方面原因是我们并不能较好的估计模型中涉及到各个参数, 需要考虑的的参数较多,另一方面数据并不能支撑其模型推导,特别是疫情的政府干预因素、社会舆情因素,对疫情发展趋势都会产生一定的影响,应将相关的因素考虑进去,所以这个问题相对来说是比较复杂的过程,我们这里不再进行过多探讨。大家有兴趣的可以去查找相关文献材料,进行深入研究学习。

05

参考文献

[1] 百度百科. 新型冠状病毒肺炎[EB/OL].

[2] 刘俊寰. 疫情中数据的作用无法忽视,但也不能盲信模型 | 专访前DHS生物监管总监[EB/OL].

http://www.bigdatadigest.cn/#/articleDetail?articleId=591&type=0

[3] 国家卫健委官网. 全力做好新型冠状病毒肺炎疫情防控工作[EB/OL].

http://www.nhc.gov.cn/xcs/xxgzbd/gzbd_index.shtml

[4] 山东省卫健委官网. 全力做好新型冠状病毒肺炎疫情防控工作[EB/OL].

http://wsjkw.shandong.gov.cn/ztzl/rdzt/qlzhfkgz/index.html

[5] 泰安市卫健委官网. 新型冠状病毒肺炎疫情防控 [EB/OL].

[6] 百度. 新型冠状病毒肺炎疫情实时大数据报告[EB/OL].

https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1

[7] 山东省大数据局. 山东公共数据开放网[EB/OL].http://data.sd.gov.cn/

[9] 雷锋网. 钟南山等人用 LSTM 力证“早发现早隔离”重要性[EB/OL].

[10] CSDN昵称:土豆西瓜大芝麻.SEIR传染病模型[EB/OL].

[11] 郑磊. 哪些地方开放了真正“能用”和“好用”的疫情数 据?这些数据能用来做什么?[EB/OL].

https://mp.weixin.qq.com/s/2V6tfS8gJkxA4-GLRbJ1mw

点击链接,查看山东智谷事务所介绍

祝贺山东智谷数据分析师事务所成立

CPDA数据分析师第三期在线学习班重磅上线啦! 返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3