时间序列(ARIMA)案例超详细讲解

您所在的位置:网站首页 时间序列模型arima公式 时间序列(ARIMA)案例超详细讲解

时间序列(ARIMA)案例超详细讲解

2024-07-12 13:57| 来源: 网络整理| 查看: 265

时间序列(ARIMA)案例超详细讲解 案例库 https://www.spsspro.com/ · 9647浏览 · 2022-03-03 08:20 举报 时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,并将这些知识和信息用于预测。

想象一下,你的任务是:根据已有的历史时间数据,预测未来的趋势走向。作为一个数据分析师,你会把这类问题归类为什么?当然是时间序列建模。

从预测一个产品的销售量到估计每天产品的用户数量,时间序列预测是任何数据分析师都应该知道的核心技能之一。常用的时间序列模型有很多种,在本文中主要研究ARIMA模型,也是实际案例中最常用的模型,这种模型主要针对平稳非白噪声序列数据。

image.png

时间序列概念

时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,并将这些知识和信息用于预测。比如销售量是上升还是下降,是否可以通过现有的数据预测未来一年的销售额是多少等。

1 ARIMA(差分自回归移动平均模型)简介

image.png

模型的一般形式如下式所示:

image.png

1.1 适用条件

数据序列是平稳的,这意味着均值和方差不应随时间而变化。通过对数变换或差分可以使序列平稳。

输入的数据必须是单变量序列,因为ARIMA利用过去的数值来预测未来的数值。

1.2 分量解释

AR(自回归项)、I(差分项)和MA(移动平均项):

AR项是指用于预测下一个值的过去值。AR项由ARIMA中的参数p定义。p值是由PACF图确定的。

MA项定义了预测未来值时过去预测误差的数目。ARIMA中的参数q代表MA项。ACF图用于识别正确的q值

差分顺序规定了对序列执行差分操作的次数,对数据进行差分操作的目的是使之保持平稳。ADF可以用来确定序列是否是平稳的,并有助于识别d值。

1.3 模型基本步骤 1.31 序列平稳化检验,确定d值

对序列绘图,进行 ADF 检验,观察序列是否平稳(一般为不平稳);对于非平稳时间序列要先进行 d 阶差分,转化为平稳时间序列

1.32 确定p值和q值

(1)p 值可从偏自相关系数(PACF)图的最大滞后点来大致判断,q 值可从自相关系数(ACF)图的最大滞后点来大致判断

(2)遍历搜索AIC和BIC最小的参数组合

1.33 拟合ARIMA模型 (p,d,q) 1.34 预测未来的值 2 案例介绍及操作

基于 1985-2021年某杂志的销售量,预测某商品的未来五年的销售量。

image.png

2.1 序列平稳化检验,确定d值

平稳性概念

假定某个时间序列是由一系列随机过程生成的,即假定时间序列的每一个数值都是从一个概率分布中随机得到,如果满足下列条件:

均值u是与时间t无关的常数;

方差是与时间t无关的常数;

协方差是只与时间间隔K有关,与时间t无关的常数

则称该随机时间序列是平稳的,而该随机过程是平稳随机过程。

ADF思路

白噪声的过程是:

image.png

image.png

对于白噪声序列,基本是在均值附近较为平均的随机震荡。它满足正态分布,均值与方差都是与时间t无关的函数,它满足平稳性要求。

随机游走的过程是:

image.png

image.png

对于随机游走,可以看到比白噪声平滑很多,并且呈现出一些“趋势性”的感觉。它的均值为0,方差与时间t有关,他不满足平稳性要求。

而随机游走的一阶差分是平稳的:

image.png

如果一个时间序列是非平稳的,它常常可以通过取差分的方法而形成平稳序列。

ADF 大致的思想就是基于随机游走的,对回归,如果发现p=1,说明序列满足随机游走,就是非平稳的。

下图是通过spsspro软件生成:

image.png

如何确定该序列是否平稳呢?

(1)临界值检验

临界值1%、5%、10%不同程度拒绝原假设的统计值和假设检验值t进行比较,t同时小于1%、5%、10%即说明非常好地拒绝该假设

(2)显著性检验p时间序列分析(ARIMA)】

3.11 案例操作

image.png

Step1:新建分析;

Step2:上传数据;

Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

image.png

step4:选择【时间序列分析(ARIMA)】;

step5:查看对应的数据数据格式,【时间序列分析(ARIMA)】要求输入1个时间序列数据定量变量。

step6:选择向后预测的期数。

step7:点击【开始分析】,完成全部操作。

3.12 分析结果解读

以下生成的结果来源于SPSSPRO软件的分析结果导出,SPSSPRO输出的结果中会给出智能解读结果,直接查看智能分析:

输出结果 1:ADF 检验表

image.png

图表说明:该序列检验的结果显示,基于字段年度销量:

在差分为 0 阶时,显著性 P 值为 0.998,水平上不要呈现显著性,不能拒绝原假设,该序列为不平稳的时间序列。在差分为 1 阶时,显著性 P 值为 0.023,水平上呈现显著性,拒绝原假设,该序列为平稳的时间序列。

在差分为 2 阶时,显著性 P 值为 0.000,水平上呈现显著性,拒绝原假设,该序列为平稳的时间序列。

(注意:在理论上,足够多的差分运算可以充分提取原时间序列中的非平稳确定性信息。但进行差分运算需要注意的是,差分运算的阶数不是越多越好。差分是对信息的提取、加工的过程,每次差分都会有信息的损失,所以差分的阶数需要适当,以免过度差分。)

输出结果 2:最佳差分序列图

image.png

图表说明:由于一阶差分后序列进行单位根检验的 P 值小于 0.05,说明一阶差分后序列是平稳数据,上图展示了原始数据 1 阶差分后的时序图。

输出结果 3:最终差分数据自相关图(ACF)

image.png

图表说明:由自相关图可知,一阶自相关系数很明显地大于 2 倍标准差范围,自一阶自相关系数后,其余自相关系数都在 2 倍标准差范围以内,我们可以判断自相关图为截尾。

输出结果 4:最终差分数据偏自相关图(PACF)

image.png

图表说明:由偏自相关图可知,一阶偏自相关系数很明显地大于 2 倍标准差范围,自一阶偏自相关系数后,其余自相关系数都在 2 倍标准差范围以内,我们可以判断偏自相关图为截尾。

输出结果 5:模型参数表

image.png

图表说明:由于通过自相关分析和偏自相关分析来判断 ARIMA 的参数存在人为主观性,SPSSPRO 基于 AIC 信息准则自动寻找最优参数,模型结果为 ARIMA 模型(0,1,1)检验表,基于字段:年度销量,从 Q 统计量结果分析可以得到:Q6 在水平上不呈现显著性,不能拒绝模型的残差为白噪声序列的假设,同时模型的拟合优度 R2 为 0.981,模型表现优秀,模型基本满足要求。(注意:一般来说,只检验前 6 期和前 12 延迟的 Q 统计量(即 Q6 和 Q12)就可得出残差是否是随机序列的结论。这是因为平稳序列通常具有短期相关性,如果一个短期延迟序列值之间不存在显著的相关关系,通常延迟之间就更不会存在显著的相关关系。)

输出结果 6:模型残差自相关图(ACF)

image.png

图表说明:上图展示了模型的残差自相关图,(ACF)若相关系数均在虚线(2 倍标准差)内,自回归模型(AR)残差为白噪声序列,时间序列要求模型残差为白噪声序列。很明显,残差的自相关系数均在虚线内。

输出结果 7:模型残差偏自相关图(PACF)

image.png

图表说明:上图展示了模型的残差偏自相关图(PACF),若相关系数均在虚线内,滑动平均模型(MA)残差为白噪声序列,时间序列要求模型残差为白噪声序列。很明显,残差的大部分偏自相关系数均在虚线内,即便第 9 阶与第 14 阶超过了 2 倍标准差,这可能是由于偶然因素引起的。

输出结果 8:模型检验表

image.png

图表说明:基于字段年度销量,SPSSPRO 基于 AIC 信息准则自动寻找最优参数,模型结果为 ARIMA 模型(0,1,1)检验表且基于 1 差分数据,模型公式如下:y(t)=4.996+0.671*ε(t-1)

输出结果 9:时间序列图

image.png

图表说明:上图表示了该时间序列模型的原始数据图、模型拟合值、模型预测值。从图可知,拟合序列趋势与真实序列趋势有着极大的相似性,说明拟合效果较好。

输出结果 10:时间序列预测表

image.png

图表说明:上表显示了时间序列模型最近 5 期数据预测情况。

4 结论

ARIMA 是用于单变量时间序列数据预测的最广泛使用方法之一,模型十分简单,只需要内生变量而不需要借助其他外生变量,但是,采用ARIMA模型预测时序,数据必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。比如股票数据用ARIMA无法预测的原因就是股票数据是非稳定的,常常受政策和新闻的影响而波动。

5 参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from spsspro.com.

[2] 王燕.应用时间序列分析[M].北京:中国人民大学出版社 2005.

[3] 郑莉,段冬梅,陆凤彬,等. 我国猪肉消费需求量集成预测——基于 ARIMA、VAR 和 VEC 模型的实证[J]. 系统工程理论与实践,2013,33(4):918-925.

0 人收藏 0 人喜欢 分享至:

相关推荐

默认标签 数据分析达人 实践赛志愿者招募

实践赛志愿者招募

知识竞赛 2024年第三届全国大学生数据分析实践赛组委会 · 839浏览 · 05-14 06:15 2024年第三届全国大学生数据分析实践赛

第三届全国大学生数据分析实践赛报名须知

知识竞赛 2024年第三届全国大学生数据分析实践赛组委会 · 2499浏览 · 04-25 09:28 SPSSPRO数据分析课程强势上线!学完可拿证

数据分析师认证学习与考核方案

会员专题 SPSSPRO · 1360浏览 · 03-14 04:19 0 条评论 某人 好友 可输入 255 字


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3