第三节 违背基本假设的情况 |
您所在的位置:网站首页 › 高斯马尔科夫定理假定 › 第三节 违背基本假设的情况 |
本节主要包括: 在这里先给大家普及一个单词 aftermath 创伤!真的是,,,学完实变函数心灵受到了极大的创伤,,, 言归正传,接下来的几章我们会说明,在回归的三大基本假设不满足的情况下,会有什么解决方案。 还记得回归的三大假设嘛?他们是: 解释变量在本章中我们主要研究不满足第二条的情况我们该如何处理。 一、异方差性数学上说就是 因为正常情况下, 以残差ei为纵坐标,以其他适宜的变量为横坐标画散点图。
常用的横坐标有:
1.拟合值 在满足假设时残差图上的n个点散布应是随机的,无任何规律;存在异方差时,残差图上的点散布呈现相应的趋势.比方说我的残差长下面这个样子 这种方法简单来说就是计算自变量 定义:
等级相关系数:
这个检验量在 加权最小二乘估计是解决异方差问题的一种办法。还有Box-Cox变换法,等等。 1.一元加权最小二乘估计(WLS)一般来说,在最小二乘回归中,我们实际上就是要最小化 从这里也可以看出来加权最小二乘法的一个局限性:照顾小残差项是以牺牲大残差项为代价的。 为了解决这个问题我们把平方和改一下,写成下面的样子:
按照相同的方法回归,可得: 得到啥你自己看书吧-.-!P97 4.5 所以这个回归的关键就是如何选择我们的 problem solved~ 不好意思没那么简单,理论可行,可是 如果使用 SPSS 计算就简单多了,通过寻找 m 值使得对数似然函数值最大,具体参见 P98。 2. 多元加权最小二乘估计多元的情况与一元十分相似,有一个问题就是我们权函数的构造,在一元中我们可以用自变量的幂函数构造。但是多元的情况,如果我们用每一个自变量的幂函数构造,那么对应的计算量可能就是 这也是有一个法则的,一般来说需要计算每一个自变量 具体的例子见 P103 二、自相关性问题随机误差项之间存在自相关性的意思就是 这种自相关包括一阶自相关与多阶自相关。 一阶自相关是指这在现实生活中也是很常见的。比如说金融危机一般都是要延后两三年才会有很显著的负面影响。另外时间序列模型本质上也就是一种自相关的模型。 自相关产生的原因(1)遗漏关键变量; (2)经济变量的滞后性; (3)采用错误的回归函数形式; (4)蛛网现象带来的序列自相关性; (5)对数据加工整理导致误差项之间产生自相关性。 自相关带来的问题自相关其实就相当于不满足G-M条件了,如果还是使用普通最小二乘法估计参数就会产生很多问题:
(1)参数估计值不再具有最小方差线性无偏性;
(2)均方误差(MSE)可能严重低估误差项的方差;
(3)容易导致 t 值过高,所以 F 检验、 t 检验就失效了
(4)最小二乘估计量也会对抽样的波动很敏感,意思是说在一些特定的样本中, 这个问题还是挺严重的,下面瞅瞅怎么把这个问题检验出来: 自相关的诊断 1.图示检验法首先直接使用普通最小二乘法估计参数,根据回归残差项 绘制 按照时间顺序绘制回归残差项 可以看出这相当于是说随着时间的推移,残差并不是散乱,而是有序,或者说以一个函数形式出现的。这就说明存在自相关性了。 但是这种定性的分析总是感觉不够精确,所以我们需要更好的方法。 2. 自相关系数法自相关系数说白了就是计算随机误差项之间的相关程度总和的一个量。如果这个量超过了某个数我们就认为这些随机误差项之间有关系,也就是说存在自相关性。 首先给出误差序列 当 还是有一个问题就是,误差序列 估计是可以的,但是这样又产生了一个问题,就是这个 DW (Durbin-Watson)检验其实说白了就是一假设检验。要有假设,需要构造统计量,计算拒绝域,最后根据显著性水平判断。DW 检验是很常用的一种检验自相关的方法。 DW 检验有一定的使用条件: 模型中必须有常数项; 当模型中含有被解释变量的滞后项时,此检验产生偏误,即 DW 常取值在 2 造成模型中不存在自相关的假象; DW 检验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题(其实也就是满足下面形式)。首先需要知道,随机扰动项的一阶自回归形式为:
为了检验序列相关性,(其实就是检验上面的方程成立)原假设是: 接下来的问题就是求拒绝域啦,首先我们来看看 DW 的取值范围:其实只需要将 DW 的分子展开一下就可以得到:
因而 DW 值与 所以确定拒绝域的方法是:根据样本量 n 和解释变量的数目 k (这里包括常数项)查 DW 分布表,得到临界值 行,我们费了老大劲把自相关问题检验出来了,下面看看咋处理吧,,,咋整呀,,, 在处理自相关问题的时候需要首先查明自相关产生的原因,我们顺便复习一下 5 点奥(其实我也没记住翻回去看的,逃有几个问题可以直接解决,实在不行咱再想办法: 回归模型选用不当:改用适当的回归模型 缺少重要的自变量:增加自变量(还能干啥) 要是其他原因导致的就没招了,按照下面的方法来吧,一般采用迭代法,差分法来处理。 1.迭代法迭代法的想法就是想办法消掉误差项中相关的那一部分(剩下的不就是不相关的),这样就可以使用普通最小二乘回归啦,最后再把所做的变量替换带回去就可以的。 我们就以一阶自相关来举例:假设我们的模型为:
根据这个模型让时间倒退回去一点,就可以得到: 这就需要我们得到 对应的变量做换元就可以可到: 那么这样的方法可以看出如果真的误差项存在一阶自相关的话,那么很明显是有效的。但是实际情况并不总是如此,有时候误差项的自相关阶数是很高的,所以我们的方法是不停的迭代,直到我们的 DW 检验能够说明它没有自相关了为止,可以说是简单粗暴啊。 2. 差分法差分法的适用范围就更窄了,它是适用于原模型存在较高程度一阶自相关的情况才可使用。在迭代法的模型中我们设
对它做一个回归就可以得到: 一般来说我们先使用 有时候数据中会包含一两个极端或异常的观测值,这些数据与其他数据远远分开,会引起较大的残差,影响回归效果(这可不是啥好事儿),所以呢我们就想着怎么把这些害群之马给踢了,一般对于二元三元呢,我们画一个散点图看一下就知道了,但是多元就麻烦了,这家伙,没法儿画啊,你说气不气人,想想有没有啥其他招吧。 一般来说我们会分为 x y 两个维度讨论异常值: 1. 关于因变量 y 的异常在数据分析中,刚开始总是要看有没有特别特别“高”的点。一般来说会认为残差 那么应该如何去做呢?我们在之前介绍过一个学生化残差 看似通过把杠杆值的影响去除掉可以解决方差不等的问题,但是如果观测数据中真的存在异常值,学生化残差也没有什么卵用。这是因为这个时候,异常值的存在会使得回归线“偏向”它,进而使得回归的标准差 为了解决异常值的问题,我们需要别的办法。 删除残差我们这么构造删除残差:针对第 i 个观测值,我们计算它的残差时,用其余 n-1 个观测值拟合回归方程,计算出第 i 个观测值的删除拟合值 一般来说,认为 首先需要知道啥叫强影响点:还是关于残差的方差式 强影响点并不总是 y 值的异常点,此强影响点并不总会对回归方程造成不良影响,但是实际上,强影响点还是很需要被关注的,这是因为: 在强影响点附近,因变量与自变量之间可能不再是线性函数的关系,在选择回归函数形式时要强调强影响点。 会使得回归方程“偏向”自身,使得回归方程产生偏移。 强影响点的判定:中心化杠杆值
直觉上很明显,超过均值太多肯定就是不太正常的。根据这个思路,我们设 库克距离
库克距离也可以用来判断强影响点是否为 y 的异常点。库克距离的定义为:
实际情况是很复杂的,所以一般使用一个粗略的标准,认为 Box-Cox 变换也叫方差稳定性变换。这个方法比较特殊,所以把它单独拿出来了,说他特殊是因为它真的太!好!使!了!B-C 变换可以处理异方差、自相关、误差非正态、回归函数非线性等情况。 够狠! 它是对 y 做如下的变换:
最后找到最佳的 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |