计量经济学导论04:多重共线性

您所在的位置:网站首页 ols估计量的线性性名词解释 计量经济学导论04:多重共线性

计量经济学导论04:多重共线性

2023-11-18 14:28| 来源: 网络整理| 查看: 265

目录Chapter 4:多重共线性一、多重共线性的含义二、多重共线性的产生原因三、多重共线性的后果四、多重共线性的检验方法五、多重共线性的修正措施Part 1:常用修正措施Part 2:逐步回归法和岭回归法

Chapter 4:多重共线性

通过前面的三篇笔记,我们基本上搭建了一个计量经济学的分析框架,即模型设定、基本假定、参数估计、统计性质、假设检验。其中,基本假定的满足是保证一切计量分析合理性的前提条件。在这一系列的笔记中,我们都主要参考伍德里奇关于基本假定的表述,可以参考笔记《计量经济学导论02:多元回归模型》中的 MLR.1 至 MLR.6 。从本节开始,我们开始讨论违背基本假定的问题,即如果我们的样本数据没有我们认为的那么理想,我们又该作何处理。

一、多重共线性的含义

我们在经典假定 MLR.3 中曾提出,多元回归模型应满足不存在完全共线性的假设。在实际应用中,共线性问题是多元回归模型可能存在的一类现象,分为完全共线性和多重共线性两种。完全共线性指的指多元回归模型中的一些或全部解释变量之间存在一种确定的线性关系,而多重共线性指的是一些或全部解释变量之间存在一种不完全但高度相关的线性关系。

注意一点,如果模型中出现了完全共线性,则违背了 MLR.3 的假定;如果模型中出现了多重共线性,则不违背任何一条经典假定,只是估计效果没有那么好而已。认清这一点非常重要,对我们分析多重共线性下参数估计的统计性质有很大的帮助。下面我们给出严格的定义。

完全共线性

对于解释变量 \(X_1,X_2,\cdots,X_k\) ,如果存在不全为 \(0\) 的常数 \(\lambda_1,\lambda_2,\cdots,\lambda_k\),使得

\[\lambda_1X_{i1}+\lambda_2X_{i2}+...+\lambda_kX_{ik}=0 ,\quad i=1,2,\cdots,n , \]

在矩阵形式中,有 \({\rm r}(\boldsymbol{X})R^2\),可以认为存在明显的多重共线性问题。

方差膨胀因子法

方差膨胀因子的定义同上,

\[{\rm VIF}_j = \frac{1}{1-R^2_j} , \]

方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于 \(1\) ,多重共线性越弱。若 \({\rm VIF}_j>10\) 且辅助回归 \(R^2_j>0.9\),可以认为存在明显的多重共线性问题,且这种多重共线性可能会过度地影响最小二乘估计。

五、多重共线性的修正措施 Part 1:常用修正措施

处理多重共线性的常用措施如下:

利用非样本的外部或先验信息作为约束条件:通过经济理论分析得到某些参数之间的关系,将这种关系作为约束条件,将此约束条件和样本信息结合起来进行受约束的最小二乘估计。 横截面与时间序列数据并用。 剔除高度共线性的变量(如逐步回归法),但可能引起模型的设定误差。 数据转换: 时间序列:做一阶差分; 计算相对指标; 将名义数据转换为实际数据; 将小类指标合并成大类指标。 选择有偏估计量(如岭回归,Lasso回归)。 不做任何处理,因为多重共线性下的 OLS 估计量仍然满足 BLUE 性质。 Part 2:逐步回归法和岭回归法

我们主要对逐步回归法和岭回归法做详细解释。

逐步回归法(Stepwise)

逐步回归法的步骤如下:

用被解释变量对每一个所考虑的解释变量做简单回归。 以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。

逐步回归法中解释变量取舍的检验判断方式:

若新变量的引入改进了 \(R^2\) 和 \(F\) 检验,且回归参数的 \(t\) 检验在统计上也是显著的,则在模型中保留该变量。 若新变量的引入未能改进 \(R^2\) 和 \(F\) 检验,且对其他回归参数估计值的 \(t\) 检验也没有带来什么影响,则认为该变量是多余变量。 若新变量的引入未能改进 \(R^2\) 和 \(F\) 检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过 \(t\) 检验,说明出现了严重的多重共线性。

岭回归法(Ridge Regression)

岭回归分析实际上是一种改良的最小二乘法,是一种专门用于共线性数据分析的有偏估计回归方法,其目的是以引入偏误为代价减小参数估计量的方差。

当解释变量之间存在多重共线性时,\(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 是奇异的,也就是说它的行列式的值接近于 \(0\) ,或者说该矩阵有接近于 \(0\) 的特征根,此时 OLS 估计近乎失效。岭回归方法就是用 \((\boldsymbol{X}^{\rm T}\boldsymbol{X}+r\boldsymbol{D})\) 代替正规方程中的 \(\boldsymbol{X}^{\rm T}\boldsymbol{X}\) 。其中 \(r\) 为大于 \(0\) 的常数,称为岭回归系数,矩阵 \(\boldsymbol{D}\) 一般选择为主对角阵,具体计算方法如下:

\[\boldsymbol{D}=\boldsymbol{I}_{k+1} ,\quad \text{or} \quad \boldsymbol{D}= \left[ \begin{array}{cccc} d_0^2 & & & \\ & d_1^2 & & \\ & & \ddots & \\ & & & d_k^2 \\ \end{array} \right] , \]

\[d_0^2=\sum_{i=1}^n Y_i^2 ,\quad d_j^2 = \sum_{i=1}^n X_{ij}^2 ,\quad j=1,2,\cdots,k . \]

此时岭回归的参数估计式为:

\[\tilde{\boldsymbol\beta}(r)=\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}+r\boldsymbol{D}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y} . \]

关于岭回归系数的选择:由上式可知 \(r\) 越大,\(\tilde{\boldsymbol\beta}(r)\) 对 \(\boldsymbol\beta\) 的偏差越大,但方差越小。因此我们需要选择一个惩罚适中的方案。理论选择最小化均方误差的 \(r\) :

\[\min_r \left\{ {\rm Mse}\left( \tilde{\boldsymbol\beta}(r) \right) \right\}, \]

其中,均方误差的定义为:

\[{\rm Mse}(\hat\theta) = {\rm E}(\hat\theta-\theta)^2={\rm Var}(\hat\theta)+\left[{\rm E}(\hat\theta)-\theta\right]^2 . \]

实际操作时可以利用统计软件对岭回归系数 \(r\) 进行搜索,直到估计的系数趋于稳定为止。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3