【统计学习系列】多元线性回归模型（六）

您所在的位置：网站首页 › 统计中的R方 › 【统计学习系列】多元线性回归模型（六）

【统计学习系列】多元线性回归模型（六）

2023-09-06 05:53| 来源: 网络整理| 查看: 265

文章目录 1. 前文回顾2. 一些引理与离差平方和分解定理（可略）2.1 引理12.2 引理22.3 引理32.4 平方和分解定理 3. 拟合优度评价指标I——均方根误差（RMSE）4. 拟合优度评价指标II——R方4.1 R方的定义4.2 R方与F统计量的关系4.3 R方为什么叫R方 5. 拟合优度评价指标III——调整R方6. 拟合优度评价指标IV——AIC/BIC/SIC6.1 赤池信息量（AIC）6.2 贝叶斯信息量（BIC）6.3 施瓦茨信息量（SIC）写在最后

1. 前文回顾

在上一篇文章中，我们介绍了参数的显著性检验——t检验，和模型的显著性检验——F检验（详情请见：多元线性回归模型（五）——参数与模型的显著性检验：t检验与F检验）

现在我们来考虑一个新问题：假设一现在两个模型都可以用来拟合因变量，且每个模型的各个参数均显著，那么这两个模型哪个更好呢？有什么指标可以用来比较两个模型孰优孰劣呢？那就让我们带着这个问题继续探索吧。

2. 一些引理与离差平方和分解定理（可略）

我将本文需要的一些引理与相关证明放在这一章节中，其中最重要的要属离差平方和分解定理。不感兴趣的小伙伴可以跳过本章的证明过程。

2.1 引理1

【引理1】样本真值与模型拟合值的残差和为0，即： ∑ i = 1 N ( y i − y i ^ ) = 0 \sum_{i=1}^{N} ( y_i- \hat{y_i})= 0 i=1∑N(yi−yi^)=0

Proof：

根据对 β0 的偏导数为0，即可得证。

Q.E.D.

2.2 引理2

【引理2】样本真值与模型拟合值的残差和为0，即： ∀ j ∈ { 1 , 2 , . . . , p } , ∑ i = 1 N x i j ( y i − y i ^ ) = 0 \forall j \in \{1, 2, ..., p \}, \ \ \ \sum_{i=1}^{N} x_{ij} (y_i- \hat{y_i})= 0 ∀j∈{1,2,...,p}, i=1∑Nxij(yi−yi^)=0

Proof:

根据对 βi 的偏导数为0，即可得证。

Q.E.D.

2.3 引理3

【引理3】 ∑ i = 1 N y ^ i ( y i − y i ^ ) = 0 \sum_{i=1}^{N} \hat{y}_{i} (y_i- \hat{y_i})= 0 i=1∑Ny^i(yi−yi^)=0

Proof: ∑ i = 1 N y ^ i ( y i − y i ^ ) = ∑ i = 1 N ( β ^ 0 + ∑ j = 1 p β ^ j x i , j ) ( y i − y i ^ ) = β ^ 0 ∑ i = 1 N ( y i − y i ^ ) + ∑ j = 1 p β ^ j ∑ i = 1 N x i , j ( y i − y i ^ ) \sum_{i=1}^{N} \hat{y}_{i} (y_i- \hat{y_i}) \\ = \sum_{i=1}^{N} (\hat{\beta}_{0} + \sum_{j=1}^{p} \hat{\beta}_{j} x_{i,j} )(y_i- \hat{y_i}) \\ =\hat{\beta}_{0} \sum_{i=1}^{N} (y_i- \hat{y_i}) + \sum_{j=1}^{p} \hat{\beta}_{j} \sum_{i=1}^{N} x_{i,j} (y_i- \hat{y_i}) \\ i=1∑Ny^i(yi−yi^)=i=1∑N(β^0+j=1∑pβ^jxi,j)(yi−yi^)=β^0i=1∑N(yi−yi^)+j=1∑pβ^ji=1∑Nxi,j(yi−yi^) 由引理1与引理2，即可证得： ∑ i = 1 N y ^ i ( y i − y i ^ ) = 0 \sum_{i=1}^{N} \hat{y}_{i} (y_i- \hat{y_i}) = 0 i=1∑Ny^i(yi−yi^)=0 Q.E.D.

2.4 平方和分解定理

【离差平方和分解定理】离差平方和（TSS） = 可解释平方和（ESS） + 残差平方和（RSS），即： ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( y i − y ^ i ) 2 + ∑ i = 1 N ( y ^ i − y ˉ ) 2 \sum_{i=1}^{N} (y_i - \bar{y})^2 = \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 + \sum_{i=1}^{N} (\hat{y}_i - \bar{y})^2 i=1∑N(yi−yˉ)2=i=1∑N(yi−y^i)2+i=1∑N(y^i−yˉ)2 Proof: ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( y i − y ^ i + y ^ i − y ˉ ) 2 = ∑ i = 1 N ( y i − y ^ i ) 2 + ∑ i = 1 N ( y ^ i − y ˉ ) 2 + 2 ∑ i = 1 N ( y i − y ^ i ) ( y ^ i − y ˉ ) \sum_{i=1}^{N} (y_i - \bar{y})^2 \\ = \sum_{i=1}^{N} (y_i - \hat{y}_i + \hat{y}_i - \bar{y} )^2 \\ = \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 + \sum_{i=1}^{N} (\hat{y}_i - \bar{y})^2 + 2\sum_{i=1}^{N} (y_i - \hat{y}_i)(\hat{y}_i - \bar{y}) i=1∑N(yi−yˉ)2=i=1∑N(yi−y^i+y^i−yˉ)2=i=1∑N(yi−y^i)2+i=1∑N(y^i−yˉ)2+2i=1∑N(yi−y^i)(y^i−yˉ) 现在，来证明第三项交叉项为0。由引理1和引理3： ∑ i = 1 N ( y i − y ^ i ) ( y ^ i − y ˉ ) = ∑ i = 1 N ( y i − y ^ i ) y ^ i − y ˉ ∑ i = 1 N ( y i − y ^ i ) = 0 \sum_{i=1}^{N} (y_i - \hat{y}_i)(\hat{y}_i - \bar{y}) \\ = \sum_{i=1}^{N} (y_i - \hat{y}_i)\hat{y}_i - \bar{y} \sum_{i=1}^{N} (y_i - \hat{y}_i) \\ = \ \ \ 0 i=1∑N(yi−y^i)(y^i−yˉ)=i=1∑N(yi−y^i)y^i−yˉi=1∑N(yi−y^i)= 0 因此： ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( y i − y ^ i ) 2 + ∑ i = 1 N ( y ^ i − y ˉ ) 2 \sum_{i=1}^{N} (y_i - \bar{y})^2 = \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 + \sum_{i=1}^{N} (\hat{y}_i - \bar{y})^2 i=1∑N(yi−yˉ)2=i=1∑N(yi−y^i)2+i=1∑N(y^i−yˉ)2 Q.E.D.

3. 拟合优度评价指标I——均方根误差（RMSE）

对于拟合模型的好坏，一个简单的想法当然就是模型的残差平方和越低越好。然而，由于残差平方和是依赖于样本容量 N 的函数，这样会导致不同样本点数拟合出的模型缺乏可比性。因此，我们很自然地想到利用残差平方和的平均值（称为均方根误差）来表现模型拟合的好坏，即： RMSE = 1 N − 1 ∑ i = 1 N ( y i − y ^ i ) 2 = R S S N − 1 \text{RMSE} = \frac{1}{N-1} \sum_{i=1}^{N}(y_i-\hat{y}_i)^2 = \frac{RSS}{N-1} RMSE=N−11i=1∑N(yi−y^i)2=N−1RSS

从指标的构成上可以看出，RMSE越低，模型的拟合效果越好。

4. 拟合优度评价指标II——R方 4.1 R方的定义

要判断哪个模型更好，一个方法就是看哪一个模型更好地拟合了样本，或者说哪一个模型包含了更多的样本信息。那么什么指标可以表示“信息量”呢？

总离差平方和（Total Sum of Square，TSS）可以看成样本中所包含的“信息量”，而可解释平方（Explained Sum of Square，ESS）则是回归模型所能解释的“信息量”。而离差平方和分解定理则刚好给了我们一个工具，那就是将总离差平方和分解成了可解释平方和与残差平方和两部分。可解释平方和占总离差平方和比例越高，说明模型所能解释样本信息量的比率越高，模型拟合的效果越好。因此，我们可以构造R方统计量： R 2 = E S S T S S = 1 − R S S T S S = ∑ i = 1 N ( y ^ i − y ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 R^2=\frac{ESS}{TSS} = 1 - \frac{RSS}{TSS} = \frac{ \sum_{i=1}^{N} (\hat{y}_i - \bar{y})^2} {\sum_{i=1}^{N} (y_i - \bar{y})^2 } R2=TSSESS=1−TSSRSS=∑i=1N(yi−yˉ)2∑i=1N(y^i−yˉ)2

来表示样本中所含信息量的可解释比例。

若得到的某模型的R方为 x %，则我们可以说模型解释了样本中x %的信息量。

从R方的构造上来看，R方的取值范围为0到1之间。R方越大，说明模型的可解释（方差的）比率越高，模型拟合的越好；R方越小，说明模型拟合效果不佳，样本中包含的信息并没有得到有效的解释。

4.2 R方与F统计量的关系

细心的读者可能已经发现：R方的构造与F统计量有某些十分相似的地方。在这里，作者留一个小小的悬念，感兴趣的小伙伴可以在评论区中自行分析二者之间的关系。（喂，懒得写这块你就直说啊）

4.3 R方为什么叫R方

看到这里，小伙伴可能在想：为什么R2的脑袋上有一个平方“2”呢？其实，R2称为R方是有深意的，因为R方就是R的平方。（这不是废话吗）那R又是什么？

R其实就是被解释变量样本值与与拟合模型的相关系数。证明如下： ρ 2 ( y i , y ^ i ) = cov 2 ( y i , y ^ i ) var ( y i ) var ( y ^ i ) \rho^2(y_i, \hat{y}_i) = \frac{\text{cov}^2(y_i,\hat{y}_i)} {\text{var}(y_i)\text{var}( \hat{y}_i) } ρ2(yi,y^i)=var(yi)var(y^i)cov2(yi,y^i) = [ ∑ i = 1 N ( y i − y ˉ ) ( y ^ i − y ˉ ) ] 2 ∑ i = 1 N ( y i − y ˉ ) 2 ∑ i = 1 N ( y ^ i − y ˉ ) 2 = \frac{ [\sum_{i=1}^{N}{ (y_i - \bar{y}) ( \hat{y}_i - \bar{y} ) }]^2 } { \sum_{i=1}^{N} (y_i - \bar{y})^2 \sum_{i=1}^{N} (\hat{y}_i - \bar{y} )^2 } =∑i=1N(yi−yˉ)2∑i=1N(y^i−yˉ)2[∑i=1N(yi−yˉ)(y^i−yˉ)]2 由引理1和引理3： ρ 2 ( y i , y ^ i ) = [ ∑ i = 1 N ( y i − y ^ i + y ^ i − y ˉ ) ( y ^ i − y ˉ ) ] 2 ∑ i = 1 N ( y i − y ˉ ) 2 ∑ i = 1 N ( y ^ i − y ˉ ) 2 \rho^2(y_i, \hat{y}_i) = \frac{ [\sum_{i=1}^{N}{ (y_i - \hat{y}_i + \hat{y}_i - \bar{y} ) ( \hat{y}_i - \bar{y} ) } ]^2 } { \sum_{i=1}^{N} (y_i - \bar{y})^2 \sum_{i=1}^{N} (\hat{y}_i - \bar{y} )^2 } ρ2(yi,y^i)=∑i=1N(yi−yˉ)2∑i=1N(y^i−yˉ)2[∑i=1N(yi−y^i+y^i−yˉ)(y^i−yˉ)]2 = [ ∑ i = 1 N ( y i − y ^ i ) ( y ^ i − y ˉ ) + ∑ i = 1 N ( y ^ i − y ˉ ) 2 ] 2 ∑ i = 1 N ( y i − y ˉ ) 2 ∑ i = 1 N ( y ^ i − y ˉ ) 2 =\frac{ [\sum_{i=1}^{N}{ (y_i - \hat{y}_i )( \hat{y}_i - \bar{y} ) + \sum_{i=1}^{N} ( \hat{y}_i - \bar{y} )^2 } ]^2 } { \sum_{i=1}^{N} (y_i - \bar{y})^2 \sum_{i=1}^{N} (\hat{y}_i - \bar{y} )^2 } =∑i=1N(yi−yˉ)2∑i=1N(y^i−yˉ)2[∑i=1N(yi−y^i)(y^i−yˉ)+∑i=1N(y^i−yˉ)2]2 = [ ∑ i = 1 N ( y ^ i − y ˉ ) 2 ] 2 ∑ i = 1 N ( y i − y ˉ ) 2 ∑ i = 1 N ( y ^ i − y ˉ ) 2 =\frac{ [ \sum_{i=1}^{N} ( \hat{y}_i - \bar{y} )^2 ]^2 } { \sum_{i=1}^{N} (y_i - \bar{y})^2 \sum_{i=1}^{N} (\hat{y}_i - \bar{y} )^2 } =∑i=1N(yi−yˉ)2∑i=1N(y^i−yˉ)2[∑i=1N(y^i−yˉ)2]2 = ∑ i = 1 N ( y ^ i − y ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 = R 2 =\frac{ \sum_{i=1}^{N} ( \hat{y}_i - \bar{y} )^2 } { \sum_{i=1}^{N} (y_i - \bar{y})^2 } = R^2 =∑i=1N(yi−yˉ)2∑i=1N(y^i−yˉ)2=R2 即可以定义R： R = ρ ( y i , y ^ i ) R = \rho(y_i, \hat{y}_i) R=ρ(yi,y^i)

5. 拟合优度评价指标III——调整R方

我们已经说明：R方是一个评价拟合好坏的指标。然而，小伙伴可能又发现了一个新问题：当我们保留原有变量，而无脑往模型中添加解释变量时，R方也会越来越高。虽然模型的解释效果更好了，但是我们却加入了过多的解释变量。这有什么不好吗？过多的解释变量会让模型变得复杂，从而让我们很难说明被解释变量与解释变量之间的关系，有些时候（特别是样本数量不足的时候）还会造成“维度灾难”。这怎么办？是不是可以构造衡量拟合“性价比”的指数呢？

一个有效的办法就是在R方中加入一个关于自变量个数 p 的惩罚因子。而调整R方（Adjusted R-Square, Adj-R2）就是基于这一思想，在R方的基础上增加了对模型参数个数的惩罚项：

Adj- R 2 = 1 − R S S / ( N − p − 1 ) T S S / ( N − 1 ) \text{Adj-}R^2= 1-\frac{RSS/(N-p-1)}{TSS/(N-1)} Adj-R2=1−TSS/(N−1)RSS/(N−p−1) = 1 − N − 1 N − p − 1 ⋅ R S S T S S =1- \frac{N-1}{N-p-1} \cdot \frac{RSS}{TSS} =1−N−p−1N−1⋅TSSRSS

可以看到，当引入的解释变量不断变多（即 p 增加）时，尽管 RSS/TSS 是下降的，但是其前面的比值关于 p 单调递增，从而进一步限制了Adj-R2的进一步增长；换句话说，如果加入的解释变量“性价比不高”，那么在以Adj-R2的判定标准下，引入这一解释变量很可能并不是一个好选择。

6. 拟合优度评价指标IV——AIC/BIC/SIC

与改进R方类似，还有一些常用的指标来对解释变量的数量进行“惩罚”。在这一章中，我们就来简单介绍一下这三个变量：赤池信息量（Akaike Information Criterion， AIC），贝叶斯信息量（Bayesian Information Criterion， BIC）与施瓦兹信息量（Schwarz Information Criterion， SIC）。

6.1 赤池信息量（AIC）

赤池信息量（AIC）的定义式为： AIC = 2 p − N ⋅ ln ( L ) \text{AIC} = 2p - N \cdot \text{ln}(L) AIC=2p−N⋅ln(L) 其中：p 为解释变量个数； N 为样本点个数； L 为似然函数，ln(L)为对数似然函数。

在【统计学习系列】多元线性回归模型（二）——模型的参数估计I：点估计这篇文章中，我们已经给出了对数似然函数的表达式。在得到ML估计量 σ^2 和 β^ 后带入到对数似然函数中，即可得到如下的表达式：

AIC = 2 p + N ⋅ ln ( RSS N ) \text{AIC} = 2p+N \cdot \text{ln}( \frac{ \text{RSS}}{N}) AIC=2p+N⋅ln(NRSS)

可以看到，AIC指标分别是关于解释变量个数 p 和残差平方和平均值 RSS/N 的递增函数。我们可以认为，AIC指标引入了对解释变量个数 p 的“惩罚”：即便 p 较大时残差平方和很低，但是在AIC的意义下较大的 p 本身却增加了模型拟合的代价，这一点是我们不愿意看到的。AIC越小，则说明模型可以被少量的解释变量拟合的较好，模型拟合较为优秀。

注：总的来说，AIC越小越好。

6.2 贝叶斯信息量（BIC）

贝叶斯信息量（BIC）的定义式为： BIC = 2 ln ( N ) p − N ⋅ ln ( L ) \text{BIC}= 2\text{ln}(N)p - N \cdot \text{ln}(L) BIC=2ln(N)p−N⋅ln(L)

在多元回归的表达式为： BIC = 2 ln ( N ) p + N ⋅ ln ( RSS N ) \text{BIC}= 2\text{ln}(N) p + N \cdot \text{ln}( \frac{ \text{RSS}}{N}) BIC=2ln(N)p+N⋅ln(NRSS)

BIC指标在构成上与AIC指标几乎是完全一致，唯一的不同是对 p 的惩罚项前面加上了一个大于1的系数（一般来说N大于3），使得BIC在对 p 的惩罚上面更为严厉。因此，使用BIC准则选择出的最优模型对应的解释变量个数不会高于AIC准则所对应的最优模型。

容易证明，对于相同的 p，BIC > AIC。

注：与AIC一样，BIC越小越好。

6.3 施瓦茨信息量（SIC）

施瓦茨信息量（SIC）在表达式与AIC、BIC也基本相同，但SIC在三者之间对 p 的惩罚上面最为严厉。

注：与AIC、BIC一样，SIC也是越小越好。

写在最后

若想查阅本系列全部文章，请参见目录页：系列文章目录索引。

欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀！有任何问题，欢迎在本文下方留言，或者将问题发送至勘误邮箱： [email protected] 谢谢大家！

【本文地址】

【统计学习系列】多元线性回归模型（六）

【统计学习系列】多元线性回归模型（六）

今日新闻

推荐新闻