模型中各变量对模型的解释程度

2023-09-06 23:58| 来源: 网络整理| 查看: 265

在建立一个模型后，我们会关心这个模型对于因变量的解释程度，甚至想知道各个自变量分别对模型的贡献有多少。对于非线性模型，如 Random Forest 和 XGBoost 等由于其建模过程就是筛选变量的过程，可以计算变量的重要性；但对于大多数非线性模型，是比较难确定各个变量的贡献程度，本文仅讨论广义线性模型中的变量贡献程度。因此本文分为两种情况来看：普通线性模型与广义线性模型。

普通线性回归模型

将因变量的变异进行分解（如ANOVA），可求得

$R^{2}=\frac{SSR}{SSTO}=1-\frac{SSE}{SSTO}$

其中，SS是 Sums of Squares 的缩写，SSR 表示来自Regression 的变异，SSE 表示随机变异（未能解释的变异），SSTO 表示总变异，SSTO=SSR+SSE。则 $R^{2}$ 表示回归模型对因变量的解释程度，称 $R^{2}$ 为模型的决定系数。并且 $R^{2}$ 等于 $r^{2}$ （r为相关系数）。

由于随着变量增加， $R^{2}$ 也会变大，有可能出现一个变量少但实际解释能力较好的模型的 $R^{2}$ 小于变量特别多但实际解释能力一般的模型的 $R^{2}$ ，这种比较会因为变量数目不同而导致不公平，所以就有校正的 $R^{2}$ ，但不是本文的重点，此处不赘述。

关于各个变量的贡献程度，Yi-Chun E. Chao 等人写了篇paper总结，详细内容见文末参考文献。

各个变量相对重要性的评价，令 $l_j$ 表示 $x_j$ 的relative importance，理想的 $l_j$ 应该满足：

（1）对于所有的 $x_j$ ，其 $l_j$ 均为非负数；

（2）所有的 $l_j$ 之和等于回归模型的总 $R^{2}$ ；

（3） $l_j$ 值与 $x_j$ 进入模型的顺序无关。

下面探讨几个可能可以度量 $l_j$ 的指标。

单变量 r2

各个变量自己单独建立回归模型（或作相关分析），可以求得各个变量的 $r^{2}$ ，一般表示为： $r^2_{yx_j}$

但是仅当各个变量完全不相关时，这个式子才成立：

Type III SS 与 Type I SS

这部分详细内容建议参考：Sequential (or Extra) Sums of Squares

Type III SS 在软件里一般显示为Adjust SS，指的是，将p个变量纳入回归模型后，各个变量的额外贡献度（独立贡献度），一般来说，各个变量的SS之和是小于SSR的，仅当各个变量完全不相关时，各个变量的SS的和才等于SSR。相应地，可以求出Type III $r^{2}$ ，即：

Type I SS 在软件里一般显示为Sequential SS，指的是，在之前p-1个变量的基础上，再加入当前变量，SSR的增加量。因此各个变量的SS之和是等于SSR的。但是这个SS依赖于进入模型的顺序（先进入模型的占便宜）。相应地，有Type III $r^{2}$ ，即：

偏 $R^{2}$ (Partial R-squared)

这部分详细内容请参考：Partial R-squared

偏 $R^{2}$ 又叫偏决定系数。这个概念也是基于变量加入的顺序，表示的是，在之前p-1个变量的模型不能解释的变异中，新加入的变量能解释的比例。也就是这个式子：

比如：在含有x1的模型的基础上，新增变量 x2 和 x3，则

这个概念一般用于检验新加入的变量有没有价值。

Pratt’s Index

这个指标首先由Pratt 等人提出。Pratt 指数是一个乘积： $B_jr_{yx_j}$ ， $B_j$ 是回归系数， $r_{yx_j}$ 是 $y$ 与 $x_j$ 的相关系数。一般来说，这个指标评价各个变量的相对重要程度，较前面几个指标更好，运用较为广泛。

$R_p^2=\sum B_jr_{yx_j}$ , 用 $B_jr_{yx_j}$ 表示 $x_j$ 的解释能力，则据此可求出各变量的解释比例。

但是存在一个问题就是，有时候Pratt指数可能是负数值。对于这个问题，笔者不知是否可以修改成 $|B_jr_{yx_j}|$ 作为评价指标。

其他方法包括：General Dominance Index $D_j$ 和 Johnson’s Relative Weight $\varepsilon _j$ 。 $D_j$ 这个指标首先由Budescu等人提出。之前说过Type III $r^{2}$ 与当前变量的加入顺序有关，那么枚举所有可能的顺序都求出一个 $r^{2}$ ，然后求平均数，这就是 $D_j$ 的思想。具体参考Yi-Chun E. Chao的论文。另外 $\varepsilon _j$ 这里也不叙述了，也请参照Yi-Chun E. Chao的论文。

VIP值

PLSR（偏最小二乘法回归）本质上也是线性模型，综合求解过程中的参数（映射变换的系数和映射维度本身对因变量的解释程度），可以求得VIP值（Variable Importance in Projection），变量的 VIP 值反映的也是该变量对模型的解释程度。VIP值可用于变量的筛选。

对应的PLS-DA（偏最小二乘判别分析）属于广义线性模型，原理和PLSR基本一致，只是将回归任务变成了分类任务，也有VIP值。

广义线性模型

这里的非线性模型主要包括 Logistic 回归和 Cox 回归。

由于 $R^{2}$ 的计算时基于最小二乘法（OLS）及F统计量的ANOVA，而 Logistic回归等模型采用最大似然估计法（MLE），因此难以直接求出 $R^{2}$ ，这时候衍生出了广义的 $R^{2}$ ，即伪 $R^{2}$ 。

Logistic 回归中， $R^{2}$ 定义为：

$R^2=\frac{l(\hat{\beta _0})-l(\hat{\beta })}{l(\hat{\beta _0})-l_S(\beta )}=\frac{l(\hat{\beta _0})-l(\hat{\beta })}{l(\hat{\beta _0})}$

其中， $l(\hat{\beta _0})$ 表示仅包括截距参数的模型的 log likelihood， $l_S(\hat{\beta })$ 模型完美拟合所有数据的 log likelihood （其值为0）， $l(\hat{\beta })$ 为当前模型的 log likelihood。最差的拟合时，就是只拟合了截距，此时 $R^{2}$ 为0；最佳的拟合时，就是完美拟合了所有数据，其log likelihood为 $l_S(\hat{\beta })$ =0，因此 $R^{2}$ 为1。

这种 $R^{2}$ 往往需要进一步校正。

伪 $R^{2}$ 的公式还可参考相应资料：维基、Logistic Regression。

似然比检验

Logistic回归中，似然比检验（Likelihood Ratio Test），又叫 Deviance Test，用于评估模型中某些参数是否应该为0，或者说，新模型（复杂模型，full model）比原模型（简单模型，reduced model）中新增的参数是否为真实有效的约束。具体讲解可以参考：似然比检验 LRT

统计量为：

$\Lambda ^*=-2(l(\hat{\beta ^{(0)}})-l(\hat{\beta }))$

该统计量服从卡方分布。其中， $l(\hat{\beta ^{(0)}})$ 表示原模型的 log likelihood， $l(\hat{\beta })$ 表示新模型的 log likelihood。

定义deviance为 log likelihood 的负2倍。该统计量也常常记为： $G^2 = deviance (reduced) - deviance (full)$

此处引用 Logistic Regression 中的一个例子：

以自变量LI进行拟合得到模型，并与无自变量的模型（null model）进行对比（似然比检验），得到结果如下：

可以算出无自变量的模型的log likelihood为 $l(\hat{\beta ^{(0)}})$ =−17.1859，则deviance为34.372，即Total 中所示值；

当前模型的 log likelihood 为 $l(\hat{\beta })$ =−13.0365，则deviance为26.073，即Error 中所示值；

$G^2=34.372-26.073=8.299$ 。查表可知p

【本文地址】

模型中各变量对模型的解释程度

模型中各变量对模型的解释程度

今日新闻

推荐新闻