模型中各变量对模型的解释程度

您所在的位置:网站首页 vip占比怎么算 模型中各变量对模型的解释程度

模型中各变量对模型的解释程度

2023-09-06 23:58| 来源: 网络整理| 查看: 265

在建立一个模型后,我们会关心这个模型对于因变量的解释程度,甚至想知道各个自变量分别对模型的贡献有多少。对于非线性模型,如 Random Forest 和 XGBoost 等由于其建模过程就是筛选变量的过程,可以计算变量的重要性;但对于大多数非线性模型,是比较难确定各个变量的贡献程度,本文仅讨论广义线性模型中的变量贡献程度。因此本文分为两种情况来看:普通线性模型与广义线性模型。

 

普通线性回归模型

将因变量的变异进行分解(如ANOVA),可求得

      R^{2}=\frac{SSR}{SSTO}=1-\frac{SSE}{SSTO}

其中,SS是 Sums of Squares 的缩写,SSR 表示来自Regression 的变异,SSE 表示随机变异(未能解释的变异),SSTO 表示总变异,SSTO=SSR+SSE。则R^{2} 表示回归模型对因变量的解释程度,称R^{2} 为模型的决定系数。并且R^{2}等于r^{2}(r为相关系数)。

由于随着变量增加,R^{2}也会变大,有可能出现 一个变量少但实际解释能力较好的模型的R^{2} 小于 变量特别多但实际解释能力一般的模型的R^{2},这种比较会因为变量数目不同而导致不公平,所以就有校正的R^{2},但不是本文的重点,此处不赘述。

 

关于各个变量的贡献程度,Yi-Chun E. Chao 等人写了篇paper总结,详细内容见文末参考文献。

各个变量相对重要性的评价,令 l_j 表示 x_j 的relative importance,理想的 l_j 应该满足:

(1)对于所有的 x_j,其 l_j 均为非负数;

(2)所有的 l_j 之和等于回归模型的总R^{2}

(3)l_j 值与 x_j 进入模型的顺序无关。

下面探讨几个可能可以度量 l_j 的指标。

 

单变量​​​​​ r2

各个变量自己单独建立回归模型(或作相关分析),可以求得各个变量的r^{2},一般表示为:r^2_{yx_j} 

但是仅当各个变量完全不相关时,这个式子才成立:

 

Type III SS 与 Type I SS

这部分详细内容建议参考:Sequential (or Extra) Sums of Squares

Type III SS 在软件里一般显示为Adjust SS,指的是,将p个变量纳入回归模型后,各个变量的额外贡献度(独立贡献度),一般来说,各个变量的SS之和是小于SSR的,仅当各个变量完全不相关时,各个变量的SS的和才等于SSR。相应地,可以求出Type III r^{2},即:

      

Type I SS 在软件里一般显示为Sequential SS,指的是,在之前p-1个变量的基础上,再加入当前变量,SSR的增加量。因此各个变量的SS之和是等于SSR的。但是这个SS依赖于进入模型的顺序(先进入模型的占便宜)。相应地,有Type III r^{2},即:

      

 

R^{2} (Partial R-squared)

这部分详细内容请参考:Partial R-squared

R^{2}又叫偏决定系数。这个概念也是基于变量加入的顺序,表示的是,在之前p-1个变量的模型不能解释的变异中,新加入的变量能解释的比例。也就是这个式子:

      

比如:在含有x1的模型的基础上,新增变量 x2 和 x3,则

      

这个概念一般用于检验新加入的变量有没有价值。

 

Pratt’s Index  

这个指标首先由Pratt 等人提出。Pratt 指数是一个乘积:B_jr_{yx_j}B_j 是回归系数,r_{yx_j}y 与 x_j 的相关系数。一般来说,这个指标评价各个变量的相对重要程度,较前面几个指标更好,运用较为广泛。

R_p^2=\sum B_jr_{yx_j},  用 B_jr_{yx_j} 表示 x_j 的解释能力,则据此可求出各变量的解释比例。

但是存在一个问题就是,有时候Pratt指数可能是负数值。对于这个问题,笔者不知是否可以修改成 |B_jr_{yx_j}| 作为评价指标。

 

Dj

其他方法包括:General Dominance Index D_j 和 Johnson’s Relative Weight \varepsilon _jD_j 这个指标首先由Budescu等人提出。之前说过Type III r^{2}与当前变量的加入顺序有关,那么枚举所有可能的顺序都求出一个r^{2},然后求平均数,这就是 D_j 的思想。具体参考Yi-Chun E. Chao的论文。另外 \varepsilon _j 这里也不叙述了,也请参照Yi-Chun E. Chao的论文。

 

VIP值

PLSR(偏最小二乘法回归)本质上也是线性模型,综合求解过程中的参数(映射变换的系数和映射维度本身对因变量的解释程度),可以求得VIP值(Variable Importance in Projection),变量的 VIP 值反映的也是该变量对模型的解释程度。VIP值可用于变量的筛选。

对应的PLS-DA(偏最小二乘判别分析)属于广义线性模型,原理和PLSR基本一致,只是将回归任务变成了分类任务,也有VIP值。

 

广义线性模型

这里的非线性模型主要包括 Logistic 回归 和 Cox 回归。

由于R^{2}的计算时基于最小二乘法(OLS)及F统计量的ANOVA,而 Logistic回归等模型采用最大似然估计法(MLE),因此难以直接求出R^{2},这时候衍生出了广义的R^{2},即伪R^{2}

Logistic 回归中,R^{2} 定义为:

      R^2=\frac{l(\hat{\beta _0})-l(\hat{\beta })}{l(\hat{\beta _0})-l_S(\beta )}=\frac{l(\hat{\beta _0})-l(\hat{\beta })}{l(\hat{\beta _0})}

其中,l(\hat{\beta _0}) 表示仅包括截距参数的模型的 log likelihood,l_S(\hat{\beta }) 模型完美拟合所有数据的 log likelihood (其值为0),l(\hat{\beta }) 为当前模型的 log likelihood。最差的拟合时,就是只拟合了截距,此时 R^{2} 为0;最佳的拟合时,就是完美拟合了所有数据,其log likelihood为 l_S(\hat{\beta })=0,因此R^{2} 为1。

这种 R^{2} 往往需要进一步校正。

R^{2}的公式还可参考相应资料:维基、Logistic Regression。

 

似然比检验

Logistic回归中,似然比检验(Likelihood Ratio Test),又叫 Deviance Test,用于评估模型中某些参数是否应该为0,或者说,新模型(复杂模型,full model)比原模型(简单模型,reduced model)中新增的参数是否为真实有效的约束。具体讲解可以参考:似然比检验 LRT

统计量为:

      \Lambda ^*=-2(l(\hat{\beta ^{(0)}})-l(\hat{\beta }))

该统计量服从卡方分布。其中,l(\hat{\beta ^{(0)}}) 表示原模型的 log likelihood,l(\hat{\beta }) 表示新模型的 log likelihood。

定义deviance为 log likelihood 的负2倍。该统计量也常常记为:G^2 = deviance (reduced) - deviance (full)

此处引用 Logistic Regression 中的一个例子:

以自变量LI进行拟合得到模型,并与无自变量的模型(null model)进行对比(似然比检验),得到结果如下:

      

可以算出无自变量的模型的log likelihood为 l(\hat{\beta ^{(0)}}) =−17.1859,则deviance为34.372,即Total 中所示值;

当前模型的 log likelihood 为 l(\hat{\beta }) =−13.0365,则deviance为26.073,即Error 中所示值;

G^2=34.372-26.073=8.299 。查表可知p



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3