模型中各变量对模型的解释程度 |
您所在的位置:网站首页 › vip占比怎么算 › 模型中各变量对模型的解释程度 |
在建立一个模型后,我们会关心这个模型对于因变量的解释程度,甚至想知道各个自变量分别对模型的贡献有多少。对于非线性模型,如 Random Forest 和 XGBoost 等由于其建模过程就是筛选变量的过程,可以计算变量的重要性;但对于大多数非线性模型,是比较难确定各个变量的贡献程度,本文仅讨论广义线性模型中的变量贡献程度。因此本文分为两种情况来看:普通线性模型与广义线性模型。 普通线性回归模型 将因变量的变异进行分解(如ANOVA),可求得
其中,SS是 Sums of Squares 的缩写,SSR 表示来自Regression 的变异,SSE 表示随机变异(未能解释的变异),SSTO 表示总变异,SSTO=SSR+SSE。则 表示回归模型对因变量的解释程度,称 为模型的决定系数。并且等于(r为相关系数)。 由于随着变量增加,也会变大,有可能出现 一个变量少但实际解释能力较好的模型的 小于 变量特别多但实际解释能力一般的模型的,这种比较会因为变量数目不同而导致不公平,所以就有校正的,但不是本文的重点,此处不赘述。
关于各个变量的贡献程度,Yi-Chun E. Chao 等人写了篇paper总结,详细内容见文末参考文献。 各个变量相对重要性的评价,令 表示 的relative importance,理想的 应该满足: (1)对于所有的 ,其 均为非负数; (2)所有的 之和等于回归模型的总; (3) 值与 进入模型的顺序无关。 下面探讨几个可能可以度量 的指标。 单变量 r2 各个变量自己单独建立回归模型(或作相关分析),可以求得各个变量的,一般表示为: 但是仅当各个变量完全不相关时,这个式子才成立: Type III SS 与 Type I SS 这部分详细内容建议参考:Sequential (or Extra) Sums of Squares Type III SS 在软件里一般显示为Adjust SS,指的是,将p个变量纳入回归模型后,各个变量的额外贡献度(独立贡献度),一般来说,各个变量的SS之和是小于SSR的,仅当各个变量完全不相关时,各个变量的SS的和才等于SSR。相应地,可以求出Type III ,即:
Type I SS 在软件里一般显示为Sequential SS,指的是,在之前p-1个变量的基础上,再加入当前变量,SSR的增加量。因此各个变量的SS之和是等于SSR的。但是这个SS依赖于进入模型的顺序(先进入模型的占便宜)。相应地,有Type III ,即:
偏 (Partial R-squared) 这部分详细内容请参考:Partial R-squared 偏又叫偏决定系数。这个概念也是基于变量加入的顺序,表示的是,在之前p-1个变量的模型不能解释的变异中,新加入的变量能解释的比例。也就是这个式子:
比如:在含有x1的模型的基础上,新增变量 x2 和 x3,则
这个概念一般用于检验新加入的变量有没有价值。 Pratt’s Index 这个指标首先由Pratt 等人提出。Pratt 指数是一个乘积:, 是回归系数, 是 与 的相关系数。一般来说,这个指标评价各个变量的相对重要程度,较前面几个指标更好,运用较为广泛。 , 用 表示 的解释能力,则据此可求出各变量的解释比例。 但是存在一个问题就是,有时候Pratt指数可能是负数值。对于这个问题,笔者不知是否可以修改成 作为评价指标。 Dj 其他方法包括:General Dominance Index 和 Johnson’s Relative Weight 。 这个指标首先由Budescu等人提出。之前说过Type III 与当前变量的加入顺序有关,那么枚举所有可能的顺序都求出一个,然后求平均数,这就是 的思想。具体参考Yi-Chun E. Chao的论文。另外 这里也不叙述了,也请参照Yi-Chun E. Chao的论文。 VIP值 PLSR(偏最小二乘法回归)本质上也是线性模型,综合求解过程中的参数(映射变换的系数和映射维度本身对因变量的解释程度),可以求得VIP值(Variable Importance in Projection),变量的 VIP 值反映的也是该变量对模型的解释程度。VIP值可用于变量的筛选。 对应的PLS-DA(偏最小二乘判别分析)属于广义线性模型,原理和PLSR基本一致,只是将回归任务变成了分类任务,也有VIP值。 广义线性模型 这里的非线性模型主要包括 Logistic 回归 和 Cox 回归。 由于的计算时基于最小二乘法(OLS)及F统计量的ANOVA,而 Logistic回归等模型采用最大似然估计法(MLE),因此难以直接求出,这时候衍生出了广义的,即伪。 Logistic 回归中, 定义为:
其中, 表示仅包括截距参数的模型的 log likelihood, 模型完美拟合所有数据的 log likelihood (其值为0), 为当前模型的 log likelihood。最差的拟合时,就是只拟合了截距,此时 为0;最佳的拟合时,就是完美拟合了所有数据,其log likelihood为 =0,因此 为1。 这种 往往需要进一步校正。 伪的公式还可参考相应资料:维基、Logistic Regression。 似然比检验 Logistic回归中,似然比检验(Likelihood Ratio Test),又叫 Deviance Test,用于评估模型中某些参数是否应该为0,或者说,新模型(复杂模型,full model)比原模型(简单模型,reduced model)中新增的参数是否为真实有效的约束。具体讲解可以参考:似然比检验 LRT 统计量为:
该统计量服从卡方分布。其中, 表示原模型的 log likelihood, 表示新模型的 log likelihood。 定义deviance为 log likelihood 的负2倍。该统计量也常常记为: 此处引用 Logistic Regression 中的一个例子: 以自变量LI进行拟合得到模型,并与无自变量的模型(null model)进行对比(似然比检验),得到结果如下:
可以算出无自变量的模型的log likelihood为 =−17.1859,则deviance为34.372,即Total 中所示值; 当前模型的 log likelihood 为 =−13.0365,则deviance为26.073,即Error 中所示值; 。查表可知p |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |