回归分析(Regression analysis)的R方与调整后R方(Adjusted)

您所在的位置:网站首页 cod表示什么含义的意思 回归分析(Regression analysis)的R方与调整后R方(Adjusted)

回归分析(Regression analysis)的R方与调整后R方(Adjusted)

2024-04-21 08:21| 来源: 网络整理| 查看: 265

1. R平方

R方(R squared)又称为判定系数(coefficient of determination),是一种衡量回归模型表现的指标,代表从自变量可以解释因变量的比例。

残差平方和

可以解释的部分听起来有点抽象,或许从不能解释的部分来思考更容易理解,对于一个模型来说,什么叫做不能解释的部分?就是残差(residual)。我们耳熟能详的公式:

真实值预测值

即为残差,为了数学上计算方便,在累积加总的过程中我们会取平方和,残差平方和(residual sum of squares)公式如下:

因此残差平方和越大,表示模型解释的能力越弱,这非常容易理解。

总平方和

残差既然是不能解释的部分,那能解释的总变异量是什么?我们以用(真实值-观察值平均)的平方和表示:

在此变异量可以想象是信息含量,假设观察值是相等的常数C,变异总量就是0,毫无解释可言。

由上述说明,不能解释变异的比例为:

模型可以解释的比例,自然就是与1相减:

事实上总变异平方和就是回归平方和残差平方和相加:

第一项:总平方和第二项:回归平方和第三项:残差平方和2. 解读R平方

上图,绘制一张图来体会:

左边红色正方形的面积总和就是因变量的总变异量,计算方式是观察点(圆心)与的距离取平方的加总,代表我想要解释的部分;右边蓝色正方形的面积加总,就是残差平方和,为模型不能解释的部分,计算方式是观察点(圆心)与(预测值)的距离取平方的加总,残差平方和越小,表示不能解释的部分越小,则R平方自然越高,如果找到一条完美回归线穿越所有数据点,使残差变成0,R平方就会变成1,表示模型解释所有变异量。因此,正常情况下R平方的值会落在[0,1]之间。

R方有没有可能是负的?

有,当模型的残差平方和大于总变异量时,R平方就是负的,如下图:

这表示模型完全没有用处,预测效果比用平均值来猜测还要差劲!

3. 调整后R平方

R square越高越好?

当然不是。回想最小残差平方和的表示如下:

其中:

是表示第组解释(独立)变异的行向量则是对应的系数则是第组的因变量

理论上自变量X越多,残差平方和只会越小,可以新增的一个X变量,即使对解释目标毫无贡献,就使其系数变成0即可,因此残差平方和最差就是打平,不会有反增的情况,在残差平方和越小的情况,当然只会使R square变得越高。

R square变高本身是好事,代表解释程度更高,但是放太多不重要的变数,会使得系数的估计变得不稳定。

因此R平方不是一个客观的指标,在此把自变量的数量也考虑进来,得到调整R平方(Adjust R²),调整R平方可视为R²的无偏估计,重新书写如下:

其中为样本数量,为变数数量。这里可以注意到,得到的调整R平方会小于R平方。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3