线性回归模型(最小二乘法模型)诊断

您所在的位置:网站首页 r语言标准化残差图代码 线性回归模型(最小二乘法模型)诊断

线性回归模型(最小二乘法模型)诊断

2023-11-30 00:48| 来源: 网络整理| 查看: 265

回归诊断

回归诊断技术向你提供了评价回归模型适用性的必要工具 8.3.1标准方法 对lm()函数返回的对象使用plot()函数,生成评价模型拟合情况的四幅图形 例子

fit |t|) (Intercept) 1.235e+00 3.866e+00 0.319 0.7510 Population 2.237e-04 9.052e-05 2.471 0.0173 * Illiteracy 4.143e+00 8.744e-01 4.738 2.19e-05 *** Income 6.442e-05 6.837e-04 0.094 0.9253 Frost 5.813e-04 1.005e-02 0.058 0.9541 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.535 on 45 degrees of freedom Multiple R-squared: 0.567, Adjusted R-squared: 0.5285 F-statistic: 14.73 on 4 and 45 DF, p-value: 9.133e-08 ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM: Level of Significance = 0.05 Call: gvlma(x = fit) Value p-value Decision Global Stat 2.7728 0.5965 Assumptions acceptable. Skewness 1.5374 0.2150 Assumptions acceptable. Kurtosis 0.6376 0.4246 Assumptions acceptable. Link Function 0.1154 0.7341 Assumptions acceptable. Heteroscedasticity 0.4824 0.4873 Assumptions acceptable. >

从输出项(Global Stat中的文字栏)可以看到数据满足OLS回归模型所有的统计假设(p=0.597) 若p 2就表明存在多重共线性 例子

> states fit library(car) > vif(fit) Population Illiteracy Income Frost 1.2 2.2 1.3 2.1 > sqrt(vif(fit)) >2 Population Illiteracy Income Frost FALSE FALSE FALSE FALSE

结果显示都不大于2所以不存在多重共线性

.4异常值的观测 一个全面的回归分析要覆盖对异常值的分析,包括离群点,高杠杆点和强影响点。 8.4.1 离群点 离群点是指那些模型预测效果不佳的观测点。它们通常有很大的或正或负的残差,正的残差说明模型低估了响应值,负的残差说明模型高估了响应值 通过QQ图可以识别离群点,落在置信区间之外的点就是离群点。 另一个粗糙的判断准则:标准化残差值大于2或者小于-2的点可能是离群点,需要特别关注。 car包也提供了另一种离群点的统计检验方法。outlierTest()函数可以求得最大标准化残差绝对值Bonferroni调整后的p值:

library(car) > states fit outlierTest(fit) rstudent unadjusted p-value Bonferroni p Nevada 3.5 0.00095 0.048

此处可以看到Nevada被判定为离群点(p=0.048). 注意该函数只是根据单个最大残差值的显著性来判断是否有离群点,若不显著。则说明数据集中没有离群点; 若显著则你必须删除该离群点,然后再检验是否还有其他离群点存在

高杠杆值点 高杠杆值观测点,指自变量因子空间中的离群点,由许多异常的自变量值组合起来的,与因变量没有关系 高杠杆点就是预测变量中的离群点(就是因变量中的不合群的点)比如如果只有一个因变量,有个点离所有其他因变量的点都很远那这个点就是高杠杆点 在简单线性回归中,高杠杆观测是很容易辨认的,我们可以简单地找到预测变量的取值超出正常范围的观测点。 但是,在有许多预测变量的多元线性回归中,可能存在这样的观测点: 单独来看,它各个预测变量的取值都在正常范围内,但从整个预测变量集的角度来看,它却是不寻常的 #高杠杆点可能是强影响点,也可能不是,这要看他们是不是离群点

高杠杆点的观测点可通过帽子统计量判断 对于一个给定的数据集,帽子均值为p/n,其中p是模型估计的参数数目(包含截距项),n是样本量。 一般来说,若观测点的帽子值大于帽子均值的2或3倍,就可以认定为高杠杆值点 代码示例

states


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3