线性回归模型（最小二乘法模型）诊断

您所在的位置：网站首页 › r语言标准化残差图代码 › 线性回归模型（最小二乘法模型）诊断

线性回归模型（最小二乘法模型）诊断

2023-11-30 00:48| 来源: 网络整理| 查看: 265

回归诊断

回归诊断技术向你提供了评价回归模型适用性的必要工具 8.3.1标准方法对lm()函数返回的对象使用plot()函数，生成评价模型拟合情况的四幅图形例子

fit |t|) (Intercept) 1.235e+00 3.866e+00 0.319 0.7510 Population 2.237e-04 9.052e-05 2.471 0.0173 * Illiteracy 4.143e+00 8.744e-01 4.738 2.19e-05 *** Income 6.442e-05 6.837e-04 0.094 0.9253 Frost 5.813e-04 1.005e-02 0.058 0.9541 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.535 on 45 degrees of freedom Multiple R-squared: 0.567, Adjusted R-squared: 0.5285 F-statistic: 14.73 on 4 and 45 DF, p-value: 9.133e-08 ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM: Level of Significance = 0.05 Call: gvlma(x = fit) Value p-value Decision Global Stat 2.7728 0.5965 Assumptions acceptable. Skewness 1.5374 0.2150 Assumptions acceptable. Kurtosis 0.6376 0.4246 Assumptions acceptable. Link Function 0.1154 0.7341 Assumptions acceptable. Heteroscedasticity 0.4824 0.4873 Assumptions acceptable. >

从输出项（Global Stat中的文字栏)可以看到数据满足OLS回归模型所有的统计假设（p=0.597) 若p 2就表明存在多重共线性例子

> states fit library(car) > vif(fit) Population Illiteracy Income Frost 1.2 2.2 1.3 2.1 > sqrt(vif(fit)) >2 Population Illiteracy Income Frost FALSE FALSE FALSE FALSE

结果显示都不大于2所以不存在多重共线性

.4异常值的观测一个全面的回归分析要覆盖对异常值的分析，包括离群点，高杠杆点和强影响点。 8.4.1 离群点离群点是指那些模型预测效果不佳的观测点。它们通常有很大的或正或负的残差，正的残差说明模型低估了响应值，负的残差说明模型高估了响应值通过QQ图可以识别离群点，落在置信区间之外的点就是离群点。另一个粗糙的判断准则：标准化残差值大于2或者小于-2的点可能是离群点，需要特别关注。 car包也提供了另一种离群点的统计检验方法。outlierTest()函数可以求得最大标准化残差绝对值Bonferroni调整后的p值：

library(car) > states fit outlierTest(fit) rstudent unadjusted p-value Bonferroni p Nevada 3.5 0.00095 0.048

此处可以看到Nevada被判定为离群点（p=0.048). 注意该函数只是根据单个最大残差值的显著性来判断是否有离群点，若不显著。则说明数据集中没有离群点；若显著则你必须删除该离群点，然后再检验是否还有其他离群点存在

高杠杆值点高杠杆值观测点，指自变量因子空间中的离群点，由许多异常的自变量值组合起来的，与因变量没有关系高杠杆点就是预测变量中的离群点（就是因变量中的不合群的点）比如如果只有一个因变量，有个点离所有其他因变量的点都很远那这个点就是高杠杆点在简单线性回归中，高杠杆观测是很容易辨认的，我们可以简单地找到预测变量的取值超出正常范围的观测点。但是，在有许多预测变量的多元线性回归中，可能存在这样的观测点：单独来看，它各个预测变量的取值都在正常范围内，但从整个预测变量集的角度来看，它却是不寻常的 #高杠杆点可能是强影响点，也可能不是，这要看他们是不是离群点

高杠杆点的观测点可通过帽子统计量判断对于一个给定的数据集，帽子均值为p/n，其中p是模型估计的参数数目（包含截距项），n是样本量。一般来说，若观测点的帽子值大于帽子均值的2或3倍，就可以认定为高杠杆值点代码示例

states

【本文地址】

线性回归模型（最小二乘法模型）诊断

线性回归模型（最小二乘法模型）诊断

今日新闻

推荐新闻