多重线性回归分析(Multiple Linear Regression Analysis)

您所在的位置:网站首页 ols回归模型spss控制变量 多重线性回归分析(Multiple Linear Regression Analysis)

多重线性回归分析(Multiple Linear Regression Analysis)

2024-07-09 18:20| 来源: 网络整理| 查看: 265

在前面文章中介绍了多重线性回归分析(Multiple Linear Regression Analysis)的假设检验理论,本篇文章将实例演示在SPSS软件中实现多重线性回归分析的操作步骤。

关键词:SPSS; 多重线性回归; 多元线性回归; 多重共线性; 自变量选择; 逐步回归; 模型拟合评价; 哑变量设置

一、案例介绍

某社区医师从本社区的糖尿病患者中随机抽取50名,收集了他们的性别(Gender,0=女,1=男)、经济水平(Income,1=低收入,2=中等收入,3=高收入)、空腹胰岛素(Fasting insulin,mmol/L)、糖化血清蛋白(Glycosylated serum protein)和空腹血糖(FBS,mmol/L),欲探究空腹血糖是否受到其它几项指标的影响。部分数据见图1。

图1 二、问题分析

本案例的目的是分析空腹血糖是否受到其他几项指标的影响,由于因变量是定量资料,初步考虑可使用多重线性回归分析。但需要满足以下7个条件:

条件1:样本量是自变量个数的5~10倍。本案例有4个自变量,样本量为50,满足该条件。

条件2:自变量若为连续变量,需要与因变量之间存在线性关系,可通过绘制散点图予以考察。

条件3:各观测值之间相互独立,即残差之间不存在自相关。通过研究设计和数据收集的过程分析,可判断本案例中观测值之间不存在互相影响的情况。该条件还可通过软件分析后辅助判断。

条件4:不存在显著的多变量异常值,该条件需要通过软件分析后判断。

条件5:自变量之间无多重共线性,该条件需要通过软件分析后判断。

条件6:残差符合正态(或近似正态)分布,该条件需要通过软件分析后判断。

条件7:残差大小不随所有变量取值水平的变化而变化,即方差齐性,可通过绘制残差图进行判断。

三、软件操作及结果解读 (一) 适用条件判断 1. 条件2判断(线性关系判断)

检验因变量与连续性自变量之间是否存在线性关系,可通过绘制每个自变量和因变量的散点图进行判断。

(1) 软件操作

① 选择“图形”—“图表构建器” (图2)。

图2

② 在“图表构建器”对话框的“图库”中,选择“散点图/点图”,双击选择“简单散点图”,将自变量“糖化血清蛋白”拖入“X轴”,将因变量“空腹血糖”拖入“Y轴”(图3)。点击“确定”可得到“糖化血清蛋白”与“空腹血糖”之间的散点图如图4所示。

图3

③ 参照步骤②绘制自变量“空腹胰岛素”与因变量“空腹血糖”的散点图如图5所示。

(2) 结果解读

由图4可知,“糖化血清蛋白”与“空腹血糖”之间存在线性关系。由图5可知,“空腹胰岛素”与“空腹血糖”之间存在线性关系。每个自变量和因变量的线性关系只是针对自变量为连续变量而言的,因此本例中分类型自变量与因变量之间的线性关系可以忽略。综上,本案例满足条件2。

图4 图5 2. 设置哑变量

根据数据类型判断,“经济水平”为无序多分类资料,需要将“经济水平”转化为哑变量后,进行多重线性回归。以下将对“经济水平”进行哑变量设置。

(1) 软件操作

① 点击“转换”—“创建虚变量”(图6)。

图6

② 在“创建虚变量”对话框中将变量“经济水平”选入右侧“针对下列变量创建虚变量”框中,然后在“创建主效应虚变量”下的“根名称-每个选定变量各一个”中输入虚拟变量的名称“Income”;点击“确定”,完成虚拟变量设置(图7)。

图7 (2) 结果解读

上述步骤运行结束后可以在数据编辑页面看到新生成的3个哑变量(图8),随后就可以进行多重线性回归。

图8 3.条件3~7判断

在线性回归过程中判断是否符合条件3~7。

(1) 软件操作

① 选择“分析”—“回归”—“线性” (图9)。

图9

② 在弹出的对话框中,将因变量“空腹血糖”选入右侧“因变量”框、将自变量“性别”、“空腹胰岛素”、“糖化血清蛋白”选入右侧“自变量”框(图10)。

图10

③ 然后点击“下一个”。将“中等收入”和“高收入”两个虚拟变量同时选入右侧“自变量”,此时表示以“低收入”为参照水平;“方法”选择“输入”,即哑变量设置的同进同出原则(图11)。

图11

④ 点击右侧“统计”,选择“回归系数中的“估算值”、“置信区间”选项,选择“残差中的“德宾-沃森”、“个案诊断”选项,选择“模型拟合”、“描述”、“部分相关性和偏相关性”、“共线性诊断”选项,点击“继续” (图12)。

图12

⑤ 点击右侧“图”,分别在“Y:”和“X:”框内添加“*ZRESID(标准化残差)”和“*ZPRED(标准化预测值)”。在“标准化残差图”中勾选“直方图”和“正态概率图”。勾选“生成所有局部图”,点击“继续”(图13)。

图13

⑥ 点击右侧“保存”,在弹出的对话框中,选择“预测值 ”中的“未标准化 ”选项,选择“残差”中的“学生化 ”、“学生化删除后”选项, 在“距离”中勾选“库克距离”和“杠杆值”,点击“继续” (图14)。回到“线性回归”对话框,点击“确定”。

图14

如图15所示,经过上述操作后,“变量视图” 和“数据视图”对话框中会增加5个变量,这5个变量分别是“未标化预测值(PRE_1)”、“学生化残差(SRE_1)”、“学生化删除残差SDR_1)”、“Cook距离(COO_1)”以及“杠杆值(LEV_1)” 。

图15 (2) 独立性判断

图16是模型摘要,其中的“Durbin-Watson (德宾-沃森/D-W)”检验通常用来检测残差是否存在自相关,Durbin-Watson检验值分布在0~4之间,越接近2,观测值相互独立的可能性越大。需要注意的是,判断观测值是否独立,主要取决于研究设计和数据收集阶段的质量控制,Durbin-Watson检验最好用于辅助判断。本例D-W值为1.655,可以认为观测值相互独立,满足条件3。

图16 (3) 多重共线性判断

可通过“相关系数”和“容差”、“方差膨胀因子”来判断自变量之间有无多重共线性。

图17是相关系数表,即自变量之间的相关系数矩阵。自变量之间的相关系数如果大于0.7,则提示可能存在多重共线性。如图所示,本例任意两个自变量的相关系数都小于0.7,提示不存在多重共线性。

图17

图18是模型系数,显示本例的容差和方差膨胀因子。如果“Tolerance(容差)”小于0.1或“VIF(方差膨胀因子)”大于10,则提示有严重共线性存在。本例中,各变量的容差均远大于0.1,方差膨胀因子均远小于10,提示自变量之间不存在严重多重共线性。如果数据存在严重多重共线性,需用复杂的方法进行处理,其中最简单的是剔除引起共线性的因素之一,剔除哪一个因素可以基于理论依据。

图18

综上,本案例满足条件5。

(4) 异常值判断

本例可通过“个案诊断”选项来判断是否存在异常值点,结果没有出现个案诊断的异常值列表,提示本例没有异常值。也可通过“库克距离”用来判断强影响点是否为因变量的异常值点。一般认为当D0.5时是异常值点。由图19可知,最大库克距离D为0.234



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3