多重线性回归分析(Multiple Linear Regression Analysis)

您所在的位置：网站首页 › ols回归模型spss控制变量 › 多重线性回归分析(Multiple Linear Regression Analysis)

多重线性回归分析(Multiple Linear Regression Analysis)

2024-07-09 18:20| 来源: 网络整理| 查看: 265

在前面文章中介绍了多重线性回归分析(Multiple Linear Regression Analysis)的假设检验理论，本篇文章将实例演示在SPSS软件中实现多重线性回归分析的操作步骤。

关键词：SPSS; 多重线性回归; 多元线性回归; 多重共线性; 自变量选择; 逐步回归; 模型拟合评价; 哑变量设置

一、案例介绍

某社区医师从本社区的糖尿病患者中随机抽取50名，收集了他们的性别(Gender，0=女，1=男)、经济水平(Income，1=低收入，2=中等收入，3=高收入)、空腹胰岛素(Fasting insulin，mmol/L)、糖化血清蛋白(Glycosylated serum protein)和空腹血糖(FBS，mmol/L)，欲探究空腹血糖是否受到其它几项指标的影响。部分数据见图1。

图1 二、问题分析

本案例的目的是分析空腹血糖是否受到其他几项指标的影响，由于因变量是定量资料，初步考虑可使用多重线性回归分析。但需要满足以下7个条件：

条件1：样本量是自变量个数的5~10倍。本案例有4个自变量，样本量为50，满足该条件。

条件2：自变量若为连续变量，需要与因变量之间存在线性关系，可通过绘制散点图予以考察。

条件3：各观测值之间相互独立，即残差之间不存在自相关。通过研究设计和数据收集的过程分析，可判断本案例中观测值之间不存在互相影响的情况。该条件还可通过软件分析后辅助判断。

条件4：不存在显著的多变量异常值，该条件需要通过软件分析后判断。

条件5：自变量之间无多重共线性，该条件需要通过软件分析后判断。

条件6：残差符合正态(或近似正态)分布，该条件需要通过软件分析后判断。

条件7：残差大小不随所有变量取值水平的变化而变化，即方差齐性，可通过绘制残差图进行判断。

三、软件操作及结果解读 (一) 适用条件判断 1. 条件2判断(线性关系判断)

检验因变量与连续性自变量之间是否存在线性关系，可通过绘制每个自变量和因变量的散点图进行判断。

(1) 软件操作

① 选择“图形”—“图表构建器” (图2)。

图2

② 在“图表构建器”对话框的“图库”中，选择“散点图/点图”，双击选择“简单散点图”，将自变量“糖化血清蛋白”拖入“X轴”，将因变量“空腹血糖”拖入“Y轴”(图3)。点击“确定”可得到“糖化血清蛋白”与“空腹血糖”之间的散点图如图4所示。

图3

③ 参照步骤②绘制自变量“空腹胰岛素”与因变量“空腹血糖”的散点图如图5所示。

(2) 结果解读

由图4可知，“糖化血清蛋白”与“空腹血糖”之间存在线性关系。由图5可知，“空腹胰岛素”与“空腹血糖”之间存在线性关系。每个自变量和因变量的线性关系只是针对自变量为连续变量而言的，因此本例中分类型自变量与因变量之间的线性关系可以忽略。综上，本案例满足条件2。

图4

图5 2. 设置哑变量

根据数据类型判断，“经济水平”为无序多分类资料，需要将“经济水平”转化为哑变量后，进行多重线性回归。以下将对“经济水平”进行哑变量设置。

(1) 软件操作

① 点击“转换”—“创建虚变量”(图6)。

图6

② 在“创建虚变量”对话框中将变量“经济水平”选入右侧“针对下列变量创建虚变量”框中，然后在“创建主效应虚变量”下的“根名称-每个选定变量各一个”中输入虚拟变量的名称“Income”；点击“确定”，完成虚拟变量设置(图7)。

图7 (2) 结果解读

上述步骤运行结束后可以在数据编辑页面看到新生成的3个哑变量(图8)，随后就可以进行多重线性回归。

图8 3.条件3~7判断

在线性回归过程中判断是否符合条件3~7。

(1) 软件操作

① 选择“分析”—“回归”—“线性” (图9)。

图9

② 在弹出的对话框中，将因变量“空腹血糖”选入右侧“因变量”框、将自变量“性别”、“空腹胰岛素”、“糖化血清蛋白”选入右侧“自变量”框(图10)。

图10

③ 然后点击“下一个”。将“中等收入”和“高收入”两个虚拟变量同时选入右侧“自变量”，此时表示以“低收入”为参照水平；“方法”选择“输入”，即哑变量设置的同进同出原则(图11)。

图11

④ 点击右侧“统计”，选择“回归系数中的“估算值”、“置信区间”选项，选择“残差中的“德宾-沃森”、“个案诊断”选项，选择“模型拟合”、“描述”、“部分相关性和偏相关性”、“共线性诊断”选项，点击“继续” (图12)。

图12

⑤ 点击右侧“图”，分别在“Y:”和“X:”框内添加“*ZRESID(标准化残差)”和“*ZPRED(标准化预测值)”。在“标准化残差图”中勾选“直方图”和“正态概率图”。勾选“生成所有局部图”，点击“继续”(图13)。

图13

⑥ 点击右侧“保存”，在弹出的对话框中，选择“预测值 ”中的“未标准化 ”选项，选择“残差”中的“学生化 ”、“学生化删除后”选项，在“距离”中勾选“库克距离”和“杠杆值”，点击“继续” (图14)。回到“线性回归”对话框，点击“确定”。

图14

如图15所示，经过上述操作后，“变量视图” 和“数据视图”对话框中会增加5个变量，这5个变量分别是“未标化预测值(PRE_1)”、“学生化残差(SRE_1)”、“学生化删除残差SDR_1)”、“Cook距离(COO_1)”以及“杠杆值(LEV_1)” 。

图15 (2) 独立性判断

图16是模型摘要，其中的“Durbin-Watson (德宾-沃森/D-W)”检验通常用来检测残差是否存在自相关，Durbin-Watson检验值分布在0~4之间，越接近2，观测值相互独立的可能性越大。需要注意的是，判断观测值是否独立，主要取决于研究设计和数据收集阶段的质量控制，Durbin-Watson检验最好用于辅助判断。本例D-W值为1.655，可以认为观测值相互独立，满足条件3。

图16 (3) 多重共线性判断

可通过“相关系数”和“容差”、“方差膨胀因子”来判断自变量之间有无多重共线性。

图17是相关系数表，即自变量之间的相关系数矩阵。自变量之间的相关系数如果大于0.7，则提示可能存在多重共线性。如图所示，本例任意两个自变量的相关系数都小于0.7，提示不存在多重共线性。

图17

图18是模型系数，显示本例的容差和方差膨胀因子。如果“Tolerance(容差)”小于0.1或“VIF(方差膨胀因子)”大于10，则提示有严重共线性存在。本例中，各变量的容差均远大于0.1，方差膨胀因子均远小于10，提示自变量之间不存在严重多重共线性。如果数据存在严重多重共线性，需用复杂的方法进行处理，其中最简单的是剔除引起共线性的因素之一，剔除哪一个因素可以基于理论依据。

图18

综上，本案例满足条件5。

(4) 异常值判断

本例可通过“个案诊断”选项来判断是否存在异常值点，结果没有出现个案诊断的异常值列表，提示本例没有异常值。也可通过“库克距离”用来判断强影响点是否为因变量的异常值点。一般认为当D0.5时是异常值点。由图19可知，最大库克距离D为0.234

【本文地址】

多重线性回归分析(Multiple Linear Regression Analysis)

多重线性回归分析(Multiple Linear Regression Analysis)

今日新闻

推荐新闻