学习笔记

您所在的位置:网站首页 线性回归分析spss步骤回归系数和标准误差 学习笔记

学习笔记

2024-07-04 18:26| 来源: 网络整理| 查看: 265

目录 学习目的软件版本原始文档多元线性回归分析何为残差?何为多重共线?一、实战案例二、统计策略三、SPSS操作(一)绘制散点图(二)线性回归分析操作 四、结果解读第一,R方结果和残差独立性检验(德宾沃森检验)第二个结果为方差分析(ANOVA):第三个结果,回归分析的主要结果:第四个结果,计算残差和预测值第五个结果,残差直方图和P-P图。第六个结果,残差图。 五、规范报告1、规范表格2、规范文字 六、划重点 Tips:如何用SPSS检验多重共线性多重共线性的后果∶多重共线性的确认∶多重共线性的对策︰

学习目的

SPSS第二十一讲:多元线性回归分析(超级详细)

软件版本

IBM SPSS Statistics 26。

原始文档

《小白爱上SPSS》课程 #统计原理

多元线性回归分析

今天我们来学习多元线性回归分析,它用来评价一个因变量和多个自变量之间关系的统计方法。除了需要满足一元线性回归的条件之外,多元线性回归还需要满足【多个自变量不存在多重共线】的条件. 多元线性回归需要满足如下条件: (1)自变量和因变量在理论上有因果关系; (2)因变量为连续型变量; (3)各自变量与因变量之间存有线性关系; (4)残差要满足正态性、独立性、方差齐性。 (5)多个自变量不存在多重共线性 其中,线性(Linear)、正态性(Normal)、独立性(independence)、方差齐性(Equal Variance),俗称LINE,是线性回归分析的四大基本前提条件。 这里稍微解释它们概念: Q1 线性:解释自变量X和因变量Y必须要有线性关系吗? —不是!只有当X是连续型数据或者等级数据(不设哑变量)时,才要求X与Y有线性的关系。当X是二分类或无序多分类,没有线性条件的要求。 Q2独立性:要求因变量Y各观察值相互独立吗? —不是,是要求残差是独立的。 Q3正态性:要求因变量Y各观察值正态分布吗? —不是,是要求残差正态分布。 Q4方差齐性:要求不同的解释变量X时,因变量Y方差相等吗? —没错,但是对于多元线性回归分析,更加合理的理解是在不同Y预测值情况下,残差的方差变化不大。 Q5:一定要严格满足LINK吗? —如果回归分析只是建立自变量与因变量之间关系,无须根据自变量预测因变量的容许区间和可信度等,则方差齐性和正态性可以适当放宽。

何为残差?

残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。我们以一元线性回归为例,它只有一个自变量,其模型可以表示为: 在这里插入图片描述 上述公式是基于样本得到的结果,b0和b1均为统计量。 若该公式拓展到总体人群,则为: 在这里插入图片描述 值得注意的是,这里x是真实的变量值x,而y带了一顶帽子,并非是y的真实值,而是成为y的预测值或者估计值。实际上,x和y没有严格上一一对应的关系,通过x产生的预测值,是接近于y但不等于y。 y预测值与y真实值之间的差值我们称之为残差。在这里插入图片描述 残差反映了除了x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。 可以这么来理解ϵ:我们对y的预测是不可能达到与真实值完全一样的,因此必然会产生误差,我们就用ϵ来表示这个无法预测的误差。我们通过引入了ϵ可以让模型达到完美状态,也就是理论的回归模型。 结合残差,真实的y和x关系如下:在这里插入图片描述 同样的,多个自变量存在的情况下,多重线性回归模型的表示如下:在这里插入图片描述 其中,bk、βk:回归系数,在多重线性回归中,被称之为偏回归系数,表示每个自变量都对y部分的产生了影响。 意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。 这里e是样本的预测值与测量值的差别,ϵ是总体中预测值与真实值的差别。戴了帽子的y预测值的变异性是解释变量x们能够预测和解释的。 一般情况下,成功的线性回归模型实现: (1)残差ϵ是一个期望为0的随机变量,即E(ϵ)=0 (2)对于预测值的所有值,ϵ的方差σ^2都相同 (3)残差ϵ是一个服从正态分布的随机变量,且相互独立,即ϵ~N(0,σ^2)

何为多重共线?

当2个或多个自变量高度相关时,就会出现多重共线。它不仅影响自变量对因变量变异的解释能力,还影响整个多重线性回归模型的拟合。

一、实战案例

小白研究运动员训练比赛满意感与成就感降低、情绪体力耗竭、运动负评价、自尊等变量之间关系,试建立多元线性回归方程。 读数据:

GET FILE='E:\E盘备份\recent\小白爱上SPSS\小白数据\第二十一讲:自尊、心理疲劳对训练满意感的预测.sav'.

在这里插入图片描述 该案例研究运动员训练比赛满意感与多个自变量(成就感降低、情绪体力耗竭、运动负评价、自尊)之间的关系。从专业知识上可认为成就感降低、情绪体力耗竭、运动负评价、自尊是可以预测训练比赛满意感的。

二、统计策略

统计分析策略口诀“目的引导设计,变量确定方法”。 针对上述案例,扪心五问。 Q1:本案例研究目的是什么? A:关联研究,探讨多个自变量与因变量之间的因果关系。 Q2:分析的组数是多少呢? A:五组数据。 Q3:本案例属于什么研究设计? A:调查研究 Q4:有几个变量? A:有五个变量。分别是成就感降低、情绪体力耗竭、运动负评价、训练比赛满意感、自尊。 (训练比赛满意感为因变量,成就感降低、情绪体力耗竭、运动负评价、自尊为自变量) Q5:残差是否具有独立性、方差齐性和正态分布? A:需要检验残差是否满足独立性、方差齐性和正态性。 Q6:各自变量之间是否存在多重共线性? A: 需要检验 概括而言,如果数据满足以下条件,则采用多元线性回归分析。在这里插入图片描述

三、SPSS操作 (一)绘制散点图

对于线性关系的条件,一般要求当x是连续型变量或者等级变量时,需绘制散点图探讨与y是否存在着线性趋势的关系;如x为二分类或者无序多分类,无须绘制散点图。 本例绘制成就感降低、情绪体力耗竭、运动负评价、自尊与训练比赛满意感之间关系的散点图分析。具体操作如下。 Step1:图形—图形画板模板选择器; Step2:按Shift选择左边的对话框所有的变量,同时点击【散点图矩阵】,点击【确定】。 在这里插入图片描述 命令行:

GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=训练比赛满意感[LEVEL=scale] 运动负评价[LEVEL=scale] 自尊[LEVEL=scale] 情绪体力耗竭[LEVEL=scale] 成就感降低[LEVEL=scale] MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=VIZTEMPLATE(NAME="Scatterplot Matrix (SPLOM)"[LOCATION=LOCAL] MAPPING( "all"="成就感降低"[DATASET="graphdataset"] "all"="情绪体力耗竭"[DATASET="graphdataset"] "all"="运动负评价"[DATASET="graphdataset"] "all"="自尊"[DATASET="graphdataset"] "all"="训练比赛满意感"[DATASET="graphdataset"])) VIZSTYLESHEET="Traditional"[LOCATION=LOCAL] LABEL='散点图矩阵 (SPLOM): 自尊-运动负评价-成就感降低-训练比赛满意感-情绪体力耗竭' DEFAULTTEMPLATE=NO.

输出结果如下,重点关注最后一行,即各自变量(成就感降低、情绪体力耗竭、运动负评价、自尊)与因变量(训练比赛满意感)之间线性关系。从图中可知,各自变量与因变量之间存有线性关系。

(二)线性回归分析操作

Step1:依次点击“分析——回归——线性; Step2: 将“训练比赛满意感”纳入“因变量”;将成就感降低、情绪体力耗竭、运动负评价、自尊放入“自变量”;方法选择“输入”; Step3: 点击“统计” 默认选项“估算值”;“模型拟合”;另选择“durin waston(德宾-沃森)、共线性诊断和“描述”。设置完后,点击“继续”。 在这里插入图片描述 Step4 : 在弹出“线性回归:图”对话框中将 “*ZRESID”(标准化残差)放入Y轴中,将“*ZPRED”(标准化预测值)放入X轴中,勾选“直方图”和“正态概率图”,单击“继续”。点击“确定”。在这里插入图片描述 Step5: 点击“保存”后勾选预测值的“未标准化”和“残差的未标准化”。在这里插入图片描述 命令行:

REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA COLLIN TOL /*COLLIN TOL:共线性诊断*/ /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT 训练比赛满意感 /*“因变量”*/ /METHOD=ENTER 成就感降低 情绪体力耗竭 运动负评价 自尊 /*“自变量”*/ /SCATTERPLOT=(*ZRESID ,*ZPRED) /*Y轴:*ZRESID”(标准化残差),X轴:*ZPRED”(标准化预测值)*/ /RESIDUALS DURBIN HISTOGRAM(ZRESID) NORMPROB(ZRESID) /*德宾残差(默认值),直方图、正态概率图*/ /SAVE PRED RESID /*“保存”预测值的“未标准化”和残差的“未标准化”*/. 四、结果解读 第一,R方结果和残差独立性检验(德宾沃森检验)

模型摘要是判断两者之间线性关系的重要指标,也反映了回归的拟合程度。 在这里插入图片描述 ①一般情况下,R²看的是“调整R²”,该值相对不受自变量个数的影响,结果更为可靠。本例包括多个自变量,建议报告调整R²=0.487。表明“所有自变量” 解释“训练比赛满意感”的48.7%变异。 ②若德宾沃森检验若结果在0-4之间,基本可认为数据独立性符合。本例的德宾沃森值为1.761,符合独立性。

第二个结果为方差分析(ANOVA):

在这里插入图片描述 主要探讨模型的是否成功建成。 本案例F=24.464,P



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3