spss教程相关分析与回归模型的建立与分析.docx

您所在的位置:网站首页 spss数据分析ols spss教程相关分析与回归模型的建立与分析.docx

spss教程相关分析与回归模型的建立与分析.docx

2023-02-25 10:46| 来源: 网络整理| 查看: 265

spss教程相关分析与回归模型的建立与分析.docx

spss教程相关分析与回归模型的建立与分析.docx

文档编号:10505514上传时间:2023-02-17格式:DOCX页数:38大小:521.06KB

spss教程相关分析与回归模型的建立与分析

第三章相关分析与回归模型的建立与分析

相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分析方法的基础。

相关分析和回归分析主要用于研究和分析变量之间的相关关系,在变量之间寻

求合适的函数关系式,特别是线性表达式。

本章主要内容:

1对变量之间的相关关系进行分析(Correlate)。

其中包括简单相关分析

(Bivariate)和偏相关分析(Partial)。

2、建立因变量和自变量之间回归模型(Regression),其中包括线性回归分析

(Linear)和曲线估计(CurveEstimation)。

数据条件:

参与分析的变量数据是数值型变量或有序变量。

§3.1相关分析

在SPSS中,可以通过Analyze菜单进行相关分析(Correlate),Correlate菜单如图3.1所示。

1Sr&phsties

Reg^orts

DescriptiveStatisties

Tables

Conpu电Mews

var

Gftner*1Lin«u'Modtl

MixedMedels

BivariG・

Re^ressioji

k

Partial...

L^glinear

Ristances.・・

Cl

k.

Sclie

F

NonparametricTests

k

Ij_m€Serits

Survival

MultipleResponse

MissingValues...

Saiiples

图3.1Correlate相关分析菜单

§3.1.1简单相关分析

两个变量之间的相关关系称简单相关关系。

有两种方法可以反映简单相关关系。

一是通过散点图直观地显示变量之间关系,二是通过相关系数准确地反映两变量的关系程度。

§3.1.1.1散点图

SPS软件的绘图命令集中在Graphs菜单。

下面通过例题来介绍具体操作方法

例1数据库SY-8中的变量X表示山东省人均国内生产总值,Y表示山东省城镇居民的消费额(资料来源:

山东省2003年统计年鉴),现画出散点图来观察两个变量的关联程度。

具体操作步骤如下:

首先打开数据SY-8,然后单击GraphstScatter,打开Scatterplot散点图对话框,如图3.2所示。

然后选择需要的散点图,图中的四个选项依次是:

Simple简单散点图Matrix矩阵散点图

Overlay重叠散点图3-D三维散点图

图3.2散点图对话框

如果只考虑两个变量,可选择简单的散点图Simple,然后点击Define,打开Simple

Scatterplot对话框,如图3.3所示。

图3.3SimpleScatterplot对话框

选择变量分别进入X轴和丫轴,点击0K后就可以得到散点图,见图3.4。

从下面输出的人均国内生产总值与城镇居民消费额的散点图3.4中可以粗略地看

出,两个变量之间有强正相关的线性关系。

人均国内生产总值(元)

图3.4散点图

§3.1.1.2简单相关分析操作

简单相关分析是指两个变量之间的相关分析,主要是指对两变量之间的线性相关程度作出定量分析。

仍然数据SY-8为例,说明居民收入与某商品的销售量两变量的相关分析过程,具体操作如下:

1、打开数据库SY-8后,单击Analyze=Correlate=Bivariate打开Bivariate对话框,见图3.5所示。

图3.5Bivariate:

Correlation两变量相关分析对话框

2、从左边的变量框中选择需要考察的两个变量进入Variables框内,从

CorrelationCoefficients栏内选择相关系数的种类,有Pearson相关系数,

Kendall's—致性系数和Spearman等级相关系数。

从检验栏内选择检验方式,有双尾

检验和单尾检验两种

3、单击Options按纽,选择输出项和缺失值的处理方式。

本例中选择输出基本统计描述,见图3.6所示。

:

Options对话框

图3.6BivariateCorrelation

4、单击OK可以得到相关分析的结果。

从表3.1(a)可以得到两个变量的基本统计描述,从表(b)中可以得到相关系数及对相关系数的检验结果,由于尾概率就小于0.01,故说明两变量之间存在着显著的线性相关性。

表3.1(a)基本统计描述

DescriptiveStatistics

Mean

Std.Deviation

N

城镇居民消费额(元)

2582.2800

2335.96384

25

人均国内生产总值(元)

3689.8800

3701.50798

25

表3.1(b)相关系数检验

Correlations

城镇居民消费额(元)

人均国内生产总值(元)

城镇居民消费额(元)

PearsonCorrelation

1

.998(**)

Sig.(2-tailed)

.000

N

25

25

人均国内生产总值(元)

PearsonCorrelation

.998(**)

1

Sig.(2-tailed)

.000

N

25

25

**Correlationissignificantatthe0.01level(2-tailed).

从表3.1(b)中可以看到两个变量相关性分析的结果:

相关系数是0.998,相关

程度非常高,且假设检验的P值远远地小于0.05,可以认为居民收入与某产品的销量存在线性正相关关系。

§3.1.2偏相关分析

简单相关关系只反映两个变量之间的关系,但如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真

实地反映二者之间的关系,所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。

例2:

为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表3.2。

试求火柴销售量与煤气户数的偏相关系数.

表3.2火柴销量及影响因素表(见参考文献{1})

年份

火柴销售量

煤气户数

卷烟销量

蚊香销量

打火石销量

(万件)

(万户)

(百箱)

(十万盒)

(百万粒)

68

23.69

25.68

23.6

10.1

4.18

69

24.1

25.77

23.42

13.31

2.43

70

22.74

25.88

22.09

9.49

6.5

71

17.84

27.43

21.43

11.09

25.78

72

18.27

29.95

24.96

14.48

28.16

73

20.29

33.53

28.37

16.97

24.26

74

22.61

37.31

42.57

20.16

30.18

75

26.71

41.16

45.16

26.39

17.08

76

31.19

45.73

52.46

27.04

7.39

77

30.5

50.59

45.3

23.08

3.88

78

29.63

58.82

46.8

24.46

10.53

79

29.69

65.28

51.11

33.82

20.09

80

29.25

71.25

53.29

33.57

21.22

81

31.05

73.37

55.36

39.59

12.63

82

32.28

76.68

54

48.49

11.17

解:

根据数据表建立数据文件SY-9,求解火柴销售量与煤气户数的偏相关系数具体操作如下:

1、首先打开数据文件SY-9,单击Analyze—■Correlate—•Partial,打开PartialCorrelations对话框,见图3.7所示。

Options...庐Displayactualsignificancelevel

图3.7PartialCorrelations

2、从左边框内选择要考察的两个变量进入Variables框内,其它客观存在的变量

作为控制变量进入Controllingfor框内,如本例中考察煤气户数与火柴销量的偏相

关系数进入Variables框内,其它相关变量(除年份外)进入Controllingfor框内。

3、单击Options按纽,打开Options对话框如图3.8所示。

从Statistics栏中选择输出项,有平均值及标准差,Zero-ordercorrelations表示在输出偏相关系数的同时输出变量间的简单相关系数。

另外还有缺失值的处理方式。

本例中选择简单相关系数。

图3.8PartialCorrelate:

Options对话框

4、选择结束后,单击OK寻输出结果,如表3.3所示。

表3.3偏相关分析输出表

---PARTIALCORRELATION

火柴销量

1.0000.

8260-.4902

.8083.8788(

简单相关系数)

(0)

(13)(

13)(13)

(13)

(自由度)

P=.

P=.000

P=.064P=

.000

P=.000

(P值)

煤气户数

.8260

1.0000-

0230

.9489.9029

(13)

(0)(

13)(13)

(13)

P=.000P=.

P=.935P=

.000

P=.000

打火石量-.4902-.02301.0000-.0070-.0295(13)(13)(0)(13)(13)

P=.064P=.935P=.P=.980P=.917

蚊香销量.8083.9489-.00701.0000.9030(13)(13)(13)(0)(13)

P=.000P=.000P=.980P=.P=.000

卷烟销量.8788.9029-.0295.90301.0000(13)(13)(13)(13)(0)

P=.000P=.000P=.917P=.000P=.

(Coefficient/(D.F.)/2-tailedSignificance)

"."isprintedifacoefficientcannotbecomputed

偏相关系数--

---PARTIALCORRELATIONCOEFFICIENTS

Controllingfor(控制变量)..打火石量蚊香销量卷烟销量

火柴销量

煤气户数

火柴销量

1.0000

.6046

(偏相关系数)

(0)

(10)

(自由度)

P=.

P=.037

(P值)

煤气户数.60461.0000

(10)(0)

P=.037P=.

(Coefficient/(D.F.)/2-tailedSignificance)

"."isprintedifacoefficientcannotbecomputed

表中的上半部分是简单相关系数,下半部分是偏相关系数。

从表中可以看出,火柴销量与煤气户数的简单相关系数为0.8260,自由度为13,检验的P值为0.000;而偏相关系数为0.6046,自由度为10,检验的P值为0.037,表示煤气户数对火柴销量的真实影响是显著的。

3.2线性回归分析

线性回归是统计分析方法中最常用的方法之一。

如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象

(因变量)与影响因素(自变量)之间的线性函数关系式。

由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。

这一节将专门介绍SPS软件的线性回归分析的操作方法,包括求回归系数,给出回归模型的各项检验统计量值及相应的概率,对输出结果的分析等相关内容。

§321线性回归模型假设条件与模型的各种检验

1、线性回归的假设理论

(1)正态性假设:

即所研究的变量均服从正态分布;

(2)等方差假设:

即各变量总体的方差是相等的;

(3)独立性假设,即各变量之间是相互独立的;

(4)残差项无自相关性,即误差项之间互不相关,Cov(;i,j)=0

2、线性回归模型的检验项目

(1)回归系数的检验(t检验)。

(2)回归方程的检验(F检验)。

(3)拟合程度判定(可决系数R2)o

(4)D.W佥验(残差项是否自相关)。

(5)共线性检验(多元线性回归)。

(6)残差图示分析(判断异方差性和残差序列自相关)。

§3.2.2线性回归分析的具体步骤

SPS软件中进行线性回归分析的选择项为Analyze—Regression—Linear。

如图3.9所示。

下面通过例题介绍线性回归分析的操作过程。

Reports

DescriptiveStatisticE

Tables

ComipareMean^

GeneralLinearModel

图3.9Regression分析功能菜单

例3.仍然用例2的数据,考察火柴销售量与各影响因素之间的相关关系,建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。

解:

建立线性回归模型的具体操作步骤如下:

1、打开数据文件SY-9,单击AnalyzetRegressiontLinear打开Linear对话框如图3.10所示。

2、从左边框中选择因变量丫进入Dependent框内,选择一个或多个自变量进入Independent框内。

从Method框内下拉式菜单中选择回归分析方法,有强行进入法

(Enter),消去法(Remove),向前选择法(Forward),向后剔除法(Backward)及逐步回归法(Stepwise)五种。

本例中选择逐步回归法(Stepwise)。

图3.10LinearRegression对话框

3、单击Statistics,打开LinearRegression:

Statistics对话框,可以选择

输出的统计量如图3.11所示。

RegressionCoefficients栏,回归系数选项栏。

Estimates(系统默认):

输出回归系数的相关统计量:

包括回归系数,回归系数标准误、标准化回归系数、回归系数检验统计量(t值)及相应的检验统计量概率的P值(sig)。

本例中只选择此项。

Confideneeintervals:

输出每一个非标准化回归系数95%的置信区间。

Covarianeematrix:

输出协方差矩阵。

与模型拟合及拟合效果有关的选择项。

Modelfit是默认项。

能够输出复相关系数R氏及R修正值,估计值的标准误,方差分析表。

Rsquaredchange:

引入或剔除一个变量时,氏的变化。

Descriptives:

基本统计描述。

PartandPartialcorrelations:

相关系数及偏相关系数。

Collinearitydiagnostics:

共线性诊断。

主要对于多元回归模型,分析各自变

量的之间的共线性的统计量:

包括容忍度和方差膨胀因子、特征值,条件指数等。

本例中选择上面所有的统计项。

Residuals残差栏

Durbin-Watson:

D.W检验.

Casewisediagnostics:

奇异值诊断,有两个选项:

Outliersoutside()standarddeviations:

奇异值判据,默认项标准差>3。

Allcase输出所有观测量的残差值。

本例中选择D.W佥验及奇异值诊断,选择标准差为2,即置信度约为95%

图3.11LinearRegression:

Statistics

4、如果需要观察图形,可单击Plots按纽,打开LinearRegression:

Plots对话框如图3.12所示。

在此对话框中可以选择所需要的图形。

图3.12LinearRegression:

Plots对话框

在左上角的源变量框中,选择Dependent进入X(或Y轴变量框,选择其它变量进入丫(或X)轴变量框,除因变量外,其客观存在变量依次是:

ZPRED标准化预测值,ZRESID标准化残差,DRESID剔除残差,ADJPRED修正后预测值,SRESI学生化残差,SDRESID学生化剔除残差。

StandardizedResidualPlots栏,标准化残差图类型,有选择项:

Histogram:

标准化残差直方图

Normalprobabilityplot标准化残差序列的正态分布概率图.

Produceallpartialplots依次绘制因变量和所有自变量的散布图

本例中选择因变量Dependent与标准化残差ZRESlD勺残差图。

5、单击Options按纽,打开LinearRegression:

Options对话框,如图3.13所示。

可以从中选择模型拟合判断准则SteppingMethodCriteria及缺失值的处理方式。

图3.13LinearRegression:

Options对话框

SteppingMethodCriteria栏,设置变量引入或剔除模型的判别标准。

UseprobabilityofF:

采用F检验的概率为判别依据。

UseFvalue:

采用F值作为检验标准。

Includeconstantinequation回归方程中包括常数项。

MissingValues缺失值的处理方式。

本例中选择系统默认项。

6如果要保存预测值等数据,可单击Save按纽打开LinearRegression:

Save对话框。

选择需要保存的数据种类作为新变量存在数据编辑窗口。

其中有预测值、残

差,预测区间等。

本例中不做选择。

7、当所有选择完成后,单击OKI到分析结果。

主要的分析结果见表3.4。

表3.4(a)ModelSummary(d)模型综合分析表

Model

R

RSquare

AdjustedRSquare

Std.ErroroftheEstimate

ChangeStatistics变动分析

Durbin-Watson

RSquare

Change

F

Change

df1

df2

Sig.F

Change

1

.879(a)

.772

.755

2.44047

.772

44.085

1

13

.000

2

.994(b)

.988

.986

.58304

.216

215.772

1

12

.000

3

.997(c)

.994

.993

.41783

.006

12.365

1

11

.005

2.066

aPredictors:

(Constant),卷烟销量(万箱)

bPredictors:

(Constant),卷烟销量(万箱),打火石销量(百万粒)

cPredictors:

(Constant),卷烟销量(万箱),打火石销量(百万粒),煤气户数(万户)

dDependentVariable:

火柴销量(万件)

表3.4(a)模型综合分析中有模型的复相关系数R,样本决定系数氏,修正的可决系数R2,估计标准误,模型变化导致的可决系数及F值的变化,D.W佥验值等。

由上表中知模型3的修正的可决系数为0.993,其模型的拟合程度最好,DW值为2.066,显然通过DVt验,说明残差项不存在一阶自相关。

表3.4(b)方差分析表

ANOVAd

Model

SumofSquares

df

MeanSquare

F

Sig.

1

Regression

262.566

1

262.566

44.085

.000a

Residual

77.427

13

5.956

Total

339.993

14

2

Regression

335.914

2

167.957

494.090

.000b

Residual

4.079

12

.340

Total

339.993

14

3

Regression

338.073

3

112.691

645.483

.000c

Residual

1.920

11

.175

Total

339.993

14

a.Predict。

rs:

(Constant),万箱

b.Predictors:

(Constant),万箱,百万粒

c.Predictors:

(Constant),万箱,百万粒,万户

d.DependentVariable:

万件

方差分析表3.4(b)同时给出了3个模型的方差分析表。

其中模型3的F值最大,说明模型3的回归效果最显著。

表3.4(c)回归系数

Model

非标准化回归系数

Unstandardized

Coefficients

标准化回归系数

Standardized

Coefficients

检验统

计量

t

P值

Sig.

相关系数

Correlations

共线性统计

Collinearity

Statistics

单相关

容忍度

方差膨

Std.

Zero-or

偏相关

Toleranc

胀因子

B

Error

Beta

der

Partial

Part

e

VIF

1

(Constant)

13.392

1.999

6.698

.000



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3