如何用spss做一般(含虚拟变量)多元线性回归

您所在的位置:网站首页 如何用spss做线性回归分析 如何用spss做一般(含虚拟变量)多元线性回归

如何用spss做一般(含虚拟变量)多元线性回归

#如何用spss做一般(含虚拟变量)多元线性回归| 来源: 网络整理| 查看: 265

回归一直是很重要的课题。因为在数据分析领域,模型的重要和主要作用包括两个方面,一个是发现,一个是预测。而很多时候我们不得不通过回归来进行预测。关于回归的知识点不一定比参数检验和非参数检验多,但是复杂度肯定在上面。回归主要包括线性回归、非线性回归和分类回归。本文主要讨论多元线性回归(包括一般多元回归、带虚拟变量的多元回归、广义差分的一点知识)。请不要以为我是在作弊和耍花招,不过只有一个题目,两个半知识点。相信我,这将是非常有用的。线性回归的定义主要如下:线性回归是根据最小二乘法原理,在经典统计假设下产生最优线性无偏估计。是研究一个或多个自变量与因变量之间是否存在线性关系的一种统计方法。什么叫线性回归,什么叫最小二乘法,高中数学课本上都有。就不重复了嘿嘿。本质上,一元线性回归是多元线性回归的特例,所以我们直接讨论多元线性回归。为了便于描述,我们先举个例子,假设我们要研究年龄、体重、身高、血压之间的线性回归关系。打开菜单分析-回归-线性,打开主对话框。容易知道,本例中选择血压作为因变量,选择年龄、身高、体重作为自变量。然后注意有一个下拉单选菜单,方法写在因变量的框下。这种方法是指建立多元线性方程组的方法,即自变量进入分析的方法。一共包括五种类型,回车、步进、删除、后退、前进。输入是最简单的一种,它强制所有选定的自变量输入方程。其他四种方法比较复杂,系统会根据不同的规则自动帮你剔除不合格的自变量,保证方程的可靠性。下面的选择变量框用于指定分析案例的选择规则。一般情况下大家都用这个,不用担心。下面的caselabel变量是用来标记图中的值的,不是重点。加权最小二乘法中使用了底层WLS权重,这里忽略。介绍完主面板,我们再来看看统计标签。这个选项卡相对较小。通常,主要选项是估计、模型拟合、共线性诊断和DW检验统计。其中,前两个为常规选项,后两个用于判断共线性。(由于方程中有两个以上的自变量,如果这些自变量之间存在相关性,可能会导致模型失效。可能会出现本应与因变量正相关的变量结果却负相关等问题。这时候就要看是否存在多重共线性了。)继续并单击绘制。检查直方图,正态概率图。继续并单击保存。检查非标准化预测值,非标准化残差,预测区间的均值,单值,最下面一个包含协方差矩阵。继续。单击选项。勾选使用F的概率将常数包含在方程中。去吧,当然。结果的解释并不复杂。首先看模型汇总表的R方。这个值在0到1之间,表示你的方程可以解释你的模型的多少,所以越接近1越好。然后看方差分析表。回归第一条线对应的最后一个p值会告诉你这个方程是否可信(注意这是整个方程的基础,如果p值不成立,下面的数据就会失效)。小于0.05被认为是可信的。然后看下面的系数表。此表中的p值将告诉您每个自变量在该等式中是否可信。小于0.05被认为是可信的。前面B下面的那一栏会告诉你方程中每个自变量的系数(非标准化系数是指用你的原始数据计算的系数,标准系数是指你的数据标准化后计算的系数。你一定要看非-当你写方程式时标准化的)。从图片上来说,你的P-P图上的每个空心圆都应该尽量通过那条线,圆心越靠近那条线越好。至此,一般多元线性回归的基础知识就讲完了。操作难度不是很大,但遗憾的是,在现实生活中,关于多元线性回归的问题还是很多的。最常见的问题是这个。为了保险起见,你在模型中选择了十几个变量。在这种情况下,有可能你的方程确实解释了模型的很大一部分,但除了使方程过于复杂之外,还会引入严重的多重共线性。所以不要在你的等式中选择很多变量。或者您在模型中选择了五个或六个变量,其中一些的p值小于0.05,而另一些则更大。而且最要命的是你觉得你的自变量好像和你的因变量有明显的关系。这样做的问题是,你的一些自变量可能与你的因变量有很强的相关性,所以你的其他变量似乎没有那么相关。这时候你就需要尝试把你的进入方式改成stepbystep或者别的什么。也许它会成功。但并不是所有的问题都可以通过调整变量,或者将变量变成方法来解决。您的论点类型有问题。有很多变量是分类的,比如你的性别、你是否吸烟、你的健康水平(不健康、一般、健康、非常健康)等等。通常,数字用于在输入数据时表示特定含义。比如1是男,2是女,比如1、2、3、4代表健康等级等等。一般情况下做分析是没有问题的,但可能不太适合做回归。特别是对于无序数据。例如。季节。我们用1,2,3,4来代表四个季节。假设我们把这个变量作为一般变量写进方程,那么就有这样一个方程Y=X+X1*a,其中X1是四个季节的变量。那么春天是X+a,夏天是X+2a,秋天是X+3a,冬天是X+4a。想一想,四个季节之间并没有什么等级关系,但是这个方程式中显示的冬天却远远比夏天的值大,那么真实的情况是这样吗?很可能不会。因此,会造成方程的偏差。解决这个问题。我们引入虚拟变量的概念。设置虚拟变量的方法如下。如果我们有d个水平,那么我们将设置d-1个虚拟变量并选择一个变量作为参考。当虚拟变量都为0时,它就是参考变量。当其中一个虚拟变量为1时,表示某一水平。以季节为例,我们有四个季节,那么我们设置三个虚拟变量,000代表春天,100代表夏天,010代表秋天,001代表东方。那么spring就是引用变量。(其实也可以设置四个虚拟变量,但是结果是完全一样的)所以现在我们代表四个季节的一个变量变成了三个虚拟变量。我们的等式变为Y=X+X1*a+X2*b+X3*c。那么X是春天的值,X+X1是夏天的值,X+X2是秋天的值,X+X3是冬天的值,是不是比较准确?在张文通老师的spss高级教程中,讲解了dummyvariables的用法。但是,由于是进阶教程,并没有提到如何设置虚拟变量。网上很多博客都没有提到这个问题。但是为了完整起见,还是想写一下(毕竟本系列文章没有数据转换的内容)。在线性回归中,您需要自己设置虚拟变量。打开conversion-recodeintodifferentvariables,选择seasonalvariable(或者industry,region,orelse)进入inputvariable-outputvariable,在name里面输入你的新名字,点击label,点击更改。点击下方的旧值和新值,旧值输入1,新值输入1,点击添加。然后为旧值输入2,为新值输入0,点击添加,依此类推。设置一个虚拟变量后,设置第二个时,记得将第一个从右窗口传回左窗口。这有点麻烦,但这是不可避免的。然后注意做回归时,只在主面板的第一张自变量中选择你的虚拟变量,并选择方法进入。您必须确保所有虚拟变量都包含在方程式中。然后点击下一个,选择其他数值变量,方法可以按部就班什么的。在查看结果时,我已经提到虚拟变量改变的是截距。其他结果与一般多元线性回归结果相同。需要注意的是,即使有的哑变量p值合格,有的不合格,你在选择变量的时候,也必须把一个变量设置的所有哑变量一起选上,要么全选,要么全不选。这基本上就是虚拟变量。但是除了变量类型带来的问题之外,还有一个比较严重的问题就是多重共线性。虽然我们说要少选几个变量,但是我们需要降维,我们需要想办法降低多重共线性。但不可避免地,我们总是会遇到变量存在多重共线性的情况。多重共线性的判断主要是通过共线性诊断中的VIF值和DW检验。当VIF在1和5之间时,不存在多重共线性。当大于10时,认为存在严重的多重共线性。这里我们不讨论VIF大于10的情况(不然下一篇文章讨论什么?),我们要讨论的是另一种非常特殊的情况,VIF值合格,但DW测试失败。这个时候怎么办?当然你可以当没看到DW测试,继续分析。很可能其他人看不到,但如果你的老师只是想测试你的广义差分法怎么办?那么我们来讨论一下广义差分法的操作方法。首先你要保存你的变量的残差,做时间序列中滞后一个周期的残差(就在主面板中),然后回归残差和滞后一个周期的残差,并记录它斜率,在做滞后一个自变量,因变量。新建一个变量=原变量-斜率*一个滞后变量(所有的自变量和因变量都要算作新变量),然后做回归。这是一个完整的广义差分法运算过程。检查DW,如果不合格,需要再做一次广义差分。一般最多可以做两三遍。过程有点复杂,但是用eviews做广义差分就简单多了。多元线性回归的内容就结束了。祝大家学习愉快!如果您觉得这篇文章对您有用,请留言?先感谢您。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3