自变量含有多分类变量和连续变量,因变量为连续变量,如何做线性回归?

您所在的位置:网站首页 spss创建虚拟变量 自变量含有多分类变量和连续变量,因变量为连续变量,如何做线性回归?

自变量含有多分类变量和连续变量,因变量为连续变量,如何做线性回归?

#自变量含有多分类变量和连续变量,因变量为连续变量,如何做线性回归?| 来源: 网络整理| 查看: 265

线性回归的因变量要求是连续型数据,自变量可以是连续的有可以是分类的。

分类自变量应酌情考虑转哑变量形式进行回归。下面给一个spss的具体操作案例:

SPSS做线性回归,如果遇到分类的自变量,你会怎么办呢?是直接按照连续数据纳入模型还是对其做哑变量处理后再纳入回归模型?

我经常看到的做法是直接按连续的纳入回归,包括我自己也是喜欢这么做,很方面嘛,用习惯了感觉就是这么回事,没啥问题。

但是。从线性回归的要求来看,自变量如果是分类变量类型,应当采用哑变量形式,按 “同进同出” 原则进行回归分析。

SPSS用户习惯于把分类自变量按连续的进行回归,跟SPSS软件线性回归菜单对话框中没有默认设置哑变量处理选项有一定关系,甚至说软件就是 “不良操作” 的 “罪魁祸首” 。

那大家看下面这篇文章,在R语言中,线性回归函数lm()是默认将分类自变量做哑变量处理才进行回归分析的。

☞练习R:分类自变量的线性回归

(记得回来本文啊)

01

案例与分析目的

我们用雇员数据吧。

分析目的:

考察职位类型与初始薪金对当前薪金的影响,其中职位类型是分类变量,有3个分类水平,1代表普通职员,2代表保管员,3代表经理。

02

分类变量生成哑变量

那前面有说一句,就是SPSS线性回归菜单里面没有哑变量设置的参数选项,所以我们需要自己提前将分类变量转换成一组哑变量。

分类变量如何创建或生成哑变量呢?大家看下面这篇文章:

☞用SPSS创建虚拟变量/哑变量

(记得回来本文啊)

我这里就快速出结果了。如下:

03

SPSS线性回归

现在有两批因素要考虑,一是“初始薪金”,二是哑变量jobcat2和jobcat3。注意啊,我这里说的是 “批” 不是 “个” ,因为同一个变量的一组哑变量做线性回归要求“同进同出”,不能把jobcat2和jobcat3拆散了。

这里主要演示分类自变量的回归,其他参数就不多余讨论了,按软件默认设置,然后我们直接输出结果。

04

回归结果解读

不说废话。直接看回归系数表格。

“起始薪金” 对 “当前薪金” 的影响有统计学意义(P<0.01)。

与 “普通职员” 相比,“保管员”这个职位类别对 “当前薪金” 的影响无统计学意义(P=0.247>0.05);与 “普通职员” 相比,“经理” 这个职位类别对 “当前薪金” 的影响有统计学意义(P<0.01)。

通俗理解一下,如果你是 “经理” ,那么与 “普通职工” 相比,你的薪金瞬间高出13531美元,哇塞!还是要升职才能加薪啊。

文/图=数据小兵



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3