回归分析时何时设置哑变量?如何设置?手把手教会SPSS分析

您所在的位置:网站首页 spss虚拟变量是什么 回归分析时何时设置哑变量?如何设置?手把手教会SPSS分析

回归分析时何时设置哑变量?如何设置?手把手教会SPSS分析

2023-08-11 05:42| 来源: 网络整理| 查看: 265

例1: Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿,考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。)

该数据库中有一个变量为种族,变量值为白人/黑人/其他人,为无序多分类资料(赋值分别是1、2、3)。如果该变量纳入回归模型,怎么解读回归系数b值呢?那么就是自变量从1到2对y的影响和从2到3影响的平均值。也就是白人到黑人,黑人到其他人种变化带来的影响的平均值。这个结果无法说明任何问题,既不能说明黑人相对白人出生缺陷的严重性,也不能说其他人种的影响。这个变量是无序分类变量,各变量之间没有等级关系。因此,取平均值没有任何实际意义。

因此,无序多分类变量不能直接纳入回归开展分析。

回归分析的哑变量设置

对于种族的影响,其实研究最想知道的是,(1)相对白人,黑人出生缺陷风险会提升多少? (2)相对白人,其它人种出生缺陷风险会提升多少? 因此,一个变量需要回答两个问题,最好的办法是把这个变量分为两个子变量,分别计算b值和OR值,这个子变量便是哑变量。

一般情况下,哑变量个数是原变量分类数的n-1个,比如种族变量是3分类变量,则一个种族变量产生了2个二分类(变量值为0、1)哑变量。这些哑变量是过程性变量,一般不体现在原始数据库中,但它们作为实体变量代替原变量进入到回归模型中。

其中,b1反映的是相对于白人,黑人对y的影响,b2反映的是相对于白人,其他人种对y的影响。从而解决了无序分类变量回归系数b值无法进行取平均值的尴尬局面。

logistic回归哑变量设置

logistic回归哑变量设置的十分简单,SPSS软件通过简单、菜单式的操作既可以完成。

1.logistic回归分析SPSS操作过程

logistic回归SPSS分析的界面,选择“分类”

在"分类"界面,

①选择race(种族)到右选框,

②选择参照类别(第一个、还是最后一个),这里的第一还是最后,根据数据库赋值来定义。本数据库race赋值为1、2、3,若参考类别是第一个,则1为对照(白人),若参考类别是最后一个,则3为对照(其它人)。本例设定白人为对照。

③最后需要点击“变化量”,确认是以第一个作为对照,此时选项框中race会显

示first。

2.logistic回归分析结果及其解读

哑变量设置之后,统计分析首先非常重要的是看“分类变量编码”的表格,以确定哑变量的分配设置。

在该表中,列出了两个哑变量(1)、(2),(1)和(2)均已白人作为对照,(1)这一列数字1.000所在行是黑人,因此表明(1)是是否黑人的变量,实际将开展黑人vs白人的比较。,(2)这一列数字1.000所在行是其它种族,因此表明(1)是是否其他人的变量,实际将开展其它人vs白人的比较。

然后我们就可以观察SPSS logistic分析结果。

上图SPSS分析结果,更详细的内容可以学习logistic回归的推文:

Logistic 回归简明教程:原理、SPSS操作、结果解读与报告撰写

这里只介绍哑变量的分析结果。种族(1)和种族(2)在上表已经说明,分别代表黑人vs白人的比较、其他人vs白人的比较。结果显示,相对白人,黑人与低出生体重存在着关联(OR=4.60,P=0.015);相对白人,其它种族与低出生体重存在着关联(OR=2.75,P=0.042)。

Cox回归哑变量的SPSS操作

Cox回归哑变量设置的十分简单,且方式与logistic回归完全一致,SPSS软件通过简单、菜单式的操作既可以完成。这里引用之前的案例开展分析。

1.分析案例

案例2:这是一项关于胰腺癌病人术后生存时间的队列研究。该研究的终点为死亡,包括很多可能影响生存的因素。数据库见pancer.sav

这个数据库中ch(胰胆管浸润程度)是分类变量,同样可以进行哑变量设置。该变量有4个水平,可以设置哑变量,并以ch0作为对照。

2.SPSS操作界面

Cox回归SPSS分析的界面,选择“分类”

分类界面与logistic回归分析的操作手法完全一致,也分为①、②、③

3.Cox回归SPSS结果及解读

同样,Cox回归也给出“分类变量编码”的表格,以确定哑变量的分配设置。

在该表中,列出了3个哑变量(1)、(2),(3),三个变量中,对照组都是CH0的等级。(1)为是否CH1的变量,实际将开展CH1vsCH0的比较;(2)为是否CH2的变量,实际将开展CH2vsCH0的比较;(3)为是否CH3的变量,实际将开展CH3vsCH0的比较。

上图SPSS分析结果,更详细的内容可以学习Cox回归的推文

初学者如何理解Cox回归和HR值

这里只介绍哑变量的分析结果。结果显示,相对ch0,CH1、CH2、CH3不会增加胰腺癌的死亡风险(P值分别是0.770、0.539、0.359)。

线性回归哑变量的SPSS操作

线性回归SPSS操作有两种方法,常规的线性回归的哑变量设置十分复杂,此外还可以采用广义线性模型的模块进行哑变量的设置分析。

1.分析案例

例3:研究究高血压患者血压与性别、年龄、身高、体重、户籍等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,户籍X4试建立多重线性回归方程。数据文件见reg.sav。

本例中户籍是无序多分类变量,其变量值1=农村,2=城镇,3=城市,在这种情况下,线性回归方程也无法直接将它纳入模型进行分析。需要对此进行哑变量的设置。

2.常规的线性回归分析方法

常规线性回归是相对于广义线性模型而言,采用最小二乘法原则对回归系数进行估计的一种方法。

对于这个内容,先前课程已经进行详细介绍:

多因素线性回归分析,为什么和单因素回归结果不一样?

这里介绍下如何解决哑变量的问题。

对线性回归,没有现成的简易的软件自动设置的方法,需要首先进行计算产生哑变量,再进行回归分析。

(1)哑变量设置

SPSS软件哑变量设置有人工法和软件法,常见的是软件法:首先,点击转换--创建虚变量,接着①选择X4进行哑变量设置,②设置哑变量的名称X4( 系统将产生X4_1,X4_2,X4_3三个变量)

然后得到3个哑变量的结果,本文将去X4_2、X4_3进行分析。其中X4_2代表城镇,对照组是农村;X4_3代表城市,对照组是农村。

(2)线性回归分析

接着开展线性回归分析,哑变量设置之后,线性回归分析自变量筛选的方式不再和常规的方式一致,它需要分两部分进行。第一,①将X4_2、X4_3纳入自变量范畴(X4,和X4_1请忽略),②方法中必须保持"输入(Enter)",③点击“下一个”

点击“下一个之后”,①在自变量继续填入其它自变量,②方法中保持"输入(Enter)或者下来其它自变量删选的方法。

最后,在回归分析第2步基础上,得到两个哑变量的结果,分别是城镇VS农村和城市VS农村的回归系数b值。结果显示,与对农村相比,城镇居民血压值无统计学意义(P=0.249),城市血压值具有统计学差异(P=0.021)。

2.利用广义线性回归模型开展分析

广义线性模型自动设置哑变量并进行分析,对于进行多次哑变量设置的场景具有优势。

(1)SPSS软件设置

首先,进入广义线性模型的界面

然后,模型类型选择“线性”

“响应”选择“血压”作为应变量Y

“预测变量”中,选择年龄X1、BMI X2是定量数据,进入协变量;性别X3和户籍X4分类变量进入因子;因子下方“选项”①,一般选择“降序”。

“模型”将四个变量作为主效应选入右框;

其它设置默认设置,当然需要得到更多信息者,需要更多的设置。

(2)分析结果

广义线性模型给出了关键的结果如下:

广义线性模型基本上与最小二乘法得到线性回归方法结果一致。上表结果显示,与对农村相比,城镇居民血压值无统计学意义(P=0.221),城市血压值具有统计学差异(P=0.013)。

总的来说广义线性模型相对于简单的线性回归来说,过程虽复杂,但少了设置哑变量的过程,而且结果成列更容易阅读,同时可以快速处理多个哑变量的场景,是推荐的处理方法。

哑变量设置的注意事项

1.线性条件不成立是哑变量设置的第一原因

无论线性、logistic还是Cox回归,都要求自变量与y或者y转换值存在着线性关系。如果线性条件不成立,则一种研究方案是对自变量进行哑变量化。其中,无序多分类数据由于不存在着线性的可能性,必须要设定哑变量、有序多分类变量若线性关系成立则可以不设哑变量,若关系不成立,则需要设置哑变量,而当自变量是定量变量,若线性关系不成立,则可以先将自变量分类化处理,再考虑进行哑变量设置分析。关于自变量是定量变量的回归分析方法,本系列将在下一讲着重进行介绍。

如何判断线性条件是否成立呢?具体可以回顾本系列上一讲的链接。

一文汇总三大回归的基本应用条件、诊断与处理方法(线性、logistic、Cox)

这其中,针对有序分类变量,判断线性关系非常重要的一种方法是,分别进行哑变量设置和不进行哑变量设置;比如有三分组变量,首先进行哑变量设置计算。得到回归系数b1和b2,接着进行不设哑变量分析得到b值,若b2-b1=b1或者b2-b1=b大致成立,则说明线性条件成立。具体案例,我将在下一讲再进行进一步陈述。

2. 哑变量设置对照组的考虑

哑变量设置需要考虑的问题包括,第一哑变量设置必须要选择合适的对照,可能是第一组,也可能是最后一组,基本原则一般是,对照组样本量不能过少,对照应该是主流人群、具有特地意义的人群、或者临床研究的正常水平。

例如:我们在研究BMI指数,将BMI指数分为四组进行分析时,一般情况下,是以18.5-24这一组正常人群作为对照。很多人统计分析偷懒,将28的一组作为对照,是非常不合适的。

3. 有序分类变量要不要设置哑变量?

在本文的COX回归中,我针对胰胆管浸润程度进行了哑变量设置分析,实际上,之前推文有对该案例进行分析,没有进行哑变量设置。胰胆管浸润程度是有序变量,允许两种情况同时存在。那么何时考虑何种方法呢?

初学者如何理解Cox回归和HR值

首先,我们需要考虑有序分类变变量与结局的线性关系是否成立,若线性关系成立,则可以不设哑变量,若线性关系不成立,必须设置哑变量。

其次,若线性关系成立,则需要考虑有序自变量等级关系是否等距,很多情况下,等级变量严重不等距,也应该考虑设置哑变量。

再次,如果上述条件都成立,则可以考虑两种分析结果同时进行分析,或者选择一种更有利于专业应用的结果,或者选择一种更有利于论文写作结果解读的的方式进行分析。

关于哑变量更多的细节,我在下一讲再继续介绍。

-本文结束-

系列撰写者:郑卫军,浙江中医药大学医学统计学教研室主任。这里不妨广而告之,如果您有一个临床试验项目,正处于设计阶段,并且将要过医院伦理委员会审核的,不妨联系郑老师统计团队,我们可以帮助您更好的改善临床试验。微信号ZZ566665。

本篇是SPSS 教程之回归建模策略第3篇,更多回归教程请点击下文阅读

1. 一道饕餮大餐来了!手把手教你如何科学地构建回归模型!

2. 一文汇总三大回归的基本应用条件、诊断与处理方法(线性、logistic、Cox)

返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3