多分类Logistic回归(附SPSS详细步骤) |
您所在的位置:网站首页 › spss做OLS回归 › 多分类Logistic回归(附SPSS详细步骤) |
作者:周敏 审稿:欢畅 封面:吉江 模型原理与模型结构 该篇无序多分类Logistic回归分析与前期已经讲述过的推文,即二分类、有序分类的Logistic回归分析在自变量的要求等方面都差不多,区别在于因变量y的取值,比如因变量为职业(学生、老师、农名、工人、公务员等),又或者是健康知识获取途径(网络、传统大众媒体、社区宣传等),譬如这样的变量类型,我们叫做多项无序分类变量。其与自变量之间建立的回归模型,是二分类Logistic回归分析的扩展,被称为多分类Logistic回归分析,又称多项分类Logistic回归分析,其选择应变量y中众多类别之一作为参照,拟合剩余各类别相对于此参数类别的Logistic回归模型。 采用广义Logit连接,应变量y包括g个类别(y取值为1,2,...,g),因此可以建立g-1个广义Logit回归模型。其多分类Logistic回归模型可以表示为: 其中j=1,2,...,g-1。对于包含了g个类别的应变量y,以第g个分组为参照组,其多分类Logistic回归就有g-1个方程。其中β0j为第j的回归方程的常数项,β1j ,β2j, ... ,βmj为第j个回归方程的自变量X1,X2,X3,...Xm的回归系数,多分类Logistic回归同样可以由回归系数获得某自变量X改变一个单位的优势比OR。与有序Logistic回归不同的是,有序回归需要进行平行性检验,通过平行性检验之后,有序Logistic回归的每个自变量的偏回归系数只有一个,而多分类Logistic回归拟合的回归方程自变量的回归系数可以不同。如果有序资料未通过平行性检验,可应用多分类Logistic回归进行分析。 回归模型参数估计与假设检验 多分类Logistic回归模型的参数估计与假设检验与二分类Logistic类似,同样采用最大似然估计的方法。 对于二分类,建立一个样本似然函数为:
其中Pi表示第i个观察对象在暴露条件下阳性结果发生的概率,如果时机出现的是阳性,则Yi=1,否则Yi=0。根据最大似然原理,再一次抽样中获得现有样本的概率最大。为了简化,取对数形式: 然后采用Newton-Raphson迭代方法使得对数似然函数达到最大值,此时参数的取值就作为总体回归系数的最大似然估计值。 对于多分类也类似,可以依据类似于二分类,构造出g-1个似然函数,求出g-1个回归方程。 回归模型的假设检验同样分为似然比检验、Wald检验、计分检验三种方法。在三种方法中,似然比检验利用的是含有不同自变量模型之间的比较,既适合单个自变量的假设检验,也适合多个自变量同时检验;Wald检验比较适合单个自变量的检验,结果偏保守;计分检验有两个特点,一是与传统的M-H分层检验方法所得到的的结果十分接近,二是在小样本情况下,其计分统计量的分布比似然统计量检验的分布更接近于卡方分布。在大样本的情况下,3种方法得到的检验结果是一致的。 SPSS操作实操 eg:某研究人员欲了解不同社区与性别之间成年居民获取健康知识途径是否不同,对2个社区的314名成年人进行了调查,结果见下表1。变量赋值为:社区(X1:社区1=,社区2=1)、性别(X2,:男=,女=1)、获取健康知识途径(Y:传统大众媒介=1,网络=2,社区宣传=3)。请拟合社区和性别对居民获取健康知识途径的多分类Logistic回归模型(孙振球主编.医学统计学(第3版).北京:人民卫生出版社,2010:P290.)。 表 1
2 建立数据文件
X1代表社区,X2代表性别,Y代表获取健康知识途径,FREQ为观察频数。各个变量的赋值如题目所述。 3 统计分析 (1)菜单选择【数据】【个案加权】,选择加权个案,将FERQ拉入频率变化框进行加权。点击确定。
(2)菜单选择【分析】【回归】【多项Logistic】
打开多分类Logistic回归界面,将应变量拖入因变量框,并选择最后一个类别为参考类别。将自变量选入协变量框。注意,“因子框”一般选入的是无序多分类自变量,“协变量”框一般选入连续性变量或者二分类变量。同时,选入因子框的变量,在软件得出结果的时候,会自动生成选入变量的哑变量结果。本题自变量均为二分类变量,因此都放入协变量框。如下图所示。
点击“统计框”,可以看到默认的如下图,包括模型的拟合度指标,模型的参数估计与假设检验。在默认的基础上再选择拟合优度(输出模型拟合优度信息)。最后点击确定。输出结果。
3 结果解释
模型的拟合信息,对模型进行似然比检验,P<0.001表示模型有统计学意义。
模型的拟合优度检验,Perason卡方检验和Deviance卡方检验P均大于0.05,表示模型拟合较好。但是需要注意的是,该两个统计量对于单元格为的频数十分敏感,因此如果自己的样本中存在很多频数为的单元格,此时这两种检验的结果不一定可信。 三个伪R方:Cox and Snell,Nagelkerke和McFadden,这三种方法是最常见的计算Pseudo R2的方法,对于分类数据而言,他们的数一般不会太高,但由于缺乏广泛应用,我们一般不关注这个结果。
似然比检验,是对自变量是否有意义进行检验。我们可以看到自变量P值均小于0.001,说明自变量均有统计学意义。 我们可以看到,以社区宣传作为参照组时,社区2比社区1更多采用传统大众媒介获取健康知识;女性比男性更少采用大众媒介获取健康知识。以社区宣传作为参照时,社区2比社区1更少采用网络获取健康知识;女性比男性更少采用网络获取健康知识。 END 参考文献 [1]孙振球.医学统计学(第3版).北京:人民卫生出版社. [2]武松,潘发明.《SPSS统计分析大全》.清华大学出版社. 作者简介: 姓名:周敏 院校:中国医科大学/公共卫生学院 擅长方法:SAS,SPSS,医学统计学等 温 馨 提== 示 学堂正在招募内容主笔、短视频创作者、课程讲师,请在公众号底部菜单栏点击“招聘”了解详情! |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |