二分类logistic回归分析(Binomial Logistic Regression Analysis)

您所在的位置:网站首页 单因素logistic回归有意义,多因素全都无意义 二分类logistic回归分析(Binomial Logistic Regression Analysis)

二分类logistic回归分析(Binomial Logistic Regression Analysis)

2024-07-14 22:51| 来源: 网络整理| 查看: 265

在前面文章中介绍了二分类logistic回归分析(Binomial Logistic Regression Analysis)的假设检验理论,本篇文章将实例演示在Stata软件中实现二分类logistic回归分析的操作步骤。

关键词:Stata; 二分类logistic回归; 二项logistic回归; 二元logistic回归; 逻辑回归; EPV原则

一、案例介绍

探讨经皮内镜下腰椎间盘摘除术治疗腰椎间盘突出疗效不佳的主要影响因素,纳入146例治疗效果“不佳”(记录为1)的患者,278例治疗效果“良好”(记录为0)的患者,并收集其余变量信息。其余变量及编码为性别(0=女,1=男)、年龄(0=60岁以下,1=60岁及以上)、手术时间(min)、突出部位(1=单侧,2=中央,3=极外侧)、突出分类(1=膨出型,2=突出型,3=脱垂型)、Modic改变(1=I级,2=II级,3=III级)、是否钙化(0=未钙化,1=钙化)、矢状径(cm)、退变级别(1=I-III级,2=IV级,3=V级)。部分数据见图1。本文案例可从“附件下载”处下载。

图1 二、问题分析

本案例的分析目的是探讨经皮内镜下腰椎间盘摘除术治疗腰椎间盘突出疗效不佳的主要影响因素,由于因变量是二分类变量,因此可以使用二分类logistic回归分析。但需要满足7个条件:

条件1:因变量为二分类变量。本研究中因变量是治疗效果“不佳”和“良好”,为二分类变量,该条件满足。

条件2:至少有1个自变量。自变量可以是分类变量也可以是连续变量。本研究中有多个自变量,类型各异,该条件满足。

条件3:各观测行间相互独立。对研究设计和数据收集的过程进行分析,可判断本案例中观测值之间不存在互相影响的情况。

条件4:例数较少类的因变量例数为自变量个数的10~15倍(EPV原则),且经验上两组的人数最好>30例,参照水平组不应少于30或50例。该条件需要通过软件分析后判断。

条件5:自变量之间无多重共线性。该条件需要通过软件分析后判断。

条件6:自变量不存在显著的异常值。该条件需要通过软件分析后判断。

条件7:数据未出现完全分离或拟完全分离现象。该条件需要通过软件分析后判断。

三、软件操作及结果解读 (一) 适用条件判断 1. 条件4判断(因变量样本例数) (1) 软件操作

*计算因变量中例数较少类的样本例数*

tab 预后

图2 (2) 结果解读

由图2“预后频率表”可见,预后不佳为146例,预后良好为278例。根据“例数较少类的因变量例数为自变量个数的10~15倍(EPV原则)”,本案例可纳入10~15个自变量进行多因素二分类logistic回归分析。

2. 条件4判断(自变量样本例数) (1) 软件操作

*逐一计算分类变量各类别的因变量例数*

tab 预后 性别

图 3

tab 预后 年龄

图4

tab 预后 突出部位

图5

tab 预后 突出分类

图6

tab 预后 Modic改变

图7

tab 预后 是否钙化

图8

tab 预后 退变

图9 (2) 结果解读

由图3—图9可知,突出部位水平为“极外侧”时、突出分类水平为“膨出型”时、退变级别水平为“V级”时,因变量的例数0.05)”、“手术时间(P=0.0549>0.05)”、 “突出分类(P=0.7489>0.05)”、“Modic改变(P=0.4059>0.05)”四个变量无统计学意义,可不纳入多因素分析模型。

(三) 适用条件判断(补充)

将“性别”、“手术时间”、“突出分类”、“Modic改变”四个单因素分析无统计学意义的变量排除后,对其余变量进行多因素二分类logistic回归分析。

1. 条件5判断(多重共线性诊断) (1) 软件操作

①*安装Collin模块*

输入

net describe collin, from(https://stats.idre.ucla.edu/stat/stata/ado/analysis)

图19

结果如图19所示。

再输入

net install collin

如图20所示,安装完成。

图20

*计算方差膨胀因子*

collin 年龄 突出部位 是否钙化 矢状径 退变级别

图21 (2) 结果解读

图21结果中列出了自变量的方差膨胀因子(variance inflation factor,VIF)和容忍度(Tolerance)。可见,所有自变量的VIF均0.1,提示自变量之间不存在严重共线性问题。

2. 条件6判断(异常值检测) (1) 软件操作

*计算库克距离()*

quietly reg 预后 年龄 i.突出部位 ib1.是否钙化 矢状径 ib3.退变级别 predict new,cooksd sum new 图22 (2) 结果解读

从图22可见,最大的库克距离值为0.0324



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3