经典Logistic回归:原理、计算步骤以及应用

您所在的位置:网站首页 多因素logistic回归分析spss 经典Logistic回归:原理、计算步骤以及应用

经典Logistic回归:原理、计算步骤以及应用

2024-05-30 03:25| 来源: 网络整理| 查看: 265

参考:医学统计学 第16章第二节:Logistic回归 作者:李晓松 如有侵权立删其中的注解可以帮助理解

前言:Logistic回归是一种十分常见的分类模型,是的严格来说这是一个分类模型,之所以叫做回归也是由于历史原因。不同于线性回归中对于参数的推导,我们在这里运用的方式不再是最小二乘法,而是极大似然估计。市面上Logistic回归大多都是在spss应用上,较少有针对其原理进行描述的。本文参照医学统计学的书籍对Logistic回归做一个大概的描述,希望广大读者在使用Logistic回归时能够知其然也知其所以然。下面开始这篇文章~

多重线性回归模型要求因变量是连续型的正态分布变量,且自变量与因变量呈线性关系。当因变量是分类变量,且自变量与因变量不呈线性关系时,就不能确足多重线性回归模型的适用条件。此时,处理该类资料常用Logistic回归模型。Logistic回归分析属于非线性回归,它是研究因变量为二项分类或多项分类结果与某些影响因素之间关系的一种多重回归分析方法。

在疾病的病因学研究中,经常需要分析疾病的发生与各危险因素之间的定量关系。比如,研究食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。如果采用多重线性回归分析,由于因变量y为二分类变量(通常取值0或1 ),不满足正态分布和方差齐等应用条件,若强行使用线性回归分析,其预测值可能会大于1或小于,而无法解释。在流行病学研究中,虽然可以用Mantel-Haenszel分层分析方法分析多个因素的混杂作用,但这种经典方法有其局限性,随着混杂因素的增加,分层越来越细,致使每层内的数据越来越少,使相对危险度的估计产生困难。Logistic回归模型较好地解决了上述问题,已经成为医学研究,特别是流行病学病因研究中最常用的分析方法之一。

注:Logistic回归可以算作是一种分类算法但也可以说是线性回归的拓展。之所以还将其归于广义的线性回归是因为它的推导是利用化归的思想在试图构造一个线性模型来解释因变量。

视频学习可以参考:

一、 Logistic回归分析的基本原理

例:为探讨 \mu 阿片受体基因(OPRMI)中rsl3sl376和rs550014两个sNP位点与“首吸飘感”之间的关系,某研究调查了336名汉族海洛因依赖者,将海洛因依赖者分为有或无“首吸飘感”两组,同时收集每个个体的性别、年龄(岁)、首吸年龄(岁)等变量,数据见表16.6

由于因变量“首吸飘感”为二分类变量,本例应采用loglstic回归进行分析。本节将以此为 例,说明loglstic回归分析的模型构建、分析步骤及实际应用等。

(一)Logistic回归模型参数的流行病学意义

设因变量y是二分类变量,其取值为y=1(阳性结果:发病、有效、死亡等)或y=0(阴性结 果:未发病、无效、存活等),影响y取值的m个自变量分别为 x_{1},x_{2} ,……,x_{m} 。例16.2中,因变量 y=1 为具有首吸飘感, y=0 为无首吸飘感;自变量分别为性别、年龄(岁)、首吸年龄(岁)、 rs1381376和rs550014两个SNP位点。在 m 个自变量(即暴露因素)作用下阳性结果发生的条件概率 p=p(y=1|x_{1},x_{2} ,……,x_{m}) ,则Logistic回归模型可表示为:



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3