R 中因子型变量的有序与无序

您所在的位置:网站首页 有序分类变量和无序分类变量 R 中因子型变量的有序与无序

R 中因子型变量的有序与无序

2024-07-10 23:12| 来源: 网络整理| 查看: 265

R 中因子型变量的有序与无序 2019-03-05 R 约 3433 字 预计阅读 7 分钟 文章目录 有序和无序因子变量 例子 解读 模型评价和比较 结语

今天涉及到的这个就很有意思了。很早开始我就对这个问题有点疑惑,但是一直没有抽出时间(好吧,其实主要还是我太懒)好好了解一下。前阵碰到数据做回归就觉得到了不得不查一下这个问题的时候了才稍微查了一下。

事先声明,其实这个问题我到现在都懂的不是很多,里面涉及一些统计方面的东西没有找到很好的资料,所以这篇博文主要注重实用,也可能还会有错误,我写出来权当是自己做一下记录,请自行决定参考。

本文部分参考:UC Business Analytics R Programming Guide: Logistic Regression

有序和无序因子变量

事实上以前,我对这个问题没什么疑问(大概是无知者无畏吧😂)。首先分类变量(categorical variables)一般我们都会用字符型(character)来存储,比如简单的 male/female、single/married/widowed 等,这个太直观了根本不需要解释和思考。就算有时候我们会把它们用数字表示,比如性别是 0/1、婚否是 0/1 这样的二分类变量我们甚至可以一样存储为 character 嘛。

但是,有时候有的分类变量看起来 “好像是有序” 的我就会有点犯嘀咕了。比如肿瘤的分期 Ⅰ/Ⅱ/Ⅲ/Ⅳ 、尿蛋白 +/++/+++ 这样的变量。这些变量好像本身是有顺序的,而且不遵循这个本身自由顺序好像也不大合适。我以前就是这么以为的。

直到有次我真的在做回归的时候理所当然的把一些变量设置成 ordered factor 的时候,发现结果会出现一些怪怪的我不知道是什么东西,才意识到这个东西并非这么简单。

下面用例子具体来说明情况。

例子

生成 Logistic 回归模拟数据:

How to simulate artificial data for logistic regression? Simulating data for logistic regression with a categorical variable

首先我们生成一个模拟数据,我们 x1~x4 四个变量的 100 x 4 的数据作为因变量。其中 x1、x2 都是标准正态分布,x3、x4 则是分类变量且二者完全相同的字母 A~E 只是 x3 是有序因子而 x4 是无序因子:

library("dummies") set.seed(1234) n = 1000 x1


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3