确定你会统计?大老粗别走,教你如何识别「离群值」和处理「缺失值」!

您所在的位置:网站首页 离群值计算方法定义 确定你会统计?大老粗别走,教你如何识别「离群值」和处理「缺失值」!

确定你会统计?大老粗别走,教你如何识别「离群值」和处理「缺失值」!

2024-07-17 20:18| 来源: 网络整理| 查看: 265

作者:科研猫 | 西红柿

责编:科研猫 | 馋猫

无论是前瞻性数据收集还是回顾性数据收集,数据集中通常都会出现离群值或缺失值。对于统计学家来说,离群值和缺失值通常是一个棘手的问题,如果处理不当可能会导致错误。离群值可能会导致我们的结果偏离真实结果,而缺失值造成的信息损失可能会导致建模失败。因此,在执行数据分析之前,正确识别离群值并处理缺失值非常重要。本推文讨论的内容应该在建模之前执行。虽然本推文在整个统计模型系列中较为置后,却至关重要,望警醒。

01

离群值的识别

什么是离群值?简而言之就是,超越人类常识和不符合逻辑的变量的值即是离群值。例如,我们从一组患者中采集了空腹血糖,其中一名患者的空腹血糖超过50 mmol / L,这显然是一个异常值。再例如,我们调查了上海市徐汇区60岁以上老年人的高血压患病率。如果受试者的SBP超过1400 mmHg,则显然是异常值。可能是记录错误,实际SBP较可能是140.0 mmHg。

有时离群值是一个相对的概念,与我们的临床研究数据的收集环境有关。例如,如果我们的研究对象是10岁以下的孩子,那么这个年龄段的孩子不太可能是研究生,并且他们的身高不太可能超过170厘米,体重不太可能超过100公斤。当我们抽取的样本不好时,也可能存在产生异常值的情况。例如,从A区域中抽取了1,000个人,从B区域中抽取了100个人。如果该集合的值异常高于或异常低于区域A的值,B区域中的100个人很有可能是个孤独的集合。

当我们研究一项干预措施的效果时,如果只有部分患者有显著效果,这部分数据与其他疗效不太明显的患者相比是“离群值”,但这些异常值正是我们最关心的。因此,对于异常值的判断,要联系实际,不要武断,以免出现严重错误。当我们对数据不确定时,最好的解决方案是检查原始数据记录。

下面我将介绍几个常用的函数来识别数据集中的异常值。假设我们收集了1000个受试者的身高。首先,我们可以使用boxplot()函数绘制一个箱状图来描述数据。接下来使用range()函数帮助我们找到这些变量的最大值和最小值。

首先,我们模拟了1000名身高100-250厘米的受试者。使用range()查看这组患者的收缩压范围。

代码语言:javascript复制1set.seed(123) 2height


【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3