学习笔记 |
您所在的位置:网站首页 › spss的标准差多少算大 › 学习笔记 |
目录
学习目的软件版本原始文档概述服从正态分布-按照3倍标准差剔除异常值读数据数据概览描述变量
正态性检验异常值检验及剔除
非正态分布-根据Zscore取值范围确定基础数据数据概览正态性检验Tips:箱图圆圈的含义
异常值检验及剔除描述变量,并将标准化值另存为变量:异常值筛选
Tips:Zscore取值范围Tips:什么是Z-score?有哪些使用场景?
学习目的
SPSS按照3倍标准差剔除异常值 软件版本IBM SPSS Statistics 26。 原始文档spss按照3倍标准差剔除异常值 《小白爱上SPSS》课程第3讲数据 概述数据需要服从正态分布。在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。 如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。即,使用Z-分数(Z-score)进行判断,计算每个数据的Z-分数。样本中每个数据 - 样本平均数,除以样本标准差,即可以计算每个数据的Z-分数。Z-score的值应该为【-3,+3】,超过该值的存在为异常值的可能,需要进一步判断。 服从正态分布-按照3倍标准差剔除异常值三倍标准差法剔除异常值是一种经典的数据处理方法,指根据样本量和样本方差确定统计准则,将极端异常值(离群点)剔除,它是根据样本量和样本方差体现出来的分布统计学中的“三倍标准差”原则来处理数据异常值的方法。 三倍标准差剔除异常值涉及两个概念;根据总体样本方差的大小,让算出每个样本的“允许范围”;.将超出“允许范围”的异常值剔除出去。 其具体步骤是: 1、计算样本的标准差;2、确定样本的允许范围;3、如果有极端异常值,就剔除出来。 总体样本标准差的大小和离群点的定义有关,一般将样本标准差的三倍作为样本允许偏差范围,即若极端值(离群点)超出三倍标准差,则该数据被认为是异常值,可以被剔除。 异常值指的是在观测样本中,偏离于绝大部分样本分布的值。在连续型变量中,如果一个值与该变量的均值超过2倍标准差,我们一般就可以将之视为异常值。 由于样本中的离群点影响样本的方差,因此用三倍标准差的方法能有效地将极端值剔除,使样本方差更准确。 三倍标准差剔除异常值的优点是简单、快捷,可被广泛应用于分析数据,但也有不足之处。如果总体数据分布不同,样本标准差容易受到偏差;如果总体数据分布是非正态分布,由于样本数据分布更集中,因此很可能会误判离群点,这种情况下,可以考虑调整标准差的倍数,要求更大倍数以保证准确率。 读数据 GET FILE='E:\E盘备份\recent\小白爱上SPSS\小白数据\第三讲 正态分布.sav'.
命令行: EXAMINE VARIABLES=身高 /PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*/ /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
数据-选择个案: 数据均在平均值+/-33倍标准差范围内,无需剔除: 引自原文。 命令行: EXAMINE VARIABLES=height /PLOT BOXPLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表,增加箱图输出:BOXPLOT*/ /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |