学习笔记

您所在的位置:网站首页 spss的标准差多少算大 学习笔记

学习笔记

2024-07-14 12:47| 来源: 网络整理| 查看: 265

目录 学习目的软件版本原始文档概述服从正态分布-按照3倍标准差剔除异常值读数据数据概览描述变量 正态性检验异常值检验及剔除 非正态分布-根据Zscore取值范围确定基础数据数据概览正态性检验Tips:箱图圆圈的含义 异常值检验及剔除描述变量,并将标准化值另存为变量:异常值筛选 Tips:Zscore取值范围Tips:什么是Z-score?有哪些使用场景?

学习目的

SPSS按照3倍标准差剔除异常值

软件版本

IBM SPSS Statistics 26。

原始文档

spss按照3倍标准差剔除异常值 《小白爱上SPSS》课程第3讲数据

概述

数据需要服从正态分布。在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。 如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。即,使用Z-分数(Z-score)进行判断,计算每个数据的Z-分数。样本中每个数据 - 样本平均数,除以样本标准差,即可以计算每个数据的Z-分数。Z-score的值应该为【-3,+3】,超过该值的存在为异常值的可能,需要进一步判断。

服从正态分布-按照3倍标准差剔除异常值

三倍标准差法剔除异常值是一种经典的数据处理方法,指根据样本量和样本方差确定统计准则,将极端异常值(离群点)剔除,它是根据样本量和样本方差体现出来的分布统计学中的“三倍标准差”原则来处理数据异常值的方法。 三倍标准差剔除异常值涉及两个概念;根据总体样本方差的大小,让算出每个样本的“允许范围”;.将超出“允许范围”的异常值剔除出去。 其具体步骤是: 1、计算样本的标准差;2、确定样本的允许范围;3、如果有极端异常值,就剔除出来。 总体样本标准差的大小和离群点的定义有关,一般将样本标准差的三倍作为样本允许偏差范围,即若极端值(离群点)超出三倍标准差,则该数据被认为是异常值,可以被剔除。 异常值指的是在观测样本中,偏离于绝大部分样本分布的值。在连续型变量中,如果一个值与该变量的均值超过2倍标准差,我们一般就可以将之视为异常值。 由于样本中的离群点影响样本的方差,因此用三倍标准差的方法能有效地将极端值剔除,使样本方差更准确。 三倍标准差剔除异常值的优点是简单、快捷,可被广泛应用于分析数据,但也有不足之处。如果总体数据分布不同,样本标准差容易受到偏差;如果总体数据分布是非正态分布,由于样本数据分布更集中,因此很可能会误判离群点,这种情况下,可以考虑调整标准差的倍数,要求更大倍数以保证准确率。

读数据 GET FILE='E:\E盘备份\recent\小白爱上SPSS\小白数据\第三讲 正态分布.sav'.

在这里插入图片描述

数据概览 描述变量

在这里插入图片描述 选择连续性变量“身高”作为描述变量,选择输出值类型: 在这里插入图片描述 命令行:

DESCRIPTIVES VARIABLES=身高 /SAVE /STATISTICS=MEAN STDDEV MIN MAX /*平均值,标准化值,最小值,最大值*/.

在这里插入图片描述

正态性检验

命令行:

EXAMINE VARIABLES=身高 /PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*/ /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

在这里插入图片描述 样本数量25个小于40个,使用夏皮洛-威尔克检验。经S-W检验,体重数据的P=0.998(P>0.05,接受原假设),没有统计学意义,可认为该组数据符合正态分布。 结合直方图: 命令行:

GRAPH /*绘图*/ /HISTOGRAM(NORMAL)=身高 /*直方图(正态)*/.

在这里插入图片描述 呈明显的倒钟型,该组数据符合正态分布。 身高的正态Q-Q图: 在这里插入图片描述 观察Q-Q图上的点能否分布在一条直线上,分布在一条直线上则说明近似或服从正态分布。 本例中,身高绝大多数的点能分布在一条直线上,直线趋势明显,可认为该连续数据服从正态分布。

异常值检验及剔除

数据-选择个案: 在这里插入图片描述 进入后,选择身高-选择如果条件满足: 筛选条件:身高 = (149.68-311.3274) 在这里插入图片描述 有效数据范围: 在这里插入图片描述 命令行:

USE ALL. COMPUTE filter_$=(身高 = (149.68-3*11.3274)). VARIABLE LABELS filter_$ '身高 = (149.68-3*11.3274) (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMATS filter_$ (f1.0). FILTER BY filter_$. EXECUTE.

数据均在平均值+/-33倍标准差范围内,无需剔除: 在这里插入图片描述

非正态分布-根据Zscore取值范围确定 基础数据

引自原文。 在这里插入图片描述

数据概览 正态性检验

命令行:

EXAMINE VARIABLES=height /PLOT BOXPLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表,增加箱图输出:BOXPLOT*/ /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

在这里插入图片描述 样本数量6个,小于40个,使用夏皮洛-威尔克检验。经S-W检验,体重数据的P



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3