R语言数据分析笔记

您所在的位置:网站首页 独立样本t检验的前提条件 R语言数据分析笔记

R语言数据分析笔记

2024-07-12 08:15| 来源: 网络整理| 查看: 265

前言:本文为个人学习笔记,为各大网站上的教学内容之综合整理,综合整理了①假设分析的基础知识、②正态性检验和方差齐性检验在SPSS和R语言中的操作、③t检验(单样本、双独立样本、配对样本)在Excel、SPSS、R语言中的操作,尽量标明出处。另因能力所限或有纰漏之处,故仅供参考,欢迎交流指正。

基础知识

推荐资料:

B站张文彤  统计分析轻松入门  推荐观看P32~P38

7.1为什么要学习假设检验?_哔哩哔哩_bilibili7.1为什么要学习假设检验?是统计分析轻松入门的第32集视频,该合集共计41集,视频收藏或关注UP主,及时了解更多相关视频内容。https://www.bilibili.com/video/BV1h541147xB?p=32&vd_source=e7e2a58a4620baadd97797801e55b129https://www.bilibili.com/video/BV1h541147xB?p=32&vd_source=e7e2a58a4620baadd97797801e55b129

B站陈祥雨大猫咪老师

PPT 通俗统计学原理入门14 单样本t检验 - 哔哩哔哩大家好。到目前为止,我们已经学习了足够多的统计学基础概念。本节课,我们通过统计学软件中的实际操作,来学习一下单样本t检验的概念和方法,并以此来加深对已经学过的概念的理解。假如是通过关键词搜到本节课的同学,建议从本课程系列的第一节课开始看起。本节课不再对各个概念做过多的解释。我们仍然以英语成绩为例。例如,有一个高中,王老师负责一个高三班级的英语课程,班级内有20位同学。在某次全年级英语考试后,全校的英语平均分为137分,王老师班的平均分为135.8分。https://www.bilibili.com/read/cv16868297?spm_id_from=333.999.0.0https://www.bilibili.com/read/cv16868297?spm_id_from=333.999.0.0PPT 通俗统计学原理入门17 样本独立性 独立样本 配对t检验 - 哔哩哔哩大家好,上一节课中,我们学习了“双样本t检验”和“独立样本t检验”是一回事。独立,independent,不是“单独”,single。所以,独立样本t检验,是两个样本之间的t检验,不能多,也不能少,就是两个。这节课,我们来通俗讲解一下样本之间“相互独立”的含义。我们仍然回到上节课的故事中。一个县城,有两个中学,一中和二中,每个中学都有1000个学生。县教育局想比较一下两个中学的总体英语水平,于是组织了一次统考,一中和二中考同一份试卷。考完之后,由于时间仓促,两个学校各自的总体均分μ1和μ2,还没https://www.bilibili.com/read/cv16969556?spm_id_from=333.999.0.0https://www.bilibili.com/read/cv16969556?spm_id_from=333.999.0.0假设检验可以解决什么问题?

参数估计:从样本到总体

假设检验的意义:对提出的总体假设进行分析判断,以做出决策

如何利用假设检验解决问题?

运用统计知识根据研究设计和资料性质选择正确的分析过程

初步的统计描述:集中趋势、离散趋势、分布特征、异常值及其他

假设检验原理

现有的样本均数和已知总体均数不同,差别可能来源于两个方面:

1.样本来自已知总体,现有差别为抽样误差

2.样本来自其他总体(与已知总体不同),存在本质差异

所有需要用统计学方法判断误差来源,即进行假设检验

假设检验前提

小概率原理:认为小概率事件在一次随机抽样中不会发生

(事实上小概率事件在随机抽样中可能发生,但是概率很小,若正好碰上,则假设检验的结论是错误的。但这种错误是我们为了做出统计决策愿意付出的代价。)

假设检验步骤

1.建立假设

检验假设,记为H_0\mu=\mu_0

备择假设,记为H_1\mu\ne\mu_0

2.确定检验水准

检验水准\alpha,指H_0本来成立,却根据样本信息拒绝H_0的可能性大小。即拒绝H_0时最大允许误差的概率,常用0.05。

3.计算统计量和P值

检验统计量的特点

该统计量应当服从某种已知分布(t分布、\chi^2分布、F分布等等),从而可以计算出P值。

P值

P值,从H_0假设的总体中抽出现有样本(及更极端情况)的概率。 

P值可以客观衡量样本对假设总体偏离程度。

4.得出结论

按照事先确定的\alpha界定P值对H_0进行取舍,作出推断结论,引申出实用性结论。  

若P≤\alpha

认为出现了小概率事件,拒绝H_0接受H_1。可以认为样本与总体的差异存在本质区别,而非偶然,这种差别有统计学意义。

若P>\alpha 

认为出现了常见事件,不拒绝H_0。可以认为样本与总体的差异不存在本质区别,可能存在偶然,两者差别无统计学意义。

Ⅰ型错误和Ⅱ型错误

拒绝H_0,接受H_1不拒绝H_0H_0真实Ⅰ型错误(\alpha)正确推断(1-\alphaH_0不真实正确推断(1-\beta)Ⅱ型错误(\beta

检验效能:H_1是真的,实际拒绝H_0的概率=1-\beta

实际问题中往往希望得到拒绝H_0的结论,所以检验效能不应当太低

如何控制两种错误

\alpha可以事先认为设定

\beta只能间接控制

1.增大样本量以减小标准误(标准误减小1倍,样本量需增大4倍)

2.放大\alpha来减小\beta

Ⅰ型错误和Ⅱ型错误示意图(以单侧t检验为例)

假设检验的结论不能绝对化

保留了犯错误的可能性

样本量导致检验效能问题

1.样本量太小,导致检验效能不足,无法检出可能存在的差异

2.样本量太大,得出有统计学意义的结论,但是这种结论可能没有实际意义

假设检验的单侧和双侧问题

双侧检验:不知道样本所在总体与假定总体的大小关系。得到拒绝结论更困难,结果更稳妥。

单侧检验:根据专业知识确定样本所在总体与假定总体的大小关系。敏感,得到拒绝结论更容易。

统计方法适用条件

独立性:绝大部分方法都要求

正态性:t检验、方差分析常见要求

方差齐性:t检验、方差分析常见要求

正态性和方差齐性检验 正态性检验 SPSS

SPSS第三讲 | 正态分布怎么检验?看这篇文章就够了 - 知乎

SPSS非参数两独立样本检验 - 知乎

方法1:画图法

直方图:【操作】图形-旧对话框-直方图,选择变量,勾选显示正态曲线,确定。观察直方图的分布形状是否为一个倒扣“钟”型的对称形状,如果接近或相似,则可认为数据服从正态分布。

正态Q-Q图:【操作】分析-描述统计-Q-Q图,选择变量,检验分布选择正态,确定。若数据服从正态分布,则数据点应与理论直线基本重合。

正态P-P图:【操作】【操作】分析-描述统计-P-P图,选择变量,检验分布选择正态,确定。若数据服从正态分布,则数据点应与理论直线基本重合。

方法2:计算偏度和峰度

当偏度S≈0时,可认为分布是对称的,服从正态分布(不左不右);当峰度K≈0时,可认为分布的峰态合适,服从正态分布(不胖不瘦)。

Z=\frac{S-0}{S_S}

Z=\frac{K-0}{S_K}

SS和SK均为S系数和K系数的标准误。在\alpha=0.05的情况下,若Z的绝对值大于1.96,可认为K系数或S系数显著不等于0,即样本数据非正态。 若Z的绝对值小于1.96,可认为样本数据满足正态分布。

【操作】分析-描述统计-描述,选择变量,选项-勾选平均值、标准偏差、峰度、偏度,继续,确定。

观察描述统计表,

计算偏度系数Z=\frac{S-0}{S_S}=\frac{0.269-0}{0.374}=0.7191.96

计算峰度系数Z=\frac{K-0}{S_K}=\frac{0.318-0}{0.733}=0.4341.96

说明该组样本数据符合正态分布。

方法3:非参数检验法

SPSS

常见的正态性检验有柯尔莫戈洛夫-斯米诺夫检验(K-S检验,适用于大样本数据)和夏皮洛-威尔克检验(S-W检验,适用于小样本数据),当检验结果的P值小于0.05,则认为数据不满足正态性。

例1:当样本量小于50时,采用S-W检验。

【操作】分析-描述统计-探索,因变量和因子列表,图-含检验的正态图,继续,确定。

观察正态性检验表,

本例1中,比较A、B两厂所产零件的直径差异,两组样本量均小于50,以S-E检验结果为准,0.462>0.05,0.053>0.05,故认为满足正态性。

例2:当样本量大于等于50时,采用K-S检验。

【操作】分析-描述统计-探索,因变量和因子列表,图-含检验的正态图,继续,确定。

 

本例2中,比较两组数据差异,两组样本量均大于等于50,以K-S检验结果为准,0.200>0.05,故认为满足正态性。

这个*表示真显著性的下限,具体什么意思我也不太明白,但是>0.05就可以认为满足正态性。

R语言

参考资料:

R语言连续变量正态性检验_奋起的小鹰的博客-CSDN博客_r语言正态性检验

例1:当样本量小于50时,采用S-W检验。

A0.05,故认为满足正态性。

例2: 当样本量大于等于50时,采用K-S检验。

C0.05,故认为满足正态性。

方差齐性检验

例3:工厂A和工厂B各自生产了一批零件,A工厂抽样20个零件的直径分别为1.95, 2.01, 2.02, 1.98, 1.97, 1.99, 2.00, 2.01, 2.03, 1.98, 1.99, 1.99, 2.01, 1.95, 1.99, 1.98, 1.99, 2.05, 2.00, 1.99,B工厂抽样20个零件的直径分别为2.03, 1.98, 1.99, 2.05, 2.01, 2, 1.99, 1.99, 2, 2.01, 2.03, 2.02, 1.99, 2.05, 2, 1.99, 2, 2.01, 2.03, 1.98,试检验两家工厂的零件是否存在显著差异。

SPSS

SPSS入门教程——方差齐性检验的方法有哪些_nekonekoboom的博客-CSDN博客_方差齐性检验​​​​​​

方法1:Levene(莱文)检验

【操作】分析-描述统计-探索,因变量和因子列表,图-含莱文检验的分布-水平图-未转换,继续,确定。

观察方差齐性检验表,

P值0.901>0.05,不拒绝原假设,可认为数据符合方差齐性。

方法2:单因素ANOVA检验

【操作】分析-比较平均值-单因素ANOVA检验,因变量和因子列表,选项-方差齐性检验,继续,确定。

与方法1结果相同

P值0.901>0.05,不拒绝原假设,可认为数据符合方差齐性。

R语言

调用car包里的leveneTest函数,第一个参数为数据,第二个参数为分组。

install.packages("car") library(car) A


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3