R语言数据分析笔记

2024-07-12 08:15| 来源: 网络整理| 查看: 265

前言：本文为个人学习笔记，为各大网站上的教学内容之综合整理，综合整理了①假设分析的基础知识、②正态性检验和方差齐性检验在SPSS和R语言中的操作、③t检验（单样本、双独立样本、配对样本）在Excel、SPSS、R语言中的操作，尽量标明出处。另因能力所限或有纰漏之处，故仅供参考，欢迎交流指正。

基础知识

推荐资料：

B站张文彤统计分析轻松入门推荐观看P32~P38

7.1为什么要学习假设检验？_哔哩哔哩_bilibili7.1为什么要学习假设检验？是统计分析轻松入门的第32集视频，该合集共计41集，视频收藏或关注UP主，及时了解更多相关视频内容。https://www.bilibili.com/video/BV1h541147xB?p=32&vd_source=e7e2a58a4620baadd97797801e55b129https://www.bilibili.com/video/BV1h541147xB?p=32&vd_source=e7e2a58a4620baadd97797801e55b129

B站陈祥雨大猫咪老师

PPT 通俗统计学原理入门14 单样本t检验 - 哔哩哔哩大家好。到目前为止，我们已经学习了足够多的统计学基础概念。本节课，我们通过统计学软件中的实际操作，来学习一下单样本t检验的概念和方法，并以此来加深对已经学过的概念的理解。假如是通过关键词搜到本节课的同学，建议从本课程系列的第一节课开始看起。本节课不再对各个概念做过多的解释。我们仍然以英语成绩为例。例如，有一个高中，王老师负责一个高三班级的英语课程，班级内有20位同学。在某次全年级英语考试后，全校的英语平均分为137分，王老师班的平均分为135.8分。https://www.bilibili.com/read/cv16868297?spm_id_from=333.999.0.0https://www.bilibili.com/read/cv16868297?spm_id_from=333.999.0.0PPT 通俗统计学原理入门17 样本独立性独立样本配对t检验 - 哔哩哔哩大家好，上一节课中，我们学习了“双样本t检验”和“独立样本t检验”是一回事。独立，independent，不是“单独”，single。所以，独立样本t检验，是两个样本之间的t检验，不能多，也不能少，就是两个。这节课，我们来通俗讲解一下样本之间“相互独立”的含义。我们仍然回到上节课的故事中。一个县城，有两个中学，一中和二中，每个中学都有1000个学生。县教育局想比较一下两个中学的总体英语水平，于是组织了一次统考，一中和二中考同一份试卷。考完之后，由于时间仓促，两个学校各自的总体均分μ1和μ2，还没https://www.bilibili.com/read/cv16969556?spm_id_from=333.999.0.0https://www.bilibili.com/read/cv16969556?spm_id_from=333.999.0.0假设检验可以解决什么问题？

参数估计：从样本到总体

假设检验的意义：对提出的总体假设进行分析判断，以做出决策

如何利用假设检验解决问题？

运用统计知识根据研究设计和资料性质选择正确的分析过程

初步的统计描述：集中趋势、离散趋势、分布特征、异常值及其他

假设检验原理

现有的样本均数和已知总体均数不同，差别可能来源于两个方面：

1.样本来自已知总体，现有差别为抽样误差

2.样本来自其他总体（与已知总体不同），存在本质差异

所有需要用统计学方法判断误差来源，即进行假设检验

假设检验前提

小概率原理：认为小概率事件在一次随机抽样中不会发生

（事实上小概率事件在随机抽样中可能发生，但是概率很小，若正好碰上，则假设检验的结论是错误的。但这种错误是我们为了做出统计决策愿意付出的代价。）

假设检验步骤

1.建立假设

检验假设，记为 $H_0$ ： $\mu=\mu_0$

备择假设，记为 $H_1$ ： $\mu\ne\mu_0$

2.确定检验水准

检验水准 $\alpha$ ，指 $H_0$ 本来成立，却根据样本信息拒绝 $H_0$ 的可能性大小。即拒绝 $H_0$ 时最大允许误差的概率，常用0.05。

3.计算统计量和P值

检验统计量的特点

该统计量应当服从某种已知分布（t分布、 $\chi^2$ 分布、F分布等等），从而可以计算出P值。

P值

P值，从 $H_0$ 假设的总体中抽出现有样本（及更极端情况）的概率。

P值可以客观衡量样本对假设总体偏离程度。

4.得出结论

按照事先确定的 $\alpha$ 界定P值对 $H_0$ 进行取舍，作出推断结论，引申出实用性结论。

若P≤ $\alpha$

认为出现了小概率事件，拒绝 $H_0$ 接受 $H_1$ 。可以认为样本与总体的差异存在本质区别，而非偶然，这种差别有统计学意义。

若P> $\alpha$

认为出现了常见事件，不拒绝 $H_0$ 。可以认为样本与总体的差异不存在本质区别，可能存在偶然，两者差别无统计学意义。

Ⅰ型错误和Ⅱ型错误

拒绝 $H_0$ ，接受 $H_1$ 不拒绝 $H_0$ $H_0$ 真实Ⅰ型错误（ $\alpha$ ）正确推断（1- $\alpha$ ） $H_0$ 不真实正确推断（1- $\beta$ ）Ⅱ型错误（ $\beta$ ）

检验效能： $H_1$ 是真的，实际拒绝 $H_0$ 的概率=1- $\beta$

实际问题中往往希望得到拒绝 $H_0$ 的结论，所以检验效能不应当太低

如何控制两种错误

$\alpha$ 可以事先认为设定

$\beta$ 只能间接控制

1.增大样本量以减小标准误（标准误减小1倍，样本量需增大4倍）

2.放大 $\alpha$ 来减小 $\beta$

Ⅰ型错误和Ⅱ型错误示意图（以单侧t检验为例）

假设检验的结论不能绝对化

保留了犯错误的可能性

样本量导致检验效能问题

1.样本量太小，导致检验效能不足，无法检出可能存在的差异

2.样本量太大，得出有统计学意义的结论，但是这种结论可能没有实际意义

假设检验的单侧和双侧问题

双侧检验：不知道样本所在总体与假定总体的大小关系。得到拒绝结论更困难，结果更稳妥。

单侧检验：根据专业知识确定样本所在总体与假定总体的大小关系。敏感，得到拒绝结论更容易。

统计方法适用条件

独立性：绝大部分方法都要求

正态性：t检验、方差分析常见要求

方差齐性：t检验、方差分析常见要求

正态性和方差齐性检验正态性检验 SPSS

SPSS第三讲 | 正态分布怎么检验？看这篇文章就够了 - 知乎

SPSS非参数两独立样本检验 - 知乎

方法1：画图法

直方图：【操作】图形-旧对话框-直方图，选择变量，勾选显示正态曲线，确定。观察直方图的分布形状是否为一个倒扣“钟”型的对称形状，如果接近或相似，则可认为数据服从正态分布。

正态Q-Q图：【操作】分析-描述统计-Q-Q图，选择变量，检验分布选择正态，确定。若数据服从正态分布，则数据点应与理论直线基本重合。

正态P-P图：【操作】【操作】分析-描述统计-P-P图，选择变量，检验分布选择正态，确定。若数据服从正态分布，则数据点应与理论直线基本重合。

方法2：计算偏度和峰度

当偏度S≈0时，可认为分布是对称的，服从正态分布（不左不右）；当峰度K≈0时，可认为分布的峰态合适，服从正态分布（不胖不瘦）。

$Z=\frac{S-0}{S_S}$

$Z=\frac{K-0}{S_K}$

SS和SK均为S系数和K系数的标准误。在 $\alpha$ =0.05的情况下，若Z的绝对值大于1.96，可认为K系数或S系数显著不等于0，即样本数据非正态。若Z的绝对值小于1.96，可认为样本数据满足正态分布。

【操作】分析-描述统计-描述，选择变量，选项-勾选平均值、标准偏差、峰度、偏度，继续，确定。

观察描述统计表，

计算偏度系数 $Z=\frac{S-0}{S_S}=\frac{0.269-0}{0.374}=0.7191.96$

计算峰度系数 $Z=\frac{K-0}{S_K}=\frac{0.318-0}{0.733}=0.4341.96$

说明该组样本数据符合正态分布。

方法3：非参数检验法

SPSS

常见的正态性检验有柯尔莫戈洛夫-斯米诺夫检验（K-S检验，适用于大样本数据）和夏皮洛-威尔克检验（S-W检验，适用于小样本数据），当检验结果的P值小于0.05，则认为数据不满足正态性。

例1：当样本量小于50时，采用S-W检验。

【操作】分析-描述统计-探索，因变量和因子列表，图-含检验的正态图，继续，确定。

观察正态性检验表，

本例1中，比较A、B两厂所产零件的直径差异，两组样本量均小于50，以S-E检验结果为准，0.462>0.05，0.053>0.05，故认为满足正态性。

例2：当样本量大于等于50时，采用K-S检验。

【操作】分析-描述统计-探索，因变量和因子列表，图-含检验的正态图，继续，确定。

本例2中，比较两组数据差异，两组样本量均大于等于50，以K-S检验结果为准，0.200>0.05，故认为满足正态性。

这个*表示真显著性的下限，具体什么意思我也不太明白，但是>0.05就可以认为满足正态性。

R语言

参考资料：

R语言连续变量正态性检验_奋起的小鹰的博客-CSDN博客_r语言正态性检验

例1：当样本量小于50时，采用S-W检验。

A0.05，故认为满足正态性。

例2：当样本量大于等于50时，采用K-S检验。

C0.05，故认为满足正态性。

方差齐性检验

例3：工厂A和工厂B各自生产了一批零件，A工厂抽样20个零件的直径分别为1.95, 2.01, 2.02, 1.98, 1.97, 1.99, 2.00, 2.01, 2.03, 1.98, 1.99, 1.99, 2.01, 1.95, 1.99, 1.98, 1.99, 2.05, 2.00, 1.99，B工厂抽样20个零件的直径分别为2.03, 1.98, 1.99, 2.05, 2.01, 2, 1.99, 1.99, 2, 2.01, 2.03, 2.02, 1.99, 2.05, 2, 1.99, 2, 2.01, 2.03, 1.98，试检验两家工厂的零件是否存在显著差异。

SPSS

SPSS入门教程——方差齐性检验的方法有哪些_nekonekoboom的博客-CSDN博客_方差齐性检验

方法1：Levene（莱文）检验

【操作】分析-描述统计-探索，因变量和因子列表，图-含莱文检验的分布-水平图-未转换，继续，确定。

观察方差齐性检验表，

P值0.901>0.05，不拒绝原假设，可认为数据符合方差齐性。

方法2：单因素ANOVA检验

【操作】分析-比较平均值-单因素ANOVA检验，因变量和因子列表，选项-方差齐性检验，继续，确定。

与方法1结果相同

P值0.901>0.05，不拒绝原假设，可认为数据符合方差齐性。

R语言

调用car包里的leveneTest函数，第一个参数为数据，第二个参数为分组。

install.packages("car") library(car) A

【本文地址】

R语言数据分析笔记

R语言数据分析笔记

今日新闻

推荐新闻