R语言数据分析笔记

您所在的位置:网站首页 手机怎么查版本信息 R语言数据分析笔记

R语言数据分析笔记

#R语言数据分析笔记| 来源: 网络整理| 查看: 265

前言:本文为个人学习笔记,为各大网站上的教学内容之综合整理,综合整理了①方差分析的基础知识、②方差分析(单因素方差分析、双因素方差分析)在Excel、SPSS、R语言中的操作),尽量标明出处。另因能力所限或有纰漏之处,故仅供参考,欢迎交流指正。

基础知识

基本概念

指标:研究对象的某种特征指标

因子:影响指标的各种因素

水平:一般将因子控制在几个不同的状态上,每个状态称为因子的一个水平

单因素试验:试验中只改变一个因子的水平,其他因子保持不变

多因素试验:试验中改变多个因子的水平

方差检验前提假设

正态性:每组样本数据对应的总体应该服从正态分布

方差齐性:每组样本数据对应的总体方差相等

独立性:每组之间的值是相互独立的

方差检验步骤

1.建立假设

H_0\mu_1=\mu_2=\mu_3

H_1:样本组的均值不全相等

2.确定检验水准

检验水准\alpha,指本来成立,却根据样本信息拒绝H_0的可能性大小。即拒绝H_0时最大允许误差的概率,常用0.05。

3.计算各统计量,求出F值

假设研究因子A有s个水平,每个水平下样本数量分别为n_1n_2,……,n_s

对每个水平A_j下的样本X_{1j}X_{2j},……,X_{n_jj},引进统计量

水平A_j下样本和:{T_{\cdot j}}=\sum_{i=1}^{n_j}X_{ij}

水平 A_j下样本均值:\overline{X} _{\cdot j}=\frac{1}{n_j}{T_{\cdot j}}=\frac{1}{n_j} \sum_{i=1}^{n_j}X_{ij}

样本总均值:\overline{X}=\frac{1}{n} \sum_{j=1}^{s}\sum_{i=1}^{n_j}X_{ij}=\frac{1}{n} \sum_{j=1}^{s}n_j\overline{X} _{\cdot j}

T_{\cdot \cdot }=\sum_{j=1}^{s}\sum_{i=1}^{n_j}X_{ij}=\sum_{j=1}^{s}T _{\cdot j}

偏差平方和及其分解

总平方和:S_T=\sum_{j=1}^{s}\sum_{i=1}^{n_j}{(X_{ij}-\overline{X})^2}

组间平方和:S_A=\sum_{j=1}^{s}\sum_{i=1}^{n_j}{(\overline{X} _{\cdot j}-\overline{X})^2}=\sum_{j=1}^{s}n_j{(\overline{X} _{\cdot j}-\overline{X})^2}

组内平方和:S_E=\sum_{j=1}^{s}\sum_{i=1}^{n_j}{(X_{ij}-\overline{X} _\cdot j)^2}

平方和分解公式:S_T=S_A+S_E

平方和化简公式

S_T=\sum_{j=1}^{s}\sum_{i=1}^{n_j}X_{ij}^2-\frac{1}{n}T_{\cdot \cdot }^{2}

S_A=\sum_{j=1}^{s}\frac{1}{n_j}T_{\cdot j}^2-\frac{1}{n}T_{\cdot \cdot }^{2}

误差来源平方和自由度均方F值临界值因子AS_As-1\frac{S_A}{s-1}\frac{\frac{S_A}{s-1}}{\frac{S_E}{n-s}}F_\alpha(s-1,n-s)随机误差S_En-s\frac{S_E}{n-s}总和S_Tn-1

该统计量应当服从F分布,从而可以计算出P值。

4.得出结论

按照事先确定的\alpha界定P值对进行取舍,作出推断结论,引申出实用性结论。  

若P≤\alphaF\ge F_\alpha(s-1,n-s)

认为出现了小概率事件,拒绝H_0接受H_1。可以认为样本与总体的差异存在本质区别,而非偶然,这种差别有统计学意义。

若P>\alpha, F F_\alpha(s-1,n-s)

认为出现了常见事件,不拒绝H_0。可以认为样本与总体的差异不存在本质区别,可能存在偶然,两者差别无统计学意义。

主效应

在有一个或几个因子的多水平的实验中,描述一个因子在各水平上对反应量影响大小的度量。对有S个水平的单因子A的试验,若随机变量 yij是在第 j次试验中于第 i个水平上的观测值,则模型为E(yij)=μ+ai,(i=1,2,...,s,j=1,2,...,ni),这里E是期望, μ是总平均, ai即A因子第 i个水平的主效应。

交互效应

当被试处理情境之间或单元之间的平均数差异显著不同于因素的全部主效应时,双因素之间的交互作用就发生了。或者可以这样理解,当双因素实验研究的结果以图形呈现的时候,如果存在不平行的折线,则说明存在交互作用。

交互效应显著的几种情况, 列出了6种类型

自变量的主效应与交互效应存在关联性,需要具体情况具体分析。当交互效应不显著时,两个自变量相互独立,可直接由主效应是否显著来评估自变量对因变量的作用大小。当交互效应显著时,不能简单从主效应是否显著得出结论。

以交互效应显著为前提,来区分自变量A的主效应是否显著的三种情况:

第一,交互效应显著,A的主效应也显著,而且主效应方向与简单效应方向一致(图b)。这种情况下,在自变量B的两个水平上,自变量A从A1到A2的变化引起的因变量的变化趋势一致,只是变化幅度不一致。这里的交互效应掩盖了自变量A在自变量B不同水平上的效应量的差异。很明显,在B1上平上,A的效应量大于其在B2水平上的效应量。

第二,交互效应显著,A的主效应也显著,这时A的效应方向可能会被交互效应歪曲(图a、d)。在图a中,A的变化在B1的水平上引起了因变量的显著变化,但在B2水平上却未引起因变量的变化,这就是说A的变化不是在任何情况下都会引起因变量的变化的,它依赖于自变量B的水平;在图d中,虽然A的变化在B的两个水平上都引起了因变量的明显变化,但是变化的方向正好相反,从其主效应看,A的水平提高可以促进因变量分数的提高,但实际情况是,当A在B1水平上提高时,反而会导致因变量分数的下降。所以在这种情况下,显著的交互效应掩盖或歪曲了自变量A的作用机制,它在B的不同水平上效应量是不同的。

第三,交互效应显著,A的主效应却不显著,实际上是交互效应掩盖了A的效应(图c、e、f)。我们从这些图示中可以明显看到A的效应,但方差分析结果却会显示A的主效应不显著,这是因为A在B的两个水平上的效应方向相反,计算A的主效应时A1和A2的差异量被掩盖在了平均过程中。

那么,如何依据自变量主效应和其与其它自变量的交互效应来进行结果分析呢?这一点很简单:当方差分析结果显示A的主效应及A与其它自变量的交互效应都不显著时,则说明A的效应真的不明显;当方差分析的结果显示A的主效应不显著但A与其它自变量的交互效应显著时,则说明A其实是对因变量有明显作用的,即A的效应其实是存在的,只不过其效应的大小和方向依赖于其它自变量的不同水平。

上述分析提醒我们,在说明方差分析结果时你要特别注意,如果因子间的交互效应达到了显著性水平,那么自变量的效应有可能会被歪曲或掩盖,也就是说,不能简单地依据其主效应是否显著来判断它是否对因变量有影响,而是要进行简单效应检验,分别考察其在其它自变量不同水平上的变化情况。否则,可能会得到错误结论。应该记住,一个因子的主效应是对其在另外一个因子所有不同水平下观测分数的平均而得到的,而这种平均的结果可能很难准确地反映每种具体实验处理的效应。

单因素方差分析

例1:对某年级三个班进行抽查,随机抽取了来自1、2、3班的同学,已知1班4名同学的成绩分别为37、47、40、60,2班6名同学的成绩分别为60、86、67、92、95、98,3班3名同学的成绩分别为69、100、98,设各班成绩方差齐性正态分布,问这三个班同学成绩有无显著差异?(显著性水平0.05)

Excel

将数据按列录入表格

方法1:按照原本的公式计算

显示公式 显示数值

9.9167>4.10,F值大于临界值,拒绝H_0接受H_1,认为三个班成绩不全相等。

方法2:按照化简的公式计算

显示公式 显示数值

9.9167>4.10,F值大于临界值,拒绝H_0接受H_1,认为三个班成绩不全相等。 

*方法1、2中计算随机误差是采用S_E=S_T-S_A差值法求得,可以用以下两种方法验算S_E

方法1:按照原本的公式计算(第18行)

方法2:用内置函数VAR.P计算(第19行)

验算求得S_E为2160,与差值法结果相等。 

方法3:数据分析工具

【操作】数据-分析-数据分析-方差分析:单因素方差分析

9.9167>4.10,F值大于临界值,拒绝H_0接受H_1,认为三个班成绩不全相等。

SPSS 录入数据 分析-比较平均值-单因素ANOVA检验

因变量为成绩,因子为班级

勾选事后检验方法 勾选描述和方差齐性检验

 

9.9167>4.10,F值大于临界值,拒绝H_0接受H_1,认为三个班成绩不全相等。

多重比较

 

 1与2、3有显著差异,2与3无显著差异。

R语言

 参考资料:

R语言基础数据分析—单因素方差分析_吹哨子的喇叭花的博客-CSDN博客_r语言单因素方差分析

【R-数据科学】方差分析(ANOVA)在R语言中如何实现?(附数据和代码) - 知乎

X1


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3