相关性分析

您所在的位置:网站首页 x和y之间的相关系数怎么求 相关性分析

相关性分析

#相关性分析 | 来源: 网络整理| 查看: 265

获取代码和更佳阅读体验获取,请移步:相关性分析 | R语言 – 两个变量的相关性分析

http://www.sthda.com/english/wiki/correlation-test-between-two-variables-in-r

目录

什么是相关性检验*?

相关检验用于评估两个或多个变量之间的关联。

例如,如果我们想知道父亲和儿子的身高之间是否存在关系,可以计算相关系数来回答这个问题。

如果两个变量(父亲和儿子的身高)之间没有关系,则儿子的平均身高应该相同,而与父亲的身高无关,反之亦然。

在这里,我们将描述不同的相关方法,并使用R软件提供一些实用的示例。

安装并加载所需的R软件包

我们将使用ggpubr R软件包进行基于ggplot2的简单数据可视化

按照以下说明从GitHub安装最新版本(推荐): if(!require(devtools)) install.packages("devtools") devtools::install_github("kassambara/ggpubr") 或者,从CRAN安装如下: install.packages("ggpubr") 加载ggpubr如下: library("ggpubr") 相关分析方法

有多种执行相关分析的方法:

皮尔逊相关(r),它测量两个变量(x和y)之间的线性相关性。这也称为参数相关检验,因为它取决于数据的分布。仅当x和y来自 正态分布时 才可以使用它。y = f(x)的图称为 线性回归曲线。

Kendall tau和Spearman rho,它们是基于秩的相关系数(非参数)

最常用的方法是Pearson相关方法。

相关公式

在下面的公式中

x x x 和 y y y 是长度为 n 的两个向量 m x m_x mx​ 和 m y m_y my​ 分别对应于 x x x 和 y y y 的均值。 皮尔逊相关公式

相关性的p值(显着性水平)可以确定:

通过将相关系数表用于自由度: 通过使用自由度的相关系数表: d f = n − 2 df=n−2 df=n−2,其中 n n n是 x 和 y 变量中的观测数。

或通过如下计算 t值:

在情况2)中,使用 d f = n − 2 df=n−2 df=n−2的 t分布表 确定相应的 p p p值

如果 p < 5%,则x和y之间的相关性很显着。

Spearman相关公式

Spearman相关 方法计算x的秩和y变量的秩之间的相关性。

其中: x ′ = r a n k ( x ) , y ′ = r a n k ( y ) x′=rank(x) , y′=rank(y) x′=rank(x),y′=rank(y)。

肯德尔相关公式

Kendall相关法测量x和y变量的排序之间的对应关系。x与y观测值的可能配对总数为 n ( n − 1 ) / 2 n(n−1)/2 n(n−1)/2,其中 n 是x和y的大小。

程序如下:

首先按x值对这些对进行排序。如果x和y是相关的,那么它们的相对秩是相同的。

现在,对于每个yi,计算yj>yi(一致对(c))和yj p = 0.09

从输出中,两个p值大于显着性水平0.05,这意味着数据的分布与正态分布没有显着差异。换句话说,我们可以假设正常性。

使用QQ图(分位数-分位数图)对数据正态性进行外观****检查。QQ图绘制给定样本与正态分布之间的相关性。 library("ggpubr") # mpg ggqqplot(my_data$mpg, ylab = "MPG") # wt ggqqplot(my_data$wt, ylab = "WT")

R软件中两个变量之间的相关性检验

R软件中两个变量之间的相关性检验

从正态分布图中,我们得出结论,两个总体都可能来自正态分布。

请注意,如果数据不是正态分布的,建议使用非参数相关,包括Spearman和Kendall基于秩的相关测试。

皮尔逊相关检验

mpg和wt变量之间的相关性测试:

res


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3