相关性分析 |
您所在的位置:网站首页 › x和y之间的相关系数怎么求 › 相关性分析 |
获取代码和更佳阅读体验获取,请移步:相关性分析 | R语言 – 两个变量的相关性分析 http://www.sthda.com/english/wiki/correlation-test-between-two-variables-in-r 目录 什么是相关性检验*?相关检验用于评估两个或多个变量之间的关联。 例如,如果我们想知道父亲和儿子的身高之间是否存在关系,可以计算相关系数来回答这个问题。 如果两个变量(父亲和儿子的身高)之间没有关系,则儿子的平均身高应该相同,而与父亲的身高无关,反之亦然。 在这里,我们将描述不同的相关方法,并使用R软件提供一些实用的示例。 安装并加载所需的R软件包我们将使用ggpubr R软件包进行基于ggplot2的简单数据可视化 按照以下说明从GitHub安装最新版本(推荐): if(!require(devtools)) install.packages("devtools") devtools::install_github("kassambara/ggpubr") 或者,从CRAN安装如下: install.packages("ggpubr") 加载ggpubr如下: library("ggpubr") 相关分析方法有多种执行相关分析的方法: 皮尔逊相关(r),它测量两个变量(x和y)之间的线性相关性。这也称为参数相关检验,因为它取决于数据的分布。仅当x和y来自 正态分布时 才可以使用它。y = f(x)的图称为 线性回归曲线。 Kendall tau和Spearman rho,它们是基于秩的相关系数(非参数) 最常用的方法是Pearson相关方法。 相关公式在下面的公式中 x x x 和 y y y 是长度为 n 的两个向量 m x m_x mx 和 m y m_y my 分别对应于 x x x 和 y y y 的均值。 皮尔逊相关公式相关性的p值(显着性水平)可以确定: 通过将相关系数表用于自由度: 通过使用自由度的相关系数表: d f = n − 2 df=n−2 df=n−2,其中 n n n是 x 和 y 变量中的观测数。 或通过如下计算 t值: 在情况2)中,使用 d f = n − 2 df=n−2 df=n−2的 t分布表 确定相应的 p p p值 如果 p < 5%,则x和y之间的相关性很显着。 Spearman相关公式Spearman相关 方法计算x的秩和y变量的秩之间的相关性。 其中: x ′ = r a n k ( x ) , y ′ = r a n k ( y ) x′=rank(x) , y′=rank(y) x′=rank(x),y′=rank(y)。 肯德尔相关公式Kendall相关法测量x和y变量的排序之间的对应关系。x与y观测值的可能配对总数为 n ( n − 1 ) / 2 n(n−1)/2 n(n−1)/2,其中 n 是x和y的大小。 程序如下: 首先按x值对这些对进行排序。如果x和y是相关的,那么它们的相对秩是相同的。 现在,对于每个yi,计算yj>yi(一致对(c))和yj p = 0.09 从输出中,两个p值大于显着性水平0.05,这意味着数据的分布与正态分布没有显着差异。换句话说,我们可以假设正常性。 使用QQ图(分位数-分位数图)对数据正态性进行外观****检查。QQ图绘制给定样本与正态分布之间的相关性。 library("ggpubr") # mpg ggqqplot(my_data$mpg, ylab = "MPG") # wt ggqqplot(my_data$wt, ylab = "WT")从正态分布图中,我们得出结论,两个总体都可能来自正态分布。 请注意,如果数据不是正态分布的,建议使用非参数相关,包括Spearman和Kendall基于秩的相关测试。 皮尔逊相关检验mpg和wt变量之间的相关性测试: res |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |