相关系数的比较与假设检验

2023-06-29 04:33| 来源: 网络整理| 查看: 265

最近做验证实验时需要涉及到相关系数间比较，于是查阅了许多相关资料，想在这里适当总结一下。

问题描述：特征A与特征B在样本集α中的线性相关性，在样本集β中是否仍能保持。

用统计学术语描述：随机变量A与随机变量B在样本集α中的相关系数与在样本集β中的相关系数是否有统计显著性差异？

大致思路：1）检验相关系数具有统计显著性；2）检验两个相关系数的差异性。

相关系数比较

在确定需要比较的相关系数都具有统计显著性后，我们可以对其进行比较。在我的问题定义中，应视作来自不同的两个分布的相同变量间的相关系数比较，且我们只关心是否有差异，而不关心谁比谁大或小，即只关心双边检测结果。

方法：z检验

步骤：

对相关系数r1和r2进行费雪变换（Fisher's z transformation）得z1和z2，使之近似满足正态分布：

构造变量z:=z1-z2，满足标准差σ为根号下[1/(N1-3)+1/(N2-3)]，其中N1和N2分别为两个样本集的大小（推导原理可以根据正态分布性质以及费雪变换性质得来）建立假设：H0：变量z的总体均值μ=0；H1：μ≠0确定显著水平：alpha=0.05计算统计量：绝对值(z-0)/σ查询临界值表

结论：若拒绝原假设，则代表这个两个相关系数具有统计显著性差异，即在两个样本集中，我们关心的变量间的线性关系已经发生了改变。否则，视为保持。

总结

经过上述两个步骤，我们可以大概研究出变量A和B在两个数据集中是否能保持一致的线性相关性。然而，这种相关性的保持/改变程度尚未找到合理的量化指标，这是这种方式的不足之处。

附：补充解释上述检验奏效的原因

一、t检验

t检验能够检测样本均值与总体均值间的差异，但需要研究变量满足正态分布。当总体相关系数ρ=0时，相关系数的分布近似正态分布，且均值为0，如下图所示：

因此，对于假设：ρ=0，我们可以直接使用t检验来进行计算，因为我们同时满足了变量服从正态分布、研究对象为均值的条件。

二、z检验

当我们研究总体相关系数ρ≠0时的性质时，我们无法满足相关系数服从于正态分布这一条件。因此，我们需要对相关系数进行费雪变换，得到变换后的变量近似服从正态分布，该变换描述为：

z的标准差为：

其中N为样本个数。之后，我们可以使用适用于正态分布的z检验。

接下来我们分两类讨论变量A与B在ρ≠0时的情况：

研究样本相关系数与总体相关系数的差异；研究两个样本集相关系数的差异

1、样本与总体

当我们关心样本相关系数的值r是否与总体相关系数值ρ在给定显著水平下相等时，我们的假设就变成了：H0：ρ=r以及H1：ρ≠r。

在对r和ρ进行z变换后得到zr与zρ，且标准差σ=1/根号(N-3)。之后，进行z检验，代入公式：绝对值(zr-zρ)/σ，根据得到的统计量值进行后续步骤。

2、样本与样本

在我们关心两个样本集间的对应变量A与B的相关系数r1和r2之间的比较时，我们需要构造新的变量z:=z1-z1，其中z1与z2分别为r1与r2的费雪变换值。由于z1和z2满足正态分布，因此z也满足正态分布，其方差为z1与z2的方差和。因此，z的标准差σ=1/根号[1/(N1-3)+1/(N2-3)]，N1和N2为样本数量。建立假设：H0：z的总体均值为0，以及H1：z的总体均值不为0，并进行后续的检验步骤。

对于上述两点的不同，主要在于，第一种情况下，我们只有一个变量zr，而zρ是一个已知的统计量；而第二种情况下我们有z1和z2两个变量，因此需要构造新的变量z=z1-z2进行后续计算。

此外，上述举例都是基于双侧检验，若关心相关系数某一方比另一方更大/更小，可以将假设中的“等于”修改为“大于”或“小于”，并进行单侧检验。

参考资料：

https://wenku.baidu.com/view/6124338ad4d8d15abe234e34.html

https://www.cnblogs.com/jiangleads/p/9022026.html

https://www.statisticssolutions.com/comparing-correlation-coefficients/

https://bbs.pinggu.org/thread-425060-1-1.html

【本文地址】

相关系数的比较与假设检验

相关系数的比较与假设检验

今日新闻

推荐新闻