相关系数的比较与假设检验 |
您所在的位置:网站首页 › spss如何做相关系数的显著性检验 › 相关系数的比较与假设检验 |
最近做验证实验时需要涉及到相关系数间比较,于是查阅了许多相关资料,想在这里适当总结一下。
问题描述:特征A与特征B在样本集α中的线性相关性,在样本集β中是否仍能保持。 用统计学术语描述:随机变量A与随机变量B在样本集α中的相关系数与在样本集β中的相关系数是否有统计显著性差异? 大致思路:1)检验相关系数具有统计显著性;2)检验两个相关系数的差异性。 相关系数显著性检验 首先,加入样本集计算得到的相关系数不具有统计显著性,则表明它不能代表总体的相关系数,随后基于该相关系数的研究没有任何意义。因此,我们需要检验样本相关系数的统计显著性。 方法:t检验 步骤: 建立假设:H0:总体相关系数ρ=0;H1:总体相关系数ρ≠0确定显著水平:alpha=0.05计算统计量:结论:若拒绝原假设ρ=0,则代表在alpha=0.05的显著水平下,我们认为该相关系数具有显著性,即总体中变量A与B确实存在相关性;否则则认为该相关系数仅为样本误差,不能代表总体水平。 相关系数比较 在确定需要比较的相关系数都具有统计显著性后,我们可以对其进行比较。在我的问题定义中,应视作来自不同的两个分布的相同变量间的相关系数比较,且我们只关心是否有差异,而不关心谁比谁大或小,即只关心双边检测结果。 方法:z检验 步骤: 对相关系数r1和r2进行费雪变换(Fisher's z transformation)得z1和z2,使之近似满足正态分布:![]() 结论:若拒绝原假设,则代表这个两个相关系数具有统计显著性差异,即在两个样本集中,我们关心的变量间的线性关系已经发生了改变。否则,视为保持。 总结 经过上述两个步骤,我们可以大概研究出变量A和B在两个数据集中是否能保持一致的线性相关性。然而,这种相关性的保持/改变程度尚未找到合理的量化指标,这是这种方式的不足之处。
附:补充解释上述检验奏效的原因 一、t检验 t检验能够检测样本均值与总体均值间的差异,但需要研究变量满足正态分布。当总体相关系数ρ=0时,相关系数的分布近似正态分布,且均值为0,如下图所示: 因此,对于假设:ρ=0,我们可以直接使用t检验来进行计算,因为我们同时满足了变量服从正态分布、研究对象为均值的条件。 二、z检验 当我们研究总体相关系数ρ≠0时的性质时,我们无法满足相关系数服从于正态分布这一条件。因此,我们需要对相关系数进行费雪变换,得到变换后的变量近似服从正态分布,该变换描述为: z的标准差为: 其中N为样本个数。之后,我们可以使用适用于正态分布的z检验。 接下来我们分两类讨论变量A与B在ρ≠0时的情况: 研究样本相关系数与总体相关系数的差异;研究两个样本集相关系数的差异1、样本与总体 当我们关心样本相关系数的值r是否与总体相关系数值ρ在给定显著水平下相等时,我们的假设就变成了:H0:ρ=r以及H1:ρ≠r。 在对r和ρ进行z变换后得到zr与zρ,且标准差σ=1/根号(N-3)。之后,进行z检验,代入公式:绝对值(zr-zρ)/σ,根据得到的统计量值进行后续步骤。 2、样本与样本 在我们关心两个样本集间的对应变量A与B的相关系数r1和r2之间的比较时,我们需要构造新的变量z:=z1-z1,其中z1与z2分别为r1与r2的费雪变换值。由于z1和z2满足正态分布,因此z也满足正态分布,其方差为z1与z2的方差和。因此,z的标准差σ=1/根号[1/(N1-3)+1/(N2-3)],N1和N2为样本数量。建立假设:H0:z的总体均值为0,以及H1:z的总体均值不为0,并进行后续的检验步骤。
对于上述两点的不同,主要在于,第一种情况下,我们只有一个变量zr,而zρ是一个已知的统计量;而第二种情况下我们有z1和z2两个变量,因此需要构造新的变量z=z1-z2进行后续计算。 此外,上述举例都是基于双侧检验,若关心相关系数某一方比另一方更大/更小,可以将假设中的“等于”修改为“大于”或“小于”,并进行单侧检验。
参考资料: https://wenku.baidu.com/view/6124338ad4d8d15abe234e34.html https://www.cnblogs.com/jiangleads/p/9022026.html https://www.statisticssolutions.com/comparing-correlation-coefficients/ https://bbs.pinggu.org/thread-425060-1-1.html |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |