统计推断

您所在的位置:网站首页 判断XY独立性的方法 统计推断

统计推断

2023-11-25 01:37| 来源: 网络整理| 查看: 265

一、线性相关描述

问题:两变量间是否存在相关或关联?

身高与体重

尿铅排出量与血铅含量

凝血时间与凝血酶浓度

血压与年龄

1、线性相关

例 在某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人的基础代谢(kJ /d)与体重(kg)数据,见表。据此数据如何判断这两变量间有无关联?

 

变量X和Y相关系数的详细公式如下:

例  计算上个例子中基础代谢Y与体重X之间的样本相关系数。

说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关程度较大。

2、相关系数的种类 2.1、Pearson(皮尔逊)线性相关系数 r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^{2}-(\sum x)^{2}}\sqrt{n\sum y^{2}-(\sum y)^{2}}}

r被称为随机变量X和Y的Pearson线性相关系数。

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:两个变量之间是线性关系,都是连续数据,可以使用散点图查看;两个变量的总体是正态分布,或接近正态的单峰分布;两个变量的观测值是成对的,每对观测值之间相互独立。

皮尔逊相关系数的经验解释如下。

①当\left | r \right |\geq 0.8时,可视为两个变量之间高度相关。

②当0.5 \leq \left | r \right | 0.8时,可视为两个变量之间中度相关。

③当0.3 \leq \left | r \right | 0.5时,可视为两个变量之间低度相关。

④当\left | r \right | 0.3时,说明两个变量之间的相关程度极弱,可视为不相关。

2.2、Spearman(斯皮尔曼)等级相关系数

斯皮尔曼相关系数是根据等级资料研究两个变量之间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又被称为“等级差数法”。其计算公式为:

\rho =1-\frac{6\sum_{i=1}^{N}d_{i}^{2}}{N(N^{2}-1)}

其中d_{i}为等级差(秩次差d_{i}=x_{i}-y_{i}x_{i}y_{i}xy编秩之后的结果),\rho:[-1.1]

等级相关系数是建立在等级的基础上计算的,比较适用于反映序列变量的相关。等级相关系数和通常的相关系数一样,它与样本的容量有关,尤其是在样本容量比较小的情况下,其变异程度较大,等级相关系数的显著性检验与普通的相关系数的显著性检验相同。

斯皮尔曼相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究,属于非参数统计方法。

2.3、Kendall(肯德尔)等级相关系数

肯德尔相关系数用希腊字母\gamma(tau)是一个用来测量两个随机变量相关性的统计量。肯德尔检验是无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性,肯德尔相关系数的计算公式有3种,这个仅介绍其中一个计算公式:

Tau-a=\frac{C-D}{\frac{1}{2}N(N-1)}

其中C表示X和Y种拥有一致性的元素对数(两个元素为一对)

D表示X和Y中拥有不一致性的元素对数。

需要注意的是,上述公式仅适用于集合X与Y中均不存在相同元素的情况(集合中各个元素唯一)。肯德尔相关系数与斯皮尔曼相关系数对数据条件的要求相同。肯德尔相关系数的取值范围在-1~1,当\gamma为1时,表示两个随机变量拥有一致的等级相关性;当\gamma为-1时,表示两个随机变量拥有完全相反的等级相关性;当\gamma为0时,表示两个随机变量是相互独立的。

二、假设检验与秩相关 1、假设检验

例  计算例1中基础代谢Y与体重X之间的样本相关系数。

说明该14名40~60岁健康妇女的基础代谢和体重之间呈正相关,相关程度较大。

注意:以上r=0.964仅仅是样本的相关系数,而我们关心的是在整体当中健康妇女的基础代谢和体重之间是否呈正相关?由于存在抽样误差,有时总体相关系数为0,得到的样本相关系数却不为0。所以要做线性相关系数的假设检验。

1.1、线性相关系数的统计推断

\rho表示总体的相关系数。

1.2、常用的检验方法:

1. 查相关系数临界值表(样本量n\leq 50),自由度\nu =n

2.t检验(样本量n 50)

r=0.964, 检验相关是否具有统计学意义。

t检验:

P<0.001。可认为40~60岁健康妇女的基础代谢与体重之间存在正相关。

1.3、总体相关系数的区间估计:

步骤:

1、对样本系数r做正曲正切变换,得到的z服从正态分布。

2、算出小z上下的95%置信区间。

3、对区间的上限、下限做反双曲正切变换。

例:r=0.964, 试估计总体相关系数的95%置信区间。

Z=\frac{1}{2}ln\left ( \frac{1+r}{1-r} \right )=\frac{1}{2}ln\left ( \frac{1+0.964}{1-0.964} \right )=1.996

(1.4086,2.5906)————>Z的上下限

(0.8872,0.9888)————>反双曲正切变换

【总结】两变量相关分析的步骤:

1、对随机变量x和y的相关关系利用散点图进行考察,是否有线性的趋势。

2、计算样本相关系数r。

3、假设检验:推断总体的相关系数\rho是否为0。

4、计算总体相关系数\rho的95%置信区间。

5、下结论:两变量(总体)是否有相关关系?相关密切程度如何?

1.4、应注意的问题

1). 散点图显示变量间有线性趋势时,才进行相关分析

2). 线性相关适用于双变量正态分布资料

3). 正确理解相关关系,“相关不等于因果”

4). 出现异常值时慎用相关

5). 分层资料盲目合并易出假象。

2、秩相关

线性相关系数(Pearson correlation coefficient)

适用于:服从双变量正态分布;连续型定量资料。

秩相关(rank correlation, Spearman coefficient),或称等级相关。

适用于:不服从双变量正态分布;总体分布类型未知;数据本身有不确定值;等级资料。

例 某研究者研究10 例6 个月~7 岁的贫血患儿的血红蛋白含量与贫血体征之间的相关性,结果见表,试作秩相关分析。

1、分别对XY的观察值从小到大排序编秩,相同值取平均秩次。

2、以秩次代入公式计算

秩相关系数的假设检验

类似于积矩相关系数,关于秩相关系数的检验假设为

H_{0}\rho _{s}=0H_{1}\rho _{s}\neq 0\alpha= 0.05

n≤50时,可 查书后关于秩相关系数的Spearman临界值表,若r_{s}超过临界值,则拒绝 H_{0}n>50 时,也可采用式(10-5)和式(10-6)作t检验。

例 对以下例子的秩相关系数作假设检验。

例中算得r_{s}=-0.741,n= 10,查秩相关系数临界值表,\left | r_{s} \right | r_{ 10,0.05 } =0.648P, P



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3