皮尔逊Person相关系数

您所在的位置:网站首页 两个变量之间的协方差必定在正负1之间 皮尔逊Person相关系数

皮尔逊Person相关系数

2024-07-11 13:18| 来源: 网络整理| 查看: 265

笔记整理来自《清风数学建模课程》 哔哩哔哩相关课程链接

目录

一、总体和样本

二、总体皮尔逊Person相关系数

三、样本皮尔逊Person相关系数

 四、相关性可视化

五、关于皮尔逊相关系数的一些理解误区

(一)容易犯错的点

(二)总结

六、对相关系数大小的解释

七、例题——计算皮尔逊相关系数

 (一)描述性统计

1. matlab编程

 2. Excel处理

 3.SPSS处理

 (二)皮尔逊相关系数计算

1. 画矩阵散点图(看变量之间是否是线性的关系)

2. 皮尔逊相关系数的计算

 3. 美化皮尔逊相关系数表格

一、总体和样本

总体 ——所要考察对象的全部个体叫做总体.我们总是希望得到总体数据的一些特征(例如均值方差等)

样本 ——从总体中所抽取的一部分个体叫做总体的一个样本.

计算这些抽取的样本的统计量来估计总体的统计量:例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)。 例子: 我国10年进行一次的人口普查得到的数据就是总体数据。 大家自己在QQ群发问卷叫同学帮忙填写得到的数据就是样本数据。

二、总体皮尔逊Person相关系数

如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。

注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。

 

 皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。皮尔逊相关系数反映的是一种线性相关系数。

三、样本皮尔逊Person相关系数

样本协方差和样本标准差的分母是n‐1 。

 四、相关性可视化

通过绘制散点图可以很容易地判定两个数据对象x和y之间的相关性。

皮尔逊相关系数越接近于1或者-1,X和Y的关系越接近于一条直线。当相关系数为0时,可以看出,X和Y的规律不怎么明显,但是肯定不是线性的关系。 

五、关于皮尔逊相关系数的一些理解误区 (一)容易犯错的点

下面四个散点图对应的数据的皮尔逊相关系数均为0.816

 图2明显不是线性的关系,图3和图4说明皮尔逊相关系数容易受到异常值的影响(如果没有异常点,正常的图像应该为红线所示。特别是图4,如果没有异常点,皮尔逊相关系数应该为0,X和Y是没有关系的)。

相关系数计算结果为0

虽然计算出的皮尔逊相关系数为0,但是不能说明X和Y完全没有关系,这里可以明显看出X和Y应该为二次函数的关系。

为什么会出现上述的结果呢?

原因:皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何。

(1)非线性相关也会导致线性相关系数很大,例如图2。 (2)离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98。 (3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到了异常值的影响。 (4)相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关),例如图5。

(二)总结

(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱; (2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。

六、对相关系数大小的解释

 越接近于1或者-1相关性越强。

上表所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的(比如要求比较高的时候,可以说0.9-1才是强相关)。事实上,比起相关系数的大小,我们往往更关注的是显著性。 (假设检验)

七、例题——计算皮尔逊相关系数

现有某中学八年级所有女学生的体测样本数据,请见下表,试计算各变量之间的皮尔逊相关系数。

 (一)描述性统计 1. matlab编程

Matlab中基本统计量的函数(一般用标粗的):

这些函数默认都是按列计算,如果令第二个参数为1,则变为按行计算。

%%导入数据 clear;clc load 'physical fitness test.mat' %文件名如果有空格隔开,那么需要加引号 %% 统计描述 MIN = min(Test); % 每一列的最小值 MAX = max(Test); % 每一列的最大值 MEAN = mean(Test); % 每一列的均值 MEDIAN = median(Test); %每一列的中位数 SKEWNESS = skewness(Test); %每一列的偏度 KURTOSIS = kurtosis(Test); %每一列的峰度 STD = std(Test); % 每一列的标准差 RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD] %将这些统计量放到一个矩阵中中表示

 然后将matlab中RESULT中的数据粘贴到Excel中即可。下面表格是描述性统计结果:

 身高体重肺活量50米跑立定跳远坐位体前屈最小值1351614507.8520.5最大值1716532721520517.5均值156.003446.783422333.23410.79201166.82579.496616中位数15747239110.71679.6偏度-0.29539-0.36069-0.285230.709546-0.83687-0.22497峰度2.7427049.4355852.7519743.2994148.4313292.75503标准差7.389415.031473350.43621.31087316.813592.938186  2. Excel处理

第一步:选择【数据】【数据分析】【描述统计】

 第二步:选择数据所在的区域以及输出区域。

输出结果(根据需要整理)

身高 体重 肺活量 50米跑 立定跳远 坐位体前屈             平均156.0034平均46.78342平均2333.234平均10.79201平均166.8257平均9.496616标准误差0.30396标准误差0.206967标准误差14.41502标准误差0.053922标准误差0.691619标准误差0.120861中位数157中位数47中位数2391中位数10.7中位数167中位数9.6众数160众数50众数2400众数10.9众数160众数9.8标准差7.38941标准差5.031473标准差350.4362标准差1.310873标准差16.81359标准差2.938186方差54.60338方差25.31572方差122805.5方差1.718388方差282.6967方差8.632938峰度-0.24926峰度6.500587峰度-0.23992峰度0.312184峰度5.487782峰度-0.23683偏度-0.29615偏度-0.36161偏度-0.28595偏度0.711352偏度-0.839偏度-0.22554区域36区域49区域1822区域7.2区域153区域17最小值135最小值16最小值1450最小值7.8最小值52最小值0.5最大值171最大值65最大值3272最大值15最大值205最大值17.5求和92198求和27649求和1378941求和6378.08求和98594求和5612.5观测数591观测数591观测数591观测数591观测数591观测数591  3.SPSS处理

第一步:将excel中的数据导入到SPSS中,选择【分析】【描述统计】【描述】

第二步:勾选自己需要统计的值

统计结果(统计结果整理可看问卷与量表数据分析(SPSS+AMOS)学习笔记(六) : SPSS 描述性统计分析):

 (二)皮尔逊相关系数计算 1. 画矩阵散点图(看变量之间是否是线性的关系)

第一步:选择【图形】【旧对话框】【散点图/点图】

第二步:选择【矩阵散点图】【定义】

 第三步:将变量全部放进【矩阵变量】中

输出结果:

 可以发现,变量之间大多数不是线性关系,所以用皮尔逊相关系数是不能说明两个变量之间的相关关系的。下面的内容假设变量之间是线性相关的,我们该如何求其皮尔逊相关系数呢?

2. 皮尔逊相关系数的计算

matlab代码:

%% 计算各列之间的相关系数 % 在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系 % 这里使用Spss比较方便: 图形 - 旧对话框 - 散点图/点图 - 矩阵散点图 R = corrcoef(Test) % correlation coefficient

R = corrcoef(A)  返回 A 的相关系数的矩阵,其中 A 的列表示随机变量(指标),行表示观测值(样本)。 R = corrcoef(A,B) 返回两个随机变量 A 和 B (两个向量)之间的系数。 我们要计算体测的六个指标之间的相关系数,只需要使用下面这个语句: R = corrcoef(Test); 

输出结果:

 身高体重肺活量50米跑立定跳远坐位体前屈身高10.06653149-0.21766-0.1920.0439730.09506865体重0.066531510.0953750.068540.027943-0.0160892肺活量-0.21766280.0953748510.2897510.024827-0.07493150米跑-0.19200150.068540.2897511-0.05868-0.0018764立定跳远0.04397290.027942850.024827-0.058681-0.0174066坐位体前屈0.0950686-0.01608918-0.07493-0.00188-0.017411  3. 美化皮尔逊相关系数表格

第一步:调整行高和列宽,保证表格差不多为正方形。保留小数点后四位即可。

 第二步:【开始】【条件格式】【色阶】,任意选择一种色阶样式

第三步:【条件格式】【管理规则】【编辑规则】。将最大值调整为1,最小值调整为-1,中间值调整为0.

 最终结果:

 颜色越深,代表相关系数越大。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3