皮尔逊Person相关系数 |
您所在的位置:网站首页 › 两个变量之间的协方差必定在正负1之间 › 皮尔逊Person相关系数 |
笔记整理来自《清风数学建模课程》 哔哩哔哩相关课程链接 目录 一、总体和样本 二、总体皮尔逊Person相关系数 三、样本皮尔逊Person相关系数 四、相关性可视化 五、关于皮尔逊相关系数的一些理解误区 (一)容易犯错的点 (二)总结 六、对相关系数大小的解释 七、例题——计算皮尔逊相关系数 (一)描述性统计 1. matlab编程 2. Excel处理 3.SPSS处理 (二)皮尔逊相关系数计算 1. 画矩阵散点图(看变量之间是否是线性的关系) 2. 皮尔逊相关系数的计算 3. 美化皮尔逊相关系数表格 一、总体和样本总体 ——所要考察对象的全部个体叫做总体.我们总是希望得到总体数据的一些特征(例如均值方差等) 样本 ——从总体中所抽取的一部分个体叫做总体的一个样本. 计算这些抽取的样本的统计量来估计总体的统计量:例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)。 例子: 我国10年进行一次的人口普查得到的数据就是总体数据。 大家自己在QQ群发问卷叫同学帮忙填写得到的数据就是样本数据。 二、总体皮尔逊Person相关系数如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。 注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。
皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X和Y标准化后的协方差。皮尔逊相关系数反映的是一种线性相关系数。 三、样本皮尔逊Person相关系数样本协方差和样本标准差的分母是n‐1 。 四、相关性可视化通过绘制散点图可以很容易地判定两个数据对象x和y之间的相关性。 皮尔逊相关系数越接近于1或者-1,X和Y的关系越接近于一条直线。当相关系数为0时,可以看出,X和Y的规律不怎么明显,但是肯定不是线性的关系。 下面四个散点图对应的数据的皮尔逊相关系数均为0.816 图2明显不是线性的关系,图3和图4说明皮尔逊相关系数容易受到异常值的影响(如果没有异常点,正常的图像应该为红线所示。特别是图4,如果没有异常点,皮尔逊相关系数应该为0,X和Y是没有关系的)。 相关系数计算结果为0 虽然计算出的皮尔逊相关系数为0,但是不能说明X和Y完全没有关系,这里可以明显看出X和Y应该为二次函数的关系。 为什么会出现上述的结果呢? 原因:皮尔逊相关系数只是用来衡量两个变量线性相关程度的指标;也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何。 (1)非线性相关也会导致线性相关系数很大,例如图2。 (2)离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98。 (3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到了异常值的影响。 (4)相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关),例如图5。 (二)总结(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱; (2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。 六、对相关系数大小的解释越接近于1或者-1相关性越强。 上表所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的(比如要求比较高的时候,可以说0.9-1才是强相关)。事实上,比起相关系数的大小,我们往往更关注的是显著性。 (假设检验) 七、例题——计算皮尔逊相关系数现有某中学八年级所有女学生的体测样本数据,请见下表,试计算各变量之间的皮尔逊相关系数。 Matlab中基本统计量的函数(一般用标粗的): 这些函数默认都是按列计算,如果令第二个参数为1,则变为按行计算。 %%导入数据 clear;clc load 'physical fitness test.mat' %文件名如果有空格隔开,那么需要加引号 %% 统计描述 MIN = min(Test); % 每一列的最小值 MAX = max(Test); % 每一列的最大值 MEAN = mean(Test); % 每一列的均值 MEDIAN = median(Test); %每一列的中位数 SKEWNESS = skewness(Test); %每一列的偏度 KURTOSIS = kurtosis(Test); %每一列的峰度 STD = std(Test); % 每一列的标准差 RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD] %将这些统计量放到一个矩阵中中表示然后将matlab中RESULT中的数据粘贴到Excel中即可。下面表格是描述性统计结果: 身高体重肺活量50米跑立定跳远坐位体前屈最小值1351614507.8520.5最大值1716532721520517.5均值156.003446.783422333.23410.79201166.82579.496616中位数15747239110.71679.6偏度-0.29539-0.36069-0.285230.709546-0.83687-0.22497峰度2.7427049.4355852.7519743.2994148.4313292.75503标准差7.389415.031473350.43621.31087316.813592.938186 2. Excel处理第一步:选择【数据】【数据分析】【描述统计】 第二步:选择数据所在的区域以及输出区域。 输出结果(根据需要整理) 身高 体重 肺活量 50米跑 立定跳远 坐位体前屈 平均156.0034平均46.78342平均2333.234平均10.79201平均166.8257平均9.496616标准误差0.30396标准误差0.206967标准误差14.41502标准误差0.053922标准误差0.691619标准误差0.120861中位数157中位数47中位数2391中位数10.7中位数167中位数9.6众数160众数50众数2400众数10.9众数160众数9.8标准差7.38941标准差5.031473标准差350.4362标准差1.310873标准差16.81359标准差2.938186方差54.60338方差25.31572方差122805.5方差1.718388方差282.6967方差8.632938峰度-0.24926峰度6.500587峰度-0.23992峰度0.312184峰度5.487782峰度-0.23683偏度-0.29615偏度-0.36161偏度-0.28595偏度0.711352偏度-0.839偏度-0.22554区域36区域49区域1822区域7.2区域153区域17最小值135最小值16最小值1450最小值7.8最小值52最小值0.5最大值171最大值65最大值3272最大值15最大值205最大值17.5求和92198求和27649求和1378941求和6378.08求和98594求和5612.5观测数591观测数591观测数591观测数591观测数591观测数591 3.SPSS处理第一步:将excel中的数据导入到SPSS中,选择【分析】【描述统计】【描述】 第二步:勾选自己需要统计的值 统计结果(统计结果整理可看问卷与量表数据分析(SPSS+AMOS)学习笔记(六) : SPSS 描述性统计分析): 第一步:选择【图形】【旧对话框】【散点图/点图】 第二步:选择【矩阵散点图】【定义】 第三步:将变量全部放进【矩阵变量】中 输出结果: 可以发现,变量之间大多数不是线性关系,所以用皮尔逊相关系数是不能说明两个变量之间的相关关系的。下面的内容假设变量之间是线性相关的,我们该如何求其皮尔逊相关系数呢? 2. 皮尔逊相关系数的计算matlab代码: %% 计算各列之间的相关系数 % 在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系 % 这里使用Spss比较方便: 图形 - 旧对话框 - 散点图/点图 - 矩阵散点图 R = corrcoef(Test) % correlation coefficientR = corrcoef(A) 返回 A 的相关系数的矩阵,其中 A 的列表示随机变量(指标),行表示观测值(样本)。 R = corrcoef(A,B) 返回两个随机变量 A 和 B (两个向量)之间的系数。 我们要计算体测的六个指标之间的相关系数,只需要使用下面这个语句: R = corrcoef(Test); 输出结果: 身高体重肺活量50米跑立定跳远坐位体前屈身高10.06653149-0.21766-0.1920.0439730.09506865体重0.066531510.0953750.068540.027943-0.0160892肺活量-0.21766280.0953748510.2897510.024827-0.07493150米跑-0.19200150.068540.2897511-0.05868-0.0018764立定跳远0.04397290.027942850.024827-0.058681-0.0174066坐位体前屈0.0950686-0.01608918-0.07493-0.00188-0.017411 3. 美化皮尔逊相关系数表格第一步:调整行高和列宽,保证表格差不多为正方形。保留小数点后四位即可。 第二步:【开始】【条件格式】【色阶】,任意选择一种色阶样式 第三步:【条件格式】【管理规则】【编辑规则】。将最大值调整为1,最小值调整为-1,中间值调整为0. 最终结果: 颜色越深,代表相关系数越大。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |