【统计】回归系数与相关系数的联系与区别

您所在的位置:网站首页 函数关系和统计关系 【统计】回归系数与相关系数的联系与区别

【统计】回归系数与相关系数的联系与区别

2024-07-08 20:49| 来源: 网络整理| 查看: 265

目录 一、基础知识二、回归系数与相关系数1.定义2.二者的联系3.二者的区别

假设有两个随机变量 ( x , y ) (x,y) (x,y),其 N N N个样本组合为 ( x 1 , x 2 , … , x N ) (x_1,x_2,\dots,x_N) (x1​,x2​,…,xN​)和 ( y 1 , y 2 , … , y N ) (y_1,y_2,\dots,y_N) (y1​,y2​,…,yN​)。

一、基础知识

单个变量 x x x的特征值为: 标准差(standard deviation): σ x = ∑ i = 1 N ( x i − x ˉ ) 2 N \sigma_x=\sqrt{\frac{\sum_{i=1}^N(x_{i}-\bar{x})^2}{N}} σx​=N∑i=1N​(xi​−xˉ)2​ ​ 方差(variance):标准差的平方,即 σ x 2 \sigma_x^2 σx2​

变量 X X X和 Y Y Y的特征值为:协方差(covariance): σ x y = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N \sigma_{xy}=\frac{\sum_{i=1}^N(x_{i}-\bar{x})(y_{i}-\bar{y})}{N} σxy​=N∑i=1N​(xi​−xˉ)(yi​−yˉ​)​

二、回归系数与相关系数

假设存在回归方程: y = a x + ε y y=ax+\varepsilon_y y=ax+εy​,其中 ε y \varepsilon_y εy​表示误差项。

1.定义

回归系数(regression coefficient): 度量一个变量对另一个变量的线性影响大小。如,用 y y y对 x x x进行线性回归,得到的 x x x的系数即为回归系数,记为 r y x r_{yx} ryx​。在上式中,我们可知, r y x = a r_{yx}=a ryx​=a。

相关系数(correction coefficient): 也称作Pearson相关系数,用来度量两个变量之间的相关性(或联系的紧密程度)。该系数取值为 [ − 1 , 1 ] [-1,1] [−1,1],如果越靠近正负1,表明两个变量之间的线性关系越明显;越接近0,表明两个变量之间几乎没有线性关系。当其为0时,说明两个变量之间不存在线性关系。

2.二者的联系

回归系数 r r r: 令 r y x r_{yx} ryx​表示用 y y y对 x x x作线性回归后得到的 x x x的回归系数,其计算方法为: r y x = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N ∑ i = 1 N ( x i − x ˉ ) 2 N = σ x y σ x 2 . ( 1 ) \begin{aligned} r_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x_i-\bar{x})^2}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\\ &=\frac{\sigma_{xy}}{\sigma_x^2}. \end{aligned}(1) ryx​​=∑i=1N​(xi​−xˉ)2∑i=1N​(xi​−xˉ)(yi​−yˉ​)​=N∑i=1N​(xi​−xˉ)2​N∑i=1N​(xi​−xˉ)(yi​−yˉ​)​​=σx2​σxy​​.​(1) 相关系数 ρ \rho ρ

变量 y y y和 x x x的相关系数的计算方法为: ρ y x = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N ∑ i = 1 N ( x i − x ˉ ) 2 N ∑ i = 1 N ( y i − y ˉ ) 2 N = σ x y σ x σ y . ( 2 ) \begin{aligned} \rho_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^N(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^N(y_i-\bar{y})^2}}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\sqrt{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\sqrt{\frac{\sum_{i=1}^N(y_i-\bar{y})^2}{N}}}\\ &=\frac{\sigma_{xy}}{\sigma_x\sigma_y}. \end{aligned}(2) ρyx​​=∑i=1N​(xi​−xˉ)2 ​∑i=1N​(yi​−yˉ​)2 ​∑i=1N​(xi​−xˉ)(yi​−yˉ​)​=N∑i=1N​(xi​−xˉ)2​ ​N∑i=1N​(yi​−yˉ​)2​ ​N∑i=1N​(xi​−xˉ)(yi​−yˉ​)​​=σx​σy​σxy​​.​(2) 所以,由上面两个式子联立可得: r y x = ρ y x ⋅ σ y σ x . r_{yx}=\rho_{yx}\cdot\frac{\sigma_y}{\sigma_x}. ryx​=ρyx​⋅σx​σy​​. 类似地,拓展到多元线性回归的情况下,假设偏方差 σ y ⋅ z 2 \sigma_{y\cdot z}^2 σy⋅z2​表示固定 z z z的前提下 y y y的方差,则有偏回归系数 r y x ⋅ z r_{yx \cdot z} ryx⋅z​和偏相关系数 ρ y x ⋅ z \rho_{yx \cdot z} ρyx⋅z​之间的关系为: r y x ⋅ z = ρ y x ⋅ z ⋅ σ y ⋅ z σ x ⋅ z . r_{yx\cdot z}=\rho_{yx \cdot z}\cdot \frac{\sigma_{y\cdot z}}{\sigma_{x\cdot z}}. ryx⋅z​=ρyx⋅z​⋅σx⋅z​σy⋅z​​.

3.二者的区别

(1)意义上:回归系数是描述自变量如何在数值上与因变量的相关性,即 r y x r_{yx} ryx​表示 x x x每增(减)1个单位, y y y平均改变 a a a个单位;而相关系数是一种统计度量方法,用于度量变量之间的相关关系的密切程度。

(2)用途上:回归系数是为了拟合最佳模型,在已知另一个自变量的基础上预测对应的因变量;而相关系数是用来衡量变量之间的线性相关关系。

(3)对称性:用 x x x对 y y y进行线性回归得到的回归系数 r x y r_{xy} rxy​不等于用 y y y对 x x x进行线性回归得到的回归系数 r y x r_{yx} ryx​;而 x x x与 y y y的相关系数 ρ x y \rho_{xy} ρxy​等于 y y y与 x x x的相关系数 ρ y x \rho_{yx} ρyx​。

(4)变量含义:回归系数 r y x r_{yx} ryx​蕴含了自变量 x x x的单位变化对因变量 y y y的影响;相关系数 ρ y x \rho_{yx} ρyx​表示自变量 x x x和因变量 y y y一起变化的程度。

(5)取值范围:回归系数的取值范围为 [ − ∞ , ∞ ] [-\infty,\infty] [−∞,∞],相关系数的取值范围为 [ − 1 , 1 ] [-1,1] [−1,1]。

参考资料:

线性回归,维基百科.


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3