【统计】回归系数与相关系数的联系与区别 |
您所在的位置:网站首页 › 函数关系和统计关系 › 【统计】回归系数与相关系数的联系与区别 |
目录
一、基础知识二、回归系数与相关系数1.定义2.二者的联系3.二者的区别
假设有两个随机变量 ( x , y ) (x,y) (x,y),其 N N N个样本组合为 ( x 1 , x 2 , … , x N ) (x_1,x_2,\dots,x_N) (x1,x2,…,xN)和 ( y 1 , y 2 , … , y N ) (y_1,y_2,\dots,y_N) (y1,y2,…,yN)。 一、基础知识单个变量 x x x的特征值为: 标准差(standard deviation): σ x = ∑ i = 1 N ( x i − x ˉ ) 2 N \sigma_x=\sqrt{\frac{\sum_{i=1}^N(x_{i}-\bar{x})^2}{N}} σx=N∑i=1N(xi−xˉ)2 方差(variance):标准差的平方,即 σ x 2 \sigma_x^2 σx2 变量 X X X和 Y Y Y的特征值为:协方差(covariance): σ x y = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N \sigma_{xy}=\frac{\sum_{i=1}^N(x_{i}-\bar{x})(y_{i}-\bar{y})}{N} σxy=N∑i=1N(xi−xˉ)(yi−yˉ) 二、回归系数与相关系数假设存在回归方程: y = a x + ε y y=ax+\varepsilon_y y=ax+εy,其中 ε y \varepsilon_y εy表示误差项。 1.定义回归系数(regression coefficient): 度量一个变量对另一个变量的线性影响大小。如,用 y y y对 x x x进行线性回归,得到的 x x x的系数即为回归系数,记为 r y x r_{yx} ryx。在上式中,我们可知, r y x = a r_{yx}=a ryx=a。 相关系数(correction coefficient): 也称作Pearson相关系数,用来度量两个变量之间的相关性(或联系的紧密程度)。该系数取值为 [ − 1 , 1 ] [-1,1] [−1,1],如果越靠近正负1,表明两个变量之间的线性关系越明显;越接近0,表明两个变量之间几乎没有线性关系。当其为0时,说明两个变量之间不存在线性关系。 2.二者的联系回归系数 r r r: 令 r y x r_{yx} ryx表示用 y y y对 x x x作线性回归后得到的 x x x的回归系数,其计算方法为: r y x = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N ∑ i = 1 N ( x i − x ˉ ) 2 N = σ x y σ x 2 . ( 1 ) \begin{aligned} r_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^N(x_i-\bar{x})^2}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\\ &=\frac{\sigma_{xy}}{\sigma_x^2}. \end{aligned}(1) ryx=∑i=1N(xi−xˉ)2∑i=1N(xi−xˉ)(yi−yˉ)=N∑i=1N(xi−xˉ)2N∑i=1N(xi−xˉ)(yi−yˉ)=σx2σxy.(1) 相关系数 ρ \rho ρ 变量 y y y和 x x x的相关系数的计算方法为: ρ y x = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 N ( x i − x ˉ ) 2 ∑ i = 1 N ( y i − y ˉ ) 2 = ∑ i = 1 N ( x i − x ˉ ) ( y i − y ˉ ) N ∑ i = 1 N ( x i − x ˉ ) 2 N ∑ i = 1 N ( y i − y ˉ ) 2 N = σ x y σ x σ y . ( 2 ) \begin{aligned} \rho_{yx}&=\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^N(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^N(y_i-\bar{y})^2}}\\ &=\frac{\frac{\sum_{i=1}^N(x_i-\bar{x})(y_i-\bar{y})}{N}}{\sqrt{\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N}}\sqrt{\frac{\sum_{i=1}^N(y_i-\bar{y})^2}{N}}}\\ &=\frac{\sigma_{xy}}{\sigma_x\sigma_y}. \end{aligned}(2) ρyx=∑i=1N(xi−xˉ)2 ∑i=1N(yi−yˉ)2 ∑i=1N(xi−xˉ)(yi−yˉ)=N∑i=1N(xi−xˉ)2 N∑i=1N(yi−yˉ)2 N∑i=1N(xi−xˉ)(yi−yˉ)=σxσyσxy.(2) 所以,由上面两个式子联立可得: r y x = ρ y x ⋅ σ y σ x . r_{yx}=\rho_{yx}\cdot\frac{\sigma_y}{\sigma_x}. ryx=ρyx⋅σxσy. 类似地,拓展到多元线性回归的情况下,假设偏方差 σ y ⋅ z 2 \sigma_{y\cdot z}^2 σy⋅z2表示固定 z z z的前提下 y y y的方差,则有偏回归系数 r y x ⋅ z r_{yx \cdot z} ryx⋅z和偏相关系数 ρ y x ⋅ z \rho_{yx \cdot z} ρyx⋅z之间的关系为: r y x ⋅ z = ρ y x ⋅ z ⋅ σ y ⋅ z σ x ⋅ z . r_{yx\cdot z}=\rho_{yx \cdot z}\cdot \frac{\sigma_{y\cdot z}}{\sigma_{x\cdot z}}. ryx⋅z=ρyx⋅z⋅σx⋅zσy⋅z. 3.二者的区别(1)意义上:回归系数是描述自变量如何在数值上与因变量的相关性,即 r y x r_{yx} ryx表示 x x x每增(减)1个单位, y y y平均改变 a a a个单位;而相关系数是一种统计度量方法,用于度量变量之间的相关关系的密切程度。 (2)用途上:回归系数是为了拟合最佳模型,在已知另一个自变量的基础上预测对应的因变量;而相关系数是用来衡量变量之间的线性相关关系。 (3)对称性:用 x x x对 y y y进行线性回归得到的回归系数 r x y r_{xy} rxy不等于用 y y y对 x x x进行线性回归得到的回归系数 r y x r_{yx} ryx;而 x x x与 y y y的相关系数 ρ x y \rho_{xy} ρxy等于 y y y与 x x x的相关系数 ρ y x \rho_{yx} ρyx。 (4)变量含义:回归系数 r y x r_{yx} ryx蕴含了自变量 x x x的单位变化对因变量 y y y的影响;相关系数 ρ y x \rho_{yx} ρyx表示自变量 x x x和因变量 y y y一起变化的程度。 (5)取值范围:回归系数的取值范围为 [ − ∞ , ∞ ] [-\infty,\infty] [−∞,∞],相关系数的取值范围为 [ − 1 , 1 ] [-1,1] [−1,1]。 参考资料: 线性回归,维基百科. |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |