方差分析表和回归分析表的解读 各种统计量检验的决策准则 各种假设检验的假设的建立
第十一章 一元线性回归
11.1 变量间的关系的度量
11.1.1 变量间的关系
函数关系:设有两个x和y,y随x一起变化,并完全依赖于x,y是x的函数,
y
=
f
(
x
)
y = f(x)
y=f(x),x为自变量,y为因变量。相关关系:变量之前存在的不确定的关系称为相关关系。
一个变量的取值不能由另一个变量唯一确定当变量x 取某个值时,变量y 的取值对应着一个分布各观测点分布在直线周围
11.1.2 相关关系的描述与测量
散点图:可以通过散点图判断两个变量之间有无相关关系,并对变量间的关系形态做出大致的描述。 相关系数:是度量变量之间线性关系强度的一个统计量。
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为
ρ
ρ
ρ;若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为
r
r
r,也称为
Pearson
\textbf{Pearson}
Pearson相关系数或者线性相关系数。
r
=
n
∑
x
y
−
∑
x
∑
y
n
∑
x
2
−
(
∑
x
)
2
−
n
∑
y
2
−
(
∑
y
)
2
r = \frac{n\sum{xy} - \sum{x}\sum{y}}{\sqrt{n\sum{x^2} - (\sum{x})^2} - \sqrt{n\sum{y^2} - (\sum{y})^2}}
r=n∑x2−(∑x)2
−n∑y2−(∑y)2
n∑xy−∑x∑y 相关系数
r
r
r 的性质:
r
r
r 的取值范围为
[
0
,
1
]
[0,1]
[0,1];
y
和
x
:
{
完
全
负
线
性
相
关
关
系
,
−
1
=
r
负
线
性
相
关
关
系
,
−
1
<
r
<
0
不
存
在
相
关
关
系
,
r
=
0
正
线
性
相
关
关
系
,
0
<
r
<
1
完
全
正
线
性
相
关
关
系
,
r
=
1
可
见
,
当
∣
r
∣
=
1
是
y
的
取
值
完
全
依
赖
于
x
,
二
者
为
函
数
关
系
。
∣
r
∣
越
趋
于
1
表
示
关
系
越
强
;
∣
r
∣
越
趋
于
0
表
示
关
系
越
弱
。
y和x: \begin{cases} 完全负线性相关关系 & ,-1 = r\\ 负线性相关关系 & ,-1 < r < 0 \\ 不存在相关关系 & ,\qquad\quad r = 0\\ 正线性相关关系 &,\quad 0 < r < 1 \\ 完全正线性相关关系 & ,\qquad\quad r = 1\\ \end{cases} \\ \qquad \\ 可见,当|r| = 1是y的取值完全依赖于x,二者为函数关系。\\ |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱。
y和x:⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧完全负线性相关关系负线性相关关系不存在相关关系正线性相关关系完全正线性相关关系,−1=r,−1tα/2,拒绝
H
0
H_0
H0,回归系数等于0的可能性小于
α
\alpha
α,表明两个变量之间的线性关系是显著的。
t
<
t
α
/
2
t < t_{\alpha/2}
t α
P>α,不拒绝
H
0
H_0
H0,二者不存在显著的线性关系。
11.3 利用回归方程进行预测
11.3.1 平均值的置信区间
置信区间(confidence interval):利用估计的回归方程,对于自变量x 的一个给定值
x
0
x_0
x0 ,求出因变量
y
y
y的平均值的估计区间,这一估计区间称为置信区间。
11.3.2 个别值的预测区间
预测区间(prediction interval):利用估计的回归方程,对于自变量x 的一个给定值x0 ,求出因变量y 的一个个别值的估计区间,这一区间称为预测区间。
比平均值的公式根号内多了个1而已:
11.4 残差分析
11.4.1 残差与残差图(检验方差齐性)
残差:因变量的观测值与根据估计的回归方程求出的预测值之差,用
e
e
e表示,反映了用估计的回归方程去预测而引起的误差。
第i个观测值的残差写为:
e
i
=
y
i
−
y
^
i
e_i = y_i - \hat y_i
ei=yi−y^i可用于确定有关误差项ε的假定是否成立用于检测有影响的观测值
11.4.2 标准化残差(检验正态性)
标准化残差:也称为Pearson 残差或半学生化残差(semistudentized residuals)。
第i个观察值的标准化残差写为:
z
e
i
=
e
i
s
e
=
y
i
−
y
^
i
s
e
s
e
是
残
差
的
标
准
差
的
估
计
。
z_{e_i} = \frac{e_i}{s_e} = \frac{y_i - \hat y_i}{s_e} \qquad s_e是残差的标准差的估计。
zei=seei=seyi−y^ise是残差的标准差的估计。用以直观地判断误差项服从正态分布这一假定是否成立
若假定成立,标准化残差的分布也应服从正态分布,因此在标准化残差图中,大约有95%的标准化残差在-2到+2之间
|