4.1 复习笔记

您所在的位置:网站首页 clrm模型假设 4.1 复习笔记

4.1 复习笔记

2024-07-15 16:14| 来源: 网络整理| 查看: 265

第4章 多元回归分析:推断 4.1 复习笔记

一、OLS估计量的抽样分布

1.假定MLR.6(正态性)

总体误差u独立于解释变量,而且服从均值为零和方差为的正态分布:

2.经典线性模型

就横截面回归中的应用而言,从假定MLR.1~MLR.6这六个假定被称为经典线性模型假定。将这六个假定下的模型称为经典线性模型(CLM)。

在CLM假定下,OLS估计量比在高斯—马尔可夫假定下具有更强的效率性质。可以证明,OLS估计量是最小方差无偏估计,即在所有的无偏估计中,OLS具有最小的方差。

总结CLM总体假定的一种简洁方法是:

误差项的正态性导致OLS估计量的正态抽样分布。

3.用中心极限定理去推导u的分布的缺陷

(1)虽然u是影响y而又观测不到的众多因素之和,且各因素可能各有极为不同的总体分布,但中心极限定理(CLT)在这些情形下仍成立。正态近似的效果取决于u中有多少因素,以及u中包含因素分布的差异。

(2)更严重的问题是,正态近似假定所有不可观测因素都以独立而可加的方式影响着Y。因此如果u是不可观测因素的一个复杂函数,那么CLT论证并不真正适用。

4.误差项的正态性导致OLS估计量的正态抽样分布

定理4.1:正态抽样分布

在CLM假定MLR.1~MLR.6下,以自变量的样本值为条件,有:

因此

注:除服从正态分布外,的任何线性组合也都是正态分布,而且的任何一个子集也都具有一个联合正态分布。

二、检验对单个总体参数的假设:t检验

1.总体回归函数

总体模型可写作:

假定它满足CLM假定,OLS得到的无偏估计量。

2.定理4.2:标准化估计量的t分布

在CLM假定MLK.1~MLK.6下,,其中,k+1是总体模型中未知参数的个数(k个斜率参数和截距)。

采用t分布而不是标准正态分布的原因是中的常数已经被随机变量所取代,而且有

3.单个参数的检验

虚拟假设(原假设)

用来检验式的统计量被称为的t统计量或t比率,并被定义为

(1)单侧对立假设检验

①单侧对立假设:。这种检验意味着排除了系数的总体值小于0的可能性。

②拒绝法则

显著性水平:即当H0实际上正确时拒绝它的概率。在H0下,服从一个t分布,因此,寻找的一个“足够大”的正值,以拒绝H0。在的显著性水平上“足够大”的定义是,在含有n-k-1个自由度的t分布中,处在百分位中第位的数值。

,H0在的显著性水平上被拒绝并支持H1,c为在显著水平下,自由度为n-k-1时t分布的临界值。该拒绝法则被称为单侧检验法。

③临界值

临界值等于。随着显著性水平下降,临界值会提高,以致要拒绝H0就需要越来越大的

如果临界值来自t分布的左侧,则将拒绝法则看成:

其中,c是对立假设的临界值。

(2)双侧对立假设

虚拟假设与对立假设分别为:

在这个对立假设下,xj对y具有未明确说明是正还是负的影响。

拒绝的法则是,此时临界值c为。在没有明确地表述对立假设时,通常都认为是双侧的。如果在5%的显著性水平上拒绝H0,通常说“在显著性水平为5%时统计上显著异于零”。如果H0未被拒绝,就说“xj在显著性水平为5%时是统计上不显著的”。(在双侧假设中,求临界值时显著水平为给定的显著水平的一半)

(3)检验的其他假设

检验是检验变量是否显著,是常见的检验,但有时也会检验是否等于某个非零常数,此时虚拟假设表述为。相应的t统计量为:

t统计量最好写成:

若t>c,拒绝虚拟假设而支持对立假设,表示在适当的显著性水平上,

(4)计算t检验的p值

p值就是给定t统计量的观测值,能拒绝虚拟假设的最小显著性水平。p值是一个概率,总是介于0和1之间。

p值的解释:在虚拟假设正确时,所观察到的t统计量至少和所得到的t统计量一样大的概率。这意味着,小p值是拒绝虚拟假设的证据,而大p值不能提供拒绝H0的证据。

一旦p值被计算出来,在任何理想的显著性水平下都能进行经典检验。如果用表示检验的显著性水平(以小数形式表示),那么,若,则拒绝虚拟假设;否则,在的显著性水平下,就不能拒绝H0。

(5)对经典假设检验用语的提醒

当H0未被拒绝时,说明“在x%的水平上,不能拒绝H0”,而不能断定“在x%的水平上接受了H0”。

(6)经济或实际显著性与统计显著性

①一个变量xj的统计显著性完全由的大小决定,而一个变量的经济显著性或实际显著性则与的大小(及符号)相关。

②检验时的t统计量被定义为估计值与其标准误之比:

能标志统计显著性的原因可能是“很大”或“很小”。在实践中,区分导致t统计量统计显著的原因很重要。过多地强调统计显著性,在一个变量的估计效应不太大的情况下也认为它在解释y时很“重要”,会导致错误的结论。

③在处理大样本时,除了看t统计量外,对系数的大小加以解释也特别重要。对于大样本容量,参数可以估计得相当准确,标准误与系数估计值相比通常都相当小,从而常常导致统计显著性。因此样本容量越大时,应该使用越小的显著性水平,以抵偿标准误越来越小所带来的后果。

④样本容量较大时,很大的标准误可能是多重共线性造成的结果。而在小样本中,解释变量高度相关时,很难精确估计其偏效应。

(7)检验变量在多元回归模型中的经济和统计显著性的准则

①检查统计显著性。如果该变量是统计显著的,那就讨论系数的大小,以对其实际或经济上的重要性有所认识。

②如果一个变量在通常的显著性水平(10%、5%或1%)上不是统计显著的,但如果这个变量对y具有很大的预期的影响,而这个影响在实践中很大,那就应该对t统计量计算一个p值。对于小样本容量,有时可以让p值大到0.20。

③t统计量很小的变量都具有“错误”的符号。

三、置信区间

在经典线性模型的假定之下,能很容易地为总体参数构造一个置信区间(CI)。因为置信区间为总体参数的可能取值提供了一个范围,而不只是一个点估计值,所以又被称为区间估计(值)。

置信区间的下界和上界分别是:

置信区间的含义:在实际中如果一次又一次的获得随机样本,每次都计算并构造一个样本区间,那么总体值将在的样本区间中出现。

四、检验关于参数的一个线性组合假设

原虚拟假设与对立假设为:

将虚拟假设和对立假设分别重新写成:

不能简单的使用的个别统计量去检验H0,需要构造新的t统计量,t统计量表示为:

一旦得到t统计量,检验过程就同以前一样,可是在回归结果的报告中并没有的标准误,并且并不成立。

因为

所以

s12为的一个估计值。在实际操作中,我们不是通过上式去计算,而是直接给出所需标准误的不同模型。将之差定义为一个新参数,要检验,将写为,代入模型中去,通过构造新的变量便可以估计出的标准误,接下来进行t检验步骤即可。

五、对多个线性约束的检验:F检验

1.对排除性约束的检验

对排除性约束的检验即检验一组自变量是否对因变量都没有影响。虚拟假设是,在控制了一些变量之后,余下的变量对y没有任何影响。对多重约束进行的检验被称为多重假设检验或联合假设检验。

一个特定的t统计量只能检验一个对其他参数没有限制的假设,因此必须导出一个对多重约束的检验。

2.推导F检验统计量

将具有k个自变量的不受约束模型写成:

不受约束模型中的参数有k+1个。

假设有q个排除性约束要检验,即虚拟假设表示,有q个变量的系数为零。假定这q个变量是自变量中的最后q个:

虚拟假设:

它对模型施加了q个排除性约束。

对立假设意味着列出的参数至少有一个异于零。

受约束模型为:

当从不受约束模型变为受约束模型时,SSR的相对增加对检验假设而言应该是有意义的。定义F统计量为

其中,SSRr是受约束模型的残差平方和,SSRur是不受约束模型的残差平方和。因为SSRr不可能比SSRur小,所以F统计量总是非负的(而且几乎总是严格为正)。

q=分子自由度=dfr-dfur,表明q是受约束模型与不受约束模型的自由度之差,即q为约束条件的个数(df=观测次数-被估计参数的个数。)由于受约束模型参数较少,而每个模型都使用同样的n次观测,所以dfr总是大于dfur。

N-k-1=分母自由度=dfur,F的分母恰好就是不受约束模型中的一个无偏估计量。

在H0下(并假设CLM假定成立),F统计量服从自由度为(q,n-k-1)的F随机变量的分布,写成。如果F>c,就在所选定的显著性水平上拒绝H0而支持H1。如果拒绝H0,就说,在适当的显著性水平上是联合统计显著的(或简单地说是联合显著的)。

3.F统计量和t统计量之间的关系

(1)检验单个变量之排除性的F统计量,等于对应t统计量的平方。

(2)F统计量和t统计量适用与单侧检验和双侧检验的情况

①因为具有分布,所以在双侧对立假设下,这两种方法得到完全一样的结果。

②由于t统计量可用来检验单侧对立假设,所以它对于检验单个参数假设就更灵活。还因为t统计量比F统计量更容易获得,所以实在没有理由使用F统计量对单个参数假设进行检验。

(3)F统计量和t统计量适用与单个检验和联合检验的情况

两(或多)个各自具有不显著t统计量的变量,合起来可能十分显著。还有一种可能,在一组解释变量中,一个变量具有显著的t统计量,但在常用的显著性水平上,这组变量却不是联合显著的。虽然规定F统计量用于侦查一组系数是否异于零,但它绝不是判断单个系数是否异于零的最佳检验。t检验最适合检验单个假设。

当一个变量十分显著时,将它与其他某组变量联合检验,结果便是联合显著的。在这种情形中,同时拒绝这两个虚拟假设并不存在逻辑上的不一致。

4.F统计量的R2型

(1)使用受约束模型和不受约束模型的R2来计算F统计量更方便的原因

①R2必定介于0和1之间,而SSR则在很大程度上依赖于度量单位,使得基于SSR的计算繁冗。

②R2在几乎所有的回归中都会报告,而SSR则不然,使用R2来检验变量的排除就较容易。

(2)R2型F统计量

5.计算F检验的p值

p值对报告F检验的结果特别有用。由于F分布取决于分子和分母的自由度,所以只是看一下F统计量的值或一两个临界值,对拒绝虚拟假设之证据的强弱很难有直观感觉。在F检验的背景下,p值被定义为:

p值的解释:给定虚拟假设是正确的,观察到的F值至少和所得到的F值一样大的概率。

6.回归整体显著性的F统计量

在含有k个自变量的模型中,可以把虚拟假设写成:

H0:x1,x2,…,xk都无助于解释y

用参数表示,这个虚拟假设就是所有的斜率参数都是零:

在式中有k个约束,得到受约束模型

该估计式的R2为零。因为没有解释变量,所以y中的变异一点都没有得到解释。

F统计量可写成

其中,R2就是y对回归的通常R2。

7.检验一般的线性约束

检验排除性约束仍是F统计量最重要的应用。但当一种理念所蕴涵的约束比仅仅排除某些自变量更为复杂时,仍可以直接使用F统计量进行检验。

因变量不同的模型,不能使用F统计量的R2型。

六、报告回归结果

1.所估计的OLS系数估计值

对于分析中的关键变量,对所估计的系数做出解释。

2.标准误

标准误总是应该与所估计的系数一起包括进来,原因在于:

(1)标准误有助于判断被检验的虚拟假设,虚拟假设并非总是总体参数为0;

(2)有助于计算置信区间。

3.回归的R2

(1)R2提供拟合优度的一种度量;

(2)简化排除性约束F统计量的计算。

4.观测次数



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3