4.1 复习笔记

您所在的位置：网站首页 › clrm模型假设 › 4.1 复习笔记

4.1 复习笔记

2024-07-15 16:14| 来源: 网络整理| 查看: 265

第4章　多元回归分析：推断 4.1　复习笔记

一、OLS估计量的抽样分布

1．假定MLR.6（正态性）

总体误差u独立于解释变量，而且服从均值为零和方差为的正态分布：。

2．经典线性模型

就横截面回归中的应用而言，从假定MLR.1～MLR.6这六个假定被称为经典线性模型假定。将这六个假定下的模型称为经典线性模型（CLM）。

在CLM假定下，OLS估计量比在高斯—马尔可夫假定下具有更强的效率性质。可以证明，OLS估计量是最小方差无偏估计，即在所有的无偏估计中，OLS具有最小的方差。

总结CLM总体假定的一种简洁方法是：

误差项的正态性导致OLS估计量的正态抽样分布。

3．用中心极限定理去推导u的分布的缺陷

（1）虽然u是影响y而又观测不到的众多因素之和，且各因素可能各有极为不同的总体分布，但中心极限定理（CLT）在这些情形下仍成立。正态近似的效果取决于u中有多少因素，以及u中包含因素分布的差异。

（2）更严重的问题是，正态近似假定所有不可观测因素都以独立而可加的方式影响着Y。因此如果u是不可观测因素的一个复杂函数，那么CLT论证并不真正适用。

4．误差项的正态性导致OLS估计量的正态抽样分布

定理4.1：正态抽样分布

在CLM假定MLR.1～MLR.6下，以自变量的样本值为条件，有：

因此

注：除服从正态分布外，的任何线性组合也都是正态分布，而且的任何一个子集也都具有一个联合正态分布。

二、检验对单个总体参数的假设：t检验

1．总体回归函数

总体模型可写作：

假定它满足CLM假定，OLS得到的无偏估计量。

2．定理4.2：标准化估计量的t分布

在CLM假定MLK.1～MLK.6下，，其中，k＋1是总体模型中未知参数的个数（k个斜率参数和截距）。

采用t分布而不是标准正态分布的原因是中的常数已经被随机变量所取代，而且有

3．单个参数的检验

虚拟假设（原假设）

用来检验式的统计量被称为的t统计量或t比率，并被定义为

（1）单侧对立假设检验

①单侧对立假设：。这种检验意味着排除了系数的总体值小于0的可能性。

②拒绝法则

显著性水平：即当H0实际上正确时拒绝它的概率。在H0下，服从一个t分布，因此，寻找的一个“足够大”的正值，以拒绝H0。在的显著性水平上“足够大”的定义是，在含有n－k－1个自由度的t分布中，处在百分位中第位的数值。

在，H0在的显著性水平上被拒绝并支持H1，c为在显著水平下，自由度为n－k－1时t分布的临界值。该拒绝法则被称为单侧检验法。

③临界值

临界值等于。随着显著性水平下降，临界值会提高，以致要拒绝H0就需要越来越大的。

如果临界值来自t分布的左侧，则将拒绝法则看成：

其中，c是对立假设的临界值。

（2）双侧对立假设

虚拟假设与对立假设分别为：

在这个对立假设下，xj对y具有未明确说明是正还是负的影响。

拒绝的法则是，此时临界值c为。在没有明确地表述对立假设时，通常都认为是双侧的。如果在5%的显著性水平上拒绝H0，通常说“在显著性水平为5%时统计上显著异于零”。如果H0未被拒绝，就说“xj在显著性水平为5%时是统计上不显著的”。（在双侧假设中，求临界值时显著水平为给定的显著水平的一半）

（3）检验的其他假设

检验是检验变量是否显著，是常见的检验，但有时也会检验是否等于某个非零常数，此时虚拟假设表述为。相应的t统计量为：

t统计量最好写成：

若t＞c，拒绝虚拟假设而支持对立假设，表示在适当的显著性水平上，。

（4）计算t检验的p值

p值就是给定t统计量的观测值，能拒绝虚拟假设的最小显著性水平。p值是一个概率，总是介于0和1之间。

p值的解释：在虚拟假设正确时，所观察到的t统计量至少和所得到的t统计量一样大的概率。这意味着，小p值是拒绝虚拟假设的证据，而大p值不能提供拒绝H0的证据。

一旦p值被计算出来，在任何理想的显著性水平下都能进行经典检验。如果用表示检验的显著性水平（以小数形式表示），那么，若，则拒绝虚拟假设；否则，在的显著性水平下，就不能拒绝H0。

（5）对经典假设检验用语的提醒

当H0未被拒绝时，说明“在x%的水平上，不能拒绝H0”，而不能断定“在x%的水平上接受了H0”。

（6）经济或实际显著性与统计显著性

①一个变量xj的统计显著性完全由的大小决定，而一个变量的经济显著性或实际显著性则与的大小（及符号）相关。

②检验时的t统计量被定义为估计值与其标准误之比：

能标志统计显著性的原因可能是“很大”或“很小”。在实践中，区分导致t统计量统计显著的原因很重要。过多地强调统计显著性，在一个变量的估计效应不太大的情况下也认为它在解释y时很“重要”，会导致错误的结论。

③在处理大样本时，除了看t统计量外，对系数的大小加以解释也特别重要。对于大样本容量，参数可以估计得相当准确，标准误与系数估计值相比通常都相当小，从而常常导致统计显著性。因此样本容量越大时，应该使用越小的显著性水平，以抵偿标准误越来越小所带来的后果。

④样本容量较大时，很大的标准误可能是多重共线性造成的结果。而在小样本中，解释变量高度相关时，很难精确估计其偏效应。

（7）检验变量在多元回归模型中的经济和统计显著性的准则

①检查统计显著性。如果该变量是统计显著的，那就讨论系数的大小，以对其实际或经济上的重要性有所认识。

②如果一个变量在通常的显著性水平（10%、5%或1%）上不是统计显著的，但如果这个变量对y具有很大的预期的影响，而这个影响在实践中很大，那就应该对t统计量计算一个p值。对于小样本容量，有时可以让p值大到0.20。

③t统计量很小的变量都具有“错误”的符号。

三、置信区间

在经典线性模型的假定之下，能很容易地为总体参数构造一个置信区间（CI）。因为置信区间为总体参数的可能取值提供了一个范围，而不只是一个点估计值，所以又被称为区间估计（值）。

置信区间的下界和上界分别是：

置信区间的含义：在实际中如果一次又一次的获得随机样本，每次都计算并构造一个样本区间，那么总体值将在的样本区间中出现。

四、检验关于参数的一个线性组合假设

原虚拟假设与对立假设为：

将虚拟假设和对立假设分别重新写成：

不能简单的使用和的个别统计量去检验H0，需要构造新的t统计量，t统计量表示为：

一旦得到t统计量，检验过程就同以前一样，可是在回归结果的报告中并没有的标准误，并且并不成立。

因为

所以

s12为的一个估计值。在实际操作中，我们不是通过上式去计算，而是直接给出所需标准误的不同模型。将与之差定义为一个新参数，要检验对，将写为，代入模型中去，通过构造新的变量便可以估计出的标准误，接下来进行t检验步骤即可。

五、对多个线性约束的检验：F检验

1．对排除性约束的检验

对排除性约束的检验即检验一组自变量是否对因变量都没有影响。虚拟假设是，在控制了一些变量之后，余下的变量对y没有任何影响。对多重约束进行的检验被称为多重假设检验或联合假设检验。

一个特定的t统计量只能检验一个对其他参数没有限制的假设，因此必须导出一个对多重约束的检验。

2．推导F检验统计量

将具有k个自变量的不受约束模型写成：

不受约束模型中的参数有k＋1个。

假设有q个排除性约束要检验，即虚拟假设表示，有q个变量的系数为零。假定这q个变量是自变量中的最后q个：。

虚拟假设：

它对模型施加了q个排除性约束。

对立假设意味着列出的参数至少有一个异于零。

受约束模型为：

当从不受约束模型变为受约束模型时，SSR的相对增加对检验假设而言应该是有意义的。定义F统计量为

其中，SSRr是受约束模型的残差平方和，SSRur是不受约束模型的残差平方和。因为SSRr不可能比SSRur小，所以F统计量总是非负的（而且几乎总是严格为正）。

q＝分子自由度＝dfr－dfur，表明q是受约束模型与不受约束模型的自由度之差，即q为约束条件的个数（df＝观测次数－被估计参数的个数。）由于受约束模型参数较少，而每个模型都使用同样的n次观测，所以dfr总是大于dfur。

N－k－1＝分母自由度＝dfur，F的分母恰好就是不受约束模型中的一个无偏估计量。

在H0下（并假设CLM假定成立），F统计量服从自由度为（q，n－k－1）的F随机变量的分布，写成。如果F＞c，就在所选定的显著性水平上拒绝H0而支持H1。如果拒绝H0，就说，在适当的显著性水平上是联合统计显著的（或简单地说是联合显著的）。

3．F统计量和t统计量之间的关系

（1）检验单个变量之排除性的F统计量，等于对应t统计量的平方。

（2）F统计量和t统计量适用与单侧检验和双侧检验的情况

①因为具有分布，所以在双侧对立假设下，这两种方法得到完全一样的结果。

②由于t统计量可用来检验单侧对立假设，所以它对于检验单个参数假设就更灵活。还因为t统计量比F统计量更容易获得，所以实在没有理由使用F统计量对单个参数假设进行检验。

（3）F统计量和t统计量适用与单个检验和联合检验的情况

两（或多）个各自具有不显著t统计量的变量，合起来可能十分显著。还有一种可能，在一组解释变量中，一个变量具有显著的t统计量，但在常用的显著性水平上，这组变量却不是联合显著的。虽然规定F统计量用于侦查一组系数是否异于零，但它绝不是判断单个系数是否异于零的最佳检验。t检验最适合检验单个假设。

当一个变量十分显著时，将它与其他某组变量联合检验，结果便是联合显著的。在这种情形中，同时拒绝这两个虚拟假设并不存在逻辑上的不一致。

4．F统计量的R2型

（1）使用受约束模型和不受约束模型的R2来计算F统计量更方便的原因

①R2必定介于0和1之间，而SSR则在很大程度上依赖于度量单位，使得基于SSR的计算繁冗。

②R2在几乎所有的回归中都会报告，而SSR则不然，使用R2来检验变量的排除就较容易。

（2）R2型F统计量

5．计算F检验的p值

p值对报告F检验的结果特别有用。由于F分布取决于分子和分母的自由度，所以只是看一下F统计量的值或一两个临界值，对拒绝虚拟假设之证据的强弱很难有直观感觉。在F检验的背景下，p值被定义为：

p值的解释：给定虚拟假设是正确的，观察到的F值至少和所得到的F值一样大的概率。

6．回归整体显著性的F统计量

在含有k个自变量的模型中，可以把虚拟假设写成：

H0:x1，x2，…，xk都无助于解释y

用参数表示，这个虚拟假设就是所有的斜率参数都是零：

在式中有k个约束，得到受约束模型

该估计式的R2为零。因为没有解释变量，所以y中的变异一点都没有得到解释。

F统计量可写成

其中，R2就是y对回归的通常R2。

7．检验一般的线性约束

检验排除性约束仍是F统计量最重要的应用。但当一种理念所蕴涵的约束比仅仅排除某些自变量更为复杂时，仍可以直接使用F统计量进行检验。

因变量不同的模型，不能使用F统计量的R2型。

六、报告回归结果

1．所估计的OLS系数估计值

对于分析中的关键变量，对所估计的系数做出解释。

2．标准误

标准误总是应该与所估计的系数一起包括进来，原因在于：

（1）标准误有助于判断被检验的虚拟假设，虚拟假设并非总是总体参数为0；

（2）有助于计算置信区间。

3．回归的R2

（1）R2提供拟合优度的一种度量；

（2）简化排除性约束F统计量的计算。

4．观测次数

【本文地址】

4.1 复习笔记

4.1 复习笔记

今日新闻

推荐新闻