文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释八、对于定性变量的处理——虚拟变量
X
X
X九、下面来看一个实例十、扰动项需要满足的条件十一、异方差十二、多重共线性十三、逐步回归十四、总结 一、综述无论是什么回归模型,它们的基本任务都是通过研究自变量 和因变量 的相关关系,从而形成能够解释 的变化的方法,进而能够通过自变量 去预测因变量 。 回归分析的基本任务: 变量选择:确定重要变量判断是正相关还是负相关估计回归系数二、常见的回归分析常见的回归分析有: ,文章只从线性回归的角度来阐述线性回归分析用于解决问题的策略和步骤。它们的区别是因为因变量 ![toad逐步回归 逐步回归分析结果解读stata_数学建模_02](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20y%20) 因变量 ![toad逐步回归 逐步回归分析结果解读stata_方差_08](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20y%20) 线性回归 为连续型的数值变量,例如:家庭收入逐年增加![toad逐步回归 逐步回归分析结果解读stata_数学建模_10](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20%5Ccdots%20)
0 - 1回归 的结果可以抽象为0或者1(类似于计算机中的二进制0和1),例如:喜欢和不喜欢![toad逐步回归 逐步回归分析结果解读stata_数学建模_10](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20%5Ccdots%20)
定序回归 为表示等级或者程度的变量(具有一定的顺序大小)![toad逐步回归 逐步回归分析结果解读stata_数学建模_10](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20%5Ccdots%20)
计数回归 为计数变量,例如:抛硬币次数的增加![toad逐步回归 逐步回归分析结果解读stata_数学建模_10](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20%5Ccdots%20)
生存回归 ![toad逐步回归 逐步回归分析结果解读stata_方差_08](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%20y%20) 三、对于相关性的理解相关性 因果性 即不能从相关性的结果分析中让两个变脸拥有绝对的因果关系。 四、一元线性回归模型假设 是自变量, 是因变量,且满足如下线性关系: 和 为回归系数,![toad逐步回归 逐步回归分析结果解读stata_回归分析_24](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Cmu_i%20) 令预测值 ![toad逐步回归 逐步回归分析结果解读stata_回归分析_25](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Chat%7By_i%7D%20%3D%20%5Chat%7B%5Cbeta_0%7D%20%2B%20%5Chat%7B%5Cbeta_1%7Dx_i%20) 其中 ![toad逐步回归 逐步回归分析结果解读stata_回归分析_26](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Chat%7B%5Cbeta_0%7D%2C%20%5Chat%7B%5Cbeta_1%7D%20%3D%20arg_%7B%5Cbeta_0%2C%20%5Cbeta_1%7Dmin(%5Csum_%7Bi%3D1%7D%5E%7Bn%7D(y_i%20-%20%5Chat%7By_i%7D)%5E2)%20%5C%5C%20%5C%5C%20%3D%20arg_%7B%5Cbeta_0%2C%20%5Cbeta_1%7Dmin(%5Csum_%7Bi%3D1%7D%5E%7Bn%7D(y_i%20-%20%5Chat%7B%5Cbeta_0%7D%20-%20%5Chat%7B%5Cbeta_i%7Dx_i)%5E2)%20) ![toad逐步回归 逐步回归分析结果解读stata_数学建模_27](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Chat%7B%5Cbeta_0%7D%2C%20%5Chat%7B%5Cbeta_1%7D%20%3D%20arg_%7B%5Cbeta_0%2C%20%5Cbeta_1%7Dmin(%5Csum_%7Bi%3D1%7D%5E%7Bn%7D(%5Chat%7B%5Cmu_i%7D)%5E2)%20) 五、对于回归系数的解释![toad逐步回归 逐步回归分析结果解读stata_toad逐步回归_28](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20y_i%20%3D%20%5Cbeta_0%20%2B%20%5Cbeta_1x_%7B1i%7D%20%2B%20%5Cbeta_2x_%7B2i%7D%20%2B%20%5Cmu_i%2C%5Cbeta_0%20%5Ctext%7B%E5%92%8C%7D%20%5Cbeta_1%20%5Ctext%7B%E4%B8%BA%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0%7D%20) :在 和 都为0时, 的平均值为 ![toad逐步回归 逐步回归分析结果解读stata_toad逐步回归_22](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Cbeta_0%20) :在保持其他变量不变的情况下, 每增加一个单位, 的平均值增加 ![toad逐步回归 逐步回归分析结果解读stata_toad逐步回归_22](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Cbeta_0%20) :在保持其他变量不变的情况下, 每增加一个单位, 的平均值增加 注意:每引入一个自变量,对于每个自变量前面的回归系数影响都是非常大的。因此在求回归方程的时候,尽量不要遗漏变量,否则会导致内生性的问题。 六、内生性由于 是一个满足条件但却无法观测的扰动项,因此 ![toad逐步回归 逐步回归分析结果解读stata_回归分析_42](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%5Cmu%20) 若 若 ![toad逐步回归 逐步回归分析结果解读stata_回归分析_44](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%5Cmu%20) 由于要求 与自变量们都不相关,此条件要求太强。因此,我们可以将方程中的自变量分为核心变量和控制变量两类(顾名思义,核心变量:最需要进行估计的变量;控制变量:对变量本身无太大兴趣,但将之加入方程是为了避免内生性)。在实际应用中,我们只需要保持核心变量与 ![toad逐步回归 逐步回归分析结果解读stata_回归分析_44](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%5Cmu%20) 七、四类线性模型回归系数的解释在平常的模型分析中,我们也可以通过代换,将取对数的变量做代换,同样可以达到线性的目的。 一元线性回归:![toad逐步回归 逐步回归分析结果解读stata_数学建模_48](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20y%20%3D%20a%20%2B%20bx%20%2B%20%5Cmu%20) 每增加一个单位, 平均变化 双对数模型:![toad逐步回归 逐步回归分析结果解读stata_方差_52](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%5Cln%20y%20%3D%20a%20%2B%20b%5Cln%20x%20%2B%20%5Cmu%20) 每增加 1% , 半对数模型:![toad逐步回归 逐步回归分析结果解读stata_线性回归_55](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20y%20%3D%20a%20%2B%20b%5Cln%20x%20%2B%20%5Cmu%20) 每增加 1% , 平均变化 半对数模型:![toad逐步回归 逐步回归分析结果解读stata_方差_59](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20%5Cln%20y%20%3D%20a%20%2B%20bx%20%2B%20%5Cmu%20) 每增加一个单位, 平均变化 %八、对于定性变量的处理——虚拟变量![toad逐步回归 逐步回归分析结果解读stata_数学建模_63](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20X%20) 在自变量中如果有定性的变量,例如:性别,地区等等,我们在回归的过程中可以将它们作为虚拟变量来处理 例如:我们要研究性别对于工资的影响 此时可以建立多元线性回归模型: 表示第 个样本为女性; 表示第 个样本为男性。 同时,这里面的核心解释变量即为: ,控制变量为:![toad逐步回归 逐步回归分析结果解读stata_线性回归_70](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20x_m(m%20%3D%201%2C%202%2C%20%5Ccdots%2C%20k)%20) 九、下面来看一个实例某电商平台846条奶粉的销售信息如下,每条信息由11个之变组成。其中评价量可以侧面反映顾客对产品的关注度。 完成下列问题: 以评价量为因变量,分析其他变量和评价量之间的关系;以评价量为因变量,研究影响评价量的重要因素。问题一: 在 中调用tabulate 配方,gen(A)等将定性变量生成为虚拟变量。对所有变量进行回归:reg 评价量 团购价元 商品毛重kg A1-G4,得到的结果为: 正如图中所示,在前一部分的表格中我们首先需要关注的就是 这一栏,判断我们所使用的模型是否有意义。 同时, 和 表示的是拟合优度以及调整后的拟合优度大小。 这张表表示的就是回归的结果。需要关注的有:第一列(Coef.)表示回归系数,第四列(P > |t|)表示 P 值大小。 在 95% 的置信水平下,P 值必须要小于 0.05 才有意义。注意:由于完全多重共线性的影响,Stata会自动将一组变量中的某个变量作为参考变脸(表格中omitted的变量)。因此,一组变量如 F 组变量,在 90% 的置信水平下,我们可以解释为,在其他变量不变的情况下,F1 评价量平均要比 F2 高出14894.55。 问题二: 基本思路:利用标准化回归系数来解决。(去除量纲的影响) 标准化公式 , 表示平均值, 在 中调用reg 评价量 团购价元 商品毛重kg A1-G4,beta,然后关注最后一列,绝对值越大,代表影响越大。十、扰动项需要满足的条件扰动项需要满足“同方差”和“无自相关”两个条件。 十一、异方差异方差的检验BP检验 在 中调用命令:estat hettest, rhs iid(回归结束之后)进行 BP 检验 原假设:扰动项不存在异方差 P 值小于 0.05,说明在 95% 的置信水平下拒绝原假设,即认为扰动项存在异方差。 怀特检验 在 中调用命令:eatat imtest, while(回归结束之后) 原假设:扰动项不存在异方差 同样,P 值小于 0.05,因此也要拒绝原假设。即扰动项也存在异方差。 异方差的处理使用OLS(普通最小二乘估计法) + 稳健的标准误(推荐) 在 中调用命令:reg y x1...xk, robust 结果为:![异方差处理1 toad逐步回归 逐步回归分析结果解读stata_方差_82](https://s2.51cto.com/images/blog/202403/18084215_65f78de7dc6eb27080.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=/resize,m_fixed,w_1184) 可以看出显著的变量相比于之前多了许多广义最小二乘法GLS GLS得出的结果不稳健,也可能出现偶然性,因此不做介绍。十二、多重共线性多重共线性的检验 多重共线性的检验可以使用方差膨胀因子 .假设有 个自变量,那么第 个自变量的 ![toad逐步回归 逐步回归分析结果解读stata_回归分析_86](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20VIF_m%20%3D%20%5Cfrac%7B1%7D%7B1%20-%20R_%7B1-k%2Fm%7D%7D%20) 表示将第 个自变量作为因变量,对剩下的 ![toad逐步回归 逐步回归分析结果解读stata_方差_89](https://math-api.51cto.com/?from=%20%20%20%20%20%20%20%20%20%20k%20-%201%20) 越大,说明第 定义 ,若 ,则认为模型具有严重的多重共线性。在 中调用命令:estat vif(回归之后)![VIF toad逐步回归 逐步回归分析结果解读stata_toad逐步回归_95](https://s2.51cto.com/images/blog/202403/18084216_65f78de81e6d050593.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=/resize,m_fixed,w_1184) 2.多重共线性的解决![多重共线性的解决 toad逐步回归 逐步回归分析结果解读stata_toad逐步回归_96](https://s2.51cto.com/images/blog/202403/18084216_65f78de82eff65924.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=/resize,m_fixed,w_1184) 十三、逐步回归向前逐步回归 将自变量逐个引入模型,每一个自变量加入后都要进行检验,显著时才加入回归模型。(缺点:引入变量后,原来显著的变量也可能变得不显著)在 中,调用命令:stepwise regress y x1 x2...xk, pe(#1),其中,#1表示显著水平(0.05)向后逐步回归 先将所有的自变量放入模型,之后再尝试将其中一个自变量从模型中删除,看整个模型解释因变量是否有显著变化,之后将最没有解释力的哪个自变量删除,知道没有自变量符合删除条件为止。在 中,调用命令:stepwise regress y x1 x2...xk, pr(#2),其中,#2也表示显著水平(0.05)注意: (1) 之间不能有完全多重共线性 (2)可以在后面加上参数 b 和 r ,即标准化回归系数和稳健标准误 (3)向前逐步回归和向后逐步回归的结果可能不同 (4)不要轻易使用逐步回归,删除了变量会导致其他问题 十四、总结使用多元线性回归时,可以参考以下步骤: 确定自变量和因变量对定性的变量生成虚拟变量异方差检验以及多重共线性检验并分别进行处理在 得出结论
|