请问各位大神,在计量上检验调节效应是否只看交乘项的显著性?

您所在的位置:网站首页 stata做调节效应图 请问各位大神,在计量上检验调节效应是否只看交乘项的显著性?

请问各位大神,在计量上检验调节效应是否只看交乘项的显著性?

2023-04-06 07:47| 来源: 网络整理| 查看: 265

在前面的几篇推文中,我们对交乘项的基本设定、图示、边际效应分析等内容进行了较为细致的分析。最近适逢很多学生写毕业论文,有关交乘项的问题又涌上心头。其中,最突出的问题便是:为何加入交乘项后主变量变得不显著了,甚至符号都变掉了?简单的解释是:此一时,彼一时! 因为,加入交乘项前后,主变量的系数含义发生了实质性的变化,二者不具可比性。本文的目的在于澄清这种差异,并介绍一种让主变量系数在加入交乘项前后不会发生大幅变化 (具有可比性) 的方法。为何加入交乘项后主变量符号会变化?

对于模型

y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\epsilon_{1} \\

系数 \beta_{1}=\partial y /\left.\partial x_{1}\right|_{x_{2}=\bar{x}_{2}}, 也就是当 x_{2} 取样本均值 \bar{x}_{2} 时, x_{1} 变动一个单位对 y 的影响。 当我们加入交乘项 x_{1} x_{2} 后, x_{1} 的系数含义发生了很大的变化。

y=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\theta_{3} x_{1} x_{2}+\epsilon_{2} \\

先看 x_{1} 对 y 的边际影响: \partial y / \partial x_{1}=\theta_{1}+\theta_{3} x_{2}, 这是大家都了解的基本结论: 包含交乘项时, x_{1} 对 y 的边际影响不再 是常数, 而是随着 x_{2} 的取值不同而发生变化。

解释: 此时, 一阶项 x_{1} 的系数为 \theta_{1}=\partial y /\left.\partial x_{1}\right|_{x_{2}=0 \text { 。 也就是说,在模型 }(2) \text { 中, } 一 阶 项 ~} x_{1} 的系数表示当 x_{2}=0 时, x_{1} 变动一个单位对 y 的影响。显然, 模型 (1) 中的 \beta_{1} 与模型 (2) 中的 \theta_{1} 估计值不同, 甚至发生符号变化是很正 常的事情。 举个简单的例子。假设 y 表示收入; x_{1} 表示丑陋程度; x_{2} 表示教育年限, 取值为 0,1,2, \ldots \ldots 20, 均值为 12 。 基本想 法是想检验 「教育能否扭转我在职场上的天生劣势? (你知道我为什么读 PhD 吗? )」。假设估计模型 (2) 得到的参数 为 \theta_{1}=-1.6, \theta_{3}=0.2, 即 \partial y / \partial x_{1}=-1.6+0.2 x_{2} 。根据上面的数值, 可以大致推断模型 (1) 中 x_{1} 的系数约 为 \beta_{1} \approx-1.6+0.2 \bar{x}_{2}=-1.6+0.2 \times 12=0.8 。 大家可以自行分析一下 \theta_{1} 和 \beta_{1} 的经济含义。 如何尽力保证模型间的系数可比性?

若想让加入交乘项前后的模型 (1) 和模型 (2) 中主变量 \left(x_{1}\right) 的系数具有可比性, 可以采用如下模型设定形式

y=\gamma_{0}+\gamma_{1} x_{1}+\gamma_{2} x_{2}+\gamma_{3}\left(x_{1}-\bar{x}_{1}\right)\left(x_{2}-\bar{x}_{2}\right)+\epsilon_{3} \\

其中, \bar{x}_{1} 和 \bar{x}_{2} 分别表示 x_{1} 和 x_{2} 的样本均值。 此时,主变量 \left(x_{1}\right) 的系数 \gamma_{1} 会非常接近基于模型 (1) 得到的 \beta_{1} :

\gamma_{1}=\left.\frac{\partial y}{\partial x_{1}}\right|_{x_{2}=\bar{x}_{2}} \\

大家可能更加关心交乘项的系数是否会发生变化, 答案是: 不会! 因为, 模型 (3) 相对于模型 (2) 无非是增加了一些一阶项和常数项, 而交乘项并未发生变化。我们也可以用更为正式的方式 来得到这一结论。对于模型 (2) 而言, \partial\left[\partial y / \partial x_{1}\right] / \partial x_{2}=\theta_{3}, 而在模型 (3) 中 \partial\left[\partial y / \partial x_{1}\right] / \partial x_{2}=\gamma_{3} 。

当引入交乘项后,保留全部的主效应项是否必要?忽略一个或者全部的主效应项是否可行?

对于该问题,首先要明确引入主效应项和交乘项的目的何在。引入主效应项是为了区分截距,而引入交乘项是为了区分斜率。在接下来的分析中,我们会进一步阐述这句话背后的具体含义。

基于此,对于该问题的回答应为"分情况讨论"。

类别变量相互交乘:可以去掉主效应项,但系数含义不同。 类别变量与连续型变量相互交乘:(1)可以去掉连续型变量主效应项,但系数含义发生改变;(2)一般情况下,不可以去掉类别变量主效应项 连续型变量与连续型变量相互交乘:一般情况下,不可以去掉主效应项

下面,我们通过几个实证的例子来进一步解释说明。

1. 实例 1:类别变量相互交乘

首先,导入数据

. use https://stats.idre.ucla.edu/stat/data/hsbanova, clear (highschool and beyond (200 cases))

. d

variable name type format label variable label ----------------------------------------------------------------------------------------------------------------------- id float %9.0g female float %9.0g fl read float %9.0g reading score write float %9.0g writing score math float %9.0g math score science float %9.0g science score socst float %9.0g social studies score honors float %19.0g honlab honors english grp float %9.0g grp ----------------------------------------------------------------------------------------------------------------------- Sorted by:

该数据记录了不同个体的性别信息(female),组别信息 (grp),以及不同科目的成绩信息(read, write, math, science, socst, honors)。 数据结构如下所示。

. list in 1/10 +----------------------------------------------------------------------------+ | id female read write math science socst honors grp | |----------------------------------------------------------------------------| 1. | 45 female 34 35 41 29 26 not enrolled grp1 | 2. | 108 male 34 33 41 36 36 not enrolled grp2 | 3. | 15 male 39 39 44 26 42 not enrolled grp1 | 4. | 67 male 37 37 42 33 32 not enrolled grp1 | 5. | 153 male 39 31 40 39 51 not enrolled grp1 | |----------------------------------------------------------------------------| 6. | 51 female 42 36 42 31 39 not enrolled grp2 | 7. | 164 male 31 36 46 39 46 not enrolled grp1 | 8. | 133 male 50 31 40 34 31 not enrolled grp1 | 9. | 2 female 39 41 33 42 41 not enrolled grp1 | 10. | 53 male 34 37 46 39 31 not enrolled grp1 | +----------------------------------------------------------------------------+

我们将既包含交乘项也包含主效应项的模型成为 "完整模型"(full model)。在这个例子中,我们对类别变量female以及类别变量 grp进行交乘。

完整模型. regress write i.female##i.grp Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(7, 192) = 11.05 Model | 5135.17494 7 733.59642 Prob > F = 0.0000 Residual | 12743.7001 192 66.3734378 R-squared = 0.2872 -------------+---------------------------------- Adj R-squared = 0.2612 Total | 17878.875 199 89.843593 Root MSE = 8.147 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- female | female | 9.136876 2.311726 3.95 0.000 4.577236 13.69652 | grp | grp2 | 7.31677 2.458951 2.98 0.003 2.466743 12.1668 grp3 | 10.10248 2.292658 4.41 0.000 5.580454 14.62452 grp4 | 16.75286 2.525696 6.63 0.000 11.77119 21.73453 | female#grp | female#grp2 | -5.029733 3.357123 -1.50 0.136 -11.65131 1.591845 female#grp3 | -3.721697 3.128694 -1.19 0.236 -9.892723 2.449328 female#grp4 | -9.831208 3.374943 -2.91 0.004 -16.48793 -3.174482 | _cons | 41.82609 1.698765 24.62 0.000 38.47545 45.17672 ------------------------------------------------------------------------------

在进行分析之前,我们首先明确各系数的含义。从常数项 (_cons)开始,41.82609表示组别1 男性(female == 0, grp1 == 1)的写作分数(write)。

以此为基准,我们列表分析不同组别不同性别的人群的写作分数。下表按照回归结果,计算了不同组别的男性和女性的写作分数。

以 female == 1, group == 2为例,group 2 的女性的写作水平为 41.83 + 9.14 + 7.31 - 5.03 = 53.25。

| female | group | _cons | | | | write | |---------|-------|-------|---------|---------|---------|-------| | 0 | 1 | 41.83 | | | | 41.83 | | | | | | | | | | 1 | 1 | | + 9.14 | | | 50.97 | | | | | | | | | | 0 | 2 | | + 7.31 | | | 49.14 | | 0 | 3 | | + 10.10 | | | 51.93 | | 0 | 4 | | + 16.75 | | | 58.58 | | | | | | | | | | 1 | 2 | | + 9.14 | + 7.31 | - 5.03 | 53.25 | | 1 | 3 | | + 9.14 | + 10.10 | - 3.72 | 57.35 | | 1 | 4 | | + 9.14 | + 16.75 | - 9.83 | 57.89 |

我们也可以通过 margins命令直接得到上述计算结果。

. margins female##grp ------------------------------------------------------------------------------ | Margin Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- female#grp | male#grp1 | 41.82609 1.698765 24.62 0.000 38.47545 45.17672 male#grp2 | 49.14286 1.777819 27.64 0.000 45.63629 52.64942 male#grp3 | 51.92857 1.539636 33.73 0.000 48.8918 54.96534 male#grp4 | 58.57895 1.869048 31.34 0.000 54.89244 62.26545 female#grp1 | 50.96296 1.567889 32.50 0.000 47.87046 54.05546 female#grp2 | 53.25 1.662997 32.02 0.000 49.96991 56.53009 female#grp3 | 57.34375 1.440198 39.82 0.000 54.50311 60.18439 female#grp4 | 57.88462 1.597756 36.23 0.000 54.73321 61.03602 ----------------------------------------------------------------------- 模型 2:去掉主效应项 female 当去掉主效应项 female 后,回归结果如下所示。. regress write i.grp i.female#i.grp Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(7, 192) = 11.05 Model | 5135.17494 7 733.59642 Prob > F = 0.0000 Residual | 12743.7001 192 66.3734378 R-squared = 0.2872 -------------+---------------------------------- Adj R-squared = 0.2612 Total | 17878.875 199 89.843593 Root MSE = 8.147 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- grp | grp2 | 7.31677 2.458951 2.98 0.003 2.466743 12.1668 grp3 | 10.10248 2.292658 4.41 0.000 5.580454 14.62452 grp4 | 16.75286 2.525696 6.63 0.000 11.77119 21.73453 | female#grp | female#grp1 | 9.136876 2.311726 3.95 0.000 4.577236 13.69652 female#grp2 | 4.107143 2.434379 1.69 0.093 -.6944172 8.908703 female#grp3 | 5.415179 2.108234 2.57 0.011 1.256906 9.573452 female#grp4 | -.694332 2.458895 -0.28 0.778 -5.544247 4.155583 | _cons | 41.82609 1.698765 24.62 0.000 38.47545 45.17672 ------------------------------------------------------------------------------

我们可以看到grp1 grp2 以及 grp3 的回归结果与完整模型是完全一致的。可以直观看到,完整模型的female 的系数其实和模型 2 的 female#grp1 的系数完全一致。而female#grp2 的系数其实等于完整模型 female 的系数加上完整模型的female#grp2的系数,即4.10 = 9.13 - 5.03。

在这种情况下,模型中未引入主效应项的主要影响是重整Stata 汇报的回归系数。其结果其实和完整模型的回归结果是一致的。Stata自行发现了被忽略的主效应项,并汇报了 4 个交乘项的结果,而非像完整模型那样汇报 3 个。这样,完整模型的自由度与模型 2 的自由度均为 7。

接下来,我们探讨一个关于 显著性 的问题。完整模型的回归结果中,female#grp3的 p-value为 0.236,是不显著的。而当去掉 female的主效应后,female#grp3 的 p-value为0.011, 在 5% 的水平上显著。该如何理解这一系数显著性的变化呢?

在完整模型中,female#grp3的系数报告的是group 3的性别差异与 group 1的性别差异之差 (across group difference of gender difference)。系数不显著说明,group 3不同性别成员间的写作水平差异并没有显著高于或者低于 group 1 不同性别成员间的写作水平差异。female#grp4 的系数为 -9.831,并且在 1% 的水平上显著。这说明,相较于 group 1,group 4的不同性别成员间的写作水平差异显著低了 9.83。由此推测两种可能结果。第一,group 4不同性别成员间并无显著写作水平差距。第二,group 4不同性别成员间虽有显著写作水平差距,但是该差距小于 group 1。

模型 2 也汇报了 female#grp3的系数,但是却是完全不同的含义。该系数报告的是 group 3的性别差异(within group gender difference)。该系数为 5.415,且在 5% 的水平上显著。这说明 group 3 的女性的写作水平比该组男性显著高出 5.415 分。值得注意的是,female#grp4 的系数此时不显著。这说明group 4 的女性的写作水平与该组男性的写作水平并无显著差异。该结论支持推测的第一种结果。

将两个模型放到一起看,我们关于各组性别差异得到的信息如下。

(1) 组内性别差异 (within-group gender difference) group 1, group 2 以及 group 3的女性的写作水平显著高于同组男性的写作水平。group 4各成员的写作水平并不存在性别层面上的显著差异。该信息由模型 2 给出。

(2)组间性别差异之差(across-group difference of gender difference) 以 group 1组内成员写作水平的性别差异为基准,group 2和 group 3 组内成员写作水平的性别差异并无显著差异。然而,group 4 组内成员写作水平的性别差异显著低于基准组。

主要回归命令及实证建议归纳如下。

use https://stats.idre.ucla.edu/stat/data/hsbanova, clear \\数据引入 *- 类别变量相互交乘 regress write i.female##i.grp \\完整模型 margins female##grp regress write i.grp i.female#i.grp \\模型 2:去掉主效应项 female *无模型设定问题,但系数含义改变* regress write i.female i.female#i.grp \\模型 3:去掉主效应项 grp *无模型设定问题,但系数含义改变* regress write i.female#i.grp \\模型 4:只保留交乘项 *无模型设定问题,但系数含义改变* *- 类别变量与连续型变量相互交乘 regress write i.female##c.socst \\完整模型 regress write i.female i.female#c.socst \\模型 2:去掉主效应项 c.socst *无模型设定问题,但系数含义改变* reg write socst i.female#c.socst \\模型 3:去掉主效应项 i.female *可能存在模型设定问题* margins, at(female=(0 1) socst = 0) noatlegend margins, dydx(socst) at(female=(0 1)) noatlegend post reg write socst i.female#c.socst qui margins female, at(socst=(5(5)70)) marginsplot, recast(line) noci addplot(scatter y x,jitter(3) msym(oh)) reg write i.female#c.socst \\模型 4:只保留交乘项 *可能存在模型设定问题* *- 连续型变量与连续型变量相互交乘 reg write c.math##c.socst \\完整模型 margins, at(math=(30 75) socst=(30(5)70)) vsquish marginsplot, noci x(math) recast(line) reg write c.socst##c.math \\模型 2:去掉主效应项 *可能存在模型设定问题*

参见连享会推文:

专题:交乘项-调节 交乘项-交叉项的中心化问题交乘项专题:主效应项可以忽略吗? Note:产生如下推文列表的 Stata 命令为:. lianxh 交乘项. songbl 交乘项 安装最新版 lianxh/ songbl 命令:. ssc install lianxh, replace. ssc install songbl, replace 专题:回归分析 Stata 因子变量:虚拟变量-交乘项批量处理专题:内生性-因果推断 Stata:内生变量的交乘项如何处理?专题:交乘项-调节 Logit-Probit 中的交乘项及边际效应图示内生变量的交乘项如何处理?interactplot:图示交乘项-交互项-调节效应Stata:交乘项的对称效应与图示Stata:交乘项该如何使用?-黄河泉老师 PPTStata:虚拟变量交乘项生成和检验的简便方法Stata:内生变量和它的交乘项交乘项-交叉项的中心化问题Stata:交乘项该这么分析!


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3