UCLA |
您所在的位置:网站首页 › stata中group虚拟变量 › UCLA |
list group dum1 dum2 dum3 1. 1 1 0 0 2. 1 1 0 0 3. 2 0 1 0 4. 3 0 0 1 5. 2 0 1 0 6. 2 0 1 0 7. 1 1 0 0 8. 3 0 0 1 9. 3 0 0 1 带有generate选项的tabulate命令创建了三个虚拟变量dum1、dum2和dum3。 一个使用High School and Beyond数据集的例子 使用High School and Beyond数据集,我们希望利用阅读、数学和学生参加的项目类型的信息来解释写作测试分数的可变性。分类变量课程分为三个层次:1)一般课程、2)学术课程和3)职业课程。首先,我们将从Internet加载数据集,然后使用tabulate命令为prog创建虚拟变量。 tabulate group, generate(dum) group | Freq. Percent Cum. ------------+----------------------------------- 1 | 3 33.33 33.33 2 | 3 33.33 66.67 3 | 3 33.33 100.00 ------------+----------------------------------- Total | 9 100.00 list group dum1 dum2 dum3 1. 1 1 0 0 2. 1 1 0 0 3. 2 0 1 0 4. 3 0 0 1 5. 2 0 1 0 6. 2 0 1 0 7. 1 1 0 0 8. 3 0 0 1 9. 3 0 0 1 带有generate选项的tabulate命令创建了以下变量:prog1、prog2和prog3。在回归分析中,我们只能使用三个虚拟变量中的两个。由于prog有三个关卡,它使用两个自由度。这是回归分析。 regress write readmath prog2 prog3 Source | SS df MS Number of obs = 200 -------------+------------------------------ F( 4, 195) = 41.03 Model | 8170.58624 4 2042.64656 Prob > F = 0.0000 Residual | 9708.28876 195 49.7860962 R-squared = 0.4570 -------------+------------------------------ Adj R-squared = 0.4459 Total | 17878.875 199 89.843593 Root MSE = 7.0559 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- read| .289028 .0659478 4.38 0.000 .1589656 .4190905 math | .3587215 .0745443 4.81 0.000 .2117048 .5057381 prog2 | .6647754 1.32845 0.50 0.617 -1.955198 3.284749 prog3 | -2.253484 1.468445 -1.53 0.127 -5.149556 .6425886 _cons | 19.00854 3.40933 5.58 0.000 12.28465 25.73243 ------------------------------------------------------------------------------ 在分析中,除prog2和prog3外,所有变量都具有统计学意义。然而,有必要记住,构成变量程序类型的是prog2和prog3的组合。让我们一起测试prog2和prog3。 testprog2 prog3 ( 1) prog2 = 0.0 ( 2) prog3 = 0.0 F( 2, 195) = 2.32 Prob > F = 0.1015 事实证明,通过一起测试prog2和prog3,我们发现变量程序类型在统计上不显著。 我们也可以使用 ** i. **或因子变量表示法一步完成,如下所示。因子变量从分类变量创建指示变量,大多数估计和后估计命令都允许使用因子变量。请注意下面的结果是如何与上面的结果完全匹配的。 regress write readmath i.prog Source | SS df MS Number of obs = 200 -------------+---------------------------------- F(4, 195) = 41.03 Model | 8170.58624 4 2042.64656 Prob > F = 0.0000 Residual | 9708.28876 195 49.7860962 R-squared = 0.4570 -------------+---------------------------------- Adj R-squared = 0.4459 Total | 17878.875 199 89.843593 Root MSE = 7.0559 ------------------------------------------------------------------------------ write | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- read| .289028 .0659478 4.38 0.000 .1589656 .4190905 math | .3587215 .0745443 4.81 0.000 .2117048 .5057381 | prog | academic | .6647754 1.32845 0.50 0.617 -1.955198 3.284749 vocation | -2.253484 1.468445 -1.53 0.127 -5.149556 .6425886 | _cons | 19.00854 3.40933 5.58 0.000 12.28464 25.73243 ------------------------------------------------------------------------------ 正如我们在前面的示例中所做的那样,我们可以使用test命令测试程序类型的总体效果,如下所示。 test2.prog 3.prog ( 1) 2.prog = 0 ( 2) 3.prog = 0 F( 2, 195) = 2.32 Prob > F = 0.1015 使用contrast命令可以得到分类变量的多自由度检验。 contrast prog Contrasts of marginal linear predictions Margins : asbalanced ------------------------------------------------ | df F P>F -------------+---------------------------------- prog | 2 2.32 0.1015 | Denominator | 195 ------------------------------------------------ 返回搜狐,查看更多 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |