UCLA

您所在的位置：网站首页 › stata中group虚拟变量 › UCLA

UCLA

2023-06-22 04:53| 来源: 网络整理| 查看: 265

list

group dum1 dum2 dum3

1. 1 1 0 0

2. 1 1 0 0

3. 2 0 1 0

4. 3 0 0 1

5. 2 0 1 0

6. 2 0 1 0

7. 1 1 0 0

8. 3 0 0 1

9. 3 0 0 1

带有generate选项的tabulate命令创建了三个虚拟变量dum1、dum2和dum3。

一个使用High School and Beyond数据集的例子

使用High School and Beyond数据集，我们希望利用阅读、数学和学生参加的项目类型的信息来解释写作测试分数的可变性。分类变量课程分为三个层次:1)一般课程、2)学术课程和3)职业课程。首先，我们将从Internet加载数据集，然后使用tabulate命令为prog创建虚拟变量。

tabulate group, generate(dum)

group | Freq. Percent Cum.

------------+-----------------------------------

1 | 3 33.33 33.33

2 | 3 33.33 66.67

3 | 3 33.33 100.00

------------+-----------------------------------

Total | 9 100.00

list

group dum1 dum2 dum3

1. 1 1 0 0

2. 1 1 0 0

3. 2 0 1 0

4. 3 0 0 1

5. 2 0 1 0

6. 2 0 1 0

7. 1 1 0 0

8. 3 0 0 1

9. 3 0 0 1

带有generate选项的tabulate命令创建了以下变量:prog1、prog2和prog3。在回归分析中，我们只能使用三个虚拟变量中的两个。由于prog有三个关卡，它使用两个自由度。这是回归分析。

regress write readmath prog2 prog3

Source | SS df MS Number of obs = 200

-------------+------------------------------ F( 4, 195) = 41.03

Model | 8170.58624 4 2042.64656 Prob > F = 0.0000

Residual | 9708.28876 195 49.7860962 R-squared = 0.4570

-------------+------------------------------ Adj R-squared = 0.4459

Total | 17878.875 199 89.843593 Root MSE = 7.0559

------------------------------------------------------------------------------

write | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

read| .289028 .0659478 4.38 0.000 .1589656 .4190905

math | .3587215 .0745443 4.81 0.000 .2117048 .5057381

prog2 | .6647754 1.32845 0.50 0.617 -1.955198 3.284749

prog3 | -2.253484 1.468445 -1.53 0.127 -5.149556 .6425886

_cons | 19.00854 3.40933 5.58 0.000 12.28465 25.73243

------------------------------------------------------------------------------

在分析中，除prog2和prog3外，所有变量都具有统计学意义。然而，有必要记住，构成变量程序类型的是prog2和prog3的组合。让我们一起测试prog2和prog3。

testprog2 prog3

( 1) prog2 = 0.0

( 2) prog3 = 0.0

F( 2, 195) = 2.32

Prob > F = 0.1015

事实证明，通过一起测试prog2和prog3，我们发现变量程序类型在统计上不显著。

我们也可以使用 ** i. **或因子变量表示法一步完成，如下所示。因子变量从分类变量创建指示变量，大多数估计和后估计命令都允许使用因子变量。请注意下面的结果是如何与上面的结果完全匹配的。

regress write readmath i.prog

Source | SS df MS Number of obs = 200

-------------+---------------------------------- F(4, 195) = 41.03

Model | 8170.58624 4 2042.64656 Prob > F = 0.0000

Residual | 9708.28876 195 49.7860962 R-squared = 0.4570

-------------+---------------------------------- Adj R-squared = 0.4459

Total | 17878.875 199 89.843593 Root MSE = 7.0559

------------------------------------------------------------------------------

write | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

read| .289028 .0659478 4.38 0.000 .1589656 .4190905

math | .3587215 .0745443 4.81 0.000 .2117048 .5057381

prog |

academic | .6647754 1.32845 0.50 0.617 -1.955198 3.284749

vocation | -2.253484 1.468445 -1.53 0.127 -5.149556 .6425886

_cons | 19.00854 3.40933 5.58 0.000 12.28464 25.73243

------------------------------------------------------------------------------

正如我们在前面的示例中所做的那样，我们可以使用test命令测试程序类型的总体效果，如下所示。

test2.prog 3.prog

( 1) 2.prog = 0

( 2) 3.prog = 0

F( 2, 195) = 2.32

Prob > F = 0.1015

使用contrast命令可以得到分类变量的多自由度检验。

contrast prog

Contrasts of marginal linear predictions

Margins : asbalanced

------------------------------------------------

| df F P>F

-------------+----------------------------------

prog | 2 2.32 0.1015

Denominator | 195

------------------------------------------------ 返回搜狐，查看更多

【本文地址】

UCLA

UCLA

今日新闻

推荐新闻