Stata:变量非重复值统计

您所在的位置:网站首页 stata查看变量 Stata:变量非重复值统计

Stata:变量非重复值统计

2023-08-10 18:55| 来源: 网络整理| 查看: 265

目录

1. distinct 命令

2. Stata 实例

3. 应用场景

3.1 循环中的使用

3.2 快速剔除变量中的缺漏值

1. distinct 命令

distinct 命令主要用于报告不同观测值的数量,例如,某个变量的观测值为 (1, 2, 2, 3, 3, 3, 4, 4, 4, 4),则 distinct 命令返回 4,即该变量仅存在 4 个不同的观测值。

*命令安装 cnssc install distinct, replace *命令语法 distinct [varlist] [if] [in] [, missing abbrev(#) joint minimum(#) maximum(#)]复制代码

其中,

missing:表示包括缺漏值,默认不包括;abbrev:定义显示变量的最大字符,比如字符串 happiness 的长度是 9,利用 abbrev(5) 转换后,就会变为 hap~s;joint:根据 varlist 中所有变量分析观测值差异;minimum:表示可返回变量的最小不同观测值数;maximum:表示可返回变量的最大不同观测值数。 2. Stata 实例

接下来,以「auto.dta」数据为例进行演示:

. sysuse auto.dta, clear . des . distinct               |        Observations               |      total   distinct --------------+----------------------          make |         74         74         price |         74         74           mpg |         74         21         rep78 |         69          5      headroom |         74          8         trunk |         74         18        weight |         74         64        length |         74         47          turn |         74         18 displacement |         74         31    gear_ratio |         74         36       foreign |         74          2复制代码

可以看出,make 一共有 74 个观测,并且有 74 个不同的观测值。rep78 变量仅有 69 个观测,说明存在 5 个缺失值,并且该变量也恰好有 5 个不同的观测值。其余变量以此类推……

进一步,关于 distinct 命令选项的具体介绍如下:

. *max 与 min . distinct, max(10)               |        Observations               |      total   distinct --------------+----------------------         rep78 |         69          5      headroom |         74          8       foreign |         74          2复制代码

max(10) 选项限定返回变量的不同观测值数小于等于 10。

. distinct, min(10)               |        Observations               |      total   distinct --------------+----------------------          make |         74         74         price |         74         74           mpg |         74         21         trunk |         74         18        weight |         74         64        length |         74         47          turn |         74         18 displacement |         74         31    gear_ratio |         74         36复制代码

min(10) 选项限定返回变量的不同观测值数大于等于 10。

. distinct rep78, missing        |        Observations        |      total   distinct -------+---------------------- rep78 |         74          6复制代码

missing 选项可以将缺失值包括在观测值统计范围内,通过对比可以发现,rep78 的不同观测值由之前的 5 变成了 6。

. distinct, joint   Observations   total   distinct     69         69复制代码

joint 选项可以对所有变量观测值联合进行分析,可以发现,在不考虑缺失值的情况下,该数据集包括 69 个观测,且这个 69 个观测都不存在重复。

. distinct headroom, abbrev(6)         |        Observations         |      total   distinct --------+---------------------- head~m |         74          8复制代码

abbrev(6) 选项指定变量名的最大字符显示数为 6。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3