Stata:变量非重复值统计 |
您所在的位置:网站首页 › stata查看变量 › Stata:变量非重复值统计 |
目录 1. distinct 命令 2. Stata 实例 3. 应用场景 3.1 循环中的使用 3.2 快速剔除变量中的缺漏值 1. distinct 命令distinct 命令主要用于报告不同观测值的数量,例如,某个变量的观测值为 (1, 2, 2, 3, 3, 3, 4, 4, 4, 4),则 distinct 命令返回 4,即该变量仅存在 4 个不同的观测值。 *命令安装 cnssc install distinct, replace *命令语法 distinct [varlist] [if] [in] [, missing abbrev(#) joint minimum(#) maximum(#)]复制代码其中, missing:表示包括缺漏值,默认不包括;abbrev:定义显示变量的最大字符,比如字符串 happiness 的长度是 9,利用 abbrev(5) 转换后,就会变为 hap~s;joint:根据 varlist 中所有变量分析观测值差异;minimum:表示可返回变量的最小不同观测值数;maximum:表示可返回变量的最大不同观测值数。 2. Stata 实例接下来,以「auto.dta」数据为例进行演示: . sysuse auto.dta, clear . des . distinct | Observations | total distinct --------------+---------------------- make | 74 74 price | 74 74 mpg | 74 21 rep78 | 69 5 headroom | 74 8 trunk | 74 18 weight | 74 64 length | 74 47 turn | 74 18 displacement | 74 31 gear_ratio | 74 36 foreign | 74 2复制代码可以看出,make 一共有 74 个观测,并且有 74 个不同的观测值。rep78 变量仅有 69 个观测,说明存在 5 个缺失值,并且该变量也恰好有 5 个不同的观测值。其余变量以此类推…… 进一步,关于 distinct 命令选项的具体介绍如下: . *max 与 min . distinct, max(10) | Observations | total distinct --------------+---------------------- rep78 | 69 5 headroom | 74 8 foreign | 74 2复制代码max(10) 选项限定返回变量的不同观测值数小于等于 10。 . distinct, min(10) | Observations | total distinct --------------+---------------------- make | 74 74 price | 74 74 mpg | 74 21 trunk | 74 18 weight | 74 64 length | 74 47 turn | 74 18 displacement | 74 31 gear_ratio | 74 36复制代码min(10) 选项限定返回变量的不同观测值数大于等于 10。 . distinct rep78, missing | Observations | total distinct -------+---------------------- rep78 | 74 6复制代码missing 选项可以将缺失值包括在观测值统计范围内,通过对比可以发现,rep78 的不同观测值由之前的 5 变成了 6。 . distinct, joint Observations total distinct 69 69复制代码joint 选项可以对所有变量观测值联合进行分析,可以发现,在不考虑缺失值的情况下,该数据集包括 69 个观测,且这个 69 个观测都不存在重复。 . distinct headroom, abbrev(6) | Observations | total distinct --------+---------------------- head~m | 74 8复制代码abbrev(6) 选项指定变量名的最大字符显示数为 6。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |