stata自学笔记

您所在的位置：网站首页 › stata中的logit命令 › stata自学笔记

stata自学笔记

2023-03-15 21:51| 来源: 网络整理| 查看: 265

基本语法[by varlist:]command [varlist][=exp][if][range][weight][option] 按某个变量分组命令（必有）变量赋值条件语范围权重选项（加选项时前面一定要有英文的“,”读取的数据格式

带.dta后缀名的文件

excel能读取的文件：.csv .xls .xlsx

matlab能读取的文件：.mat

更换文件保存路径

首先打开STATA，输入sysdir命令，查看STATA主要的几个文件夹路径

. sysdir STATA: D:\Stata17\ BASE: D:\Stata17\ado\base\ SITE: D:\Stata17\ado\site\ PLUS: c:\ado\plus\ PERSONAL: C:\Users\��\ado\personal\ OLDPLACE: c:\ado\ 好的程序员的要求

1.写命令，而不是用点击

2.写脚本

3.写注释：xxxx内容xxxx

//内容（某一行加注释）

STATA中的代数运算符与函数代数运算符：

+——加 -——减 *——乘 /——除 ^——乘方

函数：

abs(x) x的绝对值 sqrt 平方根函数 exp(x) 指数函数

sin 正弦函数 cos(x) 余弦函数 tan(x) 正切函数 asin(x) 反正弦函数 acos(x) 反余弦函数 atan(x)反正切函数

trunk(x) x的整数部分 logit(x) x的对数比率 total(x) x的移动合计 mod(x,y) x/y的余数 sign(x) 符号函数

round(x) x的四舍五入整数 atanh(x) 双曲反正切函数 floor(x) 小于等于x的最大整数 ceil(x) 小于等于x的最小整数

分类变量与定序变量的基本操作

分类变量即通过定义值的方式对样本进行分类。

定序变量就是根据数值大小将数据分到几个区间。

查看变量1的频数分布：

tabulate v1 tabulate v1,sort //按降序排列数据清理

br 浏览文件存储的内容

set obs n(具体样本数量)：该命令会自动帮你生成n个样本

describe (des) 对变量的具体信息进行描述

es //默认对文件中所有变量的信息进行显示 des var1 var2//对var1 var2 的信息进行显示

gen:生成变量使用，生成字符型命令为：gen var=""，生成数值型为：gen var=.

egen:该命令也是生成变量使用，与gen不同的是该命令是通过计算函数得出来的变量，比如：mean、sum、max等等，具体实用方法为：

egen=func(var)//func指的是函数名称

destring:有时候在你导入文件时会发现原本为数值型的变量导入之后变为了字符型变量，而当变量为字符型时是无法进行回归检验的，此时就需要将该变量转化为数值型，具体使用方法为：

des var1 //如果为str表示字符型，为int/float表示数值型 destring var1,gen (var2)//将字符型变量var1转变为数值型变量var2，此时var1仍为字符型变量 destring var1，replace //将字符型变量var1转变为数值型变量var1 destring var1，force replace //将字符型变量var1强制转变为数值型变量var1，此命令适用于该变量本身就存在字符，但仍然想将其转化为数值型，转化后原本含有字符的样本会变成缺失值（.）,如果不加force当变量本身就存在字符时该命令不会执行

tostring:该命令是与destring相对应的一个命令，但使用的相对较少，此时就需要将该变量转化为字符型，具体使用方法为：

tostring var1，gen（var2) tostring var1，force replace

encode：这个命令是将本来就是字符型的变量转化为数字，但它与destring的用法不同，encode使用的主要为一些分类变量，比如我们在进行面板回归时，需要将字符型的城市转为会数字才能进行回归，但此时你使用br进行浏览时，你会发现单元格放的仍然是城市，只不过颜色已经由红色变为蓝色，点击其中的单元格会发现该单元格实际存贮的数字，外在表现是城市。具体使用方法为：

encode city，gen （city0）

reshape:该命令用来进行长宽格式变化，之所以进行格式的调换是由于我们有时候下载的数据会是下图显示的宽格式，而我们在实际回归中往往需要的是长格式的数据，此时就需要对格式进行调换。具体使用命令为:

reshape long gdp,i(city),j(year)//命令行的解释见下面两个表 city gdp2010 gdp2011 gdp2012 gdp2013 beijing .. .. ... .. shanghai ... .. .. .. guangzhou .. .. .. .. shenzhen .. .. .. .. 变成： year city gdp 2010 beijing .. 2011 beijing .. 2012 beijing .. 2013 bejing .. 2010 shanghai .. 2011 shanghai .. 2012 shanghai .. 2013 shanghai ..

_n:每一行数据都有一个_n,指的就是数据的行数,主要使用方法为：

gen id=_n //生成一个变量id，该变量放的为样本的序列号为：1,2,3,4......

N:是指整个数据集中有多少数据,主要使用方法为：

gen count=_N //生成变量count，该变量为样本的总数

生成随机数

clear gen suiji=uniform() //生成一个随机变量，包含0~1的15个随机数据 clear set obs 15 g suiji=9+(9*uniform()) //自由取随机值 clear set obs 15 g suiji=9+trunc(9*uniform()) //取整定义数据的子集

list 显示样本的内容

list in 5 //显示第五个样本的内容 list in 1/10 //显示第1到10个样本的内容 list v1 v2 in 1/5 //显示第1到10个样本的内容中的v1,v2 list if year>2005 //列出变量值"year">2005的数据 list if year>2007&shangjiao>965 //列出变量值"year">2007且变量值“shangjiao">965的数据 drop in 3 //删除第三条数据 drop if year==2005 //删除变量值"year"=2005的数据 drop if year>2007&shangjiao>965 //删除变量值"year">2007且变量值“shangjiao">965的数据stata的关系运算符与逻辑运算符关系运算符：

等于== 不等于！= 大于> 小于< 大于等于>= 小于等于

【本文地址】

stata自学笔记

stata自学笔记

今日新闻

推荐新闻