【原】Stata实战系列03：Stata的数据管理

松哥精鼎统计 2020-10-23

展开全文

导读

在前两期我们介绍了Stata软件及数据导入，本期将介绍Stata最常用的数据管理方法。Stata数据管理是调查数据前期处理的必要环节，也比较体现研究者功底。其中涉及很多函数和命令，初学者只需要掌握最为常用的一些功能即可。以下红色加粗命令希望能烂熟于心！

1、描述变量类命令

在命令窗口输入：

sysuseauto.dta 调入auto.dta数据集，为Stata内置数据集。

describe 描述数据集基本信息

summarize 描述统计分析（直接呈现变量均值、标准差、极值等信息）

asdoc summarize 将描述统计分析结果导入word。

2.定义变量类命令

generate y=log(price)	生成price的自然对数变量y
rename mpg jingdingtongji	对mpg变量重新命名为jingdingtongji
label variableprice jiage	将price标签定义为jiage
sortprice	对price进行排序
orderprice make rep783	按顺序调整变量排列次序

3、定义数据集类命令

list in1/20	列出第1条到前20条数据
list in-4/1	列出倒数第1条到倒数第4条数据
dropif year<2004	删除year小于2004年的数据
keepif year<2004	只保留year小于2004年的数据

4、逻辑运算符类

条件语句常用：

= = 等于	！= 不等于
> 大于	< 小于
>= 大于等于	<= 小于等于
& 和	\| 或

5、数学运算函数类

+ 加	- 减	* 乘
/ 除	^ 乘方	abs(x ) 取x的绝对值
ceil(x) 大于等于x的最小整数	floor(x) 小于等于x的最小整数	trunc(x) 截取x的整数部分
ln(x) 以e为底的自然对数	max(x1,x2) x1和x2中的最大值	min(x1,x2) x1和x2中的最小值
log(x) 同上	round(x) x的四舍五入整数	sqrt(x) x的平方根，即开方
total(x) x的移动合计	uniform() 生成随机数	group(x) 等分变量为x份

6、数值与字符串转换

encode name, gen(id)	将字符name转换为对应整数数值
decode id, gen(name)	将整数数值转换为对应字符name
destring name, replace	当name为数字且为字符串时使用
gen id=real(name)	同上，但没上述命令强大

7、统计分析基础命令

pwcorr x1 x2 x3 x4 , sig star(5)	计算相关系数
reg y x1 x2 x3, robust	稳健OLS回归估计

8、回归结果导出到Word

regress price mpg 第一组回归方程est store m1 将第一次回归储存为 m1regress price mpg weight length 第二组回归方程est store m2 将第二次回归储存为 m2

esttab m1 m2 using reg1.rtf, scalars(F) b(%8.4f) r2(%8.4f) ar2(%8.4f) se(%8.4f)  star(* 0.1 ** 0.05 *** 0.01)  replace nogap

这个命令也可以实现：outreg2 using m1,word replaceoutreg2 using m1,word e(all) replaceoutreg2 using m1,word e(r2_p chi2 p) replace

9、外部安装命令

ssc install outreg2

从外部安装命令outreg2(如果提示不存在该命令时使用)

10.结语

Stata的数据管理功能非常强大，除了上述介绍的基础性命令外，还提供了许多其他的命令。研究者掌握的函数种类越多，实战中进行数据管理就会越得心应手。很多时候，一条简单的小命令，可以为我们节省十几分钟甚至几十分钟的时间。因此，我们平时就应该随时收集和记录这些外挂命令，关键时刻能起到事半功倍的效果！

整理不易，欢迎点亮再看！

---Stata系列---

Stata系列02：Stata数据导入

Stata系列01：Stata软件介绍

------------------------------

点亮再看，安康吉祥

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：松哥精鼎统计 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

松哥精鼎统计

关注对话

TA的最新馆藏

奇了怪了，P>0.05为啥软件还会留该因素在多因素模型中
连续性变量截断家族又添一成员
先单之后，到底逐步向前，还是逐步向后，进行多因素PK呢？
生物医药领域，咱们低估了STATA
为啥你SPSS就做不出来倾向性评分！看松哥如何搞定
为啥会出现这样的ROC曲线，怎么解决呢？

喜欢该文的人也喜欢更多

热门阅读换一换