直播公开课 | Stata在量化研究中的应用：以CGSS数据为例

taotao_2016 2017-10-02

展开全文

最近各类的鄙视链层出不穷，作为科研工作者的必备工具，统计软件当然也存在鄙视链。

使用Stata的社科研究者看到使用SPSS和eviews的同学，可能面上维持礼貌的微笑，内心早已不知吐槽到哪里。但是谁还不是从SPSS开始，接触的统计软件呢？

但是既然是鄙视链，并没有处在鄙视链顶端的Stata在面对可以处理更多数据的SAS也会有点虚。当然R语言这时一定会跳出来鄙视SAS，毕竟以T为单位的数据容量，SAS表示有点累。不过在鄙视链条上，Python也在R之上，然而总会有大神会跳出来，这些都太慢了，C才好用。

综上所述，鄙视链条大概就是：C>Python>R>SAS>Stata>eviews>SPSS

然而所有的统计软件都是为了更好的分析数据而存在的，鄙视链也只是一种自嘲的说法，并不是真正的鄙视。

对于学术界，为了处理数据专门学习一门编程语言（如C、Python）未免有点小题大做，使用最基础的SPSS和eviews拿来做科研又显得不够专业。曾看过一个很有意思的比喻，如果把SAS，Stata，SPSS和eviews进行比较，那SAS好比单反，Stata好比半自动相机，而SPSS和eviews好比傻瓜相机。而Stata刚刚好，不难上手又不失专业水准，内含足够多的扩展包，足以应对科研中的数据分析。

作为一套整合数据管理、分析、绘图等功能的强大软件，自1985年，20余年，Stata已经更新到15版本，在科研工作中，已经成为经济学、心理学、教育学、社会学、管理学、政治学和医学等定量研究中已经成为必备软件。拥有强大的面板数据、时间序列数据等，空间计量分析分析功能、效果评估四大方法（工具变量、RDD、PSM、DID）等均可实现。

对于科研来讲Stata这么好用，那么我用Stata可以做什么呢？

为此，学长特别邀请到中国人民大学中国调查与数据中心的资深数据师和培训老师唐丽娜老师。在社会科学领域广泛使用的中国综合社会调查（CGSS）数据，唐老师都有全程参与，从问卷设计到抽样实施到数据整理和数据分析，本次，小唐老师就要以CGSS数据为例，为大家讲解Stata在量化研究中的具体应用。

课程内容：

1. 导入量化分析所用的数据（Stata格式、csv格式等）

2. 准备分析所用的数据：

a) 选择因变量和自变量，包括：生成新变量、重新编码、修改标签等

b) 选取分析所用的样本，包括：筛选样本、数据合并等

c) 查看（并修改）所用变量的取值、标签

3. 分析数据

a) 基本的描述分析，包括统计量、统计表和统计图

b) 相关分析和回归分析

c) 方差分析