在什么级别上标准误聚类, 个体, 县, 省或行业, 时间？

计量经济圈 2020-05-26

展开全文

邮箱：econometrics666@sina.cn

所有计量经济圈方法论丛的程序文件, 微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

这是计量经济圈第856篇文章

到底在什么级别上进行聚类，即如何获得合理的聚类稳健标准误—clustered robust standard errors。到底是在个体、县、市、省还是行业、时间聚类？有没有一个统一的标准或者指导准则？看一下这下面的黄色标注，即采取保守策略，先倾向于在一个更大层面进行聚类，然后比较聚类稳健标准误和原始的标准误的差异，可以在进一步的聚类稳健标准误变化很小的时候停止。

下面也有一些例外，咱们不需要去通过聚类修正标准误，比如，解释变量在一个更高层面中是随机分配的(如，学生的“什么什么”相对于学校是随机分配的)，这样可以降低不同个体在该层面中的相关度；又比如，咱们认为不同个体在某个层面的误差相关性来自于外部共同冲击过程(因为此时可以通过聚类固定效应吸收掉外部共同冲击)。尽管如此，咱们依然建议使用聚类稳健标准误差，然后与原来的标准误进行比较，若有明显的差异则选择聚类稳健标准误。

下面主要说的是，就算一个模型中的标准误只为异方差型(因为异方差问题主要引起标准误的变化)，但聚类稳健标准误总是一致估计的，因此凡是能够用聚类稳健标准误的尽量用它。除此之外，咱们可以使用随机效应模型来处理聚类相关问题(这与面板里的随机效应相似)，然后通过广义最小二乘法来获得标准误，此时的标准误近似于聚类稳健标准误。

Stata最需要掌握的操作程序和技能

在Stata中如何执行聚类稳健标准误呢？尤其是在处理普通最小二乘法(OLS)和广义最小二乘法(GLS)方面有何不同？因为随机效应的估计方法就是GLS，可以在Stata软件上试一试xtreg y x, pa corr(exch)和xtreg y x, re。注：咱们经常使用的xtreg程序，其中xtreg y x, vce(robust)就相当于xtreg y x, vce(cluster panelid)

如果有些程序不给出聚类稳健标准误，那可以通过自助法去求聚类稳健标准误。

把聚类当作面板数据去理解有一定好处。千万不要狭隘地认为，“面板”数据仅仅是由不同个体在一段时间里的观测值所生成。如果把固定效应和随机效应这些估计方法放在传统面板数据之外理解，很多事情都会变得简单明了得多。比如，考察学生的学习性格与学习成绩的关系，一般都会在不同学校抽样调查一定比例学生，那咱们很多时候都需要控制个体、学校层面固定效应。

这里聚类固定效应与前面通常使用的聚类随机效应是对应的，所谓固定效应与随机效应，其区别就在于如何确立其error terms与解释变量的关系。当然，这会涉及到著名的Hausman检验，在这里主要是通过xtoverid这个程序进行操作的。一旦发现，不可观测的error terms(主要是cluster-specific terms)与解释变量是相关的，那么就需要通过demeaned(去均值)方法消除cluster-specific terms。

不过，聚类固定效应只能够控制一部分within cluster相关性，因此聚类稳健标准误仍然需要被使用。在Stata中可以尝试如下程序：xtreg y x, fe cluster(idcode)。