想了解中国家庭多有钱，只看 28000 户够不够？

pgl147258 2014-07-11

展开全文

西南财经大学的家庭金融调查项目是一个很了不起的项目，他是第一个尝试准确估计家庭金融资产的调查。在此之前，各式各样的调查虽多，但对一些个人敏感问题，则至多涉及到收入、职位、有几套房子。再深入的问题，比如，家里有多少存款？不敢问了。

笃笃笃，敲门声传来，你打开门，礼貌的房产中介站在门外：先生您好您的房子卖多少钱。

如果一项调查要问到存款这种问题，那么一般来说，他的调查员的结局都不会比这个房产中介好多少。西南财大花了很大功夫进行事先宣传，让人们知道这项调查的重要性与个人隐私的安全性，学生调查员的一次次回访，也极大降低了这项调查的拒访率，最终得到了质量很高的问卷，这都是很了不起的成就。

言归正传。我们来回答这个问题：要了解中国家庭的金融资产情况，28000 户家庭到底够不够？

答案是——看情况，看方法。你想要从这份数据中了解的信息，以及抽样方法，决定了数据的可靠程度。

如果仅仅想要了解所有城市家庭的资产平均数，那么，28000 份问卷已经足够了。这篇关于 CHFS 的新闻显示，中国城市家庭资产的中位数为 40.5 万元，平均数为 247.60 万元。如果家庭资产服从对数正态分布，那么就有

$e^{\mu }=40.5, e^{\mu+\frac{1}{2}\sigma ^2}=247.6$ ，家庭资产的标准差应当等于

$E[X]\sqrt{e^{\sigma^2}-1}=247.6\times \sqrt{\frac{247.6}{40.5}^2-1}$ ，即 1493 万元。

在计算平均数时，随着样本量增大，样本平均值的方差会依概率收敛到零，收敛速度为样本量的平方根。当我们取 28000 个样本时，样本家庭资产平均数的标准差变成

$1493/\sqrt{28000}$ =8.9 万元，也就是说，只要随机性足够，那么通过 28000 份问卷计算平均得到的家庭资产平均数，有很大可能会（66%）落在一个长度为 18 万元的区间内，几乎肯定会（96%）落在一个长度为 36 万元的区间内。上下各 18 万元的误差，对资产平均值估计来说已经足够准确了。

但是，如果你要精确了解那些最富裕的 1%家庭的资产分布情况，28000 份问卷则远远不够。很简单，最富有的 1%家庭在问卷中只有 280 份，与 28000 份的总样本相比，280 份问卷会将样本平均数的标准差扩大十倍。对上一个例子的数字来说，就是上下各 180 万元的误差。这就有些不可接受了。另一方面，仅仅 280 份问卷，也不利于我们了解富人的资产分布的尾部到底有多长。

怎么办呢？通常情况下，完全随机的抽样调查会得到下一幅图：

该图假设一个人口的收入服从正态分布。当完全随机抽样实行时，被调查到的样本实际上如同红线一般分布，其特点是中间密集而两段稀疏，即收入处于中间水平的人口被调查到了很多，收入最高和最低的人口没有被足够的调查到。

在这种情况下，我们估计总样本平均数——没问题；估计中段人口收入平均数——更加没问题，中段的样本如此密集；但最高 / 低收入的人口——问题就来了。从 2 到 4（-4 到 -2），区区两根红线，跨越了如此大的收入区间，根本无法与中间段的密集红线相比，因此不能很好代表该区间人口的收入情况。

对此，最简单的一个想法是，增加调查总量。当调查总量足够大时，我们必然也能在左右两段获得足够准确估计的密集红线，问题解决了吗？

没有。调查是一项高成本的活动。每十年一次的人口普查，仅仅是每户家庭一张纸的问卷，就需要 650 万名调查员，80 亿元经费投入。当前，对一个比较详细的调查来说，每增加一个被调查样本，成本就增加 300 到 500 元不等。哪有那么多个几百万元来保证你的尾端准确率呢？

于是，人们想出了一种折衷的方法。中间段人口本身就比较密集，且收入分布较窄，就少调查一些；两端人口，就多调查一些吧。于是上一幅图变成了这样：

中间变稀疏，两段变密集的调查方法，反而使得在收入分布上调查得更均匀了。虽然上图的红线数量比第一幅图还要少几根，但显然下图对各个收入段的情况都有比较好的把握。这种折衷的方式，能够在不增加成本的情况下，同时获得中间收入段和高低两极的收入估计。如果要用这个样本计算总体平均数，只需要加权调整，让所有人口的被抽中概率乘以权重等于一个恒定值即可。比如可以让中段样本一个抵俩，而两端人口两个抵一，方法不一而足。

西南财大的家庭金融调查就使用了这种调整。他刻意多抽取了那些最穷和最富的人口，来保证尾端分布估计的准确性。具体方法见的页面。其中关键的一个步骤是：

第一，按照各市县的非农人口比例的分位数，将各市县分成 5 个组。分组的依据是各市县非农人口比重 20%、40%、60% 和 80% 的分位数。
第二，在非农人口比例最大的市县组中，居委会和村委会分配的样本比例是 4:0。
第三，在非农人口比例次大的市县组中，居委会和村委会分配的样本比例是 3:1。
第四，以此类推，在非农人口比例最低的市县组中，居委会和村委会分配的样本比例是 0:4。

也就是说，在城镇人口占比最高的地方（通常是沿海大城市），抽取尽量多的城镇人口；而在农村人口占比最高的地方（通常是内陆小城镇），抽取尽量多的农业人口。换句话说，在高收入地区尽量调查高收入人口，而在低收入地区尽量调查低收入人口，以此增加两端人口的被抽中概率，来接近上文第二幅图的情况。最后再通过加权来得到总样本平均值。

这种看似十分奇怪的抽样方式，其实正是同时权衡了成本与准确性后做出的选择。

最后，西南财大采用的这种抽样方法也有自己的问题。最大的问题在于一部分人口的代表缺失。根据2010 年统计用区划代码和城乡划分代码，我们可以算出不同地区的村委会和居委会的分布情况。真实的分布与家庭金融调查的抽样选择相比，可用下图表示：

在城镇人口占比最多的地区，共有 30.7% 的地区实际上仍然属于村委会。但在抽样中，他们完全被舍弃了，也就是说，被抽中的概率为零。任何加权方式，都不能把被抽到概率为零的样本恢复出来。

如果把中国的近 3000 个县级单位按照 2010 年人口普查的非农人口比例排列，那么排名靠前的 600 个县级单位共有 2.7 亿人口，当其中占比为 30.7% 的村委会全部被抽样方法舍弃掉时，约 8000 万人将无论如何都不可能被反映到数据中。

如果被舍弃的样本可以用其他类似样本替代也就罢了，但我们实在难以否认：大城市的村委会人口其实有着非常丰富的数据特征。比如他们的征地收益可能会更高，从事非农工作的比例更高，自我雇佣的比例也可能更高等等，但我们却无法在数据中找到他们的身影，这是中国金融调查的一个莫大遗憾。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： pgl147258 > 《杂坛社区》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

pgl147258

关注对话

TA的最新馆藏

手工电弧焊运条手法的应用。（1）
铝及铝合金的气焊碳弧焊电弧焊氩弧焊。
地铁挖得那么深，为什么看不见运泥土出来？挖出的土都去哪里了？
涨知识！手机长期不关机和每天关机一次，到底哪个好？
涨知识！手机长期不关机和每天关机一次，到底哪个好？
发现一个怪现象：为啥大家都喜欢用微信支付，而不用支付宝支付？

喜欢该文的人也喜欢更多

热门阅读换一换