【原】为什么财新PMI总是“上蹿下跳”

昵称72020678 2020-10-20

展开全文

“

你每次只拿出2颗豆子，并计算占比，你就会发现，经常会拿到两颗都是黑色，或者两颗都是白色的情况，再看看你的统计数字，会发现，不是100%，就是50%，要不就是0%。

文 \ 应习文

作者供职于民生银行研究院宏观经济研究中心，央行观察专栏作家

昨天统计局和财新同时公布了制造业PMI的数据，统计局PMI由6月的50%下降到49.9%，而财新PMI则由6月的48.6%突然“上蹿”至50.6%，一举突破50%的“荣枯线”，与统计局数据形成对立。

事实上统计局PMI作为官方公布的PMI数据，而财新则由外国机构Markit进行统计发布，两者在历史上出现对立——也就是一个“升”、一个“降”的相反走势并不是第一次。据统计，自2006年1月开始，两者走势相反的次数高达37个月，占比为29.1%，也就是平均来说每3个月就能看到两者走势相反一次。作为同时衡量中国制造业景气程度的指数来说，似乎走势相反的比例高了些。

另一个很重要的特征，就是两者在波动性上的差别，由于金融危机期间两者皆出现异常波动，而且近几年两者的统计制度可能发生过变化，因此我们选取从2011年1月开始的数据，以过去12个月数据的方差来衡量波动率（下图），可以看出金融危机以来，不论是统计局PMI，还是财新PMI的波动率均出现了明显下降。但是，大部分时间里，财新PMI的波动率要明显高于统计局PMI。样本时间内，统计局PMI的方差为0.91，而财新为1.97。进一步的是，近年来两者的波动率差距还在扩大，比如到当前的2016年7月，最近12个月的统计局PMI方差为0.113，而财新则高达0.954。因此通俗来说，财新PMI更表现出“上蹿下跳”的特征。

为什么财新PMI总是“上蹿下跳”？

或许有许多因素可以解释这个问题，但我认为解开这个问题的关键之一，在于两个PMI指数所提取的样本数量不同。据有关媒体报道，Markit总裁古尔德(Kevin Gould) 在2015年7月时称，“财新指数样本较小，涵盖大约400家公司，而政府PMI指数涵盖大约3000家公司”。粗看一下，似乎400家公司的样本数量也不少，但毕竟明显小于3000家样本——那么，这些样本数量的差别究竟是如何影响调查结果的准确性以及波动率的呢？这里笔者尽量采用比较通俗的语言给大家科普一下。

PMI的计算方法

首先大家必须要了解PMI的计算方法。PMI的各项指数来源于问卷调查。比如PMI中的“生产指数”，就是在问卷中提问“贵企业的生产量比上月是增加还是减少？”其中回答“增加”计1分，回答“减少”计0分，那么在N（样本数）家企业全部回答完后，得分加总除以N（也就是回答“增加”的企业的比重）。比如100个样本企业，56家回答“增加”，那么“生产指数”就录得56%。

样本如何衡量总体，一个形象的例子

假设现在有一个无比巨大的布袋子，里面有可以看作有无限多的豆子（这个假设要求每从袋子里拿出一个豆子，都几乎不改变下一次拿出豆子的概率）。豆子分为黄豆和黑豆，各占多少比例我们不知道。假设现在从袋子里摸出5颗豆子，其中3颗是黑色的，2颗是黄色的，那么我们就说整个袋子里有60%的豆子是黑色的。关于这个结论，相信你一定觉得不靠谱，为什么呢？因为样本太少了，衡量总体太不精确了。如果拿出100颗豆子，其中有55颗黑色，那么我们说袋子里有55%的豆子是黑的，关于这样的结论，你一定会认为靠谱许多。

其实PMI的统计也是一样的，就是把企业看成是豆子，把回答“增加”看成是黑色，回答“减少”看成是黄色而已。那么，一个拿400颗豆子（财新），和一个拿3000颗豆子做样本（统计局），你一定会觉得3000颗靠谱多了！那么400和3000究竟差多少呢？用什么指标来衡量，又如何定量地算呢？

中心极限定理

统计学里有一个很强大也很神奇的定理，叫中心极限定理，意思是，不管你的样本是怎么分布，比如在这个例子里，豆子的颜色是所谓的“二项分布”，即有一定的概率（假设为p）是黑色，若不然就是黄色（1-p的概率）。当我们拿出足够多的豆子作为样本，然后计算样本中黑色豆子的占比，计为q，那么当样本很多的时候，q一定是很接近于p的。而且如果我们做很多次同样的操作，得到很多个q，这些所有的q会是一个以p为均值的正态分布，而我们拿的豆子越多，这个正太分布的方差就越小，所以q就越容易接近p。若我们拿的豆子数量是无穷大，那么q的分布会塌缩到p，成为一个确定值（而不再是一个分部），统计上就认为q这个估计值是一致的（一致的定义就是样本数量趋向于无穷时，样本估计值会无限接近真实值）。

二项分布估计值的方差（标准差）

现在，我们要分别衡量400个豆子，和3000个豆子做样本，用他们来估计总体中黑色豆子占比，哪个更精确？事实上就是比较这个估计值q的正态分布的方差（或者标准差）。如何计算这个标准差呢？统计学给出的公式是。其中q是拿出来的豆子样本中，黑色豆子的占比，是二项分布的方差的估计值，N是样本数量。这个算得的标准差越小，估计就越精确。可以很容易看出，随着N的增加，标准差会越来越小，当N无穷大时，最终塌缩到零，正态分布也就塌缩成了一个确定值。

PMI指数的标准差计算

现在还有一个问题，就是在实际的PMI问卷中，问题选项并非是只有“增加”或者“减少”，而是“增加”、“持平”、或者“减少”。因此严格来说不是一个二项分布，而是“三项分布”。其中，回答“增加”的得分是1分，回答“持平”的得分是0.5分，而回答“减少”的得分是0分。也就是说，我们的布袋子里有黑色、黄色和一半黄一半黑（黑黄色）的三种豆子。假设整个布袋子里，黑色占比为p1（即我们每次拿出一个豆子，颜色为黑色的概率为p1，下同），黑黄色占比为p2，那么黄色为（1-p1-p2），这个三项分布的数学期望就是p1+0.5p2。现在我们从布袋子里拿出N颗豆子，其中黑色豆子占比为q1，黑黄色为q2，那么我们就用q1+0.5q2来看作是PMI的值，用来估计实际的p1+0.5p2。

那么，如何计算估计值的标准差呢？统计上的公式是，其中s是样本的标准差，这里我们要用方差公式来计算，易得

但问题又来了，因为从统计局或是财新公布的PMI中，我们只知道最终的PMI值，即q1+0.5q2，而并不知道q1和q2各等于多少。因此，我们只能给出一个s的估算值。一种估算方法是直接q1和q2都取1/3，得到的s是0.4082，当然这只是一种估算。另一种方法是把s可以取值的范围，全部算出来，见下表。横轴是q2取值从0取到1，纵轴是q1从0取到1，中间是对应的s值。

我们可以看到，s的取值范围是0到0.5，但是从实际PMI公布的数据来看，我们可以得出几个特点以缩小范围，一是PMI的指通常在40%到60%之间，也就是q1+0.5q2的不应超过这个范围。二是我们假设q2，也就是回答“持平”的范围在0.1到0.7之间，也就是说总存在着一些变化，不会所有企业都回答“持平”（马哲：世界是在变化发展中的 -_-b）。在这个基础上，我们可以的取值范围是上表中的棕黄色部分，也即是说，我们有极大的把握认为，s一定会在0.27到0.47之间。

下面我们定一个很重要的原则（姑且称为“宽容原则”），就是我们在计算中，尽量在可允许的范围内，把最终的标准差算得小一些。也就是说，尽量认为估计值是精确地，如果在这种“最宽容”的情况下，最终的估计值还是不够精确，那么就表明样本确实是数量不够的。因此在这个原则下，我们取s=0.27。

由于财新的样本分为制造业与服务业，那么我们认为制造业样本数量是400的一半，也就是200，那么最终估计值的标准差就是，约为1.9个百分点，而统计局对应的是0.7个百分点。所以我们可以看出，400个样本和3000个样本，最终得出的标准差，相差还是挺多的。

PMI综合指数的标准差

下一个问题，在于统计局与财新公布的制造业PMI是一个综合指数，是由五个分项指数加权平均得来的，其公式为：

制造业综合指数=0.25*生产指数+0.1*原材料库存+0.2*从业人员+0.15*供应商交货时间+0.3*新订单

由于综合指数这个估计值，是5个估计值的加权平均，我们知道正太分布的线性组合也是正态分布，而其标准差的计算方法为：

其中w是指权重，s1到s5是五个分项指数的标准差。这里假设这5个正态分布是相互独立的。需要指出的是，事实上这些正太分布并不是相互独立的，比如通常生产指数和订单指数为正相关，其协方差为正，不可忽略。但由于协方差难以计算，我们这里再次用到了“宽容原则”，即怎么算标准差小，就这么算。因此我们最终得出，财新制造业PMI综合指数的标准差是0.9个百分点，而统计局的标准差为0.2个百分点。我们看到综合指数的标准差比分项指数的标准差（1.9和0.7）要小不少，必须指出我们这里非常宽容地认为各个分项指数是独立性的，若放松这个假定，标准差会显著增大的。

置信区间与总体经济的扩张概率

现在我们知道，7月份财新PMI录得50.6%，而这仅仅是一个估计值，是从布袋中拿出的200颗豆子中，黑色豆子和黑黄色豆子（以一半计）的占比，用它来估计整个布袋子中对应的值。这个估计值的均值是50.6%，标准差为0.9个百分点，并服从正态分布。因此，我们可以估计他的95%的置信区间，即正负1.96个标准差，我们这里就近似取2，则最终的置信区间为[48.8, 52.4]，即总体的均值，有95%的概率落在这个区间里。可以看得出，这个区间是比较宽的。

那么总体经济有多大概率是扩张的呢？如果我们以50%作为荣枯线，即我们有多大的把握认为总体的均值是大于50%的呢？由于50.6%到50%的距离，也就是0.6个百分点，差不多是0.66个标准差，通过查正态分布表可以知道“我们有74.5%的把握认为总体的PMI指数是高于50%的”，也就是说有74.5%的概率整体制造业是扩张的。

相比之下，假设7月份统计局的PMI也是50.6%的话，由于其标准差仅为0.2，那么最终得出的结论是“总体经济扩张的概率为99.5%”。99.5%的把握，比财新74.5%的把握要大的多得多！

如果我们换一种衡量方法，即如果要达到74.5%的把握使总体扩张，统计局的PMI至少应该比50%高出多少？我们可以算出，当统计局PMI录得50.1%的时候，就有74.5%的把握认为总体经济是扩张的了。结论就是，当统计局PMI录得50.1%的时候，与财新PMI录得50.6%的时候，对总体经济是扩张的把握是一样大的。因此，当总体经济一定时，我们总是看到财新PMI的偏离幅度会更大一些，这就是为什么，财新PMI总是“上蹿下跳”了。

宽松原则的再次强调

最后，还是要提一下宽容原则，在以上计算中，由于数据不可得的原因，我们两次使用了这个原则，一次是计算分项指标样本标准差的时候，一个是假设组成综合指数的分项指数的估计量是相互独立的正态分布。这就导致，我们计算的标准差，是很宽容的，得到的估计量，是错误地被认为精确的。然而事实上，无论是统计局和财新的估计量，都没有那么精确！尤其是财新PMI，其解释力度通常来说要更弱一些的，除非适当增加样本量！因为随着样本量的增大，估计量不仅会更精确，估计值也会变得不再那么“上蹿下跳”。这也是为什么，每当统计局和财新的数字背离的时候，大家总是觉得统计局更可靠！（别有用心唱空中国的外媒除外！）

另一个方法理解为什么会“上蹿下跳”

如果你觉得以上数学过程太复杂，那么这里举个例子，让你更容易理解为什么会“上蹿下跳”。还是拿布袋子里的豆子做例子，假设现在已知布袋子里的黑豆和黄豆各占一半，现在让你每次拿出10000颗，并数一下其中黑色豆子的占比。在反复拿出100次，并计算了100次占比后，你会觉得，为什么黑色豆子的占比总是在50%左右，这数字都没什么波动。

现在，让你每次只拿出2颗豆子，并计算占比，你就会发现，经常会拿到两颗都是黑色，或者两颗都是白色的情况，再看看你的统计数字，会发现，不是100%，就是50%，要不就是0%。100次统计过程中，100%的次数大概有25次，0%的次数大概有25次，而50%的次数大概有50次，你会发现，为什么我的统计数字总是“上蹿下跳”呢？

这下你懂了吧！