分享

从统计数据看什么样的基金经理最会赚钱

 ymmike 2016-09-29



作者 | 熊大




咱们长话短说,这是一个非常简单而有趣的数据。该数据来自于某个年度,样本量为2029。其中,每一个样本代表一个共同基金。关于该基金,数据收集了以下指标。首先是风险调整后的收益率。怎么个风险调整法,熊大也不知道,但是简单滴说,这个收益应该是越高越好。这是我们关注的因变量。接下来,数据采集了几个有趣的解释性变量,都是关于该基金的负责经理的。当时的作者尝试通过这些指标去理解:什么样的基金经理最会赚钱。是男性还是女性?是MBA还是非MBA?是经验丰富的还是小青椒?这是我们关心的问题。


为此,熊大作了一个漂亮的直方图,首先研究一下性别因素。简单滴说,我们希望对比男性基金经理 vs. 女性基金经理。有人认为男性基金经理可能投资策略更加激进,因此风险更大,表现更差。当然,也有人认为,金融投资风险同受益成正比,男性基金经理投资基金,风险相对较大,但是带来的收益也应该更好。但是,在这个数据集合中,到底是怎样的?为此熊大作了一个漂亮的直方图,如下图所示。大家看,男性基金经理的表现,是否非常明显地要比女性差不少。当然,我们不敢说这是一个放之四海而皆准的结论。但是,至少对这个数据集合而言,似乎对比强烈。


同样的方法,我们可以研究一下MBA学位的重要性。有的基金经理,从基层开始,摸爬滚打,最后成为一个基金经理,而没有MBA学位。但是,也有的基金经理,接受过正规的商学院教育,因此拥有MBA学位。请问:他们的MBA教育背景的差异,是否最终影响到了他们的投资业绩表现?从下图看,答案似乎是肯定的。读过MBA学位的基金经理的表现明显滴比非MBA基金经理的表现要好。这个发现让熊大非常开心,这似乎证明MBA教育,之于投资,是非常有帮助的嘛。


为此,熊大觉得备受鼓舞,决心继续研究下一个问题:基金经理的从业年限(也就是经验)是否同基金的表现相关呢?为此,根据基金经理不同的从业年限分组,并作直方图如下。




艾玛,这张图就有点奇葩了。大家看到什么奇葩现象没?这张图里哪一组的平均收益率最高?表现最优异?不是经验最丰富的(从业年限=8年)的基金经理。而是从业经验比较欠缺的。尤其是从业1年的这些基金经理,他们的表现最好,风险调整后的收益率为:3.26%。这是怎么回事?难不成这说明基金经理的经验不值钱?以后应该用新人,尤其是入行1年的新人作基金经理,并且在下一年把他们解聘。怎么样?这个主意不错吧?


我相信大家都不会认同熊大的主意,这个馊主意显然不合情理。但是问题出在哪里?我想这里有无穷多种可能。但是,按照批判性数据思维的基本理论框架去检讨,我们很容易会聚焦在一个问题上,那就是:样本量!于是乎又有了下面这个直方图,非常漂亮,跟正态分布好像。我们发现绝大多数基金经理的从业年限是4-5年左右。真正经验非常丰富的(例如:大于7年的),并不多。另外,新入行的基金经理,非常少。具体到从业1年的基金经理们(也就是基金业绩表现最好的那一组),他们的样本量才15个!对,15个,15个,15个!重要的事情说三遍。大家看,这个样本量是不是也太少了点?




好吧,大家都认为这一组的样本量太小了,以至于没有任何信度。但是,反过来说,您说样本量要多大才算大?有一个简单的标准,或者方法论帮助大家回答这个困惑吗?答案是肯定的。这就是我们今天要跟大家分享的,一个统计学中极其重要的概念,就是:标准误差(Standard Error, SE)。说白了,从业1的基金经理形成了一个样本组,该组的样本量是15。然后,基于这15个样本,人们计算了他们的样本均值:。假设资本市场上,所有从业1年的基金经理看作一个整体的话,那么是对这个整体的平均收益率的一个样本估计。假设这个总体的平均收益率是mu,那么是对mu的一个无偏估计。这说明,作为一个估计量,它不会系统性滴高估,或者低估mu。这是一个大好事。所以,请大家热烈鼓掌!


但是,有了无偏性就可以了吗?当然不可以。无偏性保证了样本均值不会系统性滴高估或者低估总体均值mu。但是,这并不代表样本均值对总体均值的估计就很准确了。为什么?因为样本均值围绕着总体均值,还有随机波动。显然,如果这个波动程度很小,那么样本均值,之于总体均值,就是一个非常准确的估计量。否则,就不是。由此可见,估计精度基本上是被样本均值的波动程度所确定的。那么,接下来的一个自然问题是:样本均值的波动程度可以测量吗?


关于这个问题,答案是清晰肯定的。我们可以用样本均值的标准差(即:方差开根号)来测量。简单滴说,考虑一个统计量(例如:样本均值),如果它的SE非常小,那么这个统计量,之于参数估计,是比较准确的。相反,如果它的SE非常大,那么这个统计量,之于参数估计,是没有用处的。回到咱们今天的基金经理这个案例,我们会发现,从业年限1年的这一组,它们的样本量太小了(n=15)。因此,既有可能相关的SE(即:估计误差)会非常大。但是,他们的SE到底又多大?这个是不清楚的。为此,我们需要一套完整优美的数学理论。经过前辈学者的努力工作,获得了一个非常简单而优美的公式如下:




大家看,这个公式是否非常优美?该公式建立了一个统计量估计误差(SE),同总体标准差(SD)以及样本量(n)之间的优美关系。该关系反映了人们两个朴素的理念。


1、样本量越大,估计量越准。


这从上面公式中很容易看出来,因为样本量n出现在了公式分母中。但是,悲催的是,该样本量被开根号了。这说明,每当精度要提高一个量级(即:SE降低为原来的1/10),需要的样本量只能是原来的100倍(不是10倍)!这是一个非常悲催的规律。该规律在统计学数据分析中极其广泛滴存在,大家要有思想准备。


2、同样两个样本,样本量相同,但是来自不同的总体。


那么哪个总体越是趋同(即:SD更小),那么相应的样本均值更加准确。这个好懂吗?例如,一个城市叫上海,每个人的收入不多不少1000元。因此,该城市的平均收入极其趋同(SD=0)。在这种情况下,即使样本量为n=1,相应的估计量也是精确的(SE=0)。相反,如果另外一个城市叫北京,每个人的收入都相差巨大。这个时候要想把平均收入说清楚,需要更大的样本量n。


简单总结一下这几个非常容易搞混淆的概念。为此,我们通过下面这个卡通示例简单说明一下。总体均值是什么?总体均值就好比是下图小朋友的精确身高(上帝才知道)。样本均值是什么?样本均值就用那把尺子,是用来测量总体均值(小朋友身高)的。但是,只要是尺子,就会有误差。因此,尺子的误差是通过SE来刻画的。这就是他们仨之间的关系。这样说清楚吗?




现实生活中,由于绝大多数数据分析都是基于有限样本的,都是基于统计量的,因此都会有估计误差。而SE作为对估计误差的测量表达,无处不在,极其重要!以样本均值为例,在知道SE的情况下,我们可以以样本均值为中心,2倍SE为半径,构造一个置信区间,而这个区间覆盖总体均值mu的概率大概是95%。这也常常被人们称为:区间估计。这就是SE的一个具体应用。


回过头来,我们再用标准误差,区间估计这套方法论去重新检讨我们的共同基金案例。看看在这套方法论的帮助下,我们的世界观是否会发生改变。为此,我把所有经理按照他们从业年限分组,然后根据上式分别计算区间估计如下。




从这张表了可以看到哪些有趣的结论?可能会有很多。熊大看到这么几个要点:


1、无论哪一组,均值(Mean)都严重滴小于SD。这说明什么?这说明这些不同分组之间的均值差异,同基金收益率本身的不确定性相比,是微不足道的。因此,不同分组之间,从平均收益率的角度,应该是木有啥子了不起的区别。


2、以第二组(即:从业1年组)为例。由于样本量n=15太小,因此相应的SE=2.39%,明显滴大于接下来的几组。后果是,相应的区间估计非常宽大,覆盖了太大范围,因此用处不大。一个具体的后果就是,该区间同其他各个分组的区间估计都有重合。这说明什么?这再次表明,不同分组之间,基金经理的平均收益率差异是不显著的。基于目前的数据,我们说不清楚他们之间,目前被看到的差异,是真的由于经理的差异造成的,还是仅仅随机误差而已。


再次简单总结一下。绝大多数数据分析都涉及到统计量,而且样本容量有限。因此,一定会产生估计误差,而SE是对估计误差最简单常用的测量。极其有用,需要同标准差(SD)小心区分!


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多