分享

小数法则和经验主义

 haosunzhe 2015-01-17

刘治平 杂想一

  大数法则是统计学的根本法则,它的意思是随着样本数量的增大,随机变量观察平均值的概率分布在随机变量的期望值附近集中。而小数法则是一种心理偏差,是人们相信小样本的平均值也会向随机变量的期望值附近集中分布。

  举例来说,假设使用投掷硬币这一随机过程,如果一面朝上设为0,另一面朝上为1,大家看看下列四个结果哪一个不是随机产生的?

  1. 0111100011110001

  2. 1000000010101011

  3. 1000001001000111

  4. 0110010101010110

  实际答案是4,虽然大多数人可能会认为它是最接近随机的序列,但实际上它是人为编造的产物。统计上来讲,我们需要大约200次投掷来判断一个序列结果是否是随机的,或者是人为编造出来的。在一个真正的随机投掷所产生的序列中,连续出现6次正面朝上或反面朝上的可能性是非常大的。但是许许多多的人会认为一个像投掷硬币这样的大数随机序列,当处在一个相对较短的序列时,也会呈现出50%的随机分布。

  研究发现人们在赌场押注奇偶数这样的赌局时,当他们看到连续两个或以上奇数出现时往往会下注偶数。之所以期待反转,原因就是因为内心里觉得这样的随机分布应该在短时间内也同样以50%的概率出现。这里人们是相信色子是随机的,只是不知不觉地受小数规则影响而已。但在另一个极端,如果在200个股票型基金中人们发现某基金经理连续三年排名在前50%以上时,人们会更倾向于相信此基金经理的能力,因为这里人们忽略了基金业绩排名同样具有随机性的问题。但是如果你对小数规则有些了解的话,你就会觉得在200个股票型基金中,出现一个连续六年排名在50%以上的基金肯定不能算是一个违反随机分布的事件。

  卡内曼在他的书“Thinking,fastandslow”中,将人脑思维决策体系分为系统1和系统2,系统1是做快速和几乎自动的反应决策,而系统2是侧重于分配注意力和主观努力,用来做复杂计算和选择的。系统1有明显的特征:它通过压制模棱两可的信息,并且自主构造流畅故事,从而打消疑虑并帮助人类解释所观察的现象;它喜欢在观察中寻找结构,模式和意义,而且从来不期望在随机分布模式中发现模式,所以它一旦发现貌似模式就会很快下结论。这里的一个主要结论是,人脑是很容易进行社交思维,比喻思维和因果思维的,但是却非常难以进行统计学式的思维,因为这要求大脑同时思考许多方面而系统1是无法做到的。

  我们在日常交流中这样一段对话最能说明小数法则。A说:“凭所谓的盘感炒期货,股票长期看是不赚钱的”,B:“那可不一定,我认识葛某某,从10000元炒起,现在个人资产2个亿。还有一个张某某,50000元开始,先亏了20000元后来全赚回来了,现在资产5亿元。”这种使用自己生活中的小数例子来反驳一个由统计学大概率推导出的论点的做法比比皆是,即使在高学历的朋友圈中也频频遇到。中国有句话叫做:“那可不一定!”。问题是世界复杂至极,几乎没有任何绝对肯定的事,我们最好的应对办法只能是寻找大概率事件。尽管众多大数据统计研究的论文,尤其是国外数据都证明了频繁炒股票或者期货的赚钱概率很小,但是这一点儿也不妨碍许多人去不停的尝试,这里面小数规则的结论对他们肯定是有影响的。像最近网上流传的所谓高手“佛山无影脚”从10万元炒到上亿的故事会令许多人激动不已从而摩拳擦掌地去复制“无影”的成功。

  即使对专家而言,小数规则也会严重影响他们研究结果的可靠性。一个著名的例子就是所谓的“莫扎特效应”。这个效应的结论是,如果不时地给婴儿播放古典音乐就能够使他们变得更聪明。根据这一研究结论,市场上曾经产生出大量的商业书籍,音乐CD和DVD等,甚至形成了一个与之相关的产业。但是这个由法国心理学家FrancesRauscher做出的试验实际上只有36个学生做样本,而且只有在一个测试中学生的IQ成绩好像在听了莫扎特音乐后有了较大的改善。由于很多媒体及音乐出版机构大肆宣传和利用这一研究结果,致使许多家长都相信了这个结论的科学性。德国教育部在2007年对所有与之相关的研究做了一个综合评价,结论是这个所谓的效应根本不存在。

  经验主义在中国应该是最最重要的一个统治学派,虽然这一点没有明确被公开宣传。不像西方文明受古希腊的几何公理,逻辑哲学的影响,我们的文明受尊师重道文化的影响,许多智慧积累得益于人们长期对经验的总结和传承。我们最伟大的发明之一——中医,实际上就是一个多年经验积累的成果。黄帝对中草药能够治疗疾病的发现,大概是中华民族得以延绵至今的重要原因之一,但是中医的每种药,针灸作用从来没有像西医那样做过有统计意义的比较研究,因为中医的理论基础就是因人而异,需要“望、闻、问、切”的个体化治疗。这就造就了中医大夫的千差万别,南郭先生和华佗先生并存,而如何区分他们则是病人们的最大困惑。病人们会从亲戚朋友口中得知谁是“神医”,问题是经常治好别人病的方子对自己又不大管用。可以说,信奉中医的病人们许多都在这样的小数法则统治的圈子里转。我自己的感觉是中庸大夫很多,华佗先生难遇。当然这样的小数法则在西医里也广泛存在,尤其是当你面临选择哪个肿瘤大夫做化疗时,他们都会推荐你见见他们过去看好的生存下来的病人。从这些病人口中你当然会听到美妙的起死回生的故事,但是事实上许多死在这些化疗大夫手下的病人们你是没法见到的。真正科学的信用体系应该给每个肿瘤大夫建立一个病人化疗生存率统计表以供大家选择,当然这种事是不会发生的。这种系统性的幸存者偏差(survivalbias),是小数法则偏差的另一个分支,尤其在对对冲基金的评价中带来的偏差对结论的影响巨大。

  经验主义在中国大放异彩的另一个领域是经济学。在西方,经济学越来越数学化,量化。没有好的数学基本功你大概是没有机会拿到经济学博士学位的。任何一个经济学结论如果没有科学数学或统计的论证几乎很难得到认同。而在中国几乎见不到一个数学式的经济学家,这里的经济学家许多是政策解读专家,经验归纳专家,出场费巨贵的演讲专家。在中国,经济学更偏向文科政治学的经验统计。这里面更深刻的原因可能是因为我们的政策制度也是在摸着石头过河的经验中总结成长之故。我只是希望顶层设计的思想一定不要建立在由小数法则推导出的经验统计上。

  所以从过往经验来总结归纳事物发展的规律,最大也最常见的问题就是样本数量不够大或者历史时间不够长,从而使得结论不具备全面、完善的科学统计意义。比如像对一种股票投资方法(如价值投资、成长投资、量化投资等)的认同,可能会需要许多年的历史数据来总结和佐证,但这样的数据可能永远不会存在,因为每个基金的生存周期有限,每位基金经理的任期更有限。中国股市的过去四年产生了非常有意思的现象。从2011年到2012年,价值投资风风火火,许多价值投资大师纷纷涌现。可是到了2013年和2014年随着市场风格的转化,在这种小盘股结构性牛市中又产生出了许多成长大师和量化投资大师。其实只要看一下我列出的下面这个列表,你就会茅塞顿开。

  全A股等权 沪深300 中证500

  2011年 -29.3% -25% -33.8%

  2012年 3.8% 7.6% 0.3%

  2013年 24.5% -7.7% 16.9%

  2014/10/20 40% 5.4% 28.7%

  这张表清晰地表明在2011-2012年期间,当大盘蓝筹集中的沪深300指数好于代表中小盘的中证500和偏更小盘的全A股等权指数时,偏向大盘的价值投资就会有所表现。而当从2013年开始市场反转过来时,偏成长风格和组合偏等权重配置的量化投资就会有所表现。所以从你胜我两年我胜你两年这个经验就去做评价和结论,绝对会陷入小数法则的圈套。更极端的是,如果一个基金经理2014年年初在他的组合中买入等量的所有A股股票然后去度假,他现在回来后发现他的基金已经收益接近40%,排名绝对在前5%!这种极端行情下的好业绩大概没有多少预见性。但是有一点倒是可以说说,那就是按过去四年的累计收益来计量,偏成长型组合以及偏小盘的量化投资组合绝对完胜价值投资组合。

  近期许多做股票投资和媒体的朋友都和我讲,在中国,量化投资的春天要来了。问原因,都在讲过去两年量化基金包括量化对冲基金投资业绩出众。虽然我倾向于相信这样一个结论,但是我觉得用过去两年的业绩得出这样一个明显的违反大数法则的经验主义结论,当市场行情稍为反转时,大家难免会陷入2011-2012年价值投资大师们目前面临的难堪局面。

  股票的量化投资在中国的确会有一个长足的发展空间,我认为这一结论有其科学的理论基础,并非只是从最近几年的经验推论而来。这个原因其一是随着中国上市股票数量的增加,凭借市场投资标的的样本广度来寻求超额收益的大数据量化分析方法会越来越体现出其优越性。在2013年,年收益率超过万得全A股等权指数30%以上的股票个数是810个!而传统的靠精细调研,通过挖掘标的样本深度信息来寻找超额收益的方法明显地会受到基金经理、研究员精力的约束。其二,量化投资的根本假设是过去历史行情体现出的基本因子表现会大概率地在将来股市行情中有所体现,这包括价值因子,成长因子,规模因子等的表现。所以随着中国股市历史时间变长,量化投资方法回测结果对将来预测的准确性会逐渐增加。试想如果现在你研究一个量化模型,你一定会考虑2011-2012年的价值因子重要性和2013-2014年成长因子的重要性,而在2010年,你回测结果主要包含的是2005-2007年的会计改革,国有非流动股改革,大小非减持;2008年的全球金融危机;2009年的4万亿政策刺激这些将来非常小概率会出现的行情。这样你的模型的预测性就会打折。其三,随着机构投资者在股市中话语权的增加,机构投资者会从多个风险收益指标考核一个投资组合。量化投资在一个多方位,长时间考核的体系下其优越性会比较明显。在美国,量化投资的流行和扩张也正是同步于机构投资者在市场中占比的增加的。所以我想对机构投资们说,给量化投资更多的机会,不仅仅是从过去两年的业绩中看,还要想想顶层设计,想想量化投资的科学性和逻辑性。

  特别想提一下的是最近广发基金利用百度搜索大数据做出的量化策略指数百发100(代码000851)和南方基金利用新浪财经大数据做出的量化策略大数据i100(代码399415)和i300(代码399416)。这两只实质上是在多因子量化研究框架下,结合互联网众多投资者行为大数据构造出来的股票组合在交易所的挂牌,给了投资者一个可以实时观察量化组合样本外表现的机会。其背后的另一重要性其实更应该引起注意,以往行为金融学所揭示的种种人类认知偏差(heuristicbias)在我们的投资决策中扮演的都是负面角色,它们使我们追涨杀跌,过快地卖出赚钱股票和过长地持有套牢的股票,频繁地交易,频繁地变换风格,等等等等,不一而足。看了众多的行为金融学书籍和研究论文后,我的感受是目前学者们几乎没有任何有效办法教你在投资决策中避免这些认知偏差从而改善投资业绩。这可能就是裘国根先生所讲的投资是逆人性的活动之故。而能逆人性的投资大师必然是极少数,否则人人都逆人性,人非人也。但是量化投资实际上在许多方面克服了人性的这些弱点,因为它是一个方法规则确定的投资过程和投资方法(rule-based-investment,我总觉得不论怎样翻译这个词都别扭)。而百发100和i100不仅仅是建立在投资规则上的组合,它们是第一次通过大数据分析利用了人们的金融行为并反其之达到提高投资业绩的目的!如果行为金融学者们明白这点,他们就应该好好对此深入研究研究。多年之后大家一定会对这个开创性之举带来的结果感到吃惊的。

  (作者:南方基金数量化投资部总监刘治平 来源:中国量化投资俱乐部Qclub)





 


点击赢iPhone6




    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多