多因子模型

保存文章的 2019-05-23

展开全文

引言

量化投资中经常听到的“多因子模型”是个什么鬼？因子是影响因素的简称，或简单理解成指标。我们都知道股票收益受到多重因素的影响，比如宏观、行业、流动性、公司基本面、交易情绪等等。所谓“多因子模型”，说白了就是寻找那些对股票收益率最相关的影响因素，使用这些因素（因子或指标）来刻画股票收益并进行选股。

多因子模型是量化投资领域应用最广泛也是最成熟的量化选股模型之一，建立在投资组合、资本资产定价（CAPM）、套利定价理论（APT）等现代金融投资理论基础上。多因子模型假设市场是无效或弱有效的，通过主动投资组合管理来获取超额收益。多因子选股的核心思想在于，市场影响因素是多重的并且是动态的，但是总会有一些因子在一定的时期内能发挥稳定的作用。在量化实践中，由于不同市场参与者或分析师对于市场的动态、因子的理解存在较大差异，因此构建出各种不同的多因子模型。

作为多因子模型入门篇，本文主要介绍多因子模型产生的理论背景、基本原理和实现步骤等，为大家学习和研究多因子量化选股模型提供一个背景知识和理论框架。

多因子模型的理论背景

现代金融投资理论主要由投资组合理论、资本资产定价模型、套利定价理论、有效市场假说、期权定价理论以及行为金融理论等组成。这些理论的发展极大地改变了过去主要依赖基本分析的传统投资管理实践，使现代投资管理日益朝着系统化、科学化、组合化的方向发展。

1952年马柯维茨（Markowitz）在The Journal of Finance（金融学最顶级的学术期刊）上发表了《证券组合选择》论文，开启了现代证券组合管理理论的先河。马柯维茨开创性地引入了均值和方差来定量刻画股票投资的收益和风险（被认为是量化交易策略的鼻祖），建立了确定最佳资产组合的基本模型。

其后，越来越多的经济金融学者通过数量化的模型以及周边市场和投资交易问题。夏普（William Sharpe）、林特尔（John Lintner）、特里诺（Jack Treynor）和莫辛（Jan Mossin）分别于1964、1965和1966年在马柯维茨投资组合理论基础上，发展出了资本资产定价模型（CAPM）。该模型不仅提供了评价收益-风险相互转换特征的可运作框架，也为投资组合分析、基金绩效评价提供了重要的理论基础。

CAPM模型认为所有证券的收益率都与唯一的公共因子（市场证券组合）的收益率存在着线性关系。1976年，针对CAPM模型存在不可检验性的缺陷，罗斯（Stephen Ross）提出了套利定价理论（Arbitrage Pricing Theory，APT）。套利定价理论以收益率形成过程的多因子模型为基础，认为证券收益率与一组因子线性相关，这组因子代表证券收益率的一些基本因素。事实上，当收益率通过单一因子(市场组合)形成时，将会发现套利定价理论形成了一种与资本资产定价模型相同的关系。因此，套利定价理论其实是一种广义的资本资产定价模型，该理论成了多因子量化选股模型的重要理论基础。

但是套利定价理论并没有指出影响证券收益的具体因素，在应用中需要预先判断哪些因素可能影响证券收益，并使用统计分析方法进行验证。研究者从不同角度出发，发现了各类影响证券收益的因子，比较经典的有Fama-French三因子模型。

市场中的小市值、价值股表现明显超过市场，而这一效应不能用CAPM模型解释。1981年，大卫·布斯和雷克斯·桑奎菲尔德成立了维度投资顾问公司，买入小市值、低估值的股票，获得了高额回报。1992年，Fama和French对美国股票市场决定不同股票回报率差异的因素的研究发现，股票的市场的beta值不能解释不同股票回报率的差异，而上市公司的市值、账面市值比、市盈率可以解释股票回报率的差异，因此提出了著名的三因子模型。

随着市场交易实践和研究的不断深入，研究者又发现市场中的动量现象无法用三因子模型解释。1997年，卡哈特（Carhart）认为研究股票收益应在Fama和French的三因子模型基础上加入动量效应，构建四因子模型。动量是物理学名词，是与物体的质量和速度相关的物理量，一般而言，一个物体的动量指的是这个物体在它运动方向上保持运动的趋势。而股市中的动量投资策略依据的就是动量效应，又称为“惯性效应”，即某个时段跌得最深或长得最凶的股票往往会沿着原来的方向继续运动。

虽然四因子模型将股票收益与价格本身联系起来了，但与公司价值关系不大。从直觉上理解，在其他条件一定的情况下，财务质量高的上市公司应该带来更高的投资回报，因此有必要引入刻画公司资产质量的因子。2013年，Fama的学生阿斯内斯 (Asness)对公司“质量”进行量化，并提出了五因子模型。

后来，研究者们又发现低波动率（低beta）股票组合的实际收益比高波动率（高beta）股票组合的要高，这一现象无法用五因子模型解释，于是法拉瑞利等于2013年又将波动率因子引入，建立了六因子模型。

多因子模型的构建

多因子量化选股的原理不难理解，即认为股票收益率是由一系列因素（因子）决定的，根据经济金融理论或市场经验寻找这些因子，然后通过对历史数据的拟合和统计分析进行验证和筛选，最后以这些因子的组合作为选股标准，买入满足这些因子的股票。在实践中，多因子量化选股已经是一个相对成熟且大致框架较为固定的策略，具体可分为五个步骤，分别为因子选取、因子有效性检验、因子筛选、综合评分模型以及模型的评价和改进。

因子的选择

多因子选股模型的第一步是发掘各类与股票收益率相关的因子，因子的选择主要基于经济逻辑和市场经验，在经典的规模、估值、动量、波动率等全市场通用因子基础上，根据宏观、行业、公司基本面、市场特征，结合各类特异因子来构造投资组合。影响股价收益的因子多种多样，见仁见智，参考券商研报总结，有以下几类（还可以继续细分和挖掘）：

（1）市场整体：市场因子、系统性风险等;

（2）估值因子：市盈率、市净率、市销率、市现率、企业价值倍数、 PEG 等；

（3）成长因子：营业收入增长率、营业利润增长率、净利润增长率、每股收益增长率、净资产增长率、股东权益增长率、经营活动产生的现金流量金额增长率等；

（4）盈利能力因子：销售净利率、毛利率、净资产收益率、资产收益率、营业费用比例、财务费用比例、息税前利润与营业总收入比等；

（5）动量反转因子：前期涨跌幅等；

（6）交投因子：前期换手率、量比等；

（7）规模因子：流通市值、总市值、自由流通市值、流通股本、总股本等；

（8）股价波动因子：前期股价振幅、日收益率标准差等；

（9）分析师预测因子：预测净利润增长率、预测主营业务增长率、盈利预测调整等。

因子有效性的检验

一般检验方法主要采用排序的方法检验候选因子的选股有效性。例如：可以每月检验，具体而言，对于任意一个候选因子，在模型形成期的第一个月初开始计算市场中每只正常交易股票的该因子的大小，按从小到大的顺序对样本股票进行排序，并平均分为 N 个组合，一直持有到月末，在下月初再按同样的方法重新构建 N 个组合并持有到月末，一直重复到模型形成期末。还有一个参数是候选组合的数量，具体参数的最优选择，需要用历史数据进行检验。

剔除冗余因子

不同的选股因子可能由于内在的驱动因素大致相同等原因，所选出的组合在个股构成和收益等方面具有较高的一致性，因此其中的一些因子需要作为冗余因子剔除，而只保留同类因子中收益最好，区分度最高的一个因子。例如成交量指标和流通量指标之间具有比较明显的相关性。流通盘越大的，成交量一般也会比较大，因此在选股模型中，这两个因子只选择其中一个。

冗余因子剔除的方法：假设需要选出 K 个有效因子，样本期共 M 月，那么具体的冗余因子剔除步骤为：

（1）先对不同因子下的 N 个组合进行打分，分值与该组合在整个模型形成期的收益相关，收益越大，分值越高;

（2）按月计算个股的不同因子得分间的相关性矩阵；

（3）在计算完每月因子得分相关性矩阵后，计算整个样本期内相关性矩阵的平均值;

（4）设定一个得分相关性阀值，将得分相关性平均值矩阵中大于该阀值的元素所对应的因子只保留与其他因子相关性较小、有效性更强的因子，而其它因子则作为冗余因子剔除。

多因子选股的判断方法

多因子选股的判断方法分为回归法（OLS）和打分法。回归方法是利用股票历史收益率对筛选出的多因子进行回归，估计出回归方程系数，然后将最新的因子带入回归方程估计股票未来收益，以此为依据进行选股。回归方法的问题是很难找到一个精确拟合的回归方程，模型误差比较大。

打分法是根据各个因子的大小对股票进行打分，然后根据一定的权重加权得到一个总分，根据总分对股票进行筛选。例如每个月初，对市场中正常交易的个股计算每个因子的最新得分并按照一定的权重求得所有因子的平均分。最后，根据模型所得出的综合平均分对股票进行排序，然后根据需要选择排名靠前的股票。例如，选取得分最高的前 20%股票，或者选取得分最高的 50 到 100 只股票等等。打分法操作简单，但是权重的确定比较困难，对结果的影响较大。

模型的评价及持续改进

多因子量化选股模型是建立在市场无效或弱有效的前提之下，随着使用多因子选股模型的交易者数量的不断增加，有的因子会逐渐失效，而另一些新的因素可能被验证有效而加入到模型当中。此外，一些因子可能在过去的市场环境下比较有效，而随着市场风格的改变，这些因子可能短期内失效，而另外一些以前无效的因子会在当前市场环境下表现较好。

在计算综合评分的过程中，各因子得分的权重设计、交易成本考虑和风险控制等都存在进一步改进的空间。因此在综合评分选股模型的使用过程中会对选用的因子、模型本身做持续的再评价和不断的改进以适应变化的市场环境。因子和参数的获取只能通过历史数据回测来获得，但是在回测过程中，防止出现过度优化也很重要的。

结语

多因子量化选股本质是基于历史数据的统计分析，通过寻找那些与股票收益率最相关的因子，并基于套利定价理论（APT），将多个影响因子进行组合，构建综合选股指标来筛选股票。任何一个多因子选股模型具有一定的时效性、风险性，需要使用者根据市场情况进行调整和更新，这是多因子选股策略存在的不足。多因子选股模型作为一种量化投资选股策略，最大的优势在于其结果是根据客观的数据和完整的模型得出的，可以避免交易者个人主观意念的干扰，具有一定客观性。多因子选股研究的对象主要是因子，因此单因子的回测和有效性检验是整个多因子模型的重要组成部分。

后期将以系列推文的形式结合因子分析的Python工具包Alphalens对因子的选择和回测进行实践分析。

参考资料：

1、丁鹏《量化投资——策略与技术》

2、华泰证券研报《多因子选股策略——数量化选股策略之十二》

3、网络资料《多因子量化模型简介》

关于Python金融量化

专注于分享Python在金融量化领域的应用。加入知识星球，可以免费获取30多g的量化投资视频资料、公众号文章Python完整源码、量化投资前沿分析框架，与博主直接交流、结识圈内朋友等。