机器学习该如何应用到量化投资系列（一）

量化猫 2018-02-07

展开全文

本系列将从各个方面阐述机器学习该如何应用到量化投资这个问题。

2010年08月11日——【渤海证券】

《基于 MT-SVM 模型的市场预测》

·由于 A 股市场并非完全有效以及市场具有的分形特征和记忆性，从理论上来说对股票市场一段时间内的市场趋势所发生的概率进行预测成为可能。

· 我们构建了 MT-SVM 预测模型来对市场涨跌方向进行预测。预测模型的参数主要用到宏观经济变量、技术指标变量以及市场价格涨跌波动的数据；预测方法以支持向量机为主并结合统计和其他数量化技术；模型以 1998 年以来近 13 年的时间作为全部的考察、训练、预测和模拟样本，并对 2002 年以来近 9 年的每月市场涨跌进行了滚动预测模拟和实证检验。

· 从 2002 年至今，所预测的 103 个历史月份中，共预测错误 34 个月份，预测准确率为 67%；忽略掉单月涨跌在 2%以内震荡市的错误预测之后，整体预测准确率可以达到 73.79%，尤其是 2006 年以来的累计预测准确率实现 80%。 2005 年以前模型的预测准确率较低，2006 年、 2007 年以及 2009 年每年都只有 2 个月份预测错误。

· 以预测模型为实际投资操作依据，以上证指数作为虚拟投资标的，简单的假定预测下月上涨则买入并满仓，预测下跌则卖出并空仓。2002 年至今模拟投资操作累计收益率 416.44%，远远高于同期上证指数 60.24%的收益率。 8 年多的时间内，总计交易 21 次。分阶段来看，以预测模型为参考的模拟投资收益率也均远优于市场收益率。

· MT-SVM 模型对 8 月份上证指数预测结果：下跌。需要注意的是，未来市场的预测准确率可能会因前期较高的准确性而出现一定折扣，尤其近期遇到市场震荡反弹的格局，模型预测的困难可能会更大。

· 预测模型的适用范围：股票市场择时、趋势跟踪、机构投资者股票仓位管理；指数化投资以及基金投资；股指期货套期保值的择时决策，股指期货的单边投资决策。

· 模型存在的问题：目前模型还不能预测涨跌的幅度；模型预测的时间跨度仅以月为单位；模型对市场震荡阶段以及市场拐点预测效果较差；存在接近 30%的错误率会影响投资的最终效果，因此模型的实际运用也应当与投资的实际决策过程相结合。

2010年08月31日——【长城证券】

《基于 SVM 的量化择时方法》

·量化投资领域中，一个好的选股策略是比较容易实现的，但择时就不是那么简单。一般来说量化择时的解决思路会集中于两大类：技术派和基本面派。技术派与基本面派都有自己的理论弱点，从判断正确的概率来看，这两种方法长期胜率一般难以超过70%，并可能在一些决策关键时点难以信赖。

·支持向量机（简称SVM）是一种基于统计学习理论的模式识别方法，现在已经在生物信息学、文本和手写识别等应用领域取得了成功。SVM能非常成功地处理分类、判别分析等问题，并可推广到预测与综合评价领域。它的核心思想可以概括为：寻找一个最优分类超平面，使得训练样本中的两类样本点尽量被无错误的分开，并且要使两类的分类间隔最大。·我们利用 SVM 模型来判断大盘的涨跌。普通的 SVM 模型中输入变量只有股市本身运行的参数，因此更像是一种技术派做法。我们设计的模型结合了技术派与基本面派的特点，主要是在模型的输入变量中考虑到了经济数据与股市本身的参数。为了便于整理变量，我们将输入变量分为四个大类，分别是市场前期走势、货币环境、经济指标、外围环境等。模型运行的时间为 2000 年 1 月至 2010 年 7 月，训练时间为 24 个月，样本外推预测期是从 2002 年 1 月至 2010 年 7 月。

·从实证结果来看， SVM 模型确实是一种不错的择时模型。模型在最近的 104 个月当中取得了 64%的判别胜率，并且模拟投资上证指数的策略累计收益率达到 375%。模型在 06 年之后的表现要大大好于 06年之前， 06 年之后单月判别的胜率都在 67%以上。模型的缺点在于对震荡市和下跌市场的预测能力较差，并且交易信号较为频繁。而修正后的 SVM 模型的交易信号能够显著减少。而随着经济数据量、指数系列的丰富以及二次择时模型的开发，未来我们的 SVM 模型还有进一步改进的可能。

2013年10月15日——【国信证券】

《机器学习法选股》

输入：因子值· 输出：股票的表现· 学习目标：输入和输出之间的对应关系· AdaBoost算法· 选股模型可以表述为一个二元的分类问题：做多预期表现好的股票组合，做空预期表现差的股票组合· 模型的输出为信心指数，指数越高，表明预期表现越好，反之亦然。

2013年12月11日——【民生证券】

《基于机器学习的订单簿高频交易策略》

· 机器学习是订单簿动态建模的前沿方法

订单簿的动态建模，主要有两种方法，一种是经典的计量经济学方法，另一种是前沿的机器学习方法。机器学习通过对己知数据的学习，找到数据内在的相互依赖关系，从而对未知数据进行预测和判断，最终使得机器具有良好的推广能力。支持向量机(SVM,Support Vector Machine)是目前较为先进的机器学习方法。

· 可以从订单簿提炼指标库来刻画其特征

订单簿主要包括买一价、卖一价、买一量、卖一量等基础指标，并可以衍生出深度、斜率、相对价差等指标，其他指标包括持仓量、成交量、基差等，共计17个指标。还可以引入常见的技术分析指标如RSI、 KDJ、MA、 EMA等。

· IF主力合约订单簿每天存在4000次交易机会

以IF1311合约在10月29日的行情数据为例， Δt=2tick的情况下， ΔP绝对值大于等于0.4的次数大约有4000次，这是潜在的交易机会。

· 模型检验准确率最高达70%

预测未来1tick的价格变化准确率较高，在ΔP≥ 0.4情况下，总体准确率大概70%；在总体准确率大于60%的情况下，可以转化为交易策略。

· 策略模拟收益

以IF1311合约在10月31日的行情为例，在考虑手续费0.26/10000、单边滑点0.2点、每次交易1手情况下，全天交易次数605次，盈利次数339次，胜率56%，净利润11814.99元。

2014年06月18日——【广发证券】

《深度学习之股指期货日内交易策略》

· 深度学习高频股价预测模型从市场微观结构的角度来说，股票价格的形成和变化是由买卖双方的交易行为决定的，因此，对高频市场行情数据的挖掘有可能获得对未来股票价格走势的有预测能力的模式。本报告通过样本内大量历史数据训练深度学习预测模型，对 1 秒钟高频下的股指期货价格涨跌进行预测。该预测模型的样本外的准确率超过73%，表现不俗。

· 深度学习股指期货交易策略基于深度学习股价预测模型对股票价格变化的预测，本报告提出了股指期货的日内交易策略。该交易策略自 2013 年以来累积收益率达 99.6%，年化收益率为 77.6%，最大回撤为-5.86%。

· 结论通过股指期货高频价格预测模型的实证研究，本报告验证了深度学习这一大数据时代的机器学习利器在股票价格预测上的有效性。并基于预测模型提出了股指期货交易策略，取得了良好的效果。

2014年06月18日——【广发证券】

《深度学习算法掘金 ALPHA 因子》

· 金融大数据下的 Alpha 因子挖掘多因子 Alpha 策略是发掘出驱动个股产生 Alpha 收益的因子，根据有效的 Alpha 因子设计相应的选股策略，筛选投资的股票组合，以寻找超越市场的股票超额收益。为了获取新的 Alpha 来源，我们一方面可以对传统因子进行更加深入的挖掘，例如挖掘因子的非线性特征，寻找有效的因子组合。另一方面，我们可以利用更加高效的数据挖掘手段从市场数据中间寻找新的 Alpha 因子。随着大数据时代的来临，数据挖掘的方法不断革新改进，浩如烟海的市场数据为 Alpha 的来源提供了巨大的可能性。

· 深度学习股价预测模型从市场微观结构的角度来说，股票价格的形成和变化是由买卖双方的交易行为决定的，因此，对高频市场行情数据的挖掘有可能获得对未来股票价格走势的有预测能力的模式。本报告通过样本内大量历史数据训练深度学习预测模型，对以周为频率的中证 800 股票价格涨跌进行预测，建立起了可以对股价短期内走势进行预测的机器学习模型。

· 深度学习股票多因子交易策略基于深度学习股价预测模型对股票价格变化的预测得分，本报告提出了股票交易的 Alpha 策略。在组合规模为 100 的情况下，该多因子 Alpha策略自 2011 年以来累积收益率超过 120%，各年度收益率都超过 15%。

· 结论通过中证 800 成份股的实证研究，本报告验证了深度学习这一大数据时代的机器学习利器在股票价格预测上的有效性。通过深度学习模型对市场数据进行挖掘，获得了可以产生超额收益的因子，该因子的表现超越了传统的 Alpha 因子。

2016年05月09日——【东证期货】

《量化投资策略之机器学习应用（ 1）基于 SVM 模型的期货择时交易策略》

SVM 属于监督学习算法，对于求解小样本、非线性、高维度问题具有优秀的泛化学习能力，而择时交易策略则属于利用 SVM解决二元分类问题。构建 SVM 模型的过程可以简要概括为寻求支持向量与超平面函数间隔的最大化，从而优化求解模型参数。SVM 在求解非线性问题时使用核函数将数据映射到高维空间，以寻求超平面进行分类，同时在低维空间进行内积运算。

SVM 择时策略模型对数据进行归一化和降维处理，然后选取粒子群算法和遗传算法进行参数优化。将带有涨跌标签的普通量价数据和技术指标作为训练集数据源，将 SVM 模型训练成一个可以预测涨跌的分类器。

回测结果显示 SVM 择时策略模型预测准确率超过 50%，并且对下跌趋势的预判能力较高。模型具有良好的累计授予率与夏普比率，其中技术指标类特征量得出策略模型最大回撤控制在 10%以内。

2016年05月31日——【国信证券】

《量化投资策略之机器学习应用（ 1）基于 SVM 模型的期货择时交易策略》

2016年05月31日——【国信证券】

《Adaboost 算法下的多因子选股》

· Adaboost 算法Adaboost 是一种迭代算法，其核心思想是针对同一个训练集训练不同的弱分类器，尤其是对难以正确分类的数据重复进行训练，然后把这些弱分类器集合起来，构成一个更强的强分类器。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来调整每个样本的权值，这样使得难以正确分类的数据得到训练。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

· 选股实证由 Adaboost 算法得到的强势组合能够跑赢市场，且强势组合，市场指数，弱势组合之间的较为明显的净值差别，算法所构造的组合具有明显的区分度，类似我们也发现所有十档组合之间都有一定程度间隔，说明算法具有有效性。对比 Adaboost 方法的结果，回归方法产生的组合从净值数据上不管是强势组还是弱势组都是优于 Adaboost 算法的。由回归方法与 Adaboost 算法的净值比图来看，虽然两种方法在回测期截止净值相同，但回归方法产生的组合最高净值更高。当然，可以发现的是，回归法的波动明显比 Adaboost 算法大，尤其有市场振荡时期。基于 Adaboost 算法的多因子模型在组合净值的波动率水平上仍有亮点。

· Adaboost 因子与传统因子从净值曲线上看，考虑了因子大类后的算法选股组合的区分度更高。强势组合与弱势组合的净值差异明显组合相对 HS300 指数的超额收益净值曲线相对平稳，最大回撤发生在 2014 年12 月，最大回撤为 9%，而在此之前，超额收益的最大回撤为 5%左右。从月超额收益上看，组合的月胜率超过 50%，达到了 56%，整体效果良好。而对比弱势组合的超额收益，多空策略的净值波动更大，主要的回撤同样发生在 2014 年底，但策略的胜率仍保持 50%以上，达到 58%。

2016年05月31日——【国信证券】

《利用机器学习实现组合优化》

· 用机器学习对股票收益分类本报告以机器学习中的 SVM（支持向量机）为例，以中证 800 为基准，实现了对给定股票池的收益分类预测。通过逐步削去法，得到五因子组合构成的“ SVM收益分类器”，输入每年因子截面数据，在超平面上对未来一年的股票收益分类跑赢/跑输进行预测。根据 2009 年至 2015 年的回测结果，平均年胜率为 55%。

· 用机器学习对股票波动分类用类似的方法，同样用 SVM 作为分类器，以全 A 股票年波动率中位数为基准，实现了对给定股票池的波动分类预测。通过逐步削去法，得到十因子组合构成的“ SVM 波动分类器”，输入每年因子截面数据，在超平面上对未来一年的股票波动高/低进行预测。根据 2009 年至 2015 年的回测结果，平均年胜率超过61%，并且达到了降低投资组合波动率的目的。

· 深究因子组合机器学习可以帮助我们综合、归纳；可以帮助我们处理非线性因子；但无法代替人推理实证，无法保证模型的可靠性。作为事例，本报告加入单因子分析，给出了进一步构建五因子模型的可能解决办法之一，通过五个因子打分形式，共同构建“成长 40 组合”，在 2009 年至 2015 年间，成长 40 组合年化收益率超过 36%，而同期全 A 等权的年化收益不足 14%。

2016年05月31日——【国信证券】

《SVM 算法选股以及 Adaboost 增强》

· 支持向量机算法支持向量机的最大特点是改变了传统的经验风险最小化原则，而是针对结构风险最小化原则提出的，因此具有很好的泛化能力。同时，支持向量机在处理非线性问题时，通过将非线性问题转化为高维空间的线性问题，利用核函数替代高维空间中的内积运算，从而巧妙的解决了复杂计算问题，并且有效的克服了维数灾难以及局部极小问题。在不考虑非线性分类的情况下， 12 个月的样本数据滚动回测结果显示出较好的分类效果。强势组合能够显著的跑赢弱势组合。

· Adaboost-SVM 组合算法从 Adaboost 的角度出发，我们认为利用 Adaboost 对于每个月的数据的 SVM分类算法进行增强，可以有效的提高 SVM 分类的效果。从线性 SVM 分类结果来看，利用 12 层数据的 Adaboost 组合相比单月 SVM 效果显著增强，多空组合收益能够明显的区分开。但对比前述的传统 SVM 方法，其多空策略的净值收益并没有显著增加，传统的 SVM 模型整体优于 Adaboost算法下的 SVM 分类。

· 非线性分类在前一篇报告中我们对于非线性分类的处理主要通过对因子的多档概率统计完成，也具有显著的效果。为了使 SVM 模型与之更具有可比性，我们考虑 SVM的非线性模型。将非线性因素考虑进来之后，模型的超额收益显著高于无 SVM 的 Adaboost 算法。多空组合的区分度明显， 5 年的胜率在 58%的水平。效果的增强，除了证明我们之前的猜想：弱分类器的选择可能增加 Adaboost 算法的效果之外，也从侧面反映了多因子模型中，因子与收益间的非线性关系。从结果上看， Adaboost 的效果仍然不如单独的 SVM 算法效果，理论上考虑，Adaboost 的增强效果是需要建立在弱分类器的基础上的。 SVM 算法本身的显著分类可能对 Adaboost 算法造成影响。因此，对比概率统计的 Adaboost 分类，Adaboost-SVM 具有显著的提高，但更优的分类方法是非线性的 SVM 分类。

2016年09月08日——【国泰君安】

《基于机器学习的牛股精选》

决策树是通过一系列规则对数据进行分类的预测模型。它提供一种在什么条件下会得到什么值的类似规则的方法,相比神经网络、支持向量机等方法,其优点在于它是易于理解的“白箱”模型,可理解性更高。

决策树模型机器学习使得多个技术指标的综合运用成为可能。相比线性模型,决策树算法在处理非线性解释变量时,其表现要优于线性模型。

本文通过机器学习的方法构建了选股策略。以中证500指数为对冲标的,从2011年1月至2015年12月,组合累计超额收益为165%,年化收益可达21%,信息比率2.11,最大回撤9.33%,发生于2015年8月下旬。l组合在各年份的收益率及信息比都比较稳定。基于机器学习策略在算法上和逻辑上与传统的多因子模型的区别,模型在一定程度上提供了较好的互补性,提高了收益的稳定性。

2016年09月23日——【东北证券】

《HMM 指数择时研究之实战篇》

Table_Summary] 隐马尔可夫模型(HMM)是由马尔可夫过程衍生出的概率图模型，常被用于语音模式识别、生物基因序列标记、金融时间序列预测等。本篇报告是我们对 HMM 择时研究系列报告的第一篇——实战篇，我们旨在通过模型的实际运用让投资者更快速的理解并上手运用这个模型进行择时分析。报告分为六个部分，第一部分是必要地介绍什么是隐马尔可夫模型；第二部分是择时输入变量的提取，之后构建基于日收益率的指数择时策略；第三部分是择时策略应用于上证指数的参数训练及结果展示；第四部分是择时策略应用于沪深 300 指数、中证 500 指数以及上证 50 指数的结果展示；第五部分是基于沪深 300 指数设计的稳健型和进取型产品结果展示。最后一部分是 2016 年以来各指数择时效果的回顾、总结及对下一步工作的展望。

结论：

1、模型具有高收益率、高收益回撤比、高夏普比和高胜率的特点。

2、模型具有稳健性。

3、2016 年内上证指数累计收益 35%，交易次数 25次，交易频率 6.64天/次，胜率 64%，年化收益率 56.92%，年化波动率 24.03%，最大回撤 7.51%，收益回撤比 7.58，平均盈利 3.55%，平均亏损-2.27%，盈亏比 1.56，夏普比 2.37，累计净值 1.35，指数同期净值 0.93，超额收益 45.16%(纯多头超额收益 19.79%)

2016年11月07日——【东方证券】

《东方机器选股模型 Ver 1.0》

机器学习容易给人“黑箱模型”和“过拟合”的印象,但事实上一些机器学习算法的逻辑和结果都非常直白,而且算法自身带有一套避免过拟合的参数估计机制。众多的实践研究说明,机器学习方法的预测能力大部分情况下都强于线性模型,很值得在量化投资中测试使用。本报告主要讲述机器学习的基本原理和用其来做量化选股的实证结果。

机器学习模型众多,不存在所谓的最强模型,不同的数据,不同的问题适用不同的模型。我们测试了LASSO、SVM、增强型决策树、随机森林等几种常见机器学习方法,最终选择用随机森林,主要是因为它结构简单、参数少、过拟合概率低,同时还具有非常强的样本外预测能力。

机器选股模型省去了“因子筛选”、“因子加权”和“ZSCORE转收益率”这三个步骤,直接通过随机森林做回归,由alpha因子来预测收益率。需要说明的是,决策树本身也可以用来做变量筛选,但是我们并没有把这一步交给机器,而是仍然保留了“因子IC检验”这个步骤,保证随机森林的输入变量确确实实是符合我们传统意义的alpha因子;如果把很多没有选股效用的因子混在一起作为输入变量,会导致数据噪音过大,产生“Garbagein,Garbageout”的问题,降低模型的预测能力。

实证结果显示,和传统alpha因子IC_IR加权方法相比,随机森林模型得到的多空组合收益率和稳健性都更高,处理alpha因子间信息重叠的效果要比我们之前报告提出的线性方法好。

2016年12月05日——【国信证券】

《基于 K-Means 聚类的多因子特征检验》

K-Means 聚类在欧氏距离的基础上，聚类对于市值和波动率的分割很清晰，结合簇数以及分割的大小关系，我们选择将全 A 股分为 5 簇。虽然划分的依据是市值和波动率，但是划分后的 5 个类别的盈利、增长、换手率等因子的数值特征也是不同的。波动率对于营收增长具有显著的相关性，高波动率股票的整体营收增长率更高。而对于 ROE 因子，则可以看到显著的市值特征，大市值股票的整体 ROE 更高。而对于 EP 和换收益，市值与波动率特征同时显著。

因子特征评价以 IC 作为聚类检验的标准，在整体全 A 股的 IC 不显著的因子中，不同聚类簇的 IC 会体现出高于整体的显著水平。对于换手率、动量、波动率等价量因子，大市值的因子显著性是低于小市值组合的，其中以大市值、低波动的组合最为明显。而对于小市值组合中，高波动率组合的因子显著性较好，包括财务因子和价量因子都较为明显。对于财务因子而言，显著性更多的体现在大市值的两个组合之中。

策略构建构建因子打分选股策略，在同样的选股数量（均为总数的 30%）下，聚类之后的股票多空组合收益显著比全 A 组合稳定。月度的夏普率接近全 A 组合的 2 倍。

2017年03月02日——【中信建投证券】

《机器学习之贝叶斯文本分类算法的实现—大数据研究之指标构建》

自然语言处理技术自然语言处理（NLP）是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域，主要范畴包括切词，词性标注，句法分析，语义分析等。

新闻情绪指数构建概述新闻情绪指数构建即使用朴素贝叶斯文本分类算法对个股新闻进行正负面分类，正面新闻权重为 1，负面新闻权重为负 W（W大于零，即负面新闻对个股影响力为正面新闻的-W 倍）。然后根据正负面新闻权重和构建当日新闻情绪指数。

新闻情绪明显偏爱主板2014 年 1 月 1 日到 2016 年 11 月 30 日，主板日平均情绪指数为698，而中小板为 357，创业板为 144。主板个股与中小板个股日平均情绪指数为 0.45,而创业板个股日平均情绪指数为 0.28，明显低于主板及中小板。

正面新闻数量占绝对优势从 2014年 1 月 1日到 2016年 11月 30 日，正面新闻比例高达 71%，为负面新闻的近 2.5 倍。其中，2014 年正面新闻比例 70.71%， 2015年正面新闻比例 79.67%， 2016 年正面新闻比例 62.78%。

新闻情绪指数与大盘走势基本一致从 2014 年 1 月 1 日到 2016 年 11 月 30 日，大盘经历了疯狂的牛市然后断崖式下跌，最后企稳回升。与此同时，新闻情绪指数走势也是先上升后急剧下跌，最后企稳回升。

未来研究在本报告中，主要研究如何构建情绪指数，后期我们将研究如何运用这些指数。

2017年04月19日——【长江证券】

《大类资产配置之机器学习应用于股票资产的趋势预测》

大类资产配置系统简介资产配置按照配置目标、配置周期、收益预期及风险偏好等可以分为超长期资产配置、战略性资产配置、战术性资产配置、动态资产配置和保底资产配置。每一种配置系统之下，各类资产走势的影响因素都不尽相同，目前国内市场较为关注的是配置周期相对较短的战术性资产配置和动态资产配置。

三种机器学习方法应于股票类资产的趋势判断进行大类资产配置时对每一种类别的资产的分析十分重要，本篇主要是针对股票类资产进行分析，使用 logistic 模型、人工神经网络模型及支持向量机三种模型对股票类资产短期走势进行预测。选取不同的输入指标、训练期等进行预测和比较，对于沪深 300 的月度走势预测准确度最高达到 65%，最佳配适模型是训练期为 36 个月的 logistic 模型。

股票走势多分类下模型的预测效果使用机器学习模型还有一个优势就是可以将股票走势按照涨跌的幅度划分为更细致的类型，分别对划分成 4 类（大幅上涨、小幅上涨、大幅下跌、小幅下跌）和六类（幅度分得更细）两种情况下的样本进行预测。四分类下预测准确度最好的模型仍然是训练期为 36 个月的 logistic 模型，胜率为 64%，并且获取了比二分类下更高的超额收益率。六分类的预测效果不佳，主要原因是分成六类之后每一类别下的样本数量过少。

趋势判断结果运用于其他常见股票指数将前面对沪深 300 的预测结果用于中证 500 和中证 1000，在四分类下对中证500 和中证 1000 预测的超额收益率分别为 19.4%和 19.18%。简单的通过三种指数等权的方式对加入趋势判断后的效果进行测算，夏普比率及 Calmar 比率都有了显著性的提高，说明在进行趋势判断后再采取不同风格轮动方式，可以起到很好的提高收益平滑波动的作用。

2017年05月24日——【国信证券】

《递归神经网络 RNN—长短期记忆细胞（LSTM）的多因子预测》

递归神经网络 RNNRNN 不同于传统神经网络的感知机的最大特征就是跟时间挂上钩，即包含了一个循环的网络，就是下一时间的结果不仅受下一时间的输入的影响，也受上一时间输出的影响，进一步地说就是信息具有持久的影响力。人们在看到新的信息的时候产生的看法或者判断，不仅仅是对当前信息的反应，先前的经验、思想的也是参与进去这次信息的推断的。

RNN 之长短期记忆细胞 LSTMLSTM 是一种经过精心巧妙设计的 RNN 网络，尽管 LSTM 和原始 RNN 总的来看都会三大层，即输入层、隐含层、输出层。但是 LSTM 和原始 RNN 在隐含层设计上有较大的差异，主要是 LSTM 是在隐含层具备特殊的 cell 结构。

多因子建模应用于 RNN 网络结构中时，与传统的多因子模型有一定的区别：T+1 期的收益率仍然是训练的标签（label），因子对应的是样本的特征（feature），个股对应的是一个样本，但是，时间维度，在 RNN 中，是一个循环的过程，将过去 T-n 期的因子数据都要纳入 T+1 期收益率的预测之中。

训练结果在严格区分了训练集、测试集、样本外数据集之后，我们通过训练能够得到较高准确度的收敛结果，并且在样本外数据回测中，得到显著的超额收益。交叉检验的准确度接近 90%，样本外多空收益最近 12 个月的胜率则超过 90%。

2017年06月01日——【华泰证券】

《人工智能选股框架及经典算法简介》

人工智能和机器学习并不神秘人工智能和机器学习方法并不神秘，其本质是以数理模型为核心工具，结合控制论、认知心理学等其它学科的研究成果，最终由计算机系统模拟人类的感知、推理、学习、决策等功能。理解常用的机器学习算法，有助于澄清对人工智能的种种误解和偏见，帮助我们更清晰地认识人工智能的长处和局限，从而更合理、有效地将人工智能运用于投资领域。

机器“学习” 的对象是客观存在的规律机器学习的对象是某种客观存在的规律。这种规律可以非常浅显，比如教给计算机勾股定理，机器就拥有了计算直角三角形边长的智慧。规律也可以相当复杂，如指纹识别系统学习的是不同指纹图像之间差异的规律，苹果语音助手 Siri 学习的是人类语言的声信号和背后表达意义的规律，无人驾驶学习的是当前路况和驾驶行为的规律。有的规律甚至连人类自己都无法完美诠释，如 AlphaGo 学习的是围棋落子和胜负之间的规律，智能投顾学习的是资本市场中投资决策和收益之间的规律。

机器学习遵循基本的流程机器学习往往遵循一些基本的流程，主要步骤包括：数据获取、特征提取、数据转换、模型训练、模型选择和模型预测。数据获取可以通过数据库以及网络爬虫技术，途径日趋多元化。特征提取基于人的经验和探索，优质的特征能够起到事半功倍的效果。数据转换包括缺失值填充，标准化和降维。机器学习模型可分为监督学习，非监督学习和强化学习。模型选择通常借助交互验证和一系列评价指标。

监督学习寻找特征和标签之间的规律，应用极为广泛监督学习由使用者给出特征和标签，由算法挖掘规律，学习一个模式，并且根据此模式预测新的特征所对应的标签。监督学习应用更广泛，学习效果好。我们从最简单的线性回归模型开始，介绍包括线性回归、岭回归、Lasso 回归、逻辑回归、线性判别分析和二次判别分析、支持向量机、决策树、随机森林、 AdaBoost、神经网络、深度学习和 K 最近邻算法在内的众多监督学习方法。

无监督学习通常用来挖掘数据自身的规律无监督学习不给出标签，由算法仅仅根据原始特征寻找模式，挖掘数据自身蕴含的规律。聚类和降维是常用的无监督学习方法。聚类包括 K 均值聚类、分层聚类和谱聚类。降维包括以主成分分析为代表的线性降维，以及以流形学习为代表的非线性降维。

2017年06月04日——【广发证券】

《深度学习新进展：Alpha因子的再挖掘》

调仓频率：周频修改为月频，降低换手和交易费用的损耗

特征提取：在机器学习中融入金融行业知识，从选股因子中再挖掘

深度学习技术更新：采用性能更好的模型结构

2017年06月22日——【华泰证券】

《人工智能选股之广义线性模型》

采用统一的视角解释与测试所有的广义线性模型多因子模型的本质是关于股票当期因子暴露和未来收益之间的线性回归模型。我们希望引入机器学习的思想，对传统多因子模型进行优化，最自然的想法正是从简单的线性模型入手。本文中，我们试图采用统一的视角解释与测试所有的广义线性模型，并分析它们应用于多因子选股的异同，希望对本领域的投资者产生有实用意义的参考价值。

广义线性模型的构建和回测广义线性模型的构建包括特征和标签提取、特征预处理、训练集合成和滚动训练等步骤。最终在每个月底可以产生对全部个股下期收益的预测值，也可以将广义线性模型看作一个因子合成模型，即在每个月底将因子池中所有因子合成为一个“因子”。我们对该模型合成的这个“因子”进行分层回测，随后根据模型构建出基于沪深 300 行业中性、中证 500 行业中性和不做行业中性的选股策略。根据模型回测结果以及测试集 IC 或正确率对模型进行评价。

对滚动训练集长度等重要参数进行参数敏感性分析我们对线性回归模型的滚动训练集长度、主成分分析选取的主成分个数和训练集样本量进行参数敏感性分析。结果表明滚动训练集长度为 12~24 个月时回测效果较好；主成分分析保留的成分越多，回测效果越好；选取全部样本在沪深 300 行业中性基准下表现最好，选取前后排名 20%的样本在中证 500 行业中性基准下表现最好。

正则化对选股效果没有明显的提升正则化对选股效果没有明显的提升作用。岭回归、 Lasso 回归和弹性网络的表现和线性回归类似。可能的原因是样本的所有特征都是已被证明有效的因子，不存在使用正则化筛选有效因子的必要。其次预处理过程中包含去极值和标准化等步骤，减少了极端样本的出现概率，进一步削弱正则化的价值。

逻辑回归和随机梯度下降分类器（SGD）的表现优于线性回归将回归问题转换为分类问题能够提升模型表现。逻辑回归、 SGD + hinge损失函数、 SGD + modified Huber 损失函数这三个分类器的回测效果均优于传统的线性回归模型。三者之中又以 SGD + hinge 损失模型表现最佳，以中证 500 作为行业中性基准，每个行业选 10~15 只个股的策略，信息比率和 Calmar 比率均在 4 左右，超额收益最大回撤在 5%左右。三种分类器之所以优于线性回归，可能的原因是对原始收益率进行二值化处理后，在损失部分信息的同时消除了大量噪音，使得模型能够更准确地捕捉数据中蕴含的规律。