分享

解密AlphaGo:深度学习投资策略研究

 黑马_御风 2017-01-11

2017巨献:年费会员的特权

762篇精选干货内容精编20170103 | 私募工场

财富管理系列之FOF风控细则实务培训

期权实战培训班课程(广州站)

期权实战培训班课程(北京站)

缠论量化特训营第2期开班


私募工场招募大量专做股指期货日内的量化高手,请高手自荐,联系方式:15034081448(手机)或guo5_guoguo(微信),就这么简单~ 


先分享一个AlphaGo的原理图:


1、深度学习原理


1.1 深度学习改变世界


“人工智能就像一列火车,它临近时你听到了轰隆隆的声音,你在不断期待着它的到来。它终于到了,一闪而过,随后便远远地把你抛在身后。”


2016年3月,AlphaGo和李世石之间的围棋人机大战震惊了世界。2017年年初,神秘AI棋手Master在网络快棋比赛中连续击败围棋界的所有顶尖高手,目前已经豪取50多场连胜,从无败绩。职业棋手甚至哀叹李世石对AlphaGo仅有的一场胜利可能是人类棋手对顶尖AI棋手的最后一胜。人类智慧最后的高地彻底沦陷,人类棋手在人工智能面前毫无还手之力。


这只是人工智能时代的一个缩影。近年来,深度学习以一种前所未有的力量改变着我们的科技和生活,创造一个个新的记录。



1.2 深度学习原理


为了说明深度学习的原理,我们先从最简单的分类问题开始。


下图左侧有两类不同的点,红点和蓝点。我们目的是构建一个分类器,判断未知类别的点(无色点)是属于红色一类还是蓝色一类。从机器学习的角度出发,我们可以基于已知类别的红色点和蓝色点,建立起一条分类的线(右图虚线),将整个平面分成两份,这一过程被称为模型训练的过程。


对于一个新的类别未知的点,我们就可以根据该点和分界虚线的相对位置,判断该点应该是属于红色一类还是蓝色一类。如果点落在分界线的左侧,则更有可能是红点;如果点落在分界线的右侧,则更有可能是蓝点。


在这个问题中,点的横纵坐标是机器学习的“输入”,颜色是“输出”。分类问题是通过建立起分类模型,对于不同的输入,计算出最可能的输出。



对于稍微复杂一点的问题,线性分类器就不好用了。如下图左侧的点,我们不可能找到一条直线,将两种颜色的点分开。因此,这个问题是线性不可分的。


但是,如果我们能够找到一种方式,将平面上这些点映射到另一个空间中,就有可能找到一个超平面,将这两类点划分开。这个新的空间被称为“特征空间”,点在新空间的坐标被称为“特征”。


一个好的原始数据到特征空间的映射会使特征空间的分类问题变得简单,因此,我们一般通过已有的样本来获得这个映射,提取足够好的特征(根据样本进行模型训练)。这个映射一般都是非线性的,这种非线性分类器能够解决比较复杂的分类问题。机器学习方面的支持向量机(SVM)、人工神经网络(NN)都是基于这样的一种原理。



随着实际问题趋于复杂,人们发现,有时候将数据映射到特征空间还是不够。如果我们将特征空间的点映射到另一个特征空间,甚至进一步映射到新的特征空间,在新的特征空间中,原来不好解决的问题会变得容易解决。


深度学习就是这样一种模型,这种模型将原始的输入数据映射到特征空间(H1)之后,继续映射到更高层次的特征层(H2,H3,……)。隐含层的增多,极大的丰富了模型的表达能力。使得原来不可解决的问题变得容易解决。


深度学习模型事实上是一个含有多个隐层(隐层数量大于等于2个)的神经网络模型。原始数据经过一层一层的抽象之后,最后进行分类。与普通的神经网络、支持向量机等机器学习算法相比,具有更好的性能。



2、深度学习Alpha策略


2.1 策略原理


本策略是周度调仓的深度学习预测策略。具体来说,每隔5个交易日进行一次建仓和平仓。根据深度学习预测模型,我们获得个股在T=5个交易日之后大幅上涨的预测得分。根据该因子挑选现货股票组合。


多因子策略中,如果某因子与股票未来一段时间内的投资收益相关,则该因子可以作为Alpha因子。基于深度学习的交易策略就是借助深度学习对大量的历史交易数据进行学习,建立预测模型,从而获取Alpha因子,即深度学习模型的预测得分。预测得分越大,表示股票在未来一段时间的收益期望越高。


基于深度学习的Alpha策略如下图所示,深度学习模型建立起当前时刻(t时刻)及此前时刻市场数据Xt以及一段时间后股票价格的变化Yt之间的关系,即使用信息Xt通过深度学习模型对此后的Yt进行预测,其预测得分可以作为Alpha策略的因子。


建立起深度学习预测模型之后,对于每一个新的股票样本数据,可以预测股票在一段时间之后的上涨概率得分,根据该得分进行选股。 



3、实证分析


3.1 回测参数


从中证800成份股里选择股票,组合规模为40只股票,等权构建多头组合,选用中证800指数进行对冲。


回测区间为2011年1月1日至2016年9月30日。首先选取2006年1月1日至2010年12月31日的数据,训练深度学习预测模型。


从2012年1月1日开始,每年都采用最近两年的数据,更新预测模型。


策略回测时采用千分之2的双边交易成本。 


策略选取输入变量如下,一共有386个输入变量:


日内的5分钟频的量价数据,包括:


X1:收盘价序列

X2:最高价序列

X3:最低价序列

X4:开盘价序列

X5:买卖盘报价平均价格序列

X6:成交量序列

X7:委买委卖量之比序列


日收盘价序列,包括:


X8:前50个交易日的日收盘价格序列


对输入变量进行数据清洗和标准化。


选用的深度学习网络为包含两个隐层的网络,网络结构为[386, 400, 200, 2],模型含有386个输入变量,第一个隐层有400个节点,第二个隐层有200个节点,输出层有2个节点(输出依次表示预测价格是上涨或者下跌的得分)。


首先通过无监督学习进行模型的训练,无监督学习的训练迭代次数为50次;然后训练有监督学习模型,有监督学习的迭代次数为400次。在Intel Xeon E5620,主频2.4GHZ的处理器下,单个预测模型的训练时间约为20小时。模型应用时,单个样本的预测耗时在5ms以内。


3.2 实证结果


2011年以来,对冲策略的累积收益率为269.1%,年化收益为25.5%,夏普比率为1.75。



风险提示:

量化模型胜率并非100%,市场环境改变等因素可能使得模型失效,历史表现也不能代表未来,请特别注重风险,谨慎投资!


来源:广发金融工程研究

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多