分享

量化选股策略的流水线和进化史

 昵称29663897 2022-04-25

虽然量化选股投资的「派系」,可以大致分为学院派模式、金融科技模式与主动量化模式三大类型。但开发流程和基本框架却有诸多相似。

目前主流量化私募大多采用了不做市场择时、不主动风格择时、分散持股、机器+人工构建特征、线性+非线性算法特征组合、量化模型不断迭代以及完全程序化交易的基本框架。

当前主流量化私募选股流程可分为四大模块:特征挖掘、特征组合、组合优化以及交易算法。通过四大模块量化私募实现了从原始数据至真实下单的程序化交易,四大模块共同构成了量化选股私募的竞争壁垒。(注:本文内容来自国泰君安金融工程团队的研究) 

图片

图源:国泰君安

特征挖掘

特征挖掘的质量与数量直接决定了策略收益的上限,而模型和算法只是逼近这个上限而已。特征挖掘模块包括特征设计、特征处理以及特征监控等流程。特征挖掘的难点在于其不仅以计算机技术为基础, 更考验量化团队的投资能力。高质量的特征反映的是团队对A股市场宏观或者微观层面独到且深入的理解。

图片

图源:国泰君安

初代特征常常与市场风格具有较高的相关性,其特征可分为估值、盈利、成长、动量、流动性和波动率等几大类。此类特征对股票预期收益率解释力度大,但投资逻辑较为朴素,特征同质性较高,也常是量化产品回撤的原因(如2014年小市值风格回撤、2019年低估值风格回撤、2021年年末流动性风格回撤)因此量化投资者更乐于将此类特征当作风险管理的手段。

二代特征挖掘借助遗传规划、神经网络等机器学习技术实现特征的自动挖掘,在高频量价领域机器挖掘特征具有天然的优势,标准化的数据使得挖掘算法能够突破人类思维局限性,挖掘出人脑难以构建的特征,然而特征自动挖掘技术也存在四个难点:生成因子的过拟合(样本外存活率过低)问题、生成因子的高线性相关问题、因子非线性问题以及因子生命周期不确定问题。如何解决上述四个问题是区分特征自动挖掘技术优劣的关键。

前两代特征挖掘以寻找对股票收益具有线性解释力的特征为主,而当市场主流特征组合建模从线性模型转为非线性模型时,特征挖掘不再局限于线性因子,企业性质、上市时长等非线性特征也成为了有用的增量信息,此类特征单一预测能力远弱于前两代特征,但是其数量巨大,通过特征组合建模,此类特征得以聚沙成塔,也能够形成有效的收益预测。

近年来,在量化策略趋同的背景下,某些量化私募主动转型开始第四代以另类数据为核心的特征挖掘,从非标数据中寻找企业基本面变化的代理变量。

总结来说,特征挖掘整体呈现在频率上由低到高、广度上由宽到窄、深度上由浅入深的发展趋势。

特征组合

特征组合技术是量化选股私募的核心技术壁垒,特征组合技术的发展与使用的特征种类息息相关,为了更好契合特征的数据特点,特征组合同样可以分为四个阶段。

图片

图源:国泰君安


传统量化模型以低频线性因子为主,初代特征组合采用线性回归或者等权的方式,作为白箱模型,线性回归操作简单,易于理解,预测效果稳健,因而线性回归目前仍是以基本面因子为主或擅长低频交易的量化私募偏好的特征组合方式。

伴随高频量价数据的广泛应用,第二代特征组合方式为以XGBoost为代表的机器学习算法。XGBoost是目前最为成功的树形算法之一,在金融数据上大放异彩,其收益预测表现不仅超越线性回归,且显著优于传统机器学习算法。

集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。使用集成学习进行特征组合主要有两方面的原因,一来XGboost不再是非线性特征组合的唯一选择,CatBoost、LightBGM、深度神经网络等算法同样优秀,集成学习可以「博采众长」;二是不同数据类型适合不同的算法,在数据类型多元化的背景下,集成学习可以避免单一算法的不足,将线性模型与非线性模型融为一体。

在第三代人工智能算法的基础上,具备金融科技优势的量化私募正在逐步形成新一代自定义的特征组合方式。自定义算法优势包括:提升算法运行效率、降低模型风险、更加契合金融数据、降低策略拥挤度等。由于开发难度大、开发周期长、知识储备要求高,其他机构难以复制,可成为量化私募的核心竞争力。

组合优化

组合优化的意义在于平衡组合的收益和风险,给出风险调整后收益最大化的资产配置方案。组合优化可细分为完成股票协方差的估计组合优化建模以及风险敞口管理三大部分。

股票协方差估计,Barra结构化风险模型是最为流行的做法。

风险敞口管理,在风格切换加速的背景下,整体私募敞口控制趋严,增大了控制风格的数量和程度,与此同时,随着量化私募管理规模的扩大,基于因子拥挤度、因子估值等的因子敞口控制策略开始流行。

组合优化建模,常规组合优化建模采用马科维茨的均值方差模型,由特征组合给出预期收益,Barra等风险模型确定风险矩阵。但均值方差模型给出的最优权重对收益和风险的估计过于敏感,传统算法通常只能简单粗暴地通过加入个股权重上限来缓解参数敏感的问题。

现实中的许多信息无法纳入量化体系,因而新一代组合优化更加务实, 将股票权重分配问题的决策转换为战略和战术两层。战略层由算法生成能够提供最大化风险调整后收益的备选组合配置方案组,战术层基于非定量信息在备选方案中挑选最优配置方案。

算法交易

图片

图源:国泰君安

第一代算法基于历史交易模式,使用历史交易记录对现在的交易进行指导。基本目标是冲击成本最小化及贴近市场成交均价,几乎没有考虑机会成本和成交风险。代表性的算法有VWAP策略、TWAP策略、VP策略等。第一代算法为算法交易的发展打下了深厚的基础,当下许多算法模型的基础为了更好地适应市场环境,静态方法逐步向动态方法改进,向机会导向算法倾斜,力图寻求相比VWAP、TWAP更好的价格。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多