分享

【新提醒】[CHINAQIR]基于主成分分析(PCA)的股票市场焦虑检测模型

 无云666 2013-12-16
 文/郑娜编译

相信大家可能都会同意一件事,那就是,市场中弥漫的焦虑情绪会导致大规模的股票卖出、价格的崩盘以及造成巨大的损失。我们已经多次见证这种情形。焦虑是人类面对不确定性而产生的一种本能的自卫反应。所有的交易员都希望通过观察或研究市场行为、交易模式、盘口价差或订单流来捕捉这种紧张和恐惧。主要问题在于,我们很清楚人类行为在交易中的重要性,但是我们无法直接观察到。
那么,有没有办法从与交易相关的因素中把情绪部分分解出来。在这篇文章里,将尝试为这个问题给出一个量化的办法。

主成分分析(PCA

主成分分析,被认为是应用线性代数里最具价值的方法之一,它为从混乱的数据集中提取相关信息提供了一个简单的、非参数方法。

假设我们观察p只股票在过去n天的每日价格变化。我们得到矩阵X。设随机向量X的均值为μ,协方差矩阵为Σ。对X进行线性变化,考虑原始变量的线性组合:
主成分是不相关的线性组合Z1,Z2……Zp,并且Z1是X1,X2…Xp的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Zp是与Z1,Z2 ……Zp-1都不相关的线性组合中方差最大者。

纳斯达克的协方差,焦虑的特征根

我们将努力构建一个简单的量化模型,以使用PCA对交易市场中的焦虑情绪进行检测。让我们考虑一下纳斯达克100指数。它是由100只科技股组成。我们将使用Matlab执行所有的计算。首先从数据收集和预处理开始:


首先,我们试图检查是否对于给定的纳斯达克100指数的列表我们都能通过雅虎服务器获得完整的历史数据(调整后的收盘价)。股票的单元阵列为二维矩阵,对应股票价格的时间序列。由于雅虎数据库并没有包含我们感兴趣的所有股票的完整历史数据,为了说明PCA方法,我们对数据进行筛选,将时间段定义在d1和d2之间,并保留具有同样最大数据量的股票。具体处理过程如下:
临时矩阵d包含从nasdaq100.lst读入的股票信息,包括第一天和最后一天的日期数据,以及总数据量等,如下图所示:

我们的筛选方法从整个列表中选出了符合条件的m = 21只股票,具体如下:
我们选出时间跨度在1998年1月2日到2013年10月11日之间的21只股票。现在我们假设随机挑选一天,比如2007年7月2日,提取所有21只股票在后续90天内的历史价格数据,并把它保存到矩阵Z:
将它们在一张图里显示出来:
很容易知道,最上面一条线对应的是苹果公司(AAPL)的调整后收盘价。为了使各时间序列数据之间可比,我们对它们进行标准化处理,即减去平均值并除以各自的标准差。
处理后的数据显示如下:
对于给定的矩阵X,我们可以得到协方差矩阵,
对于自2007年7月2日以来的90天的数据,协方差显示如下,
其中颜色越红代表对应的数值越大,颜色越蓝代表对应的数值越小。协方差矩阵的对角线简单的告诉我们,对于标准化的时间序列,它们的协方差就等于1。

接下来,根据给定的协方差矩阵,我们可以得到相应的特征向量矩阵P。
得到的P可以显示如下:
为了说明这一过程,我们计算得到主成分分析的5个主成分。由于在上图中颜色编码是一样的,通过肉眼观察第一主成分,可以得到21个特征值中至少有16个为负数。这个意味着在过去的90天里,全球股市基本都是下跌的,这也支持交易者们持有这些股票的空头头寸。重要的是要注意在这个地方的第一主成分并不代表“价格动量”本身,它代表了股票动力学中常见行为的潜变量,即交易中潜在人为因素。

上图还给出了一个额外的信息。在第一主成分中所有的特征值是显著一致的,而其余四个主成分的特征值则显得相当随机。通过检测,该特性在我们的样本数据中维持了很多年。因此,我们可以把我们的观察点集中在第一主成分。

了解了PCA的工作原理后,我们将把我们对第一主成分的兴趣拓展到其他任何时间跨度,如下所示t1和t2变量之间的数据:
我们将基于第一主成分中特征值数量的变化来构建焦虑检测模型。因此,我们可以得到这个变量在时间段[t1,t2]之间的一个新的序列。我们把这个结果和纳斯达克100指数用下列方式同时画出来:
从而可以得到,
我们使用30天的移动平均(蓝线)来对结果进行平滑(moving.m)。

最终,我们构建核心模型的元素,即当第一主成分中的负数占比连续5天增长时,我们确认焦虑情绪。

模型的结果,我们通过在纳斯达克100指数上画红色标记来显示出来。


我们的简单模型完全把我们带入一个新的领域:关于潜变量的探索空间。首先,它没有预测未来,它仍然是未知的。然而,它带来的是对过去市场动态的重新审视。其次,很容易从图中可以看出,我们的结果可以分成三个子集:
第一组对应于股票交易中进一步加剧负面结果的那些行为(如2007-2009年间的事件和价格的崩盘)。这时任何60天的动力都在持续。
第二组是由其他因素(如金融、全球、政治等等)带来的焦虑情绪,从而导致拖累股价指数。
第三组对应指数相对平缓的变化,揭示出关于交易方向的典型的犹豫心理。

无论我们如何解释结果,人为因素在交易中是显著存在的,希望PCA方法能帮助我们捕捉它,如果不能,那我们只能依赖于交易员的直觉了。(本文仅代表作者观点)

微信号:CHINAQIR

如需转发本文,请注明来源:CHINAQIR

联系方式:chinaqir@qq.com

用微信扫一扫下面的二维码,即可加入本微信订阅号

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多