分享

数量化投资模型 常用的基础数据处理方法(四)

 量化猫 2018-01-21

  9、概率密度函数PDF


  概率密度函数PDF(Probability Density Function)可以查阅到的定义很简明:描述随机变量的输出值,在某个确定的取值点附近的可能性的函数。PDF的函数值高低,描述了数据在哪个区域分布高低。


  如果要举个例子,用正态分布最容易理解:


  比如正态分布,在μ处数据分布最多(我们描述为概率密度值越高),所以函数值最高。在左右两侧,概率密度值降低,说明数据点分布变得稀少。


 


  这个函数图像上,f(x)是指随机变量X(大写X,变量集合)在观察值为x(小写x,某个数值)时的概率密度值,可不是概率值。PDF函数曲线与X轴所围成的面积表示概率,该面积等于1,因为随机变量的所有可能取值(即:100%)都在X轴上。


  μ是变量X的均值,如果是标准正态分布,μ=0。比如我们理解为,数据量很大的情况下,股票每日涨跌幅服从类似正态分布的概率密度函数。实际上股票价格服从的是尾部更肥硕,表示极端大涨大跌更多,右偏,表示上涨总体情况还是偏多,这样的一种类似正态的分布。


中证500指数历史涨跌幅分布情况,将价格做price2ret之后,用histfit绘图

左侧明显肥尾,整体峰度偏向右侧


  左右侧的-1σ(sigma)和+1σ(sigma),界定了变量在1个标准差内的分布情况。


  对于服从正态分布的变量,其观测值:

  落在距均值的距离(xi-μ),为1倍标准差范围内的概率为0.68

  落在距均值的距离(xi-μ),为2倍标准差范围内的概率为0.95

  落在距均值的距离(xi-μ),为3倍标准差范围内的概率为0.9973


  我们常用的布林带设置上下轨=2倍标准差,然后突破交易的含义为:当前值与均值的距离,突破2倍标准差(之前统计量有5%的数据是这样分布),即做趋势追踪交易。


  当然最简单的情况,是均匀分布的密度函数。它的概率密度函数:



  也就是说,当x不在区间[a,b]上的时候,函数值等于0;而在区间[a,b]上,每个瞬时的函数值相等,都等于这个函数1/b-a。反复去记忆PDF的概念,在某个确定的取值点附近可能性,一个均匀分布的变量,在定义域内取值的可能性,都是恒定的。



  上图是连续型均匀分布的概率密度函数,分布概率始终相等,这个PDF图像看起来和随机变量的PDF相比,显得非常奇怪,但是这样真实地表达了,在区间[a,b]上,分布的密度情况是完全不变的,均匀的。


  还可以记忆一个定义:任何连续概率密度在(负无穷,正无穷)积分后结果都是1。这里利用定积分的性质,其结果是一个数值而不是一个函数,对于一个给定的正实值函数,在一个实数区间上的定积分可以理解为:在坐标平面上,由PDF函数曲线、直线以及轴围成的曲边梯形的面积值。随机变量X取到其具体某个值x的所有概率之和等于100%,这个积分值就等于1。




  10、累计概率分布CDF


  CDF(cumulative distribution function)的概念是:它完整描述一个实数随机变量X的概率分布,是概率密度函数的积分。PDF是密度,CDF是分布,一定要区分清楚,两者也有很多联系。


 


  CDF作为概率的累计情况,其图像的纵轴,是累计概率。横轴是随机变量X的分位数。


  它表示了随机变量小于或者等于某个数值的概率P(X<=x),即:f(x) ==""><>


  以上图中的红线(均值=1,标准差=1的正态分布随机变量)为例:


  阶段1(x<>从左向右看,随着样本值越来越多,CDF的曲线开始缓慢上行。你可以理解为X取到小于-2值的概率非常小,往Y轴上对应可以看到,大概在0.05左右。


  阶段2(-2<><>x=-1个标准差的时候,由于样本值在这个区间密度增加,CDF曲线开始加速上行,取到这个部分任何数值(-2,2)的概率都在快速增加。这一段的CDF函数值在0.05~0.95之间,你可以理解为,大部分取值的可能性都在这个区间发生了。


  阶段3(x>2时):CDF曲线再次减速缓慢上行,但是依然是上行的。和区间1类似,由于随机变量X在这部分的值已经不集中了,自然,X取到某个值小x的概率,也就变得更小,增量最后趋近于0,函数值趋近于1。


  刚才我们谈到了CDF曲线上行的速度,实际上累积分布函数存在以下几个特点:


  累积分布函数是X轴单调递增函数。对于给定的数据集,累积分布函数是唯一的。累积分布函数值趋近于1。


  你有没有发现CDF和PDF的关系?


  其实很简单,PDF描述了CDF的变化趋势,即PDF是CDF曲线的斜率。PDF无论如何是一个大于0的数,表示了斜率无论如何也不会到0轴以下(即CDF永远是增加的),PDF最终趋近于0,代表上升速度变缓(即CDF最终逐渐地累计上升到趋近于1)。


  另外CDF和PDF的横轴X都是一样的,它表示了将变量X按顺序排列。



  最后放上中证500的涨跌幅CDF图像:可以看到,我放置了两个游标,x小于-0.04(跌幅超过4%)的分布总量大概是y=0.04936,也就是大约5%的下跌日,其幅度都是超过4%幅度的。


  而x=0.04011对应的y=0.9742,意味着超过4%涨幅的日上涨天数,不足总体样本的3%。可见A股下跌起来都比较猛,而涨起来比较慢。这是符合行为金融学的,不过最终总体趋势还是上涨的,因为上涨的天数,还是要多一些,虽然幅度小。


  所以CDF方便的帮助我们观察到,大于横轴某一数据点(分位数)的数据点,占总体的比例。


  原文链接依然是车票。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多