分享

干货 | 资深研究员带你学量化统计学...

 昵称16619343 2017-06-07

统计基础知识

量化量化,本身就蕴含一个数量化的分析过程,量化投资离不开扎实的数据和统计知识。万丈高楼平地起,基础的统计知识还是需要我们认真梳理和总结的。本文梳理下统计基础知识并且结合实际市场数据进行相关分析,以便给小伙伴们一些启示和思考。

描述性统计:

平均数:平均数用来反映数据集中趋势的一项指标。常见有算术平均数、几何平均数、调和平均数、加权平均数、平方平均数、指数平均数。在金融统计中常见的是算术平均数,如均值方差模型,均值就是平均数;此外,指数平均数也在技术指标中常常用到,如MACD指标中EMA函数的运用。

方差:方差是在概率论和统计中衡量随机变量或者一组数据的离散程度的统计量。统计学中方差可以分为总体方差和样本方差。总体包含了观测值的集合(即完整数据集)中的所有元素,而样本只包括那些从总体中抽取的元素。在公式计算上,因样本方差是总体方差的估计值,分母中需要用n-1来得到无偏估计。公式如下:

标准差:标准差是方差的算术平方根。标准差亦能反映一个数据集的离散程度。

最大/小值: 最大最小值用来反映一组数据的最大极值和最小极值的情况。

极差:用来计算一组数据的最大值与最小值的差值,极差可以作为观测数据变异程度大小的一个简单度量。

中位数:将一组数据按照从小到大依次排列,位于中间的那个观测数值,就为中位数,它描述了观测数据的中间位置。

百分位数:将一组数据按照从小到大依次排列,并计算相应的累计百分位,某一百分位所对应的值就称为这一百分位的百分位数。如,处于p%位置的值称第p百分位数。四分位数(Quartile)为把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

众数:众数描述了观测数据中出现次数较多的数。

变异系数:变异系数是衡量数据资料中各个便令观测值变异程度的一个统计量。一般用标准差和平均数的比值来表示。

原点矩:一组观测数据k次方的平均值,就是k阶原点矩。一阶原点矩表示的是这组数据的平均数。二阶原点矩表示一组数据中每个数据进行平方后形成新的数据再求其平均值。k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的平均值。

中心矩:表示一组数据每个随机数和这组数据平均值的差值的k次方后进行平均,一阶中心矩为0,二阶中心矩为总体方差。其公式如下:

偏度: 偏度反映了一组数据分布的对称性信息,偏度越接近0,表明分布越对称,否则分布越偏斜。偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数,正态分布时三者相等。其公式如下:

其中B2、B3分别表示观测数据的2阶和3阶中心矩。

峰度:峰度反映了总体分布密度曲线在其峰值附件的陡峭哦程度。正态分布的峰度为3(一些算法峰度-3,取值为0),若一组观测数据的峰度大于3,说明总体分布密度曲线在其峰值附近比正态分布陡峭,说明变量值的次数较为密集地分布在中位数的周围;若一组观测数据的峰度小于3,说明总体分布密度曲线在其峰值附近比正态分布平缓,说明变量值的次数分布比较均匀地分散在中位数的两侧。

其中 B2、B4分别表示观测数据的2阶和4阶中心矩。

可视化统计图表:

箱线图:又称作箱须图(box-whisker plot)是利用数据中的五个特征值——最小值、第一四分位点、中值、第三四分位点、最大值来描述数据的图形。箱线图既可以为水平也可以为垂直展示。

上图形象的说明了一幅箱线图的各种组成部分。使用箱线图可以直观地反映观测数据的分散程度以及分布的对称性和尾重,利用箱线图还可以直观地识别观测数据中的异常值,箱线图中的异常值被定为Q1-1.5*IQR到Q3+1.5*IQR之外的值。

频数(率)分布直方图:频数是一组数据中某个数据出现的次数,组距表示一段数据区间数据。通过长方形的高代表对应组的频数与组距的比,这样的统计图称为频数分布直方图.它能不仅能清楚显示各组频数分布情况,还易于显示各组之间频数的差别。频数分布直方图一方面清楚显示各组频数分布情况,另一方面易于显示各组之间频数的差别。频率分布直方图就是改为频数改为对应总体的频率(频数/数据观测总数)。

正态概率图:正态概率图用于正态分布的检验,实际上就是纵坐标经过变换后的正态分布的分布函数图,正常情况下,正态分布的分布函数曲线为一条S曲线,而在正态概率图上描绘的则是一条直线。可以通过观测数据的点和正态概率图参考线的位置来判断这组数据是否近似服从正态分布。

P-P图:P-P图是是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图,用于直观地检测样本数据是否符合某一概率分布。如果被检验的数据符合所指定的分布,则代表数据的点应当基本在代表理论分布的对角线上。

Q-Q图:Q-Q图的结果与P-P图非常相似,只是P-P图是用分布的累计比,而Q-Q图用的是分布的分位数来做检验。如,检验数据是否服从正态分布,和P-P图一样,如果数据为正态分布,则在Q-Q正态分布图中,数据点应基本在图中对角线上。

描述性统计的MATLAB实现

数据内容:

数据标的沪深300指数收益率
数据频率
数据起始2005/01/01-2017/05/31
数据来源东财Choice数据接口

计算内容:

平均数0.20%众数-16.26%
方差0.15%变异系数19.48
标准差3.91%3阶原点矩-0.0008%
最大值15.03%3阶中心矩-0.0017%
最小值-16.26%偏度-0.2837
极差31.29%峰度1.9408
中位数0.37%25%、50%、70%分位-2.00%,0.37%,2.26%

可视化图表内容:

结论:沪深300指数周收益率分布存在左偏,尖峰分布。大幅下跌行情出现频率高于大幅上涨行情,日常行情集中在中位数0.37%附近,上涨的行情较多。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多