分享

统计学入门 | 第1章:不确定性的数学表达:t-分布

 非著名问天 2021-12-08

上一节,我们学习了正态分布以及它的概率密度函数。通过学习,我们发现正态分布是一个特别有用的概率分布,它具有很好的对称性,并且出现极值的概率很低。但是,我们的探讨也留下了一个遗憾,那就是当我们用正态分布去拟合上证综指实际数据的时候,似乎效果不太好。正态分布低估了上证综指日度收益率出现在对称轴附近的可能性,也低估了出现极端收益率的可能性。这就产生了一个自然的问题:有没有别的分布能够提供更好的拟合?这是本节要探讨的问题。

首先注意一点,这个大千世界如此丰富多彩,涉及到的不确定性也一定是多种多样的。当在数学上做了高度的抽象汇总后,你仍然会发现,不同的不确定性有着不同的确定性的规律,而这些关于不确定性的确定性规律,就表达在概率密度函数上。上一节图1.3.4中表达出来的就是这个规律。为此,我们需要寻找正态分布以外的分布,希望能够对上证综指的日度收益率(或者更加广泛的金融资产收益率数据)做出很好的逼近。请问:哪种分布可以呢?如果存在这样的分布,我们希望该分布仍然具有很好的对称性,而且能够容忍更大的出现极值的可能性。值得一提的是,有的学者认为金融数据的非对称性很重要,如果是这样,那么理想的分布就要容忍不对称性。但是这里我们先简单地假设寻找的理想分布是对称的。那么什么样的分布能满足我们的需求呢?答:t-分布。什么是t-分布呢?在回答这个问题之前,先小小地卖一个关子,我们先看看t-分布的实际效果如何。图1.4.1再次呈现了上证综指的直方图,以及用复杂的非参数方法估计的概率密度曲线(红色)、基于正态分布估计的概率密度曲线(蓝色),还有一个基于5个自由度的t-分布估计的概率密度曲线(绿色)。虽然绿色曲线对红色曲线的逼近仍然不尽完美,但是已经有很大的改进,达到了很好的逼近精度,对于很多实际工作可能已经能够满足需求了。那么问题来了,如此有趣的t-分布是一个什么样的分布呢?

图片图1.4.1:上证综指日度收益率直方图和三种不同的概率密度曲线

在正式学习之前先讲述一件关于t-分布名字来源的趣事。t-分布是由英国的化学家、数学家与统计学家威廉-戈塞特(William Gosset)发现的,分布的全称是学生t-分布(Student's t-distribution)。这个名字是不是很奇怪?为什么t-分布不像高斯分布一样以它的发现者的名字来命名呢?这是因为戈塞特当时在都柏林的一家酿酒厂工作,在进行大量实验的过程中,他怀疑存在一个不同于正态分布的未知分布。经过研究,他发现了t-分布,但因为酿酒厂不允许职工发表研究成果,他只好以笔名“Student”发布,这便是“学生”的由来。而至于为什么是“t”分布,这是因为该分布的命名者——另一位伟大的统计学家费希尔使用了字母t来代表服从该分布的随机变量。

t-分布对上证综指收益率数据的逼近精度比正态分布更令人满意,这与它的数学性质有关。这说明它的数学定义与正态分布一定是不一样的。那么,t-分布在数学上是如何定义的呢?它的概率密度函数表达如下:

上式中 是一个特殊的函数——伽马函数,在此我们不需要深究它的数学表达式。虽然t-分布的概率密度函数非常复杂,但仔细观察后可以发现,它只有唯一的参数 。在上一节中我们知道了正态分布的参数是 ,也就是说,只要确定了 ,就可以确定一个唯一的正态分布的概率密度函数。同样地,只需要确定 ,就可以确定一个唯一的t-分布的概率密度函数。我们把 称为自由度,描述一个t-分布时会说“自由度为 的t-分布”。请注意,从理论上讲,t-分布的自由度不一定非要是正整数,事实上任何正数都是可以的。
自由度起到什么作用呢?我们不妨观察一下不同自由度的t-分布的概率密度曲线(图1.4.2)。不难发现,同标准正态分布一样,t-分布也是关于 对称的。 时,t-分布的概率密度曲线(红色线)和标准正态分布(黑色线)有较大的差距,t-分布的尾部概率比标准正态分布更大,峰值比标准正态分布更低。而随着自由度 的增大,t-分布的尾部概率变得越来越小,概率密度曲线也越接近标准正态分布的曲线。当 时,t-分布曲线已经十分接近标准正态分布了。事实上,当 趋于+∞时,t-分布趋于标准正态分布。

图片图1.4.2:不同自由度的t-分布概率密度曲线

从图1.4.2可以看到,t-分布的概率密度函数和正态分布是不一样的。这种不一样会带来什么样的后果呢?这种后果具体到我们的股票数据分析中,又会产生什么样的影响呢?为此,我们可以从矩的角度做一下对比分析。首先,我们关注一阶绝对期望 。有兴趣的朋友可以验证一下,如果 是一个标准正态分布,那么 。但是对于t-分布就不好说了,我们可以验证:
这里用到一个等式:。通过上述计算可以发现,t-分布的一阶绝对矩不一定永远存在。当自由度小于或等于1的时候,t-分布的一阶绝对矩就不存在了。这说明什么?这说明,跟正态分布相比,t-分布(尤其是低自由度的t-分布),更容易产生极值,也就是特别大或者特别小的值。这个性质很不错,与我们真实的上证综指收益率数据的分布特征更加吻合。
在一阶绝对矩存在的情况下,我们很容易知道 ,因为t-分布的概率密度函数是关于 对称的。在这个前提条件下我们再研究一下二阶矩。为此,我们计算如下:
其中 是一个贝塔函数。贝塔函数的定义为 ,其收敛需满足 。可以看到,当 收敛时二阶矩才存在。因此二阶矩的存在性条件比一阶绝对矩更加苛刻,需要 。否则,二阶矩不存在。如果二阶矩不存在,t-分布的方差也就不存在。在二阶矩存在的前提下,可以计算方差为:
这里用到了贝塔函数和伽马函数的转换关系:,还用到了伽马函数的递推关系:。请注意,一阶矩刻画了一个数据分布的中心位置,方差刻画了数据的离散程度,但是似乎还缺一个参数去刻画数据的厚尾程度。这是什么意思呢?假设有两个不同的正态分布,均值不同并且方差不同。这说明它们的中心位置不同并且数据离散程度不同。但是,我们认为它们的厚尾程度是一样的。为什么?因为我们可以通过线性变化,把两个分布都转化成一个标准正态分布。而我们一般认为线性变化并不会改变分布的厚尾特征,因此任何两个正态分布的厚尾程度都是一样的。但是,t-分布就不一样了,因为这里有自由度的影响,无法通过线性变化被消除。为此,我们需要一个参数来简单刻画一下不同分布的厚尾程度。但是,如何刻画呢?
从前面的分析可以看到,自由度越大,概率密度函数的尾部越薄,也就越有可能保证更高阶矩的存在性。我们已经考虑了一阶矩和二阶矩了,再高阶的矩是什么呢?答:三阶矩(不是三阶绝对矩)。但是,因为t-分布的概率密度函数是关于原点左右对称的,因此 ,如果三阶矩存在的话。因此,三阶矩并不能带来更多的有效信息。因此,人们不得已只能求助于更高的四阶矩,可以计算得到:
其中 。四阶矩的存在性条件更加苛刻,需要 。拿这个四阶矩和方差作对比,可以形成一个新的统计量叫做峰度(kurtosis)。峰度的一般化定义为:。对于t-分布,可以计算其峰度为:。可以看到,当 时,t-分布的峰度大于3。我们还可以验证一下,如果 是正态分布,那么峰度为3,具体如下:
其中 服从标准正态分布。由此可见,3是一个重要的参照值,比3更大的数字(例如t-分布),代表着更厚尾的分布情况。
回到我们的股票数据,可以计算其均值为 ,方差为 ,四阶矩为 ,因此峰度为8.015。根据t-分布的峰度计算公式,我们知道这是一个由自由度n决定的量,因此可以通过解峰度的方程,,对自由度做一个大概的估计,结果为5.196。由此可见,上证综指日度收益率数据似乎可以用一个自由度为5.196的t-分布做出更好的估计。该分布的概率密度曲线被画了出来,见图1.4.3。可以和正态分布的概率密度曲线做一个对比,发现确实有不小的改进。

图片图1.4.3:上证综指日度收益率直方图和两种不同的概率密度曲线

对于投资人来说,他们可能希望知道出现极端亏损(比如日度收益率<-5%)的可能性有多大。怎么办呢?我们可以计算小于-5%的日度收益率的样本占比,为0.975%。此外,我们还可以分别用t-分布和正态分布分别估计一次。当用自由度 的t-分布估计时,我们需要计算如下积分:
再用期望为 、方差为 的正态分布估计,需要计算积分:
可以发现,t-分布和正态分布估计出来的出现极端亏损的概率都比样本占比(即0.975%)要低,都存在一定程度的低估。而正态分布估计的出现极端亏损的概率远远比t-分布估计出来的概率要小,后者是前者的2.8倍,这是t-分布的厚尾性质决定的。这说明,正态分布可能会严重低估极端损失风险。对于投资人来说,如果选用正态分布进行估计,有可能过于自信而导致出现风险决策的失误,未能做好充分的风险防范而造成巨大损失。这样看来,能让投资人变得更加谨慎的t-分布也许是更好的选择。

这里需要强调一下,用峰度估计t-分布的自由度是一个非常简单而且有效的方法,但并不是一个最好的方法。用峰度估计t-分布自由度的缺点是很明显的,因为峰度的定义涉及到四阶矩,如果四阶矩不存在,那么峰度本身就是不存在的。因此,用峰度去估算自由度的一个前提是:目标t-分布的自由度应该大于4。但是现实生活中,当人们真的用峰度去估算自由度的时候,有可能估算出来的自由度小于4。显然,这样估算出来的自由度是不可信的。一个更好的估算自由度的方法应该是极大似然估计。作为一门入门的统计学课程,我们对此不再深究,但特此声明,提请各位读者朋友留心注意。另一方面,我们对中国股票数据的实证分析也表明,绝大多数情况下,基于峰度估算出的自由度是大于4的,所产生的t-分布对实际数据分布的拟合情况也是令人满意的,如图1.4.3所示。

接下来,我们用一个更大规模的实际案例来深入了解t-分布,并展示基于峰度方法估计t-分布自由度所呈现的实际效果,从而对该估计方法的优缺点有一个更加直观的认识。我们将使用2019和2020年上交所的1422只主板A股的日度收益率数据。用每支股票每天的收益率减去对应日期的上证综指收益率,便是该股票在这一天的日度超额收益率。接下来,我们用t-分布拟合这些股票的日度超额收益率,进行探索和发现。

首先,我们认为每只股票的日度超额收益率的分布是不一样的;其次,对于单只股票,它在不同年份的收益率分布也是不一样的。因此,对每只股票,我们分别去计算它在2019年和2020年的日度超额收益率的峰度,然后用峰度去估计t-分布的自由度。这个自由度反映了股票日度超额收益率的厚尾特征,自由度越小,意味着峰度越大,也就是尾部越厚。如前所述,用峰度估计t-分布自由度的前提条件是真实的自由度必须大于4。但是对于实际数据而言,真实的t-分布我们并不知道,因此只能估计。无论真实情况如何,如果估计出的自由度小于4,这样的结果一定是不可靠的。请注意,并不是说对于这样的数据我们就无法估计其自由度,而是说基于峰度的简单估计方法不奏效了。因此这部分结果必须舍弃。当然,这也绝不表示自由度估计值大于4就一定意味着真实的自由度大于4。从理论上来说,我们不能排除这种可能性:真实的自由度是小于4的,但是在各种机缘巧合下,自由度的估计量却是大于4的。对这个问题的深入探讨超出了本书的范畴,我们不再详细展开,但是提请读者注意接下来呈献给大家的案例分析中的理论缺陷。具体而言,在我们考察的1422只股票中,有20只股票,对它们基于峰度方法估计出的自由度是小于4的(或者在2019年,或者在2020年),只能舍弃。因此,我们着重对剩下的1402只股票进行描述性统计分析。首先,以2019年的数据为例,我们对这1402只股票按估算出的t-分布的自由度进行分组,图1.4.4展示了各个组的股票数量占比情况。可以看到,所有股票的自由度变化范围在4~141之间,这是一个广阔的范围。其中,近70%的股票其自由度在4到5之间,并且随着自由度增大,股票占比递减。也就是说,大部分的股票收益率适合用低自由度的t-分布来刻画,具有厚尾特征。这也佐证了前面的观点,即相比于正态分布,具有厚尾性质的t-分布对投资人来说是更好的选择。

图片图1.4.4:2019年股票数据拟合t-分布自由度的相对占比

我们如此关心厚尾特征,那么它与收益率的水平和风险大小会有什么关系呢?为研究这个问题,我们可以根据自由度对股票分组,并绘制收益率的分组箱线图。具体做法如下:首先,根据2019年每只股票拟合的t-分布的自由度,从小到大将股票等分为10组,依次编号为1,2,…,10;其次,计算每只股票在2019年的平均日度超额收益率;最后,根据分好的10组,绘制每组股票在2019年的平均日度超额收益率的箱线图,在同一纵坐标轴上进行对比,如图1.4.5所示。根据该图可以发现,自由度越大的组,离群点越少,也就是出现极端观测的概率越小。但是,自由度越大的组,箱体的厚度却越大,也就是正常观测所呈现出来的波动性越大,伴随而来的是平均收益率(中位数计)更高。这个结果既在意料之中,又在意料之外。意料之中的是,经典金融投资理论告诉我们,高风险高回报。因此,箱线图中呈现出来的波动性越大,风险越大,因此中位数所表达出来的平均收益率越大。意料之外的是,估算出来的t-分布自由度越小,出现极值的风险越大,但是正常观测所呈现出来的变异性却更小。这似乎在告诉我们,极值风险与以波动性为核心的普通风险有所不同,而且似乎没有明显表达在以中位数测量的平均收益率上。

图片图1.4.5:2019年平均日度超额收益率的分组箱线图

这仅仅是2019年的情况。我们还想进一步知道,有没有可能通过2019年的收益率去预测2020年的收益率呢?股票预测虽然很难,但这似乎是一个永恒的话题。我们这里做一个简单的、基于收益率分布厚尾特征的尝试。首先我们可以从厚尾特征的持续性入手:那些在2019年收益率呈现厚尾特征的股票,在2020年会继续呈现厚尾特征吗?为此,我们可以以每只股票2019年数据拟合的t-分布的自由度为横轴,2020年数据拟合的t-分布的自由度为纵轴,画出散点图(为了更好地呈现,这里取了自由度对数),如图1.4.6。该图告诉我们的答案是:不一定,但从整体趋势上看,二者存在一定正相关性,但是不强。

图片图1.4.6:2019年与2020年股票数据拟合t-分布自由度对数的散点图

接下来可以进一步考察2019年股票的厚尾特征对2020年股票的收益率分布会有哪些影响,比如风险大小如何?收益率水平如何?首先,与上文相同,仍然根据2019年每只股票拟合的t-分布的自由度,从小到大将股票分为10组,依次编号为1,2,…,10;其次,计算每只股票在2020年的平均日度超额收益率;最后,根据分好的10组,绘制每组股票2020年的平均日度超额收益率的箱线图,在同一纵坐标轴上进行对比,如图1.4.7。遗憾的是,从图中并不能看出什么规律,没有可预期的结论。看来我们还不能证明可以根据历史数据预测未来的收益情况,这与资本市场的有效性假说保持基本一致。也就是说,基于资本市场公开的数据,可能很难获得超额收益率。当然,必须指出的是,本文这里所呈现的案例,实在是非常初级和肤浅的,只考虑了股价的厚尾特征,而且厚尾特征是以t-分布的自由度所刻画的。显然,一个更加严谨的研究应该考虑更多的因素和因子,哪怕是考虑厚尾特征,也不是必须要用t-分布的自由度来刻画。因此,非常欢迎读者用本案例所提供的数据,做一些更深入的探索性研究,看看股票收益率的极值风险和超额收益率之间到底有没有进一步的关系。

图片图1.4.7:2020年平均日度超额收益率的分组箱线图

最后总结一下。我们在本节学习了t-分布的定义,推导了t-分布各阶矩的主要性质,并利用t-分布对大规模实际案例进行了分析。想必你对t-分布已经有了较为深刻的了解,也对它在实际应用中的功能和效果有了体会。现在,让我们来梳理一下已经学习的两种连续分布——正态分布和t-分布,它们之间互有区别而又相互联系。区别是,两种分布的概率密度函数不同,自然地,数学性质也不同。其中非常明显的一点是,t-分布的峰度比正态分布大,尾部比正态分布厚,这称为厚尾性质。它们之间又有着千丝万缕的联系,t-分布的自由度越大,就越接近正态分布,自由度趋于+∞时,t-分布趋于正态分布。从两种分布的概率密度图来看,它们还有一个直观而显著的共同点——都是对称分布。那么,世间所有分布都对称吗?是否还存在不对称的分布呢?这就引出了我们下一讲的主题:指数分布。指数分布是一个重要的、非对称的连续分布。它的故事是什么?理论性质如何?有什么实际应用场景?请见下一讲的精彩内容。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多