分享

黑天鹅建模的正确姿势

 东西二王 2019-06-05

注:本文写于 2016 年。

1 风险控制和尾部建模

2016 年全球金融市场不太平,从英国脱欧到 Trump 当选美国总统再到意大利公投,“黑天鹅”事件频出,就连美联储也跟着添乱,嚷嚷了一年加息、故意扰乱市场对美国经济数据的解读。未来两年,潜在的黑天鹅更是一个接一个。

在这种背景下,风险控制再次回到人们的视线中。在金融领域,风险控制的目的是为了计算极端黑天鹅事件对金融资产造成的潜在损失(负收益率)的可能性以及冲击的大小。

先来看一个分布。下图为上证指数在过去 15 年内日收益率的分布。我们计算出日收益率的均值和标准差,便可以得到一个基于该均值和标准差的正态分布。下图比较了收益率的直方图和该正态分布。

不难看出,上证指数日收益率的分布表现出明显的尖峰和肥尾特点,尤其是在负收益率部分。比较日收益率分布和标准正态分布的分位图(下图),也可以清晰地验证这个结论。肥尾意味着上证指数实际发生极端收益率(从上图来看,尤其是极端跌幅)的概率要远远大于正态分布对应的概率。换句话说,如果算出收益率的均值和标准差,然后构建一个正态分布来近似描述日收益率分布,这会造成很大的误差。

除了尖峰、肥尾的特点之外,另一个困扰“黑天鹅建模”的问题是,发生极端亏损(真正的黑天鹅)的历史样本太少了。比如说,我们想回答“上证指数每十年一遇的日收益率最大跌幅是多少”这个问题,回看上证指数过去 20 几年的历史,我们仅仅有可怜的 2 个样本点,根本无法根据它们构建有效的模型。

那么应该怎么办呢?在统计学上,广义极值分布(Generalized Extreme Value Distribution)可以用来对极端亏损建模。

2 极值建模

假设随机变量 X_i 代表某投资品的负收益率(亏损),它满足某未知分布 F(x) = Pr(X_i ≤ x)。在下文中,我们用负收益率的绝对值代表亏损的大小(即 X_i 的取值为正数)。在这种描述下,当 X_i 的取值在其分布的右尾(right tail)时,便意味着该投资品发生了极端的亏损。

假设不同时间的亏损 X_i 是独立同分布的,并令 M_n = max(X_1, …, X_n),即 M_n 是 n 个样本中最坏的情况。广义极限分布理论解决的问题就是对 M_n 分布的建模。有了 M_n 的分布,我们就可以轻松的回答上面诸如“上证指数每十年一遇的日收益率最大跌幅是多少”的问题。

根据独立同分布的假设,我们可以写出 M_n 的 CDF 为:

由于分布 F 是未知的,F^n 自然也是未知的,而经验分布函数对与 F^n 的估计也是非常差的。但是,我们可以根据 Fisher-Tippet 理论(Fisher and Tippett 1928)来渐进逼近 F^n,并以此得到 M_n 的分布。特别的,Fisher-Tippet 理论证明,将 M_n 标准化后,即 Z_n = (M_n – μ_n) / σ_n,Z_n 的分布收敛于形式如下的广义极限分布:

因此,只要我们有足够多的原始负收益率样本数据 X_i,我们可以用下式求出极端亏损 M_n 的分布:

在实际使用中,广义极限分布 H 的参数(ξ, μ, σ)可以通过极大似然估计(maximum likelihood estimation)得到。为了估计这些参数,我们必须有足够多个 M_n 的样本。为此,我们可以将总长为 T 期的历史数据等分成单位长度为 n 的 m 个区间。每个区间中的最大亏损便是 M_n 的一个样本。这样我们就可以得到 m 个样本。这样,便可以根据这些样本得到广义极限分布 H 的参数的估计。Embrechts et. al. (1997) 给出了详细的数学推导。

3 阈值外数据建模

在风险管理中,在险价值(Value at Risk)是人们常说的一个概念。比如,当我们说 1% 的日收益率的 VaR = 6.8%,它的意思是,我们的目标投资品(或者投资组合)在当天有 1% 的概率可能产生超过 6.8% 的亏损。在给定的概率下,VaR 越大,投资品的风险越大。

然而,如果想计算 VaR 的大小,上一节中对极值分布的模型并无法发挥作用。这是因为在计算 VaR 时,我们必须对亏损分布的右尾进行建模、而不单单是关注某一个极值(注意,在本文中我们用亏损的绝对值来描述亏损的大小,因此亏损都是正数,所以这里我们是对分布的右尾建模)。为此,我们可以采用广义帕累托分布(Generalized Pareto Distribution)

和上节一样,X_i 表示某投资品的一系列亏损,并假设它们独立且满足某未知分布 F。同样的,定义 M_n = max(X_1, …, X_n)。假设 u 为某一个给定的亏损阈值。在所有这些 X_i 中,我们感兴趣的是那些大于 u 的样本,即那些亏损超过阈值的样本点,我们希望用它们来对 X_i 分布的右尾进行建模。超过给定阈值的亏损部分,即 X_i – u > 0 的部分,可以由如下条件概率表示:

Embrechts et. al. (1997) 证明,如果亏损 X_i 的极值 M_n 收敛于上节介绍的广义极限分布 H,那么存在一个 u 的函数 β(u),使得 X_i – u 满足如下形式的广义帕累托分布 G:

在实际应用中,如果我们想对 X_i 的右尾建模,只需确定阈值 u。然后在 X_i 的所有样本中找出所有大于 u 的样本(注:我们用 X_i 的绝对值表示亏损的大小,所以亏损在上述数学表达式中是正数),将这些满足的样本各自减去 u 后得到超过 u 的部分,然后用这些数据拟合广义帕累托分布 G,G 的参数由极大似然估计得到。

广义帕累托分布 G 的形状随着形状参数 ξ 的不同而不同。特别的,当 ξ = 0 时,G 就化简为指数分布。我们以过去 15 年上证指数日频的负收益率样本为例,取阈值 u = 2.65%(即考察日收益率亏损超过 2.65% 的尾部分布),得到了 G 的参数。其中形状参数的取值非常接近 0。下图为拟合得到帕累托分布和同比例的指数分布对比超额亏损的直方图的结果。可以看到红色的帕累托分布和绿色的指数分布非常接近。

此外,我们也可以用超额亏损和标准的指数分布放在一起做分位图,得到的结果如下。结果显示分位图近似的满足线性,说明超额亏损的分布和指数分布十分接近。

利用超额亏损对尾部分布建模后,我们便可以方便的求解在险价值。

4 在险价值

上一节曾经说过,在险价值描绘的是投资品在某一个指定的概率下亏损程度的阈值。在我们的定义下(即我们用正数来代表亏损的大小),在险价值就是某一给定概率下亏损 X_i 分布中右尾的某一个分位数。换句话说,只要根据给定的概率求出分位数,它的值就是这个概率对应的在险价值。

因此,通过广义帕累托分布 G,我们便可以简单的推导出在险价值的公式。假设 1 – q 代表我们考虑的概率(比如我们想知道 5% 的概率对应的亏损,那么 1 - q = 0.05),则其对应的在险价值为:

其中,n 是亏损样本的总个数,k 是超过 u 的亏损样本的个数。u 是对应的阈值,它可以由 q = F(u) 求出。在应用中,(n-k)/n 可以作为对 F(u) 的估计。因此,对于给定的概率 1 – q,计算在险价值的步骤为:

  1. 根据 q 和 q = (n-k)/n 求出 k;
  2. 根据 k 求出 u,即在所有亏损的样本中,找到对应的阈值 u,使得满足 X_i 大于 u 的个数为 k;
  3. 用上一步找到的 X_i – u 建模,得到广义帕累托分布;
  4. 将参数带入在险价值的公式中,求出在险价值。

由于在险价值关注的往往是 5% 甚至 1% 的亏损阈值,它们对应的是亏损分布中非常靠尾部的那些样本,因此只有当 n 足够大时,我们才可能得到足够多的超额亏损来建模。可惜的是,在这方面中国 A 股的年份太短了。

即便如此,我们仍然通过下面简单的实验来说明如何计算在险价值。这里我们考虑标普 500 指数(从 1930 年至今)和上证指数(从 2000 年至今)。此外,为了增加样本个数,我们考虑的在险价值对应的概率为 10%,而非极端的 5% 或者 1%。

对于标普 500,我们用每 15 年的数据来滚动建模,得到日收益率在 10% 概率下的在险价值。作为比较,我们用日收益率均值和标准差对应的正态分布同样求出 10% 概率下的在险价值。结果如下图所示。

上图说明以下几点:

  1. 由于收益率存在明显的肥尾效应,正态分布严重低估了在险价值(绿线持续的在红线之下)
  2. 在 1929 年股灾之后的有一段时间,在险价值都在高位,这是因为计算的样本中有大量的高亏损样本;
  3. 进入 21 世纪以来,在险价值有两次明显的跃升,分别对应着 2000年的 .com 泡沫和 2008 年的次贷危机。

同样的,我们对上证指数建模。由于数据年份太短,我们用每 10 年的数据来滚动建模。结果如下所示。同样的,正态分布建模严重低估了在险价值。此外,由于上证指数比标普 500 有更加明显的肥尾,因此正态分布对潜在亏损的低估更加显著。此外,2010 年到 2015 年股灾之前,10% 概率对应的日收益率在险价值并无太大波动;股灾之后,在险价值明显上升。

我们可以用更短的时间(即更少的样本)对上证指数进行滚动建模。但是样本少一定会带来建模的误差。下图为我们使用 5 年窗口进行滚动建模的结果。结果表明从 2008 年股灾开始后一直到 2014 年,上证指数的风险都非常大(注意,正态分布建模无法很好的描述在险价值的变化,且存在严重的低估)。在最近两年,随着 2015 年股灾和 2016 年 1 月份熔断引发的二次灾害,在险价值出现了两次迅速的蹿升。

5 结语

做投资时,如何强调风险控制都不过分。然而,做好风控的前提就是能用正确的数学手段对其量化。为了控制风险,有人刻意限制仓位,有人“把鸡蛋放在不同的篮子里”。然而分散投资不完全等价于分散风险。“把鸡蛋放在不同的篮子里”不如“把鸡蛋放在一个篮子里,然后看好这个篮子”。从这个意义上说,对亏损的正确建模格外重要。

参考文献

  • Embrechts, P. C. Kloppelberg, and T. Mikosch (1997). Modelling Extremal Events.Springer-Verlag, Berlin.
  • Fisher, R. and L. Tippett (1928). Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample. Proceedings of the Cambridge Philosophical Society 24, 180-190.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多