极值理论初探

非著名问天 2022-03-27

展开全文

今天和大家简单介绍一下极值理论。我们主要回答三个问题：什么是极值？什么是极值理论？极值理论中有哪些常用的方法？

什么是极值？

在介绍极值理论之前，我们首先要回答两个问题:什么是极值？我们为什么要研究极值？大部分人对极值的第一反应是一组数据的极大值和极小值；但更一般地，任何发生概率极小的极端事件都可以视为极值，例如“N年一遇”的气象灾害、金融风控中的“黑天鹅事件”。这些极端事件虽然发生概率小，但一旦发生，往往会造成不可估量的影响，甚至是毁灭性的打击。因此极值受到了研究者的广泛关注。

什么是极值理论？

极值理论（Extreme Value Theory, 简称EVT），顾名思义就是对极值进行建模分析的一种统计方法，以此帮助人们评估风险的大小。极值理论的难点和重点在于，如何基于有限的历史观测数据，合理外推到极端情形。例如今年7月发生在河南的特大暴雨气象灾害，有关部门先后以重现期“5000年一遇”、“千年一遇”的表述来反映此次暴雨灾害的严重性。如果说某日单日降雨量的重现期达到“N年一遇”，则是指大于等于该降雨量的暴雨每年发生的概率为1/N。但显然，这里的5000年、千年绝对是不可能直接通过计算历史数据的经验分位数得到的，毕竟我国有较为完整的气象观测记录才70余年。如果将此转化为一个统计问题，可以表述为，基于大小为的历史观测数据（例如70年的降雨量记录）,给定某一阈值, 其中（如此次暴雨期间，某地区某日的单日降水量），如何估计？

图：水利部官网发布的暴雨灾害信息

极值理论的另一个经典问题估计高分位数，即给定某一个极小的概率值 (一般 ),如何估计满足的分位数。例如在修建大型水利工程时，为保证安全，往往需要以能抵御百年一遇的洪水标准来设计修建方案，此时就需要估计百年一遇的洪水大小。

极值理论的常见方法

要解决上述两个问题，关键在于如何对数据服从的分布尾部特征进行建模，找出其中的统计规律。常用的方法可分为两类，分别是Block Maxima (BM)方法和Peak Over Threshold (POT)方法。接下来我们简单介绍一下这两种方法的基本思想和各自的优缺点。需要说明的是，以下的结论都是基于原始数据是独立同分布的假设。

BM方法

BM方法首先将将原始数据分为长度相同的若干组，然后在各组中选取最大值构成极值数据序列（如果是研究最小值，可以将原始数据同时取负后再分析）。理论上可以证明在一定条件下，由此构造出的极值数据序列依近似服从广义极值分布（Generalized extreme value, GEV）。其中广义极值分布的概率密度函数为

其中分别对应Frechet分布（厚尾）、Gumbel分布（薄尾，任意阶矩存在）和Weibull分布（尾部有限）。可以利用极大似然估计法得到参数估计,和。从而可以通过下列公式得到高分位数的估计：

POT方法

POT方法首先要设定一个阈值，取原始数据中超过该阈值的所有数据构成极值数据序列。可以证明在一定条件下，由此构造出的极值数据序列近似服从广义帕累托分布（Generalized Pareto Distribution, GPD）。其中广义帕累托分布的概率密度函数为

同理，也可以根据极大似然方法得到参数估计和，从而得到的估计

两种方法的比较

POT和BM两种方法均是通过构造极值数据来对数据分布的尾部特征进行建模，区别在于具体的构造方式。两种方法都会涉及到超参数的选择问题：BM需要考虑每组的长度，POT需要考虑阈值的大小。如果每组长度过长或者阈值过高时，极值数据序列中的样本量就会过少，造成参数估计的方差过大；但如果每组长度过短或者阈值太低，选择出的极值数据不具有代表性，不符合极值模型的理论要求，造成参数估计的偏差过大。在实际分析中，超参数的选择是非常重要的一环。但有些情形下，对于BM，数据的分组有比较简单的选择方式。例如气象、水文等领域的数据常常会呈现出明显的时间特点，比如季度数据、月度数据，此时数据已自动地被不同的时间节点划分为不同的组别。因此这类数据的分析常使用BM法。但相比于POT, BM的缺点在于可能会造成信息的大量缺失，比如某一组会比其他组包含更多的极值信息。不过理论上并不能证明POT一定优于BM。关于这两种方法更详细的讨论，感兴趣的读者可以参阅文献[1]。

图：BM法（左）与POT法（右）构造极值示意图（图片来源：参考文献[2]）

极值指数的估计

需要指出的是，不管选用哪种建模方法，只要原始数据服从的分布一定，对应的极限分布GEV和GPD中的参数是相同的，也就是说参数完全由原始数据服从的分布决定。极值理论中称为极值指数（Extreme Value Index, EVI）。

极值指数的估计一直是极值理论中一个重要的研究问题。因为极值指数的正负、大小可以反映原始数据所服从的分布的尾部性质。像常见的厚尾分布：柯西分布、t分布和帕累托分布所对应的极值指数都是大于0的; 正态分布对应的极值指数为0, 而像均匀分布和Beta分布这种右尾有限的分布对应的极值指数小于0。极值指数越大，说明分布越厚尾。

对于极值指数的估计，除了传统的极大似然估计，常用的估计方法还有Hill估计（适用于）, 概率加权矩估计(probability weighted moment, PWM)(适用于)等等。感兴趣的读者可以参阅文献[7]的第三章。

参考文献

[1] Bücher, A., & Zhou, C. (2018). A horse racing between the block maxima method and the peak-over-threshold approach. arXiv preprint arXiv:1807.00282.

[2] Gilli, M. (2006). An application of extreme value theory for measuring financial risk. Computational Economics, 27(2), 207-228.

[3] Balkema, A. A., & De Haan, L. (1974). Residual life time at great age. The Annals of probability, 792-804.

[4] Pickands III, J. (1975). Statistical inference using extreme order statistics. the Annals of Statistics, 119-131.

[5] Hill, B. M. (1975). A simple general approach to inference about the tail of a distribution. The Annals of Statistics, 3(5), 1163-1174.

[6] Hosking, J. R. M., Wallis, J. R., & Wood, E. F. (1985). Estimation of the generalized extreme-value distribution by the method of probability-weighted moments. Technometrics, 27(3), 251-261.

[7] De Haan, L., Ferreira, A., & Ferreira, A. (2006). Extreme value theory: an introduction. New York: Springer.

[8] 史道济. (2006). 实用极值统计方法. 天津科学技术出版社.

[9] Coles, S., Bawa, J., Trenner, L., & Dorazio, P. (2001). An introduction to statistical modeling of extreme values. London: Springer.