今天和大家简单介绍一下极值理论。我们主要回答三个问题:什么是极值?什么是极值理论?极值理论中有哪些常用的方法? 什么是极值?在介绍极值理论之前,我们首先要回答两个问题:什么是极值?我们为什么要研究极值?大部分人对极值的第一反应是一组数据的极大值和极小值;但更一般地,任何发生概率极小的极端事件都可以视为极值,例如“N年一遇”的气象灾害、金融风控中的“黑天鹅事件”。这些极端事件虽然发生概率小,但一旦发生,往往会造成不可估量的影响,甚至是毁灭性的打击。因此极值受到了研究者的广泛关注。 什么是极值理论?图:水利部官网发布的暴雨灾害信息 极值理论的常见方法要解决上述两个问题,关键在于如何对数据服从的分布尾部特征进行建模,找出其中的统计规律。常用的方法可分为两类,分别是Block Maxima (BM)方法和Peak Over Threshold (POT)方法。接下来我们简单介绍一下这两种方法的基本思想和各自的优缺点。需要说明的是,以下的结论都是基于原始数据是独立同分布的假设。 BM方法BM方法首先将将原始数据分为长度相同的若干组,然后在各组中选取最大值构成极值数据序列(如果是研究最小值,可以将原始数据同时取负后再分析)。理论上可以证明在一定条件下,由此构造出的极值数据序列依近似服从广义极值分布(Generalized extreme value, GEV)。其中广义极值分布的概率密度函数为 POT方法两种方法的比较POT和BM两种方法均是通过构造极值数据来对数据分布的尾部特征进行建模,区别在于具体的构造方式。两种方法都会涉及到超参数的选择问题:BM需要考虑每组的长度,POT需要考虑阈值的大小。如果每组长度过长或者阈值过高时,极值数据序列中的样本量就会过少,造成参数估计的方差过大;但如果每组长度过短或者阈值太低,选择出的极值数据不具有代表性,不符合极值模型的理论要求,造成参数估计的偏差过大。在实际分析中,超参数的选择是非常重要的一环。但有些情形下,对于BM,数据的分组有比较简单的选择方式。例如气象、水文等领域的数据常常会呈现出明显的时间特点,比如季度数据、月度数据,此时数据已自动地被不同的时间节点划分为不同的组别。因此这类数据的分析常使用BM法。但相比于POT, BM的缺点在于可能会造成信息的大量缺失,比如某一组会比其他组包含更多的极值信息。不过理论上并不能证明POT一定优于BM。关于这两种方法更详细的讨论,感兴趣的读者可以参阅文献[1]。 图:BM法(左)与POT法(右)构造极值示意图(图片来源:参考文献[2]) 极值指数的估计参考文献[1] Bücher, A., & Zhou, C. (2018). A horse racing between the block maxima method and the peak-over-threshold approach. arXiv preprint arXiv:1807.00282. [2] Gilli, M. (2006). An application of extreme value theory for measuring financial risk. Computational Economics, 27(2), 207-228. [3] Balkema, A. A., & De Haan, L. (1974). Residual life time at great age. The Annals of probability, 792-804. [4] Pickands III, J. (1975). Statistical inference using extreme order statistics. the Annals of Statistics, 119-131. [5] Hill, B. M. (1975). A simple general approach to inference about the tail of a distribution. The Annals of Statistics, 3(5), 1163-1174. [6] Hosking, J. R. M., Wallis, J. R., & Wood, E. F. (1985). Estimation of the generalized extreme-value distribution by the method of probability-weighted moments. Technometrics, 27(3), 251-261. [7] De Haan, L., Ferreira, A., & Ferreira, A. (2006). Extreme value theory: an introduction. New York: Springer. [8] 史道济. (2006). 实用极值统计方法. 天津科学技术出版社. [9] Coles, S., Bawa, J., Trenner, L., & Dorazio, P. (2001). An introduction to statistical modeling of extreme values. London: Springer. |
|