【水文泥沙】 基于EEMD的黄河上游主要来水区年来水量预测韩 锐1,2,董增川1,罗 赟1,3,张翔宇1,4,许波刘1,5,符芳明1,6 (1.河海大学水文水资源学院,江苏南京210098;2.中国电建集团西北勘测设计研究院有限公司,陕西西安710065;3.长江科学院,湖北武汉430010;4.黄河水利科学研究院,河南郑州450003;5.中国电建集团华东勘测设计研究院有限公司,浙江杭州311122;6.广东省水利电力勘测设计研究院,广东广州510635) 摘 要:为了提高径流预测的精度,采用EEMD将非线性、非平稳的径流时间序列分解为若干固有模态分量和趋势项分量,高频分量采用GA-SVM模型进行预测,低频分量采用GA-BP模型进行预测,趋势项采用RBF模型进行预测,然后对各分量进行重构,从而建立了EEMD组合预测模型,并应用于黄河上游主要来水区年来水量预测。结果表明:黄河上游主要来水区年来水量预测误差小于20%的预报合格率为100%,预测精度高,具有较高的实用价值。 关键词:EEMD;径流预测;区间来水;黄河上游 近年来,黄河流域水资源供需矛盾日益突出,尤其在枯水年份和用水高峰季节,用水十分紧张。如何协调水资源、经济、社会、环境之间的关系,实现水资源的合理开发利用,已成为近些年来研究的热点问题。径流预测是流域水量调度、水资源规划与管理以及水资源保护等工作的科学依据,对社会、经济以及生态环境的可持续发展均具有重要的意义。 如何科学合理地进行径流预测,提高径流预测精度,一直是水文水资源学科研究的难点[1]。目前,径流预测的方法可以分为传统方法和现代方法。传统方法可以归纳为数理统计、时间序列预测以及成因分析法[2]等;随着传统方法的不断成熟、完善以及计算机科学技术的发展、革新,涌现出大量新的径流预测方法并形成了现代径流预测方法,比如灰色系统模型[3]、小波分析[4]、人工神经网络[5]、支持向量机[6]等。然而,这些预测方法具有各自的适用条件,有些研究方法建立在时间序列是平稳的假设上,有些方法属于单一预测。总体经验模态分解(EEMD,Ensemble Empirical Mode Decomposition)[7-9]具有信噪比较高、自适应能力强的特点,尤其在处理非线性、非平稳序列时具有一定的优势,是“分解-预测-重构”预测模式的重要方法之一。本文采用EEMD对径流时间序列进行平稳处理并且逐级分解成各固有模态函数和趋势项分量,由于各分量采用单一预测方法具有一定的局限性,因此采用GA-SVM(遗传算法优化支持向量机)对高频分量进行预测,采用GA-BP(遗传算法优化BP网络)预测低频分量,采用RBF(径向基函数)预测趋势项,最后将各分量相加重构作为最终预测结果,并将该方法应用于黄河上游主要来水区年来水量预测,以期为黄河流域区间来水量预测以及水量调度提供科学依据。 1 研究区域概况黄河上游是指自黄河源头至内蒙古托克托县河口镇的河段,全长3 472 km,流域面积38.6万km2,流经青海、四川、甘肃、宁夏、内蒙古五省(区),多年平均径流量占全河径流量的54%。黄河上游河段峡谷众多,河道比降大,水力资源丰富。 根据黄河上游流域特点、水系以及来水情况,将黄河上游河段分为唐乃亥以上、龙羊峡—刘家峡区间(龙刘区间)、刘家峡—兰州区间(刘兰区间)以及兰州—托克托县区间(兰托区间)。由于兰托区间来水量极小[10],因此本文在研究黄河上游区间来水时只考虑唐乃亥以上、龙刘区间以及刘兰区间的来水情况。其中:唐乃亥以上以唐乃亥水文站为控制站;龙刘区间以大夏河折桥水文站和洮河红旗水文站为控制站;刘兰区间以湟水民和水文站和大通河享堂水文站为控制站。 2 研究方法2.1 总体经验模态分解 Huang N.E.等于1998年通过对瞬时频率进行研究,提出了希尔伯特-黄变换(Hilbert-Huang Transform,简称HHT),即基于经验模态分解(EMD)的时频分析方法。该方法建立了以固有模态函数(IMF)为基函数的时频分析方法。EMD方法的本质是对信号进行平稳处理并且逐级分解成由高频到低频的不同特征尺度的多个数据序列,以显示数据内在的振荡模式。由于EMD分解各个固有模态函数分量时可能会出现“模态混叠”,即各个IMF分量或一个IMF分量中包含几种信号混叠现象,因此本文采用EMD方法的改进方法EEMD,即在独立观测的数据序列中引入高斯白噪声,通过高斯白噪声均匀分布的特性使噪声在多次分解之后得以消除,进而避免混叠现象。EEMD方法的计算步骤如下: (1)在原始数据序列f(t)中加入随机白噪声序列ξ(t),进而得到一个总体序列F(t): ![]() (2)对F(t)进行EMD分解。具体步骤[11]:求得F(t)的所有局部极值点,通过三次样条插值函数得到F(t)的上下包络线,然后用F(t)减去上下包络线的平均值x1得到新的低频序列,循环上述过程直到上下包络线平均值趋近于0,进而得到本征模函数分量IM F1。一般来说,IMF分量必须满足两个条件:①过极值点和零点的次数相等或者相差1个;②极值点拟合的上下包络线均值为0。同理,可以将F(t)减去IM F1后的剩余序列重复进行上述步骤,得到固有模态函数分量IM F2,IM F3,…,IM Fn,直到剩余部分为单调函数即为趋势项R E S(t)。此时F(t)可写为 ![]() ![]() 式中:εn为原始数据序列与各分解结果重构的新序列的误差;ε为白噪声幅度,取0.2;N取值为200。 2.2 遗传算法优化支持向量机 支持向量机(Support Vector Machine,SVM)是由Vapnik等于20世纪90年代初提出的一种依据统计学习理论的新的机器学习方法,它根据有限样本信息的复杂性和学习能力之间寻求最佳折中来获取最好的泛化能力。SVM具有计算速度快、需要调整的参数较少以及独立于训练样本和测试样本的分布等优点,在解决小样本、高维数、局部极小值以及非线性等问题时具有一定的优势。1975年,美国Holland教授首次提出遗传算法(Genetic Algorithm,GA),它模拟了自然界生物进化过程,采用人工进化方式对目标空间进行随机搜索,是一种基于自然群体遗传演进机制的高效算法,具有简单、通用、全局并行、抗干扰性强的特点。由于遗传算法具有全局寻优能力[13],因此可以利用遗传算法优化确定支持向量机中的惩罚因子C及核函数参数g。遗传算法优化支持向量机的步骤如下: (1)编码及生成初始化种群。本文采取二进制编码方式对支持向量机中的径向基核参数、惩罚因子、核函数类型进行编码,随机生成初始化种群。 (2)计算个体适应度值。本文将测试样本的平均相对百分比误差作为适应度函数,根据输入的训练样本对参数进行训练,计算染色体适应度值。 (3)检查是否满足终止条件。若满足,则输出最优化后的支持向量机参数;若不满足,则执行步骤(4)。 (4)执行遗传算法中选择、交叉、变异运算,对当前种群进行处理后产生下一代群体。 (3)重复步骤(1)和步骤(2)N次(N为添加白噪声序列的次数),然后计算IMF各分量平均值以及趋势项,即得到EEMD分解的最终结果。通过统计添加的白噪声序列,得到如下统计规律[12]: (5)重新计算适应度值,若满足终止条件,则终止循环,否则转步骤(2)。 2.3 遗传算法优化BP神经网络 BP神经网络最早由Rumelhart和McCelland于1986年提出,是一种按照误差逆传播算法训练的多层前馈网络,它能够学习和存储大量输入输出映射关系并且无需事前揭示这种映射关系。遗传算法优化BP神经网络是用遗传算法优化BP神经网络的初始权值和阈值,避免BP神经网络中初始权值和阈值的随机性带来误差。遗传算法优化BP神经网络的步骤如下: (1)生成初始化种群。设置种群最大进化代数,对神经网络中的权值和阈值采用实数编码。 (2)计算个体适应度值。根据步骤(1)得到的初始权值和阈值,用训练数据训练BP神经网络后预测系统输出,个体适应度值可以用预测输出和期望输入之间的误差绝对值之和表示。 (3)执行遗传操作。选择运算采用赌轮法,交叉运算采用均匀交叉方式,变异运算采用非均匀变异方法从种群中随机确定交叉位置进行。反复迭代选择、交叉以及变异运算,直到达到种群最大进化代数,可以得到当前种群中适应度最优的个体,即为遗传算法优化BP神经网络后的权值和阈值。 (4)对权值和阈值进行BP神经网络操作。 2.4 径向基神经网络 1988年,Broomhead和Lowe根据生物神经元具有局部响应的原理,首次将径向基函数(RBF)引入到神经网络中。RBF神经网络[14]属于前向神经网络,它模拟了人脑相互覆盖、相互接受和局部调整的神经网络结构,理论上已经证明它能够以任意精度逼近任意连续函数。目前RBF有多种形式,通常采用高斯函数,公式为 ![]() 式中:Ri(x)为第i个基函数对输入矢量的响应,其中x为n维输入向量;ci为第i个基函数中心;m为隐含层节点数;σ为基函数宽度;‖x-ci‖2为x与ci之间的范数。 式(4)实现了输入层到隐含层的非线性映射。隐含层到输出层的线性映射公式为 ![]() 式中:yk为第k个输出单元对输入向量x的响应;ωik为第i个隐含层到第k个输出层神经元间的权值;m为输出层的节点数。 对于RBF神经网络,隐含层执行的是一种固定的非线性变换,式(4)可确定径向基神经网络的中心值ci和宽度σ,式(5)可求出输出层权值ωik。 3 算 例根据唐乃亥、折桥、红旗、民和、享堂5个水文站1960—2014年共55 a的年径流量资料,对唐乃亥以上、龙刘区间(折桥+红旗)、刘兰区间(民和+享堂)进行来水量预测。以红旗站为例,首先对55 a的年径流量时间序列进行EEMD分解,将实际年径流量序列分解为高频分量(IMF1、IMF2)、低频分量(IMF3和IMF4)以及趋势项共5个分量。其次,对利用EEMD方法得到的各IMF分量以及趋势项单独进行预测,并对EEMD得到的各个IMF分量和趋势项进行归一化处理,公式为 ![]() 式中:f(xi)为归一化后的值;xmax为数据最大值;xmin为数据最小值;xi为要归一化的数据。 如何确定模型的输入和输出至关重要,本文通过尝试选择与第t时刻径流量相关性较好的滞时来预测第t时刻的径流量。采用SPSS 20.0计算各IMF分量以及趋势项滞时的自相关系数,由结果可知,红旗水文站IMF1分量第t时刻的径流量与t-1,t-2,t-3,t-6,t-10时刻的径流量相关性较好,因此可以用t-1,t-2,t-3,t-6,t-10时刻的径流量来预测第t时刻的径流量。在实际计算过程中,曾尝试采用t-1,t-2和t-1,t-2,t-3,t-6时刻的径流量来预测第t时刻的径流量,发现预测效果都没有采用t-1,t-2,t-3,t-6,t-10时刻的预测效果好。同理,IMF2分量的第t时刻径流量采用第t-1,t-3,t-4,t-5时刻的径流量进行预测;IMF3分量的第t时刻径流量采用第t-1,t-2,t-3时刻的径流量进行预测;IMF4分量第t时刻径流量采用第t-1,t-2,t-3,t-4,t-5,t-6,t-7,t-8,t-9时刻的径流量进行预测;趋势项采用t-1,t-2,t-3,t-4,t-5,t-6时刻的径流量进行预测。 本文针对高频分量IMF1和IMF2构建GA-SVM模型进行预测,遗传算法优化支持向量机选用径向基函数作为核函数,采用交叉验证的方法确定最佳惩罚因子C以及最佳核函数参数g;对低频分量IMF3和IMF4构建GA-BP预测模型,BP神经网络采用试错法计算隐含层神经元个数;对趋势项构建RBF预测模型,模型误差容限设置为10-8,扩散因子通过试算法确定。图1为红旗站各分量拟合和预测(预测时段为2007—2014年)的结果。 图1 红旗站EEMD各分量拟合和预测结果 最后,将各个IMF分量和趋势项相加得到新的径流序列,即作为预测的年径流序列。为了比较本文EEMD预测的优越性,采用GA-SVM、GA-BP以及RBF三种单一预测模型与EEMD组合预测模型进行对比,并且选取20%预报合格率∂20%、平均相对误差M A R E以及均方根误差R M S E作为模拟预测的评价指标,图2为红旗站2007—2014年各模型年径流量(以流量表示)的预测结果对比,从图2可以看出,EEMD组合预测模型的预测效果优于单一预测模型的。 图2 红旗水文站2007—2014年各模型预测结果对比 从表1可以看出,EEMD组合预测模型预测效果较三种单一预测模型有较大提高,组合预测模型在唐乃亥站、折桥站、红旗站、民和站和享堂站的20%预报合格率分别为100.0%、87.5%、87.5%、100.0%以及100.0%,属于甲等预报方案(均在85.0%以上),证明本文建立的EEMD组合预测模型具有良好的预测效果。三种单一预测模型各有特点,没有哪种单一预测模型的预测效果能一直保持最佳,在适用性上具有一定的局限。同时,EEMD组合预测模型各站的MARE都小于三种单一预测模型的,证明组合预测模型误差稳定性高,泛化能力强。通过对比4种模型预测结果的RMSE,可以看到组合预测模型的RMSE均小于单一预测模型的,表明该模型的预测值与实测值的离散程度比单一预测模型更低,更加接近实测值,预测效果更加优秀。 依据黄河上游5个水文站的年径流量即可得到唐乃亥以上、龙刘区间(折桥+红旗)以及刘兰(民和+享堂)的年区间径流量,结果见表2。从表2可以看出各区间检验期平均相对误差均小于20%,20%预报合格率为100%。 表1 检验期(2007—2014年)各预测模型评价指标 唐乃亥折桥红旗民和享堂模型率/%MARE RMSE/(m3·s-1)合格率/%MARE RMSE/(m3·s-1)合格率/%MARE RMSE/(m3·s-1)合格率/%MARE RMSE/(m3·s-1)合格率/%MARE RMSE/(m3·s-1)合格EEMD组合预测模型100 11.39 30.34 87.5 9.74 0.90 87.5 9.09 4.02 100 5.63 0.99 100 6.73 1.81 GA-SVM模型75 12.10 39.30 62.5 19.93 1.73 62.5 17.09 8.28 62.5 17.91 3.00 62.5 16.43 4.48 GA-BP模型50 18.77 45.57 62.5 17.13 1.53 75.0 19.48 8.92 75.0 12.42 2.52 75.0 22.41 6.61 RBF模型75 14.53 35.29 50.0 33.92 2.90 50.0 27.98 12.49 50.0 28.48 5.01 50.0 33.62 8.34 表2 黄河上游各区间年来水量预测结果对比 唐乃亥以上龙刘区间刘兰区间年份预测值/(m3·s-1)实测值/(m3·s-1)平均相对误差/%预测值/(m3·s-1)实测值/(m3·s-1)平均相对误差/%预测值/(m3·s-1)实测值/(m3·s-1)平均相对误差/% 2007 168.90 186.84 9.60 48.07 54.53 11.85 47.82 43.84 9.08 2008 163.86 173.56 5.59 44.08 43.05 2.39 34.69 36.73 5.55 2009 222.40 263.05 15.46 41.46 41.94 1.14 38.19 41.20 7.31 2010 228.04 198.19 15.06 40.57 35.27 15.03 38.37 39.35 2.49 2011 220.35 211.69 4.09 45.39 38.81 16.95 43.06 38.63 11.46 2012 225.74 279.78 19.32 58.18 58.79 1.03 43.85 40.67 7.82 2013 213.96 185.62 15.27 49.63 54.94 9.67 36.93 35.02 5.45 2014 223.13 198.48 12.42 55.78 51.27 8.80 40.04 39.39 1.65 4 结 语基于EEMD的组合预测是一种“分解-预测-重构”的预测模式。基于EEMD可以将径流时间序列平稳化处理得到不同尺度的IMF分量以及趋势项,高频分量采用GA-SVM进行预测,低频分量采用GA-BP进行预测,趋势项采用RBF进行预测,最后将各预测分量相加重构作为预测的径流序列。 利用EEMD组合预测模型对黄河上游主要来水区年来水量进行预测,发现黄河上游5个水文站的20%预报合格率均达到甲等预报方案标准,各站平均相对误差以及均方根误差均低于三种单一预测模型的,并且黄河上游各区间年来水量预测的20%预报合格率均为100%,表明本文构建的EEMD组合预测模型具有预测精度高、泛化能力强、误差稳定性高以及较强的适用性。 参考文献: [1] 陈守煜,薛志春,李敏,等.基于可变集的年径流预测方法[J].水利学报,2014,45(8):912-920. [2] 王富强,霍风霖.中长期水文预报方法研究综述[J].人民黄河,2010,32(3):25-28. [3] 张晓伟,沈冰,黄领梅.基于BP神经网络的灰色自记忆径流预测模型[J].水力发电学报,2009,28(1):68-71. [4] 万星,丁晶,张晓丽.小波神经网络在径流预测中的应用研究[J].人民黄河,2005,27(10):33-36. [5] 丁胜祥,董增川,王德智,等.基于相空间重构和GA-BP网络的径流预测[J].水电能源科学,2007,25(5):40-43.[6] 孙传文,钟平安,万新宇,等.考虑季节因子的支持向量机径流预测模型[J].中国农村水利水电,2014(4):101-104. [7] 孙阳,陈元芳,程龙,等.基于EEMD的枯季入库径流预报分析[J].中国农村水利水电,2012(2):34-37. [8] 姚欣明,陈元芳,顾圣华,等.EEMD-NNBR模型在降水预测中的应用[J].水电能源科学,2014,32(12):11-13,16.[9] 张洪波,王斌,兰甜,等.基于经验模态分解的非平稳水文序列预测研究[J].水力发电学报,2015,34(12):42-53. [10] 霍世青.黄河流域非汛期径流预报方法研究[D].西安:西安理工大学,2002:6-8. [11] 朱祥和,王子琦,李严,等.基于EEMD的LS-SVM和BP神经网络混合短期负荷预测[J].数学的实践与认识,2012,42(8):151-158. [12] 周清平.沪深300指数的组合预测模型研究[D].兰州:兰州大学,2015:14-16. [13] 韩锐,董增川,马红亮,等.黄河下游地区多目标优化配水模型研究[J].人民黄河,2016,38(7):44-48. [14] 张敬平,黄强,赵雪花.经验模态分解和RBF网络在径流预测中的应用[J].干旱区资源与环境,2014,28(6):118-123. 【责任编辑 翟戌亮】【责任编辑 翟戌亮】 Prediction of Annual Water in the Main Inflow Zone in the Upper Yellow River Based on EEMD HAN Rui1,2,DONG Zengchuan1,LUO Yun1,3,ZHANG Xiangyu1,4,XU Boliu1,5,FU Fangming1,6 Abstract:Runoff forecasting is of great significance to the rational dispatch and optimal allocation of water resources.In order to improve the accuracy of runoff prediction,ensemble empirical mode decomposition(EEMD)was used,which decomposed non-linear and non-stationary runoff time series into several intrinsic mode component and trend component,because of the different forecasting results of various single prediction models and in view of the high frequency component of the GA-SVM model to predict,low frequency component of the GA-BP model to forecast,the trend term of the RBF model to forecast,then reconstruction of each component,so as to establish a prediction model based on the combination of EEMD,and applied to forecast annual water in the main inflow zone in the upper Yellow River.The results show that the water in the main inflow zone in the upper reaches of the Yellow River forecast prediction of100%pass rate,which has a high prediction accuracy,with high practical value. Key words:EEMD;runoff forecast;interval runoff;Upper Yellow River 中图分类号:P338;TV882.1 文献标志码::A doi:10.3969/j.issn.1000-1379.2017.08.003 收稿日期:2016-09-05 基金项目:国家自然科学基金面上项目(41471014);国家社会科学基金资助项目(2012&ZD214)。 作者简介:韩锐(1992—),男,宁夏同心人,硕士研究生,研究方向为水资源规划与管理。 通信作者:董增川(1963—),男,山西运城人,教授,博士生导师,主要从事水资源规划与管理研究工作。 E-mail:xiaozhonghanyue@126.com |
|