在正常的机器学习问题中,我们通过观察值来进行预测,预测与时间因素无关。在某些情况下,机器学习也可以预测未来的结果,但这将同等对待所有过去的观察结果。 然而,时间序列数据集是完全不同的。时间序列任务增加了一个“时间维度”,并且在观察之间也有一个明确的依赖顺序。简单地说:时间序列是按时间顺序进行的一系列观察。 时间序列数据的组成部分
可以将这些组成部分组合起来,以提供所观察到的时间序列。例如,可以将它们加在一起形成如下模型(尽管并非总是如此): 时间序列数据可以有两种不同的类型:
时间序列预测方法下面提供了用于预测时间序列数据的各种经典方法的完整概述。 自回归(AR) 自回归模型是将时间序列中的值回归到相同时间序列中的先前值的模型。在此模型中,下一个值表示为所有先前时间戳值(也称为滞后值)的线性组合。 自回归模型用AR(p)表示,其中p称为模型的阶数。例如,AR(1)将是“一阶自回归过程”。一阶AR过程中某个时刻(t)的结果变量仅与间隔一个周期的时间段(即(t-1)的值)相关。 移动平均线(MA) 与在回归中使用预测变量的过去值的线性组合不同,移动平均模型通过取该模型中任何观测子集的平均值来使用过去的预测误差项(εt)。在此模型中,当前与平均值的偏差取决于过去与平均值的偏差。移动平均线对于预测长期趋势非常有用。 移动平均线用MA(q)表示,其中q为移动平均线窗口的大小,也称为移动平均线的阶数。 自回归移动平均线(ARMA) ARMA模型就是上述AR(p)和MA(q)模型的结合。它用两个多项式来描述弱平稳随机时间序列,即一个是自回归,另一个是移动平均。它利用了AR(p)和MA(q)的优势, AR(p)利用因变量的前一个值进行预测,MA(q)利用序列均值和先前误差进行预测。 自回归综合移动平均线(ARIMA) ARIMA是上述简单的自动回归移动平均线的推广,唯一的区别是积分的概念。 简而言之,此模型的关键方面是:
ARIMA(p,d,q)模型中:p是自回归(AR)的项数,用来获取自变量;d是差分(I)的系数,为了使时间序列平稳;q是移动平均(MA)的项数,为了使其光滑. 平稳序列
可以通过差分使非平稳序列平稳。一般说来,如果微分d次是平稳的序列,则称其为d阶积分。 ARIMA模型中的“ I”代表integrated。它是衡量实现平稳性需要多少非季节的度量,也是ARMA和ARIMA之间区别的基础。 为什么我们需要假设序列平稳呢?
|
|
来自: taotao_2016 > 《学生》