分享

机器学习中的时间序列预测概述

 taotao_2016 2020-05-10

机器学习中的时间序列预测概述

在正常的机器学习问题中,我们通过观察值来进行预测,预测与时间因素无关。在某些情况下,机器学习也可以预测未来的结果,但这将同等对待所有过去的观察结果。

然而,时间序列数据集是完全不同的。时间序列任务增加了一个“时间维度”,并且在观察之间也有一个明确的依赖顺序。简单地说:时间序列是按时间顺序进行的一系列观察。

时间序列数据的组成部分

  1. 平均水平(level):序列的基线值。
  2. 趋势(Trend):该序列遵循的行为,即根据情况和条件增加或减少。
  3. 季节性(Seasonality):一段时间内行为的重复模式或周期。
  4. 噪声(Noise):模型无法解释的数据的可选变化。

机器学习中的时间序列预测概述

可以将这些组成部分组合起来,以提供所观察到的时间序列。例如,可以将它们加在一起形成如下模型(尽管并非总是如此):

机器学习中的时间序列预测概述

时间序列数据可以有两种不同的类型:

  1. 单变量时间序列:指由在一定时间间隔内记录的单个(标量)观测值组成的时间序列数据。例如,从传感器收集的数据(传感器每秒测量一次房间的温度)。
  2. 多元时间序列:按一定时间间隔记录的随时间变化的多个变量。例如,在一个三轴加速度计中,有三个加速度,每个轴(x,y,z)一个,它们随着时间同时变化。

时间序列预测方法

下面提供了用于预测时间序列数据的各种经典方法的完整概述。

机器学习中的时间序列预测概述

自回归(AR)

自回归模型是将时间序列中的值回归到相同时间序列中的先前值的模型。在此模型中,下一个值表示为所有先前时间戳值(也称为滞后值)的线性组合。

机器学习中的时间序列预测概述

自回归模型用AR(p)表示,其中p称为模型的阶数。例如,AR(1)将是“一阶自回归过程”。一阶AR过程中某个时刻(t)的结果变量仅与间隔一个周期的时间段(即(t-1)的值)相关。

移动平均线(MA)

与在回归中使用预测变量的过去值的线性组合不同,移动平均模型通过取该模型中任何观测子集的平均值来使用过去的预测误差项(εt)。在此模型中,当前与平均值的偏差取决于过去与平均值的偏差。移动平均线对于预测长期趋势非常有用。

机器学习中的时间序列预测概述

移动平均线用MA(q)表示,其中q为移动平均线窗口的大小,也称为移动平均线的阶数。

自回归移动平均线(ARMA)

ARMA模型就是上述AR(p)和MA(q)模型的结合。它用两个多项式来描述弱平稳随机时间序列,即一个是自回归,另一个是移动平均。它利用了AR(p)和MA(q)的优势, AR(p)利用因变量的前一个值进行预测,MA(q)利用序列均值和先前误差进行预测。

机器学习中的时间序列预测概述

自回归综合移动平均线(ARIMA)

ARIMA是上述简单的自动回归移动平均线的推广,唯一的区别是积分的概念。

简而言之,此模型的关键方面是:

  1. 自回归:利用观测值和过去的滞后观测值之间的依赖关系建立的模型。
  2. 综合:取原始观测值之间的差值(例如,在前一个时间步中将一个观测值减去另一个观测值),以使时间序列保持平稳。
  3. 移动平均线:一种利用观测值和移动平均模型残差之间的相关性来进行滞后观测的模型。

ARIMA(p,d,q)模型中:p是自回归(AR)的项数,用来获取自变量;d是差分(I)的系数,为了使时间序列平稳;q是移动平均(MA)的项数,为了使其光滑.

平稳序列

如果Y在时间t的分布与任何其他时间点相同,则称该序列为“严格平稳”。这意味着序列Yt的均值、方差和协方差是时间不变的。

可以通过差分使非平稳序列平稳。一般说来,如果微分d次是平稳的序列,则称其为d阶积分。

ARIMA模型中的“ I”代表integrated。它是衡量实现平稳性需要多少非季节的度量,也是ARMA和ARIMA之间区别的基础。

为什么我们需要假设序列平稳呢?

  1. 如果该系列是非平稳的,则标准技术无效。
  2. 如果序列是非平稳的,则可能导致自相关。
  3. 可能会导致虚假的回归,表明与过去的值存在关系,而实际上不存在这种关系。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多