【原】用于时间序列预测的可解释深度学习

雨夜的博客 2022-02-24

展开全文

多水平预测，即在未来多个时间步预测感兴趣的变量，是时间序列机器学习中的一个关键挑战。大多数现实世界的数据集都有时间成分，预测未来可以释放巨大的价值。例如，零售商可以利用未来的销售额来优化他们的供应链和促销活动，投资经理有兴趣预测金融资产的未来价格以最大化他们的业绩，医疗机构可以利用未来的入院人数来拥有足够的人员和设备.

深度神经网络(DNN)越来越多地用于多层面预测，与传统时间序列模型相比，表现出强大的性能改进。虽然许多模型（例如DeepAR、MQRNN）都专注于循环神经网络( RNN ) 的变体，但最近的改进，包括基于 Transformer 的模型，已经使用基于注意力的层来增强过去对相关时间步长的选择。 RNN 的归纳偏置——信息的顺序有序处理，包括。然而，这些通常不考虑多层面预测中普遍存在的不同输入，或者假设所有外生输入未来已知或忽略重要的静态协变量。

file

此外，传统的时间序列模型受许多参数之间复杂的非线性相互作用控制，因此很难解释这些模型是如何得出预测的。不幸的是，解释 DNN 行为的常用方法有局限性。例如，事后方法（例如，LIME和SHAP）不考虑输入特征的顺序。提出了一些具有内在可解释性的基于注意力的模型对于顺序数据，主要是语言或语音，但多层面预测有许多不同类型的输入，而不仅仅是语言或语音。基于注意力的模型可以提供对相关时间步长的洞察，但它们无法区分给定时间步长不同特征的重要性。需要新方法来解决多层面预测中数据的异质性以实现高性能，并使这些预测具有可解释性。

为此，我们宣布发表在International Journal of Forecasting 上的“用于可解释多水平时间序列预测的时间融合变换器”，我们在其中提出了时间融合变换器 (TFT)，一种基于注意力的 DNN 模型，用于多水平预测. TFT 旨在将模型与通用多水平预测任务明确对齐，以实现卓越的准确性和可解释性，我们在各种用例中展示了这一点。

时间融合变换器

我们设计 TFT 以有效地为每种输入类型（即静态、已知或观察到的输入）构建特征表示，以实现高预测性能。TFT的主要成分（如下所示）是：

跳过模型的任何未使用组件（从数据中学习）的门控机制，提供自适应深度和网络复杂性以适应广泛的数据集。
变量选择网络在每个时间步选择相关的输入变量。虽然传统的 DNN可能会过度拟合不相关的特征，但基于注意力的变量选择可以通过鼓励模型将大部分学习能力锚定在最显着的特征上来提高泛化能力。 3.静态协变量编码器集成了静态特征来控制时间动态的建模方式。静态特征可能对预测产生重要影响，例如，商店位置可能具有不同的销售时间动态（例如，乡村商店可能会看到更高的周末客流量，但市中心商店可能会在下班后看到每日高峰）。
从观察到的和已知的时变输入中学习长期和短期时间关系的时间处理。甲序列到序列采用层用于本地处理，因为它具有用于订购信息处理归纳偏置是有益的，而长期依赖性使用新颖的可解释的多头关注块捕获。这可以缩短信息的有效路径长度，即可以直接关注具有相关信息（例如去年的销售额）的任何过去时间步长。
预测区间显示分位数预测，以确定每个预测范围内的目标值范围，帮助用户了解输出的分布，而不仅仅是点预测。

file