分享

用于决策的5种时间序列数据分析方法

 数据治理精英馆 2021-12-24

一 概述
时间序列数据是日常生活中最常见的数据类型之一。大多数公司使用时间序列数据预测来帮助制定商业策略。这些方法已被用于监测、澄清和预测某些“因果”行为。
简而言之,时间序列分析有助于理解过去如何影响未来。如今,人工智能(AI)和大数据重新定义了商业预测方法。本文将介绍5种特定的时间序列方法分析方法。
二 时间序列数据的定义
时间序列是一个基于时间的数据点序列,这些数据点在特定的时间间隔内收集,并随时间变化。它是根据时间索引的。
时间序列的四种变化是(1)季节变化(2)趋势变化(3)周期变化(4)随机变化。
时间序列分析用于确定一个良好的模型,该模型可用于预测业务指标,如股票市场价格、销售、营业额等。它支持管理人员理解数据中的及时模式,并分析业务指标中的趋势。通过跟踪过去的数据,预测者希望对未来有一个比平均水平更好的预期。

时间序列数据是唯一的,因为它有一个自然的时间顺序:数据被观察的顺序很重要。时间序列数据与常规数据的关键区别在于,随着时间的推移,你总是会问一些问题。确定正在处理的数据集是否为时间序列的一个通常简单的方法是,查看其中一个轴是否为时间轴。
时间序列的特点
不变性:由于时间序列数据是按时间顺序来的,所以它几乎总是记录在一个新条目中,因此,它应该是不可变的,并且只能追加到现有数据。它通常不会改变,而是按照事件发生的顺序加在一起。该属性将时间序列数据与关系数据区分开来,关系数据通常是可变的,存储在进行在线事务处理的关系数据库中,其中数据库中的行随着事务的运行而更新,或多或少是随机的;例如,接受现有客户的订单,将更新客户表以添加购买的商品,并更新库存表以显示这些商品不再可供销售。
有序性:时间序列数据是有序的这一事实使得它在数据空间中是唯一的,因为它经常显示串行依赖性。当一个数据点在某一时刻的值在统计上依赖于另一时刻的另一个数据点时,就出现了串行依赖。
虽然没有事件存在于时间之外,但也有与时间无关的事件。时间序列数据不仅仅是关于按时间顺序发生的事情,它是关于当你添加时间作为轴时其值增加的事件。时间序列数据有时存在于较高的粒度级别,通常为微秒甚至纳秒。对于时间序列数据,随时间的变化就是一切。
不同形式的时间序列数据:时间序列数据并不总是数字,它可以是int64、float64、bool或字符串。
三 最有效的5种时间序列数据分析方法
1. 时间序列回归分析
时间序列回归是一种统计方法,用于预测未来的响应基于以前的响应历史,称为自回归动态。时间序列回归帮助预测者从数据观察或实验数据中理解和预测动态系统的行为。时间序列数据经常用于生物、金融和经济业务系统的建模和预测。
预测、建模和表征是回归分析实现的三个目标。从逻辑上讲,实现这三个目标的顺序取决于最初的目标。有时建模是为了更好地预测,有时只是为了理解和解释正在发生的事情。最常见的是,迭代过程被用于预测和建模。为了更好地控制,预测者可能会选择建模以获得预测。
这个过程可以分为三个部分:计划、开发和维护。
规划:
定义问题,选择响应,然后建议变量。
普通的回归分析是以独立数据集中存在的误差为条件的。
检查问题是否可以解决。
找到相关矩阵,首先回归运行,基本统计,和相关矩阵。
建立一个目标,准备一个预算,制定一个时间表。
与公司确认目标和预算。
开发:
收集和检查数据的质量。绘制并尝试这些模型和回归条件。
咨询专家。
找到最好的模式。
维护:
检查参数是否稳定。
检查系数是否合理,是否有任何变量缺失,以及该方程是否可用于预测。
使用统计技术定期检查模型。
2. Python中的时间序列分析
Python世界中有许多可用的时间、日期、增量和时间跨度表示。Pandas软件库(为Python编写)主要是为金融部门开发的,因此它包含非常具体的金融数据工具,以确保业务增长。
日期和时间数据:
时间戳:指特定的时间点。
时间间隔和周期:指特定的开始和结束之间的时间长度。
时间增量或持续时间:指一个确切的时间长度。
本机Python日期和时间:
Python处理日期和时间的基本对象在内置模块中。科学家可以将这些模块与第三方模块一起使用,并在日期和时间上快速执行一系列有用的功能。
3.与R相关的时间序列分析
R是一种流行的编程语言和自由软件环境,被统计学家和数据挖掘者用于开发数据分析。它由一系列专门为数据科学设计的图书馆组成。
R提供了最丰富的数据分析生态系统之一。由于开源资源库中有12,000个包,因此很容易找到一个库进行必要的分析。业务经理会发现,其丰富的库使R成为统计分析的最佳选择,特别是对于专门的分析工作。
R提供了出色的特性,可以用演示或文档工具来交流发现,从而更容易地向团队解释分析。它为时间序列模型(如随机漫步、白噪声、自回归和简单移动平均)提供了质量和形式方程。时间序列数据有各种R函数,包括模拟、建模和预测时间序列趋势。
由于R是由学者和科学家开发的,它被设计用来回答统计问题。它可以进行时间序列分析。它是商业预测的最佳工具。
4. 时间序列数据分析
时间序列数据分析是通过收集不同时间点的数据来进行的。这与在单一时间点观察公司的横断面数据相反。由于数据点是在相邻的时间周期收集的,因此在时间序列数据分析中,可能存在着观测数据之间的相关性。
时间序列数据可以用于:
经济学:GDP, CPI,失业率等等。
社会科学:人口、出生率、移民数据和政府治理指标。
流行病学:蚊子种群、发病率和死亡率。
医学:体重追踪、胆固醇测量、心率监测和血压追踪。
物理科学:每月太阳黑子观测,全球温度,污染水平。
季节性
季节性是时间序列数据的主要特征之一。当时间序列在小于一年的时间间隔内表现出可预测但有规律的模式时,就会发生这种情况。具有季节性的时间序列数据的最好例子是零售销售在9月到12月之间增加,在1月到2月之间减少。
结构性突变
大多数情况下,时间序列数据显示在某个时间点上行为的突然变化。这种突然的变化被称为结构性突变。它们会导致模型参数的不稳定性,进而降低模型的可靠性和有效性。时间序列图可以帮助识别数据中的结构突变。
5. 深度学习时间序列分析
时间序列预测在处理长序列、多步预测、噪声数据和多个输入输出变量时尤其具有挑战性。
深度学习方法提供时间序列预测能力,如时间依赖性、自动学习和自动处理时间结构,如季节性和趋势。
使用深度学习分析时间序列的好处
易于提取特征:深度神经网络最小化了对数据缩放过程和平稳数据的需求,并特征化了时间序列预测中需要的工程过程。这些深度学习的神经网络可以自主学习。通过训练,他们可以自己从原始输入数据中提取特征。
善于提取模式:递归神经网络中的每个神经元都能够利用其内部记忆保持来自以前输入的信息。因此,它是时间序列序列数据的最佳选择。
从训练数据中容易预测:长短期记忆(LSTM)在时间序列中非常流行。使用深度学习模型,如梯度增强回归器、随机森林和时滞神经网络,数据可以很容易地在不同的时间点表示。
四 时间序列分析对业务发展的价值
时间序列预测帮助企业做出更好的业务决策,因为它可以基于历史数据模式。它可以用来预测未来的情况和事件。
可靠性:时间序列预测是最可靠的,特别是当数据代表一个广泛的时间周期,如大量的观测较长时间。可以通过测量不同间隔的数据来提取信息。
季节模式:测量的数据点方差可以揭示季节波动模式,作为预测的基础。这类信息对产品季节性波动的市场特别重要,因为这有助于它们计划生产和交货要求。
趋势估计:时间序列方法也可以用来确定趋势,因为当测量结果显示某一特定产品的销售减少或增加时,从时间序列方法得到的数据趋势对制定销售策略很有用。
增长预测:时间序列方法能够有效的衡量内生增长。内生增长是指组织内部人力资本的发展,从而导致经济增长。例如,可以通过时间序列分析来证明政策变化的影响。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多