分享

Pandas数据处理——玩转时间序列数据

 liyu_sun 2020-08-03

作者:易执
来源:Python读财

Pandas数据处理
玩转时间序列数据

进行金融数据分析或量化研究时,总避免不了时间序列数据的处理,时间序列是指在一定时间内按时间顺序测量的某个变量的取值序列。常见的时间序列数据有一天内随着时间变化的温度序列,又或者交易时间内不断波动的股票价格序列。Pandas也因其强大的时序处理能力而被广泛应用于金融数据分析,这篇文章为大家介绍一下Pandas中的时间序列处理,所使用的数据是上证指数2019年的行情数据。


时间相关的数据类型

Pandas时序处理中最常见的两种数据类型为datetimetimedelta。一个datetime可以如下图所示:

datetime顾名思义就是既有日期date也有时间time,表示一个具体的时间点(时间戳)。timedelta则表示两个时间点之间的差,比如2020-01-012020-01-02之间的timedelta即为一天,相信并不难理解。


将时间列转换为时间格式

大多数时候,我们是从csv文件中导入数据,此时Dataframe中对应的时间列是字符串的形式,如下:

In [5]: data.trade_date.head()Out[5]:0 201901021 201901032 201901043 201901074 20190108Name: trade_date, dtype: object

运用pd.to_datetime(),可以将对应的列转换为Pandas中的datetime64类型,便于后期的处理

In [11]: data['trade_date'] = pd.to_datetime(data.trade_date)
In [12]: data.trade_date.head()Out[12]:0 2019-01-021 2019-01-032 2019-01-043 2019-01-074 2019-01-08Name: trade_date, dtype: datetime64[ns]


时间序列的索引

时间序列中索引和Pandas普通的索引类似,大多时候调用.loc[index,columns]进行相应的索引,直接上代码看看

In [20]: data1 = data.set_index('trade_date')
# 2019年6月的数据In [21]: data1.loc['2019-06'].head()Out[21]: close open high lowtrade_date2019-06-03 2890.0809 2901.7424 2920.8292 2875.90192019-06-04 2862.2803 2887.6405 2888.3861 2851.97282019-06-05 2861.4181 2882.9369 2888.7676 2858.57192019-06-06 2827.7978 2862.3327 2862.3327 2822.18532019-06-10 2852.1302 2833.0145 2861.1310 2824.3554
# 2019年6月-2019年8月的数据In [22]: data1.loc['2019-06':'2019-08'].tail()Out[22]: close open high lowtrade_date2019-08-26 2863.5673 2851.0158 2870.4939 2849.23812019-08-27 2902.1932 2879.5154 2919.6444 2879.40602019-08-28 2893.7564 2901.6267 2905.4354 2887.01152019-08-29 2890.9192 2895.9991 2898.6046 2878.58782019-08-30 2886.2365 2907.3825 2914.5767 2874.1028


提取出时间/日期的属性

在时序数据处理过程中,经常需要实现下述需求:

  • 求某个日期对应的星期数(2019-06-05是第几周)
  • 判断一个日期是周几(2020-01-01是周几)
  • 判断某一日期是第几季度(2019-07-08属于哪个季度)

……

当数据中的时间列(本数据中为trade_date列)已经转换为datetime64格式时,仅需调用.dt接口,即可快速求得想要的结果,下表中列出了.dt接口所提供的常见属性:

具体演示一下(下面仅显示2019-01-02的信息):

# 一年中的第几天In [13]: data.trade_date.dt.dayofweek[0]Out[13]: 2
# 返回对应日期In [14]: data.trade_date.dt.date[0]Out[14]: datetime.date(2019, 1, 2)
# 返回周数In [15]: data.trade_date.dt.weekofyear[0]Out[15]: 1
# 返回周几In [16]: data.trade_date.dt.weekday_name[0]Out[16]: 'Wednesday'


resample

resample翻译过来是重采样的意思,官方文档中是这么描述resample

resample() is a time-based groupby

翻译过来就是基于时间groupby操作,我个人认为这是Pandas时间序列处理中最重要的功能,也是本文的重中之重。

根据采样是从低频到高频还是从高频到低频可以分为升采样降采样两种方式,先来看看降采样是啥

  • 降采样

以一个实例来引入,我们使用的数据是上证指数2019年的日级别数据,如果现在想求每季度的平均收盘价,应该怎么操作呢?

从日级别数据求季度级别数据,是从高频到低频聚合操作,其实就类似于groupby按季度进行操作,用resample来写是这样子

In [32]: data.resample('Q',on='trade_date')['close'].mean()Out[32]:trade_date2019-03-31 2792.9416222019-06-30 3010.3546722019-09-30 2923.1367482019-12-31 2946.752270Freq: Q-DEC, Name: close, dtype: float64

其中'Q'是以季度为频率进行采样,on指定datetime列(如果索引为Datetimeindex,则on不需要指定,默认依据索引进行降采样)。整个过程图解如下:

整个过程其实就是一个groupby过程:

  • 对原有的数据按照指定的频率进行切分,分到不同的group
  • 对不同的group执行操作
  • 整合操作结果

其中,切分的频率可以为任何时间频率,可以为季度Q、月度M、星期W、N天ND,也可以为时H、分T,当然,如果切分后的频率小于原有的时间频率,就是我们下面要讲的升采样。

  • 升采样

当采样的频率低于原有的频率时,即为升采样。升采样是对原有的时间粒度更为细粒度的划分,所以升采样时会产生缺失值。下面取2019-01-022019-01-03的数据按照6H的频率演示一下:

In [24]: exampleOut[24]: closetrade_date2019-01-02 2465.29102019-01-03 2464.3628
In [25]: example.resample('6H').asfreq()Out[25]: closetrade_date2019-01-02 00:00:00 2465.29102019-01-02 06:00:00 NaN2019-01-02 12:00:00 NaN2019-01-02 18:00:00 NaN2019-01-03 00:00:00 2464.3628

resample后的结果应用.asfreq()会返回新频率下的结果。可以看到升采样后产生了缺失值。如果想要填充缺失值可以采用向后填充.bfill()或向前填充.ffill()的方式:

# 向前填充,缺失值取2465.2910进行填充In [29]: example.resample('6H').ffill()Out[29]: closetrade_date2019-01-02 00:00:00 2465.29102019-01-02 06:00:00 2465.29102019-01-02 12:00:00 2465.29102019-01-02 18:00:00 2465.29102019-01-03 00:00:00 2464.3628
# 向后填充,缺失值取2464.3628进行填充In [30]: example.resample('6H').bfill()Out[30]: closetrade_date2019-01-02 00:00:00 2465.29102019-01-02 06:00:00 2464.36282019-01-02 12:00:00 2464.36282019-01-02 18:00:00 2464.36282019-01-03 00:00:00 2464.3628

总结一下resampleresample可以对原有的时间序列进行任何频率freq的采样,如果从低频到高频为升采样,高频到低频为降采样。整个操作过程和groupby基本一致,所以也可以对resample后的对象进行applytransform等操作,具体操作和原理这里就不多解释了。

---------End---------

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多