Python数据分析必备：Pandas中rolling方法的完全指南

流形sbz 2023-11-21 发布于甘肃

展开全文

在数据分析和时间序列数据处理中，经常需要执行滚动计算或滑动窗口操作。Pandas库提供了rolling方法，用于执行这些操作。

本文将详细介绍Pandas中的rolling方法，包括其概念、用法和示例代码。

1. 引言

滚动计算与滑动窗口操作

滚动计算（Rolling Calculation）是一种数据处理技术，它在时间序列数据或数据框中执行基于滑动窗口的计算。这种技术通常用于计算移动平均、滚动标准差、滚动相关系数等统计指标。Pandas中的rolling方法提供了一种简单且高效的方式来执行这些计算。

2. Pandas的rolling方法

创建rolling对象

在Pandas中，要使用rolling方法，首先需要创建一个rolling对象。rolling对象可以应用于数据框的列，它表示一个窗口，用于滚动计算。

创建rolling对象的基本语法如下：

rolling_obj = df['column_name'].rolling(window=window_size)

其中：

df['column_name'] 是数据框列的选择，表示我们要在哪个列上执行滚动计算。
window_size 是窗口的大小，用于定义滚动窗口的大小。

常用参数

rolling方法还支持其他参数，包括：

min_periods：指定每个窗口最小的非NaN值数量，用于处理边界效应。
center：指示计算值的位置是窗口的中心还是右边缘。
win_type：用于指定窗口类型，如矩形窗口或指数加权窗口。

3. 滚动计算示例

移动平均值

移动平均是滚动计算的常见应用之一。通过rolling方法，可以轻松计算时间序列数据的移动平均值。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建rolling对象并计算移动平均rolling_mean = df['value'].rolling(window=3).mean()print(rolling_mean)

滚动标准差

滚动标准差用于测量数据的波动性。通过rolling方法，可以计算滚动窗口内的标准差。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建rolling对象并计算滚动标准差rolling_std = df['value'].rolling(window=3).std()print(rolling_std)

滚动相关系数

滚动相关系数用于衡量两个变量之间的关联程度。通过rolling方法，可以计算滚动窗口内的相关系数。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'x': [1, 2, 3, 4, 5], 'y': [5, 4, 3, 2, 1]}df = pd.DataFrame(data)# 创建rolling对象并计算滚动相关系数rolling_corr = df['x'].rolling(window=3).corr(df['y'])print(rolling_corr)

4. 自定义滚动函数

apply方法

除了内置的滚动函数，还可以使用apply方法来应用自定义函数进行滚动计算。能够执行任何你需要的操作。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建rolling对象并应用自定义函数def custom_function(data):    return data.max() - data.min()result = df['value'].rolling(window=3).apply(custom_function)print(result)

自定义函数示例

自定义函数可以根据具体需求执行各种滚动计算。下面是两个示例函数，分别用于计算滚动差值和百分比变化。

计算滚动差值

以下自定义函数计算滚动差值，即当前数据点与前一个数据点之间的差值：

import pandas as pd# 创建示例数据框data = {'value': [1, 3, 6, 10, 15]}df = pd.DataFrame(data)# 创建rolling对象并应用自定义函数def calculate_rolling_difference(data):    return data.diff()rolling_diff = df['value'].rolling(window=2).apply(calculate_rolling_difference)print(rolling_diff)

在这个示例中，使用diff方法来计算差值，然后将其应用到rolling对象上。

计算滚动百分比变化

以下自定义函数计算滚动百分比变化，即当前数据点与前一个数据点之间的百分比变化：

import pandas as pd# 创建示例数据框data = {'value': [100, 120, 90, 110, 130]}df = pd.DataFrame(data)# 创建rolling对象并应用自定义函数def calculate_rolling_percentage_change(data):    previous_value = data.iloc[0]  # 获取前一个数据点的值    return ((data - previous_value) / previous_value) * 100rolling_percentage_change = df['value'].rolling(window=2).apply(calculate_rolling_percentage_change)print(rolling_percentage_change)

在这个示例中，获取前一个数据点的值，然后计算当前数据点与前一个数据点之间的百分比变化。

5. 窗口类型

固定窗口

在前面的示例中，使用的是固定窗口，窗口大小在整个计算过程中保持不变。

指数加权窗口

除了固定窗口外，Pandas还支持指数加权窗口。指数加权窗口将不同时间点的数据分配不同的权重，用于更敏感的滚动计算。

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建指数加权rolling对象并计算rolling_ewm = df['value'].ewm(span=3).mean()print(rolling_ewm)

自定义窗口

如果需要自定义窗口，可以使用rolling方法的window参数。

以下是一个示例，展示如何使用rolling方法的window参数来创建自定义窗口：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5, 6, 7, 8, 9]}df = pd.DataFrame(data)# 自定义窗口大小window_sizes = [2, 3, 4]  # 不同的窗口大小# 使用不同窗口大小执行滚动计算for window_size in window_sizes:    rolling_mean = df['value'].rolling(window=window_size).mean()    print(f'Rolling Mean with window size {window_size}:\n{rolling_mean}\n')