Pandas分组运算（groupby）修炼

北方的白桦林 2018-12-21

展开全文

Pandas的groupby()功能很强大，用好了可以方便的解决很多问题，在数据处理以及日常工作中经常能施展拳脚。

今天，我们一起来领略下groupby()的魅力吧。

首先，引入相关package：

import pandas as pdimport numpy as np

groupby的基础操作

In [2]: df = pd.DataFrame({'A': ['a', 'b', 'a', 'c', 'a', 'c', 'b', 'c'],    ...:                    'B': [2, 8, 1, 4, 3, 2, 5, 9],    ...:                    'C': [102, 98, 107, 104, 115, 87, 92, 123]})   ...: df   ...: Out[2]:    A  B    C0  a  2  1021  b  8   982  a  1  1073  c  4  1044  a  3  1155  c  2   876  b  5   927  c  9  123

按A列分组（groupby），获取其他列的均值

df.groupby('A').mean()Out[3]: B CA a 2.0 108.000000b 6.5 95.000000c 5.0 104.666667

按多列进行分组（groupby）

df.groupby(['A','B']).mean()Out[4]: CA B a 1 107 2 102 3 115b 5 92 8 98c 2 87 4 104 9 123

分组后选择列进行运算

分组后，可以选取单列数据，或者多个列组成的列表（list）进行运算

In [5]: df = pd.DataFrame([[1, 1, 2], [1, 2, 3], [2, 3, 4]], columns=['A', 'B', 'C'])   ...: df   ...: Out[5]:    A  B  C0  1  1  21  1  2  32  2  3  4

In [6]: g = df.groupby('A')

In [7]: g['B'].mean() # 仅选择B列Out[7]: A1 1.52 3.0Name: B, dtype: float64

In [8]: g[['B', 'C']].mean() # 选择B、C列Out[8]: B CA 1 1.5 2.52 3.0 4.0

可以针对不同的列选用不同的聚合方法

In [9]: g.agg({'B':'mean', 'C':'sum'})Out[9]: B CA 1 1.5 52 3.0 4

聚合方法size()和count()

size跟count的区别： size计数时包含NaN值，而count不包含NaN值

In [10]: df = pd.DataFrame({'Name':['Alice', 'Bob', 'Mallory', 'Mallory', 'Bob' , 'Mallory'],    ...:                  'City':['Seattle', 'Seattle', 'Portland', 'Seattle', 'Seattle', 'Portland'],    ...:                  'Val':[4,3,3,np.nan,np.nan,4]})    ...:     ...: df    ...: Out[10]:        City     Name  Val0   Seattle    Alice  4.01   Seattle      Bob  3.02  Portland  Mallory  3.03   Seattle  Mallory  NaN4   Seattle      Bob  NaN5  Portland  Mallory  4.0

count()

In [11]: df.groupby(['Name', 'City'], as_index=False)['Val'].count()Out[11]:       Name      City  Val0    Alice   Seattle    11      Bob   Seattle    12  Mallory  Portland    23  Mallory   Seattle    0

size()

In [12]: df.groupby(['Name', 'City'])['Val'].size().reset_index(name='Size')Out[12]:       Name      City  Size0    Alice   Seattle     11      Bob   Seattle     22  Mallory  Portland     23  Mallory   Seattle     1

分组运算方法 agg()

针对某列使用agg()时进行不同的统计运算

In [13]: df = pd.DataFrame({'A': list('XYZXYZXYZX'), 'B': [1, 2, 1, 3, 1, 2, 3, 3, 1, 2],     ...:                            'C': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})    ...: df    ...: Out[13]:    A  B   C0  X  1  121  Y  2  142  Z  1  113  X  3  124  Y  1  135  Z  2  146  X  3  167  Y  3  128  Z  1  109  X  2  19

In [14]: df.groupby('A')['B'].agg({'mean':np.mean, 'standard deviation': np.std})Out[14]:        mean  standard deviationA                              X  2.250000            0.957427Y  2.000000            1.000000Z  1.333333            0.577350

针对不同的列应用多种不同的统计方法

In [15]: df.groupby('A').agg({'B':[np.mean, 'sum'], 'C':['count',np.std]})Out[15]:           B         C                 mean sum count       stdA                              X  2.250000   9     4  3.403430Y  2.000000   6     3  1.000000Z  1.333333   4     3  2.081666

分组运算方法 apply()

In [16]: df = pd.DataFrame({'A': list('XYZXYZXYZX'), 'B': [1, 2, 1, 3, 1, 2, 3, 3, 1, 2],     ...:                            'C': [12, 14, 11, 12, 13, 14, 16, 12, 10, 19]})    ...: df    ...: Out[16]:    A  B   C0  X  1  121  Y  2  142  Z  1  113  X  3  124  Y  1  135  Z  2  146  X  3  167  Y  3  128  Z  1  109  X  2  19In [17]: df.groupby('A').apply(np.mean)     ...: # 跟下面的方法的运行结果是一致的    ...: # df.groupby('A').mean()Out[17]:           B          CA                     X  2.250000  14.750000Y  2.000000  13.000000Z  1.333333  11.666667

apply()方法可以应用lambda函数，举例如下:

In [18]: df.groupby('A').apply(lambda x: x['C']-x['B'])Out[18]: A   X  0    11   3     9   6    13   9    17Y  1    12   4    12   7     9Z  2    10   5    12   8     9dtype: int64In [19]: df.groupby('A').apply(lambda x: (x['C']-x['B']).mean())Out[19]: AX    12.500000Y    11.000000Z    10.333333dtype: float64

分组运算方法 transform()

前面进行聚合运算的时候，得到的结果是一个以分组名为 index 的结果对象。如果我们想使用原数组的 index 的话，就需要进行 merge 转换。transform(func, args, *kwargs) 方法简化了这个过程，它会把 func 参数应用到所有分组，然后把结果放置到原数组的 index 上（如果结果是一个标量，就进行广播）：

In [20]: df = pd.DataFrame({'group1' :  ['A', 'A', 'A', 'A',    ...:                                'B', 'B', 'B', 'B'],    ...:                    'group2' :  ['C', 'C', 'C', 'D',    ...:                                'E', 'E', 'F', 'F'],    ...:                    'B'      :  ['one', np.NaN, np.NaN, np.NaN,    ...:                                 np.NaN, 'two', np.NaN, np.NaN],    ...:                    'C'      :  [np.NaN, 1, np.NaN, np.NaN,    ...:                                np.NaN, np.NaN, np.NaN, 4]})               ...: df    ...: Out[20]:      B    C group1 group20  one  NaN      A      C1  NaN  1.0      A      C2  NaN  NaN      A      C3  NaN  NaN      A      D4  NaN  NaN      B      E5  two  NaN      B      E6  NaN  NaN      B      F7  NaN  4.0      B      FIn [21]: df.groupby(['group1', 'group2'])['B'].transform('count')Out[21]: 0    11    12    13    04    15    16    07    0Name: B, dtype: int64In [22]: df['count_B']=df.groupby(['group1', 'group2'])['B'].transform('count')    ...: df    ...: Out[22]:      B    C group1 group2  count_B0  one  NaN      A      C        11  NaN  1.0      A      C        12  NaN  NaN      A      C        13  NaN  NaN      A      D        04  NaN  NaN      B      E        15  two  NaN      B      E        16  NaN  NaN      B      F        07  NaN  4.0      B      F        0

上面运算的结果分析： {‘group1’:’A’, ‘group2’:’C’}的组合共出现3次，即index为0,1,2。对应”B”列的值分别是”one”,”NaN”,”NaN”，由于count()计数时不包括Nan值，因此{‘group1’:’A’, ‘group2’:’C’}的count计数值为1。
transform()方法会将该计数值在dataframe中所有涉及的rows都显示出来（我理解应该就进行广播）

将某列数据按数据值分成不同范围段进行分组（groupby）运算

In [23]: np.random.seed(0)    ...: df = pd.DataFrame({'Age': np.random.randint(20, 70, 100),     ...:                    'Sex': np.random.choice(['Male', 'Female'], 100),     ...:                    'number_of_foo': np.random.randint(1, 20, 100)})    ...: df.head()    ...: Out[23]:    Age     Sex  number_of_foo0   64  Female             141   67  Female             142   20  Female             123   23    Male             174   23  Female             15