分享

从Excel进阶到Python:掌握数据透视表

 leafcho 2019-01-07

常用Excel的朋友应该都离不开数据透视表了吧,哈哈。在进行探索数据分析的时候,数据透视表是非常好的一项工具,它能帮助我们从多个维度对数据进行探索,还能计算多种聚合值,比如均值、中位数等。

但是想要进阶成为更全面的数据分析师,学好一门适合数据分析的编程语言是必不可少的。Python和R都是不错的选择,不过Python的应用范围更广,所以在这里我更推荐Python。今天,我们就来看一下如何在Python中使用groupby和pivot_table来构建数据透视表。

生成示例数据

我们生成一些数据用于后边的讲解,假设有8个学生的考试成绩数据,8人分别来自四个班级,有男有女。

import pandas as pdclasses = ['A', 'B', 'A', 'B', 'C', 'D', 'D', 'C']gender = ['M', 'F', 'M', 'F', 'M', 'F', 'M', 'F']score = [100, 90, 80, 70, 60, 85, 77, 92]df = pd.DataFrame({ 'class': classes, 'gender': gender, 'score': score})df

从Excel进阶到Python:掌握数据透视表

一、groupby()结合aggretate()/agg()进行聚合统计

# 求每个班的人数df.groupby('class').count()# 求每个班成绩的均值df.groupby('class')['score'].mean()# 分别求男女生中的最高分df.groupby('gender')['score'].max()# 求每个班、男女生成绩的均值df.groupby(['class', 'gender'])['score'].mean()

从Excel进阶到Python:掌握数据透视表

从Excel进阶到Python:掌握数据透视表

如果pandas就这么点本事,就不值得我给你们介绍了。我们可以使用agg()函数或者aggregate()函数来选择对我们的GroupBy对象执行哪种或哪些聚合方法。

df.groupby(['class', 'gender'])['score'].agg(['count', 'mean', 'max', 'min'])

从Excel进阶到Python:掌握数据透视表

二、pivot_table与melt

我们知道,在Excel中,数据透视表不光能指定行维度,还能指定列维度。虽然使用groupby结合unstack()也可以实现,但是在pandas中,我们有更加专门的pivot_table()函数可以一步到位。

我们试着用班级作为行,用性别作为列,来求每个单元内的成绩均值。

df.pivot_table(index='class', columns='gender', values='score', fill_value=0, aggfunc='mean')

从Excel进阶到Python:掌握数据透视表

这里,我们用fill_value=0指定了缺失值填补为0,用aggfunc指定聚合函数,注意,这里我们还可以自定义聚合函数哦,比如求第二大的值、求标准差等等,这样就比Excel的数据透视表更加灵活了。

已经转换成数据透视表的数据还可以变换成堆叠起来的数据,比如上边的F/M两列我们仍然可以用一列gender来表示。

df2 = df.pivot_table(index='class', columns='gender', values='score', fill_value=0, aggfunc='mean').reset_index()pd.melt(df2, id_vars='class', value_vars=['F', 'M'], value_name='Monetary', var_name='gender')

从Excel进阶到Python:掌握数据透视表

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多