分享

太赞了!这4款Pandas自动数据分析神器

 喜欢站在山上 2022-03-06

我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。

了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDA (Exploratory Data Analysis,探索性数据分析)。

如果你现在做 EDA 还在用 pandas 一行行写代码,那么福音来了!

目前已经有很多 EDA 工具可以自动产出基础的统计数据和图表,能为我们节省大量时间。

本文会对比介绍 4 款常用的 EDA 工具,最后一款绝了,完全是抛弃代码的节奏。

正式介绍这些工具之前,先来加载数据集

import numpy as npimport pandas as pdiris = pd.read_csv('iris.csv')iris
文章图片1

iris 是下面用到的数据集,是一个 150行 * 4列 的 DataFrame。

1. PandasGUI

PandasGUI 提供数据预览、筛选、统计、多种图表展示以及数据转换。

# 安装# pip install pandasguifrom pandasgui import showshow(iris)
文章图片2

PandasGUI操作界面

PandasGUI 更侧重数据展示,提供了10多种图表,通过可视的方式配置。

但数据统计做的比较简单,没有提供缺失值、相关系数等指标,数据转换部分也只开放了一小部分接口。

2. Pandas Profiling

Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

# 安装:# pip install -U pandas-profiling# jupyter nbextension enable --py widgetsnbextensionfrom pandas_profiling import ProfileReportprofile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)profile
文章图片3

Pandas Profiling操作界面

每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

PandasGUI 相反, Pandas Profiling 没有丰富的图表,但提供了非常多的统计指标以及相关系数。

3. Sweetviz

SweetvizPandas Profiling 类似,提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

# 安装# pip install sweetvizimport sweetviz as svsv_report = sv.analyze(iris)sv_report.show_html()
文章图片4

Sweetviz操作界面

Sweetviz 还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。

文章图片5

Sweetviz数据集对比

蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。

4. dtale

最后重磅介绍 dtale ,它不仅提供丰富图表展示数据,还提供了很多交互式的接口,对数据进行操作、转换。

文章图片6

dtale操作界面

dtale 的功能主要分为三部分: 数据操作数据可视化高亮显示

4.1 数据操作(Actions)

dtalepandas 的函数包装成可视化接口,可以让我们通过图形界面方式来操作数据。

# pip install dtaleimport dtaled = dtale.show(iris)d.open_browser()
文章图片7

Actions

右半部分图是左边图的中文翻译,用的是 Chrome 自动翻译,有些不是很准确。

举一个 数据操作 的例子。

文章图片8

Summarize Data

上图是 Actions 菜单中 Summarize Data 的功能,它提供了对数据集汇总操作的接口。

上图我们选择按照 species 列分组,计算 sepal_width 列的平均值,同时可以看到左下角 dtale 已经自动为该操作生成了 pandas 代码。

4.2 数据可视化(Visualize)

提供比较丰富的图表,对每列数据概况、重复行、缺失值、相关系数进行统计和展示。

文章图片9

Visualize

举一个 数据可视化 的例子。

文章图片10

Describe

上图是 Visualize 菜单中 Describe 的功能,它可以统计每列的最值、均值、标准差等指标,并提供图表展示。

右侧的 Code Export 可以查看生成这些数据的代码。

4.3 高亮显示(Highlight)

对缺失值、异常值做高亮显示,方便我们快速定位到异常的数据。

文章图片11

Highlight

文章图片12

上图显示了将 sepal_width 字段的异常值。

dtale 非常强大,功能也非常多,大家可以多多探索、挖掘。

最后,简单总结一下。如果探索的数据集侧重数据展示,可以选 PandasGUI ;如果只是简单了解基本统计指标,可以选择 Pandas ProfilingSweetviz ;如果需要做深度的数据探索,那就选择 dtale

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多