Py之ydata-profilin:ydata-profiling的简介、安装、使用方法之详细攻略 ydata-profiling的简介ydata-profiling 的主要目标是在一致且快速的解决方案中提供一行探索性数据分析(EDA)体验。与 pandas 的 df.describe() 函数一样方便,ydata-profiling 提供了对 DataFrame 的扩展分析,同时允许将数据分析导出为不同格式,如 html 和 json。该软件包输出了数据集的简单和简洁的分析,包括时间序列和文本。 寻找一个可扩展的解决方案,可以完全与您的数据库系统集成吗?利用 YData Fabric 数据目录连接到不同的数据库和存储(Oracle、snowflake、PostGreSQL、GCS、S3 等),在 Fabric 中利用交互式和引导式分析体验。查看社区版本。 1、主要特点>> 类型推断:自动检测列的数据类型(分类、数值、日期等) >> 警告:列出数据中可能需要处理的问题/挑战的摘要(缺失数据、不准确性、偏斜度等) >> 单变量分析:包括描述性统计(均值、中位数、众数等)和信息丰富的可视化,如分布直方图 >> 多变量分析:包括相关性、详细分析缺失数据、重复行,并支持变量成对交互的可视化 >> 时间序列:包括相对于时间相关的不同统计信息,如自相关性和季节性,以及 ACF 和 PACF 图。 >> 文本分析:最常见的类别(大写、小写、分隔符)、脚本(拉丁文、西里尔文)和块(ASCII、西里尔文) >> 文件和图像分析:文件大小、创建日期、维度、截断图像的指示和 EXIF 元数据的存在 >> 比较数据集:一行解决方案,快速完整地比较数据集的报告 >> 灵活的输出格式:所有分析都可以导出为 HTML 报告,可以轻松与不同方进行共享,以 JSON 格式导出以便于在自动化系统中集成,以 Jupyter Notebook 中的小部件形式导出。 报告包含三个额外的部分: >> 概览:关于数据集的全局细节(记录数、变量数、整体缺失率和重复率、内存占用) >> 警告:潜在数据质量问题的综合和自动列表(高相关性、偏斜度、均匀性、零、缺失值、常量值等) >> 重现:有关分析的技术细节(时间、版本和配置) 2、案例应用(1)、比较数据集、对时序数据集进行分析、对大型数据集进行分析、处理敏感数据、数据集元数据和数据字典、自定义报告的外观、不同类型的存储中消耗数据比较数据集 比较同一数据集的多个版本 对时序数据集进行分析 用一行代码为时序数据集生成报告 对大型数据集进行分析 关于如何准备数据和配置 ydata-profiling 以处理大型数据集的提示 处理敏感数据 生成对输入数据集中敏感数据谨慎考虑的报告 数据集元数据和数据字典 用数据集详细信息和列特定的数据字典补充报告 自定义报告的外观 更改报告页面和包含的可视化的外观 对数据库进行分析 对组织的数据库进行无缝分析体验,请查看 Fabric 数据目录,它允许从不同类型的存储中消耗数据,如 RDBMs(Azure SQL、PostGreSQL、Oracle 等)和对象存储(Google Cloud Storage、AWS S3、Snowflake 等),等等。 在 Jupyter Notebooks 中使用 有两种接口可以在 Jupyter 笔记本中使用报告:通过小部件和通过嵌入式 HTML 报告。
(2)、该软件包在各种数据集和数据类型中的潜力
3、pandas-profiling命令已改为ydata-profilingpandas-profiling 软件包的命名已更改。要继续对数据进行分析,请使用 ydata-profiling!该存储库实现了在 PyPI 上停用 pandas-profiling 软件包的减负策略。 随着pandas-profiling 的发展,有一个新的令人兴奋的功能 - 从版本 4.0.0 开始,我们很高兴地宣布,Spark 现在已经成为数据分析家族的一部分。随着其引入,还有一个新的命名需求,一个能够使分析的概念与 Pandas 数据框分离的命名 - ydata-profiling! 但不用担心,pip install pandas-profiling 仍然有效一段时间,我们将继续投入资源,使其成为最好的开源数据分析工具,以便您可以将其用于更多的用例。 (1)、如何修复主要用例的错误使用 pip install ydata-profiling 而不是 pip install pandas-profiling 在您的 pip 要求文件中(如 requirements.txt、setup.py、setup.cfg、Pipfile 等...)用 ydata-profiling 替换 pandas-profiling 如果 pandas-profiling 软件包被您的一个依赖项使用,请花点时间跟踪哪个软件包使用 pandas_profiling 而不是 ydata_profiling 进行导入 弃用时间表 ydata-profiling 在 2 月 1 日发布。 pip install pandas-profiling 仍将在 4 月 1 日之前受支持,但会发出警告。from pandas_profiling import ProfileReport 将在 4 月 1 日之前受支持。 4 月 1 日之后,如果使用 pip install pandas-profiling,将会发出错误。请改为使用 pip install ydata-profiling。 4 月 1 日之后,如果使用 from pandas_profiling import ProfileReport,则会发出错误。请改为使用 from ydata_profiling import ProfileReport。 (2)、关于 pandas-profilingpandas-profiling 的主要目标是提供一种一行代码的探索性数据分析(EDA)体验,以一致和快速的解决方案。就像 pandas 的 df.describe() 函数一样方便,pandas-profiling 提供了对 DataFrame 的扩展分析,同时允许将数据分析导出为不同格式,如 html 和 json。 该软件包输出了数据集的简单和简洁的分析,包括时间序列和文本。 ydata-profiling的安装
ydata-profiling的使用方法1、基础用法(1)、生成标准的分析报告
(2)、在Jupyter Notebooks中
(3)、在命令行中使用对于标准格式的 CSV 文件(可以直接由 pandas 读取而无需其他设置),可以在命令行中使用 ydata_profiling 可执行文件。下面的示例生成名为 Example Profiling Report 的报告,使用名为 default.yaml 的配置文件,在 report.html 文件中处理 data.csv 数据集。
|
|