学习python中的pandas有没有好的教程推荐？

乙甲壬 2020-07-12

展开全文

分分享一下之前结合SQL梳理过的Pandas使用教程。

相对于学习Pandas各种数据筛选操作，SQL语法显得更加简洁清晰，若能够将SQL语法与Pandas中对应的函数的使用方法关联起来，对于我们应用Pandas进行数据筛选来讲无疑是一个福音。

本文通过Pandas实现SQL语法中条件过滤、排序、关联、合并、更新、删除等简单及复杂操作，使得我们对方法的理解更加深刻，更加得心应手。

演示数据集

本文采用安德森鸢尾花卉(iris)数据集进行演示，iris数据集包含150个样本，对应数据集的每行数据。每行数据包含每个样本的四个特征和样本的类别信息，因此iris数据集是一个150行*5列的二维表。

我们可以 UCI Iris dataset 中获取或者使用 from sklearn.datasets import load_iris 方式获取，为了演示方便我们只取其中10行数据，如下：

接下来，就让我们一起学习一下，如何Pandas实现SQL语法中条件过滤、排序、关联、合并、更新、删除等数据查询操作。

字段查询 SELECT

如上SQL实现返回每行记录的 sl,sw,pl,pw 字段，仅返回2行记录。我们使用Pandas实现如上SQL的功能，代码如下：

简单的条件过滤查询 WHERE

如上SQL实现了查询满足classes=1的记录，并返回2行。我们使用Pandas实现该SQL，代码如下：

多条件的与或过滤查询 WHERE AND|OR

与关系 &

如上SQL实现查询同时满足classes=1 和 pl >=5 两个条件的记录，并返回2行。我们使用Pandas实现该SQL，代码如下：

或关系 |

如上SQL实现查询满足 sl >=5 或者 pl >=5 任一条件的记录，返回2行。我们使用Pandas实现该SQL，代码如下：

条件过滤空值判断

空判断 is null

如上SQL实现查询 sl 字段为NULL的记录，我们使用Pandas实现该SQL，代码如下：

非空判断 is not null

如上SQL实现查询sl字段不为 NULL 的记录。我们使用Pandas实现该SQL，代码如下：

排序 ORDER BY ASC|DESC

如上SQL实现将满足sl字段值大于等于5的记录，按照classes降序排序。我们使用Pandas实现该SQL，代码如下：

更新 UPDATE

如上SQL实现将同时满足pw = 1.7 和 pl >= 5的记录中的classes字段值更新为2。我们使用Pandas实现该SQL，代码如下：

分组统计 GROUP BY

如上SQL实现根据classes进行分组，返回classes 及每组数量。我们使用Pandas实现该SQL，代码如下：

分组统计聚合输出

如何SQL实现根据classes进行分组，返回classes值，每个分组的pl平均值以及每个分组的sl最大值。我们使用Pandas实现该SQL，代码如下：

删除

如上SQL实现将同时满足pw = 1.7 和 pl >= 5的记录删除。我们使用Pandas实现该SQL，代码如下：

UNION & JOIN 演示数据集

接下来介绍如何使用Pandas进行合并查询及多表关联查询，为了演示方便，我们上面示例中的iris数据集，拆分成iris_a，iris_b两部分，如下：

UNION 合并查询

合并结果 UNION ALL 可能存在重复记录

合并如下两个 SELECT 语句的结果集，需注意，UNION ALL 内部的 SELECT 语句必须拥有相同数量的列，列也必须拥有相似的数据类型。同时，每条 SELECT 语句中的列的顺序必须相同。

如上SQL实现将两个查询结果进行合并，允许存在重复记录。我们使用 pandas.concat 方法实现该SQL，代码如下：

合并结果 UNION 不存在重复记录

合并如下两个 SELECT 语句的结果集，同时也需注意，UNION 内部的 SELECT 语句必须拥有相同数量的列，列也必须拥有相似的数据类型。同时，每条 SELECT 语句中的列的顺序必须相同。

如上SQL实现将两个select查询结果进行合并，不允许存在重复记录。我们使用 pandas.concat.drop_duplicates 方法 实现该SQL，代码如下：

JOIN 连接查询

同样，我们依旧使用如上演示数据，如下：

内连接 INNER JOIN

获取iris_a，iris_b两个表中classes字段相同的记录，并返回满足条件的两张表中的所有记录。

如上SQL实现iris_a 与 iris_b 按照classes字段进行内连接。我们使用 pandas.merge(iris_a, iris_b, on='classes') 实现该SQL，代码如下：

左连接 LEFT OUTER JOIN

获取左表 iris_a 所有记录，判断每条数据的 classes 字段是否能匹配到右表iris_b的数据，无论能否匹配到，左表 iris_a 数据都会保留。若能匹配，则左右表都保留。若不能匹配，右表iris_b字段都置空NULL，并返回保留的记录。

如上SQL实现iris_a 与 iris_b 按照classes字段进行左连接。我们使用 pandas.merge(iris_a, iris_b, on='classes', how='left') 方法实现该SQL，代码如下：

右连接 RIGHT OUTER JOIN

获取右表 iris_b 所有记录，判断每条数据的 classes 字段是否能匹配到右表 iris_a 的数据，无论能否匹配到，右表 iris_b 数据都会保留。若能匹配，则左右表都保留。若不能匹配，左表iris_a字段都置空NULL，并返回保留的记录。

如上SQL实现iris_a 与 iris_b 按照classes字段进行右连接。我们使用 pandas.merge(iris_a, iris_b, on='classes', how='right')实现该SQL，代码如下：

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：乙甲壬 > 《python》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

乙甲壬

关注对话

TA的最新馆藏

武术（自创异刀刀法）
[转] 卦身和世身的应用
[转] 深刻解析：领导力丧失，权利丢失，被架空的原因！
[转] 领导面临被下属架空，该如何整治的四大权术
[转] “透干” 和 “通根” 详解
[转] 绝世孤本乾隆天书秘本

喜欢该文的人也喜欢更多

热门阅读换一换