Pandas 学习笔记

北方的白桦林 2018-12-09

展开全文

Pandas 的基本概念就是 DataFrame，所有属性和操作都是围绕它而来。

Padans 中的每一列叫做 Series，每一个 Series 中的数据类型要保持一致，但是 DataFrame 中的 Series 的类型可以不一样。

一般 Python 三剑客的导入的方法如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

创建 Series 和索引

序列 = 数据 + 索引 + 序列名 + 数据类型

>>> s_age = pd.Series(data=[1, 2, 3, 4], index=["a", "b", "c", "d"], name="mySeries", dtype=np.int32)
>>> s_age
a    1
b    2
c    3
d    4
Name: mySeries, dtype: int32
>>> s_age.reindex(['a','b','e']) # 重排
a    1.0
b    2.0
e    NaN
Name: mySeries, dtype: float64
>>> s_age[0]
1
>>> s_age[1:2]
b    2
Name: mySeries, dtype: int32
>>> s_age[1:2]=22
>>> s_age
a     1
b    22
c     3
d     4
Name: mySeries, dtype: int32
>>> s_age["a"]
1

创建 DataFrame

用 Series 创建

>>> s1 = pd.Series(data=["M", "F", "M", "F"], index=["a", "b", "c", "d"], name="sex")
>>> s2 = pd.Series(data=[21, 22, 23, 24], index=["a", "b", "c", "d"], name="age")
>>> df = pd.DataFrame({'sex': s1.astype("category"), 'age': s2})
>>> df
   age sex
a   21   M
b   22   F
c   23   M
d   24   F

从文件中读取

包括但不限于 csv，数据库。

iris=pd.read_csv('https://raw.github.com/pydata/pandas/master/pandas/tests/data/iris.csv', sep=',')

查看属性

>>> df.index # 行名
Index(['a', 'b', 'c', 'd'], dtype='object')
>>> df.columns # 列名
Index(['age', 'sex'], dtype='object')
>>> df.dtypes # 列属性，也就是 Series 类型
age       int64
sex    category
dtype: object

head 和 tail 就和 Linux 下面的 haed 和 tail 命令类似。

>>> df.head()
   age sex
a   21   M
b   22   F
c   23   M
d   24   F
>>> df.tail()
   age sex
a   21   M
b   22   F
c   23   M
d   24   F
>>> df.describe()
             age
count   4.000000
mean   22.500000
std     1.290994
min    21.000000
25%    21.750000
50%    22.500000
75%    23.250000
max    24.000000

聚合

就和 sql 中的 groupby 类似。

>>> df.groupby([df["sex"]]).agg({"age": ["sum", "mean"]})
    age
    sum mean
sex
F    46   23
M    44   22

排序

可以指定排序的依据，是否倒序等等。

>>> df.sort_index(ascending=False)
   age sex
d   24   F
c   23   M
b   22   F
a   21   M
>>> df.sort_values(by="age", ascending=False)
   age sex
d   24   F
c   23   M
b   22   F
a   21   M

透视

>>> df
   age sex  sorce
a   21   M     11
b   22   F     12
c   23   M     13
d   24   F     14
>>> df.pivot_table(index=['age'], columns=['sex'], values=['sorce'], aggfunc=[len, np.mean,np.sum],margins=True, fill_value=0)
      len         mean           sum
    sorce        sorce         sorce
sex     F  M All     F   M All     F   M All
age
21      0  1   1     0  11  11     0  11  11
22      1  0   1    12   0  12    12   0  12
23      0  1   1     0  13  13     0  13  13
24      1  0   1    14   0  14    14   0  14
All     2  2   4    13  12  12    26  24  50

索引

也就是定位元素。

>>> df[1:3] # 切片
   age sex  sorce
b   22   F     12
c   23   M     13
>>> df[df.sorce>12] # bool 索引
   age sex  sorce
c   23   M     13
d   24   F     14
>>> df.query('sorce>12') # sql 索引
   age sex  sorce
c   23   M     13
d   24   F     14
>>> df = pd.DataFrame(np.arange(10).reshape(-1, 2), columns=['A', 'B'])
>>> df.where(df.A>2, 10) # 不满足条件的填充
    A   B
0  10  10
1  10  10
2   4   5
3   6   7
4   8   9
>>> df
   A  B
a  0  1
b  2  3
c  4  5
d  6  7
e  8  9
>>> df.A # 选择列
a    0
b    2
c    4
d    6
e    8
Name: A, dtype: int64
>>> df[['A', 'B']] # 选择多列
   A  B
a  0  1
b  2  3
c  4  5
d  6  7
e  8  9
>>> df.loc[['a','b'], ['A','B']] # 选择行与列
   A  B
a  0  1
b  2  3
>>> df.iloc[1:3, 0:2] # 根据行列下标来选择
   A  B
b  2  3
c  4  5

合并数据

# axis 设置纬度，join 指定合并方式，参考 sql 的连接
pd.concat([df1,df2],axis=0,join='outer')
# merge 就和 sql 的 join 类似
pd.merge(df1,df2,on=['age'],how='left')

更多参数和直观的体现可以参考 Merge, join, and concatenate。

采样

df1.sample(n=100, weights='age',axis=0, replace=True)

sklearn 也有对 DataFrame 进行 shuffle 的函数。

https://www./po...

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：北方的白桦林 > 《python》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

北方的白桦林

关注对话

TA的最新馆藏

辩护词精选（一）｜辩护词是怎样炼成的
如何认定诈骗罪的非法占有目的
《人民司法·案例》：案发前已退还的金额应否从诈骗金额中扣除？
企业刑事合规手册概要（含99例涉企罪名）
“借钱不还”可能构成诈骗罪！——“借款型”诈骗罪的实务认定
涉案金额超6亿！警方提醒：警惕这类主播→

喜欢该文的人也喜欢更多

热门阅读换一换