【Python数据分析】第二篇

highoo 2019-03-20

展开全文

分组计算:

　　Group By : split – apply – combine

　　　　split: 很具某些条件对数据进行分组

　　　　apply:对每一个group独立的应用函数

　　　　combine：将结果数据组合到某种数据结构中

pokemon = pd.read_csv('Pokemon.csv') #读文件

pokemon['Type 1'].value_counts()

# 分组 groupby

grouped1 = pokemon.groupby('Type 1')

计算:

1.求平均 .mean()

1	`grouped1.mean()`

2.单个求平均

1	`grouped1['HP'].mean()`

3.求和

1	`grouped1.sum()`

4.求中位数

1	`grouped1.median()`

分组:方法二:多个

1	`grouped2` `=` `pokemon.groupby(['Type 1',` `'Type 2'])`

计算中,应用多个函数

1	`grouped2.aggregate(np.mean)`

1	`grouped2.aggregate([np.mean,np.median])`

针对不同的列:

1	`grouped2.aggregate([np.mean,np.median,np.sum])['HP']`

不同的列:用不同函数

grouped2.agg({'HP':np.mean,'Attack':np.median})

grouped2.agg({'HP':np.mean,'Attack':[np.median,np.sum]})

查看大小:

1	`grouped2.size()`

查看具体分组:

1	`grouped2.groups`

获得某一组:

1	`grouped2.get_group(('Normal',` `'Ground'))` `#填写元组`

计算每个组大小:

for name,group in grouped2:

print(name)

print(group.shape)

对数据进行标准化:(防止数值过大)

　　数值型: 该列,每一个减去平均数除以该列标准差

zscore = lambda s : ( s - s.mean() ) / s.std()

grouped1.transform(zscore)

过滤:

　　某些组别样本数过大!,需要剔除

# 假设要求每个组别样本小于10

cond1 = lambda s : len(s)<10

grouped2.filter(cond1).shape

前情:设置索引:

1	`pok1` `=` `pokemon.set_index(['Type 1',` `'Type 2'])`

按索引进行分组:

pok1.groupby(level=[0])

pok1.groupby(level=[0,1])

pok1.groupby(level=['Type 1', 'Type 2'])

多表操作:

View Code

数据表操作:组合

1	`pd.concat([df1,df2])`

1	`pd.concat([df1,df2],axis=1)` `# axis =1 设置轴根据索引组合 =0按列名`

类似方法

1	`df1.append(df2)` `# append只能填一个参数!`

主角,主键讲解:

View Code

# how 组合方式默认inner outer = 相等连接

# on = 左右两边用什么key连接

# 根据key1 设置join组合

pd.merge(left,right,on='key1',how='inner')

1	`pd.merge(left,right,on=['key1','key2'])`

1	`pd.merge(left,right,on=['key1','key2'],how='left')`

重命名:

1	`right1` `=` `right.rename(columns={'key1':'new_key1','key2':'new_key2'})`

主键名字不一样的组合:

1	`pd.merge(left,right1,left_on=['key1','key2'],right_on=['new_key1','new_key2'],how='left')`

索引位与列的组合:

前提设置

# left_index,right_index默认False, 改为True 表示左边数据集使用索引位

pd.merge(left_Index,right1,left_index=True,right_on=['new_key1','new_key2'],how='left')

csv文件中,没有列名.需要自己定义!

1	`user_info` `=` `pd.read_csv('user_info_train.txt',header` `=` `None` `, names` `=` `['id','sex','job','education','marriage','hukou'])` `# 注意names`

查看唯一值:

id = user_info['id']

id.unique()

len(id.unique())

行变列显示:

a = grouped3['amountOfTrans'].sum()

a.unstack()

# stack() 与unstack() 逆操作!!

# a.stack() a.unstack()

rename:

1	`a.rename(columns` `=` `{a.columns[0]:'shouru',a.columns[1]:'zhichu'},inplace=True)`

直接运算:

1	`a['diff']` `=` `a['shouru']` `-` `a['zhichu']`

透视表:

pd.pivot_table(data = pokemon , index= 'Type 1', columns= 'Type 2' , values=['HP' ,'Total'],aggfunc=[np.sum])

pd.pivot_table(data = pokemon , index= 'Type 1', columns= 'Type 2' , values=['HP' ,'Total'],aggfunc=[np.sum,np.mean])

交互表:

计算频率:

pd.crosstab(index = pokemon['Type 1'],columns= pokemon['Type 2'] )

pd.crosstab(index = pokemon['Type 1'],columns= pokemon['Type 2'] ,margins=True) # margins 显示总频率

dummy variables

没有意义的类别,不需要比较的数据

#在Type1的类别中,有且唯有一个 1

pd.get_dummies(data=pokemon,columns=['Type 1'])

pd.get_dummies(data=pokemon,columns=['Type 1','Type 2'])

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： highoo > 《数据分析》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

highoo

关注对话

TA的最新馆藏

千位名医总结：最简单的养生法，竟是从1数到10
巧用DeepSeek做好股市里的波段交易
[转] 神农本草经自学整理简洁版全集图片及word格式
[转] 《神农本草经》全集在线阅读
[转] 陶弘景《本草经集注》征引《淮南万毕术》考
[转] 神农本草经2，每天来背诵

喜欢该文的人也喜欢更多

热门阅读换一换