【数据的筛选】 1.转至 表名称.T,可将表格快速的转至 2.排序 【values】函数 方法1:排序的依据by='排序依据' 方法2:通过数组也可以进行排序 df.avg.sort_values() 二者区别是,如果用数组调,返回的是数组,在数据框里面调直接返回的是数据框。 ascending=False改变排序升序为降序 对字段进行排序:直接把条件加入 列出的表不是根据实际的中文顺序进行的,介意的话需建另一张表格进行调整。 【index】按照索引的排序 【rank】函数 默认顺序为升序排列,添加ascending参数改为降序 method参数默认为加权平均,改为“min”直接用排序第一个,符合现实使用的习惯。改为“first”则排序不考虑并列情况直接按照顺序来进行。 3.查找重复 直接可查出有多少个唯一值 加个count可直接查找出合计数量 4.描述性统计 5.累计累加 6.分段统计 使用更加适合分段统计的cut函数 =pd.cut(df.avg.bins=5) 系统自动分割成5部分 也可以自定义区间,然后命名 ![]() 常用于用户分级、消费水平分割等使用场景 7.分位法进行分割统计 分位法函数:.qcut() ![]() x具体的内容例如df.avg q排名几等分 retbins是否包含开区间闭区间 precision分割出来的精度 duplicates是否要进行些去重操作 【数据的聚合】聚合函数:mysql不支持分组排名,则可用此函数groupby ![]() 通过for循环可把分组内容打印出来进行查看 ![]() 【多表关联】 三种关联方法 1.merge根据键值,对的是某一列 ![]() 同名去重不同名保留 附加: 修改表的字段名称可用rename()函数 也可把行名提取出来,然后从0开始查其位置进行更改,再赋值的方法(一般用于只改一个,比较简单) col=list(df.columns) col[0]='all' df.columns=col2.join针对索引进行 ![]() 针对的是固定的索引例如日期 3.concat堆叠,对应的是对象 两张表格上下放一起,“暴力组合” 之间是上下拼接,增加函数 .axis=1 进行左右拼接,对不上的默认为空值。 应用场景:例如1~12月份相同字段的销售统计的拼接汇总等。 【多重索引】方法1:可用切片 ![]() 方法2:数据框类型的 ![]() 不借助groupby进行设置多重索引的方法:set_index ![]() 把列变成索引进行排序,输出可达到整理在一起的效果 ![]() 反过来把索引变成列,增加函数reset_index()即可 ![]() 这时后面可直接[]去引用。 【pandas里面预处理函数---文本函数】需求:想把表格内某一列带方括号的字段去掉方括号。 思路1:直接进行左右两边切掉(不成功,因为操作是针对数组进行的,是针对索引的切片) ![]() 思路2:调用 .str()(可行) 例如:.str.count统计字符串出现的次数 .str.find(“数据”)从哪个位置开始统计 .str都是针对值里面的字符串进行的操作 ![]() 需求:继续把单引号排除 思路1:用空值替换单引号(不可行) ![]() 因为replace针对的是表格内具体的某一值进行替换,所以,上面对表格内字段进行替换并没有成功。 思路2:增加.str (可行) ![]() 【空值&去重】 1.空值 对表赋予空值,及对空值进行再赋值 ![]() ![]() 2.删除重复元素 ![]() 去重方法1: ![]() 去重方法2:相对更简单 ![]() 未完待续~~~~~~ ![]() ![]() 本文由订车宝 创作,采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。 转载、引用前需联系作者,并署名作者且注明文章出处。 内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。 |
|
来自: flyk0tcfb46p9f > 《AI》