作者:俊欣 来源:关于数据分析与可视化 今天小编打算来讲一讲数据分析方面的内容,整理和总结一下Pandas在数据预处理和数据分析方面的硬核干货,我们大致会说
Pandas当中的交叉列表首先我们来讲一下Pandas模块当中的crosstab()函数,它的作用主要是进行分组之后的信息统计,里面会用到聚合函数,默认的是统计行列组合出现的次数,参数如下 pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False) 下面小编来解释一下里面几个常用的函数
我们通过几个例子来进一步理解corss_tab()函数的作用,我们先导入要用到的模块并且读取数据集
output 我们先简单来看几个corsstab()函数的例子,代码如下 pd.crosstab(df['城市'], df['顾客类型']) output
这里我们将省份指定为行索引,将会员类型指定为列,其中顾客类型有“会员”、“普通”两种,举例来说,四川省的会员顾客有26名,普通顾客有35名。 当然我们这里只是指定了一个列,也可以指定多个,代码如下 pd.crosstab(df['省份'], [df['顾客类型'], df['性别']]) output
这里我们将顾客类型进行了细分,有女性会员、男性会员等等,那么同理,对于行索引我们也可以指定多个,这里也就不过多进行演示。 有时候我们想要改变行索引的名称或者是列方向的名称,我们则可以这么做 pd.crosstab(df['省份'], df['顾客类型'], colnames = ['顾客的类型'], rownames = ['各省份名称']) output
要是我们想在行方向以及列方向上加一个汇总的列,就需要用到crosstab()方法当中的margin参数,如下 pd.crosstab(df['省份'], df['顾客类型'], margins = True) output
你也可以给汇总的那一列重命名,用到的是margins_name参数,如下 pd.crosstab(df['省份'], df['顾客类型'], margins = True, margins_name='汇总') output
而如果我们需要的数值是百分比的形式,那么就需要用到normalize参数,如下 pd.crosstab(df['省份'], df['顾客类型'], normalize=True) output
要是我们更加倾向于是百分比,并且保留两位小数,则可以这么来做 pd.crosstab(df['省份'], df['顾客类型'], normalize=True).style.format('{:.2%}') output
下面我们指定聚合函数,并且作用在我们指定的列上面,用到的参数是aggfunc参数以及values参数,代码如下 pd.crosstab(df['省份'], df['顾客类型'], values = df['总收入'], aggfunc = 'mean') output
如上所示,我们所要计算的是地处“上海”并且是“会员”顾客的总收入的平均值,除了平均值之外,还有其他的聚合函数,如np.sum加总或者是np.median求取平均值。 我们还可以指定保留若干位的小数,使用round()函数 df_1 = pd.crosstab(df['省份'], df['顾客类型'], values=df['总收入'], aggfunc='mean').round(2) output
时间类型数据的转化对于很多数据分析师而言,在进行数据预处理的时候,需要将不同类型的数据转换成时间格式的数据,我们来看一下具体是怎么来进行 首先是将整形的时间戳数据转换成时间类型,看下面的例子 df = pd.DataFrame({'date': [1470195805, 1480195805, 1490195805], 'value': [2, 3, 4]})pd.to_datetime(df['date'], unit='s') output
上面的例子是精确到秒,我们也可以精确到天,代码如下 df = pd.DataFrame({'date': [1470, 1480, 1490], 'value': [2, 3, 4]})pd.to_datetime(df['date'], unit='D') output
下面则是将字符串转换成时间类型的数据,调用的也是pd.to_datetime()方法 pd.to_datetime('2022/01/20', format='%Y/%m/%d') output
亦或是 pd.to_datetime('2022/01/12 11:20:10', format='%Y/%m/%d %H:%M:%S') output
这里着重介绍一下Python当中的时间日期格式化符号
当然我们进行数据类型转换遇到错误的时候,pd.to_datetime()方法当中的errors参数就可以派上用场, df = pd.DataFrame({'date': ['3/10/2000', 'a/11/2000', '3/12/2000'], 'value': [2, 3, 4]})# 会报解析错误df['date'] = pd.to_datetime(df['date']) output 我们来看一下errors参数的作用,代码如下
output date value0 3/10/2000 21 a/11/2000 32 3/12/2000 4 或者将不准确的值转换成NaT,代码如下
output date value0 2000-03-10 21 NaT 32 2000-03-12 4 数值类型的转换接下来我们来看一下其他数据类型往数值类型转换所需要经过的步骤,首先我们先创建一个DataFrame数据集,如下
output 我们先来查看一下每一列的数据类型 df.dtypes output
可以看到有各种类型的数据,包括了布尔值、字符串等等,或者我们可以调用df.info()方法来调用,如下 df.info() output
我们先来看一下从字符串到整型数据的转换,代码如下 df['string_col'] = df['string_col'].astype('int')df.dtypes output
看到数据是被转换成了int32类型,当然我们指定例如astype('int16')、astype('int8')或者是astype('int64'),当我们碰到量级很大的数据集时,会特别的有帮助。 那么类似的,我们想要转换成浮点类型的数据,就可以这么来做 df['string_col'] = df['string_col'].astype('float')df.dtypes output
同理我们也可以指定转换成astype('float16')、astype('float32')或者是astype('float128') 而如果数据类型的混合的,既有整型又有字符串的,正常来操作就会报错,如下 df['mix_col'] = df['mix_col'].astype('int') output 当中有一个字符串的数据'a',这个时候我们可以调用pd.to_numeric()方法以及里面的errors参数,代码如下
output 我们来看一下各列的数据类型 df.dtypes output
'mix_col'这一列的数据类型被转换成了float64类型,要是我们想指定转换成我们想要的类型,例如 df['mix_col'] = pd.to_numeric(df['mix_col'], errors='coerce').astype('Int64')df['mix_col'].dtypes output
而对于'money_col'这一列,在字符串面前有一个货币符号,并且还有一系列的标签符号,我们先调用replace()方法将这些符号给替换掉,然后再进行数据类型的转换 df['money_replace'] = df['money_col'].str.replace('£', '').str.replace(',','')df['money_replace'] = pd.to_numeric(df['money_replace'])df['money_replace'] output
要是你熟悉正则表达式的话,也可以通过正则表达式的方式来操作,通过调用regex=True的参数,代码如下 df['money_regex'] = df['money_col'].str.replace('[\£\,]', '', regex=True)df['money_regex'] = pd.to_numeric(df['money_regex'])df['money_regex'] 另外我们也可以通过astype()方法,对多个列一步到位进行数据类型的转换,代码如下
或者在第一步数据读取的时候就率先确定好数据类型,代码如下 df = pd.read_csv( 'dataset.csv', dtype={ 'string_col': 'float16', 'int_col': 'float16' }) |
|