滤除缺失数据
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
Remove missing values.
pd.dropna()函数(官方文档)用于过滤数据中的缺失数据.
属性说明
-
默认参数axis=0,根据索引(index)删除指定的行
axis=1,根据列名(columns)删除指定的列
-
默认axis=0,how=‘any’,删除带有空值的行,只要有一个空值,就删除整行
-
axis=1,删除带有空值的列,只要有一个空值,就删除整列
-
how=‘all’, 整行都是空值时,才会被删除
-
thresh,设定阈值,缺失值个数大于该阈值,整行(axis=0)或整列(axis=1)才会被删除
-
subset=[1,2], 删除指定列(1,2)中包含缺失值的行
作者语:
某次实验过程用到了正则匹配替换、去停用词,DATa Frame中包含了空字符串(注意不是空值),作者首先用.dropna()函数过滤数据不成功,然后才发现使用.dropna()函数要保证数据中包含的是空值,故需要多一个过程(正则匹配替换空字符串),替换正则表达式如下所示:
DataFrame.replace(to_replace=r'^\s*$', value=np.nan, regex=True, inplace=True)
然后在使用.dropna()函数。
|