导读数据导入是数据处理、分析的第一步,Pandas提供非常多的方法,对不同格式、不同来源的数据进行导入和导出操作。 Pandas对以下数据源导入/导出方法列表:Pandas还有很多数据导入/导出方法,不是特别常用,就没有列举
比较常用的: - 对CSV文件的读写:read_csv\to_csv
- 对excel文件的读写:read_excel\to_excel
Pandas数据导入方法参数比较多,容错性,识别能力较好: - 支持类型推断和数据转换
- 支持用户自定义的值转换,自定义的缺失值
- 支持时间日期识别,自动解析
- 支持对大型文件的分块迭代
- 清理数据功能:跳过行、页脚、注释以及其他次要数据
- 识别数字千位符号
使用read_csv/to_csv方法,对csv格式数据文件进行导入/导出操作read_csv方法一些参数说明: - path 文件路径
- sep/delimiter 指定分隔符
- header 指定哪行作为列名,默认为0,如果文件中没有列名,可设置为None
- index_col 指定那列作为行索引的列编号或者列名
- names 指定列名列表
- skiprows 忽略跳过的行数、行号列表
- na_values 替代缺失值的列表
- comment 在行结尾处分隔注释的字符
- parse_dates 尝试将数据解析为datetime,默认是False,如果是True,将尝试解析所有列,也可以指定列号列名列表进行解析
- converters 列名称跟函数映射的字典
- dayfirst 解析费明确日期时,按照国际格式处理,默认是False
- date_parser 指定用于解析日期的函数
- nrows 从文件开头处读入的行数
- skip_footer 忽略文件尾部的行数
- encoding 指定文件编码
- thousands 指定千分位分隔符
参数说明: - 指定输出文件名
- sep:用’,’分隔
- header:是否带头部信息
- index:是否带行号
使用read_excel/to_excel方法,对Excel文件进行导入/导出操作最后
|