pandas 读写 Excel

闲读古书 2020-03-15

展开全文

pandas 读写 Excel，可以用于将重复的数据加工工作交给 pandas，节省手工劳动，使用起来也比较方便，但输出的格式并不太美观。本文介绍 read_excel() 和 to_excel() 的部分细节，同时探讨如何输出一个较为美观的 Excel 工作表。

pandas 读取 Excel 文件

语法

DataFrame.read_excel() 的语法：

pandas.read_excel(io, 
                  sheet_name=0, 
                  header=0, 
                  names=None, 
                  index_col=None, 
                  parse_cols=None, 
                  usecols=None, 
                  squeeze=False, 
                  dtype=None, 
                  engine=None, 
                  converters=None, 
                  true_values=None, 
                  false_values=None, 
                  skiprows=None, 
                  nrows=None, 
                  na_values=None, 
                  keep_default_na=True, 
                  verbose=False, 
                  parse_dates=False, 
                  date_parser=None, 
                  thousands=None, 
                  comment=None, 
                  skip_footer=0, 
                  skipfooter=0, 
                  convert_float=True, 
                  mangle_dupe_cols=True, 
                  **kwds)

参数和返回值的说明请参考 pandas 文档。

最简单的用法，只需要指定文件名参数，支持 xls 文和 xlsx 文件格式，函数的返回值为 DataFrame 类型的对象。比如读取 D 盘根目录下的 source.xlsx 文件：

import pandas as pd
df1 = pd.read_excel(r'D:/source.xlsx)

如果想读取 py 文件所在目录下的某个 Excel 文件，可以参考下面的代码：

import pandas as pd 
import os

# get path of current directory
curr_path = os.path.dirname(os.path.abspath(__file__))
fname = os.path.join(curr_path, 'users.xlsx')
df2 = pd.read_excel(fname)

指定要读取的工作表

对于有多个工作表的 Excel 文件，pandas 默认读取第一个工作表( sheet_name=0 ）。通过如下两种方法可以指定要读取的工作表：

# 方法一：通过 index 指定工作表
df3 = pd.read_excel(file_name, sheet_name=0)

# 方法二：指定工作表名称
df4 = pd.read_excel(file_name, sheet_name='Sheet1')

导入指定列

如果只想导入指定的列，通过 usecols 参数，比如想导入 A:D 和 H 这 4 列，有如下两种方法：

df6 = pd.read_excel(r'D:/source.xlsx', usecols='A:D,H')

# 或者
df6 = pd.read_excel(r'D:/source.xlsx', usecols=[0,1,2,3,7])

指定表头

默认情况下，pandas 假定第一行为表头 (header)，如果 Excel 不是从第一行开始，header 参数用于指定将哪一行作为表头，表头在 DataFrame 中变成列索引 (column index) ，header 参数从 0 开始，比如第二行作为 header，则：

df = pd.read_excel(file_name, header=1)

pandas 写入 Excel

语法

DataFrame.to_excel() 的语法：

DataFrame.to_excel(excel_writer, 
                   sheet_name='Sheet1', 
                   na_rep='', 
                   float_format=None, 
                   columns=None, 
                   header=True, 
                   index=True, 
                   index_label=None, 
                   startrow=0, startcol=0, 
                   engine=None, 
                   merge_cells=True, 
                   encoding=None, 
                   inf_rep='inf', 
                   verbose=True, 
                   freeze_panes=None)

参数和返回值的说明请参考 pandas 文档。

数据写入 Excel，需要首先安装一个 engine，由 engine 负责将数据写入 Excel，pandas 使用 openpyx 或 xlsxwriter 作为写入引擎。

要将单一对象写入 Excel，只需要指定 file name 即可：

import pandas as pd
import os

path = os.path.dirname(os.path.abspath(__file__))
source_file = os.path.join(path, 'source.xlsx')
output_file = os.path.join(path, 'output.xlsx')

df = pd.read_excel(source_file, sheet_name=0)
df.to_excel(output_file)

如果 output.xlsx 文件已经存在，to_excel()先删除 output.xlsx 文件，然后重新生成一个新的文件，并且默认添加一个索引列，索引为从 0 到 n 的整数。

不使用索引

导出 Excel，一般不需要索引，将 index 参数设为 False 即可:

df.to_excel(output_file, index=False)

多工作表导出

导出多个工作表需要明确给出 excel writer engine，然后调用 DataFrame.to_excel()方法：

import pandas as pd
import os

path = os.path.dirname(os.path.abspath(__file__))
source_file = os.path.join(path, 'source.xlsx')
output_file = os.path.join(path, 'output.xlsx')

df1 = pd.read_excel(source_file, sheet_name=0)
df2 = pd.read_excel(source_file, sheet_name=0, usecols='A:D,H')

with pd.ExcelWriter(output_file, engine='xlsxwriter') as writer:    
    df1.to_excel(writer, sheet_name='Sheet1', index=False)
    df2.to_excel(writer, sheet_name='Sheet2', index=False)

工作表美化

pandas 导出的工作表并不美观，如果想对工作表进行美化的话，可在 to_excel()方法之后，通过Excel writer engine 的格式设置的功能来设置格式。根据测试， to_excel() 因为先删除文件，所以也不能使用 Template 来保存预定义格式。所以如果需要导出有格式的 Excel 文件，比如作为报表输出，可考虑 Template + Excel writer engine 手工代码的方式。

Creating Advanced Excel Workbooks with Python 这篇文章讲到了一个方法，使用 xlsxwriter 的 add_table() 方法，在 Excel 中创建一个 Table 对象(中文经常被称为智能表格)，然后选择一个预定义的格式。我对代码进行了加工，使之更具普适性：

import pandas as pd
import os

def get_col_widths(dataframe):    
    return [max([len(str(s))  for s in dataframe[col].values] 
            + [len(col)]) for col in dataframe.columns]

def fmt_excel(writer, sheetname, dataframe):
    # Get the workbook and the summary sheet so we can add the formatting
    workbook = writer.book
    worksheet = writer.sheets[sheetname]
    col_count = dataframe.shape[1]
    row_count = dataframe.shape[0]

    col_names = []
    for i in range(0, col_count):
        col_names.append({'header': dataframe.columns[i]})

    # rng = 'A1:H{}'.format(row_count + 1)
    worksheet.add_table(0, 0, row_count,col_count-1, {
        'columns': col_names,
        'style': 'Table Style Medium 20'
    })

    # auto column size
    col_widths = get_col_widths(dataframe)
    for i, width in enumerate(col_widths):
        worksheet.set_column(i, i, width)

path = os.path.dirname(os.path.abspath(__file__))
source_file = os.path.join(path, 'source.xlsx')
output_file = os.path.join(path, 'output.xlsx')

df = pd.read_excel(source_file, sheet_name=0)

writer = pd.ExcelWriter(output_file, engine='xlsxwriter')
df.to_excel(writer, 'Sheet1', index=False)

fmt_excel(writer, 'Sheet1', df)
writer.save()