用python提取PDF表格内容保存到excel

老三的休闲书屋 2021-04-10

展开全文

一提取pdf方法介绍

任务是用python提取PDF里的表格文件到excel里面去。做为一个学了一个周python的人来说当然像尝试一下看能不能做到，事实证明是可以的只是可能代码有点烂。。。。。。
样本大概是这样的
提取pdf表格样本
首先网上查一下用python处理pdf文件的方法，感觉处理pdf文件的有好多种方法，各自有各自的特点，印象最深的是转成html文件的pdf2htmlEX，和提取文本的pdfminer，还有最后用的Tabula。分别介绍一下记录。

pdf2htmlEX
做这个的时候不怎么了解html，而且也有人曾经尝试过似乎挺麻烦的，所以就没有去尝试。
pdfminer
pdfminer功能非常的强大，可以转好多东西，用得到直接阅读官方文档，由于解析PDF是一件非常耗时和内存的工作，因此PDFMiner使用了一种称作lazy parsing的策略，只在需要的时候才去解析，以减少时间和内存的使用。
解析结构图大概是这样的

PDFParser：从一个文件中获取数据
PDFDocument：保存获取的数据，和PDFParser是相互关联的
PDFPageInterpreter处理页面内容
PDFDevice将其翻译成你需要的格式
PDFResourceManager用于存储共享资源，如字体或图像。
这个模块是通过页面布局解析出来的，解析出来大概如下

一句话概括：把相应布局的内容保存到不同的地方如上图布局，用到的什么就调用相应的函数读取。
尝试过用这个方法提取表格但是挺麻烦的，网上别人给的思路是可以用识别线条的方法提取表格内容，如果能写出来应该效果挺不错的，时间有限加上网上也没用教程可以参考，都是不推荐用这个模块提取表格的，就没有继续尝试。提取文本内容应该很合适。
Tabula
专门用来提取pdf里的表格的，支持导出csv.，excel文件
提取出来一个页面如果有两个表格会放到一个list里，每个表格一个元素。一个表格一个dataframe结构的文件，所以需要配合pandas模块使用。

二练习项目介绍

好久之前写了，一些细节忘记了，不过当时注释的很清楚直接上代码，也是怕哪天电脑突然死机代码没了。。。换个地儿存。。。这个模块提取的效率是真的慢。。。。。听说可以调Java的程序提取效率快三倍但是没学Java也就没有去了解，以后还用得到应该可以去了解一下。。。。。。

# -*- coding: utf-8 -*-


import os
import gc
from PyPDF2.pdf import PdfFileReader
from tabula import read_pdf
import pandas as pd
from openpyxl import load_workbook, Workbook
import datetime


def data_process2(dataframe2):
    '''
    三步：
    删除只有一个非空或者全空的列
    从第一列开始往后合并直到遇到只有第一列不为空或者全不为空则处理下一步
    遇到只有第一行不为空则检查接下来的第三行如果一样情况则接下来三行合并成一行
    '''
    #此循环处理只有一个非空或者全空列的情况，防止影响下面的处理
    k = 0
    while True:
        if dataframe2.notnull().sum(axis=0)[k] <= 1:
            print('%d空列\n', k, dataframe2.notnull()[k])
            if k+1 == dataframe2.columns.size:
                dataframe2 = dataframe2.iloc[0:, :k]
            else:
                dataframe_left = dataframe2.iloc[0:, :k]
                dataframe_right = dataframe2.iloc[0:, k + 1:]
                dataframe2 = pd.concat([dataframe_left, dataframe_right], axis=1, ignore_index=True)
                k = k-1
        if k >= dataframe2.columns.size-1:
            break
        k = k+1
    i = 0
    t = 0
    print('去掉空列后\n', dataframe2)
    #空字符代替NaN防止NaN和其他合并时全为空
    dataframe2_copy = dataframe2.fillna('', inplace=False)
    #此循环处理表头
    while True:
        if i == 0:
            if dataframe2.notnull().sum(axis=1)[0] == dataframe2.columns.size:
                break
            if dataframe2.notnull().sum(axis=1)[0] == 1 and dataframe2.notnull().iat[0, 0]:
                break
            i = i + 1
        else:
            if dataframe2.notnull().sum(axis=1)[i] == dataframe2.columns.size:
                t = t+1
                break
            if dataframe2.notnull().sum(axis=1)[i] == 1 and dataframe2.notnull().iat[i, 0]:
                t = t+1
                break
            dataframe2_copy.iloc[t] = dataframe2_copy.iloc[t] + dataframe2_copy.iloc[i]
            i = i+1
        if i >= len(dataframe2):
            t = t + 1
            break
        print('处理表头中\n', dataframe2_copy)
    #去掉空行，并且重新索引
    dataframe2_copy.dropna(axis=0, how='all', inplace=True)
    dataframe2_copy = dataframe2_copy.reset_index(drop=True)
    #次循环处理表里的数据
    while i < len(dataframe2):
        if i+2 >= len(dataframe2):
            for p in range(len(dataframe2)-i):
                dataframe2_copy.iloc[t] = dataframe2_copy.iloc[i+p]
                t = t+1
            break
        elif dataframe2.notnull().sum(axis=1)[i] == 1 and dataframe2.notnull().iat[i, 0]:
            if dataframe2.notnull().sum(axis=1)[i+2] == 1 and dataframe2.notnull().iat[i+2, 0]:
                dataframe2_copy.iloc[t] = dataframe2_copy.iloc[i] + dataframe2_copy.iloc[i+1] + dataframe2_copy.iloc[i+2]
                i = i+3
            elif i+4 < len(dataframe2):
                if dataframe2.notnull().sum(axis=1)[i + 1] == 1 and dataframe2.notnull().sum(axis=1)[i + 3] == 1 and dataframe2.notnull().sum(axis=1)[i + 4] == 1 and dataframe2.notnull().iat[i+1, 0] and dataframe2.notnull().iat[i+3, 0] and dataframe2.notnull().iat[i+4, 0]:
                    dataframe2_copy.iloc[t] = dataframe2_copy.iloc[i] + dataframe2_copy.iloc[i + 1] + dataframe2_copy.iloc[i + 2] + dataframe2_copy.iloc[i + 3] + dataframe2_copy.iloc[i + 4]
                    i = i + 5
                else:
                    dataframe2_copy.iloc[t] = dataframe2_copy.iloc[i]
                    i = i + 1
            else:
                dataframe2_copy.iloc[t] = dataframe2_copy.iloc[i]
                i = i + 1
        else:
            dataframe2_copy.iloc[t] = dataframe2_copy.iloc[i]
            i = i+1
        t = t+1
    print('一个表的数据\n',dataframe2_copy)
    return dataframe2_copy.iloc[:t]



def data_process1(dataframes):
    '''
    根据两个空格拆分列数据合并
    适用于数据均为str类型表格
    如果非str型合并后为空数据丢失
    '''
    dataframes.fillna('', inplace=True)
    print('处理前数据：\n', dataframes)
    n = 0
    while True:
        try:
            dataframes[n].str.split('  ', expand=True)#一列全是非str  pass
            dataframes[n] = dataframes[n].astype('str')#处理有一部分为非str情况，防止数据丢失
            over_data = dataframes[n].str.split('  ', expand=True)
            over_data.fillna('', inplace=True)
        except:
            print('遇到非str型的列   pass')
            n = n+1
            if n >= dataframes.columns.size:
                break
            else:
                continue
        print('重叠的列：\n', over_data)
        if n-1 < 0:
            dataframe_right = dataframes.iloc[0:, n + 1:]
            dataframes = pd.concat([over_data, dataframe_right], axis=1, ignore_index=True)
        elif n+1 > dataframes.columns.size:
            dataframe_left = dataframes.iloc[0:, :n]
            dataframes = pd.concat([dataframe_left, over_data], axis=1, ignore_index=True)
        else:
            dataframe_left = dataframes.iloc[0:, :n]
            dataframe_right = dataframes.iloc[0:, n+1:]
            dataframes = pd.concat([dataframe_left, over_data, dataframe_right], axis=1, ignore_index=True)
        n = n + over_data.columns.size
        if n >= dataframes.columns.size:
            break
    print('处理后数据\n：', dataframes)
    return dataframes


def getCashflowAggregation(dataframe1):
    pass


def pdf_to_xlsx(folder):
    '''
    提取文件夹的PDF里表格数据
    对数据做初步整理
    对每个dataframe识别提取想要的数据保存到相应的sheet里，
    输出同名xlsx格式文件
    '''
    files = os.listdir(folder)
    #遍历文件夹，找出PDF文件
    pdfFile = [f for f in files if f.endswith('.pdf')]
    for pdfFiles in pdfFile:
        #建立一个和PDF同名的xlsx文件
        pdfPath = os.path.join(folder, pdfFiles)
        xlsPath = pdfPath[:-3] + 'xlsx'
        #建立Workbook然后和所要保存的数据表格连接，之后每次保存都会保存到不同的Sheet中
        Workbook(xlsPath)
        book = Workbook()
        book.save(filename=xlsPath)
        #获取PDF的页数
        pdf = PdfFileReader(open(pdfPath, 'rb'))
        page_counts = pdf.getNumPages()
        dataframe2 = pd.DataFrame()
        #遍历PDF每一页，提取出表格数据
        for page in range(1, page_counts+1):
            try:
                pf = read_pdf(pdfPath, encoding='gbk', multiple_tables=True,pages = page)
                if len(pf) != 0:
                    for t in range(len(pf)):
                        dataframe1 = pf[t]
                        dataframe1 = data_process2(dataframe1)#处理表头
                        dataframe1 = data_process1(dataframe1)#按空格拆分合并项

                        #CashflowAggregation = getCashflowAggregation(dataframe1)
                        #列数相同的表格合并，并且删除重复项并保存


                        if dataframe2.empty:
                            dataframe2 = dataframe1
                        elif dataframe1.columns.size == dataframe2.columns.size:
                            dataframe2 = pd.concat([dataframe2,dataframe1],ignore_index=True)
                            #删除重复项会影响池分布的匹配提取，但是可以很好的处理静动态池和现金流归集
                            #dataframe2.drop_duplicates(keep='first', inplace=True)#在原来的数据里删除重复项
                            print(dataframe2)
                        else:
                            print('列数:', dataframe1.columns.size)
                            print(dataframe2)
                            #保存在不同的工作簿
                            writer = pd.ExcelWriter(xlsPath, engin='openpyxl')
                            book = load_workbook(writer.path)
                            writer.book = book
                            dataframe2.to_excel(writer, sheet_name='shet')
                            writer.close()
                            dataframe2 = dataframe1
                del(pf)
                gc.collect()
            except:
                gc.collect()
                print('Error Pass')
                continue
        #保存最后的数据表格到另一个工作表里
        writer = pd.ExcelWriter(xlsPath, engin='openpyxl')
        book = load_workbook(writer.path)
        writer.book = book
        dataframe2.to_excel(writer, sheet_name='shet')
        writer.close()


star_time = datetime.datetime.now()
pdf_to_xlsx('D:\\2018暑假\\新建文件夹')
stop_time = datetime.datetime.now()
print('程序运行时间：', stop_time-star_time)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208