【原】【Python小技巧】快速提取PDF文档中的图片，让你的工作更高效！

Python集中营 2023-06-05 发布于甘肃

展开全文

提取PDF文档中的图片是一项常见的任务，可以通过Python中的一些库来实现。

本文将介绍如何使用PyPDF2和pdfminer.six这两个库来提取PDF文档中的图片。

PyPDF2

PyPDF2是一个用于处理PDF文件的Python库，可以用于合并、分割、旋转和提取PDF文件中的文本和图像等操作。

下面是一个使用PyPDF2库提取PDF文档中图片的示例代码：

import PyPDF2

# 打开PDF文件
pdf_file = open('example.pdf', 'rb')

# 创建PDF阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 遍历每一页
for page_num in range(pdf_reader.numPages):
    # 获取当前页
    page = pdf_reader.getPage(page_num)
    # 获取当前页中的所有XObject对象
    xobjects = page['/Resources']['/XObject'].getObject()
    # 遍历所有XObject对象
    for obj in xobjects:
        # 如果当前对象是图像
        if xobjects[obj]['/Subtype'] == '/Image':
            # 获取图像的字节流
            image_data = xobjects[obj].getData()
            # 保存图像到文件
            with open('image{}.jpg'.format(page_num), 'wb') as f:
                f.write(image_data)

在上面的代码中，我们首先打开PDF文件，然后创建一个PDF阅读器对象。

接着，我们遍历每一页，获取当前页中的所有XObject对象，然后遍历所有XObject对象，如果当前对象是图像，就获取图像的字节流并保存到文件中。

pdfminer.six

pdfminer.six是一个用于提取PDF文本和元数据的Python库，它可以将PDF文档转换为HTML、XML和文本格式。

下面是一个使用pdfminer.six库提取PDF文档中图片的示例代码：

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTImage

# 打开PDF文件
pdf_file = open('example.pdf', 'rb')

# 创建PDF解析器对象
parser = PDFParser(pdf_file)

# 创建PDF文档对象
document = PDFDocument(parser)

# 创建PDF资源管理器对象
rsrcmgr = PDFResourceManager()

# 创建PDF设备对象
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建PDF解释器对象
interpreter = PDFPageInterpreter(rsrcmgr, device)

# 遍历每一页
for page in PDFPage.create_pages(document):
    # 解析当前页
    interpreter.process_page(page)
    # 获取当前页的LTImage对象
    layout = device.get_result()
    for element in layout:
        if isinstance(element, LTImage):
            # 获取图像的字节流
            image_data = element.stream.get_rawdata()
            # 保存图像到文件
            with open('image{}.jpg'.format(page.pageid), 'wb') as f:
                f.write(image_data)