Python六行代码搞定PDF转Word？

老三的休闲书屋 2024-04-14 发布于湖北

展开全文

实践操作

在Python中想要实现从PDF文档向Word文档的转换可以使用pdf2docx库，这个库就是用来进行PDF到Word的转换操作的。要想使用该库，首先需要确保已经安装了该库。

pip install pdf2docx

然后可以通过如下的代码实现PDF到Word的转换。

from pdf2docx import Converterdef convert_pdf_to_word(pdf_file_path, word_file_path):    # 创建转换器对象    cv = Converter(pdf_file_path)        # 将 PDF 转换为 Word    cv.convert(word_file_path, start=0, end=None)        # 关闭转换器    cv.close()# 调用函数并指定输入PDF文件路径和输出Word文件路径convert_pdf_to_word('input.pdf', 'output.docx')

当然这个代码转换可以完成90%格式的转换，由于Word与PDF本身的文档差异，很难做到100%的转换。

其他方式

当然还有一种非常Low的操作，就是直接进行文档读取。这种方式不涉及格式的变化，用到PyMuPDF库，这个库可以直接对PDF中的内容进行提取，并且直接插入到Word文档中，对于一些文字类的可以使用这种方式来操作。

首先需要安装PyMuPDF库。

pip install pymupdf

代码实现如下所示。

import fitz  # PyMuPDFfrom docx import Documentdef convert_pdf_to_word(pdf_file_path, word_file_path):    # 创建一个空的Word文档对象    doc = Document()        # 打开PDF文件    pdf_document = fitz.open(pdf_file_path)        # 遍历PDF中的每一页    for page_number in range(len(pdf_document)):        # 创建一个新的段落，并将PDF页面的文本插入到段落中        page_text = pdf_document[page_number].get_text()        doc.add_paragraph(page_text)        # 保存Word文档    doc.save(word_file_path)# 调用函数并指定输入PDF文件路径和输出Word文件路径convert_pdf_to_word('input.pdf', 'output.docx')

这段代码中，会将PDF文件中的每一页内容进行提取，并且插入到Word文档中，保持原始的格式。