分享

Python 将 PDF 转换为 Excel

 昵称2548375 2023-12-04 发布于河北

PDF 文件以固定的布局格式呈现信息,这使其成为保持文档完整性的理想文档格式。然而,当您需要分析或操作其中包含的数据时,这种固定布局可能就不太适合。为了方便数据处理,可将 PDF 转换为 Excel,以利用其包含的公式、条件格式、数据透视表和图表等丰富功能,从而更加高效地分析、操作和可视化数据。本文将介绍如何使用 Spire.PDF for Python 在 Python 中实现 PDF 转 Excel

安装 Spire.PDF for Python

本教程需要用到 Spire.PDF for Python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 VS Code 中。

pip install Spire.PDF

如果您不清楚如何安装,请参考此教程: 如何在 VS Code 中安装 Spire.PDF for Python

Python 转换 PDF 为 Excel

Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。在转换前,您可以通过创建 XlsxLineLayoutOptions 类的对象来指定转换选项,然后使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。

XlsxLineLayoutOptions 类的构造函数可传入以下五个参数,这些参数允许你控制如何将 PDF 转换为 Excel:

  • convertToMultipleSheet (bool): 表示是否将多个 PDF 页面渲染到一个 Excel 工作表中。
  • rotatedText (bool): 表示是否显示旋转的文本。
  • splitCell (bool): 表示一个包含多行文本的 PDF 表格单元格是否会在 Excel 中被拆分成多行。
  • wrapText (bool): 表示是否对 Excel 单元格中的文本进行换行。
  • overlapText (bool): 表示是否显示重叠的文本。

以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤。

  • 创建一个 PdfDocument 对象
  • 使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
  • 创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。
  • 使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
  • 使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。
  • Python
from spire.pdf.common import *
from spire.pdf import *

# 创建PdfDocument对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("财务表.pdf")

# 创建 XlsxLineLayoutOptions 对象来指定转换选项
# 参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("Pdf转Excel.xlsx", FileFormat.XLSX)
pdf.Close()

Python 将 PDF 转换为 Excel

申请临时 License

如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请联系销售获取有效期 30 天的临时许可证。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多