大家在平时的工作中经常会遇到Pdf文件需要转成Word格式,直接又不能复制操作,用WPS转化又需要收费。这时候就到Python大展身手的时候了!短短几行代码就可以把Pdf的文档提取到Word。 如何挑选Python包 我们经常在网上看到一些python包,虽然功能都是一样的,但是包名却各不同。例如解析pdf的包就有好几种,那么我们该如何挑选呢?爱尚实训刘小编在这里告诉大家一个小方法,利用python官方文档来决定,看看用哪个比较好呢。 pdfplumber 首先,我们通过百度搜索 “包名+ pypi”。 这里我们搜索 pdfplumber pypi; 点击进去,英文看不懂没关系,点击“releasese history”, 看到最新版本是2020年,也就是今年发布的。说明这个包一直在维护着,所以这个包也是可以放心使用的。就算这个版本出现了bug,下一个版本也会修复的,所以不用担心。 代码讲解 这次代码其实比较简单,就是pdfplumber的使用。 pdflumber: PDF 文件解析包。 xlwt:用于Excel文件的读写。 pdfplumber 是按页去解析PDF的,pdf.pages拿到所有页面,extract_tables() 把页面中的表格取出来,最后按照表格的格式赋值给Excel的每个单元格。 运行结果 pdf截图如下: 运行后输出如下: 哈哈,是不是很神奇,想了解更多Python相关的知识,记得关注小编哦~ |
|
来自: flyk0tcfb46p9f > 《AI》