python

NeighborMrSun 2023-02-21 发布于湖南

展开全文

周期.pdf

import pdfplumber

import docx

path='/Users/ningbo/Desktop/周期.pdf'

pdf=pdfplumber.open(path)

doc=docx.Document()

for page in pdf.pages:

textData=page.extract_text()

doc.add_paragraph(textData)

doc.add_page_break()

doc.save('/Users/ningbo/Desktop/周期.docx')

周期.docx

以前经常为pdf转换为word版本费尽心机，有时不得不忍痛付费。但效果仍然不好，今天学习了pdf文档读取，只需要短短的几行代码就瞬间完成了pdf转换为word ，简直不要太酸爽。

1.读取pdf文档。

在Python中，想要处理PDF的文本和表格，我们可以使用pdfplumber模块。

pdfplumber模块可以获取PDF文档中的具体信息，包括字符、矩形框、线等，还可以抽取文本和表格。

pdfplumber不是一个内置模块，所以在使用前要先通过代码

pip install pdfplumber进行安装。

如果在自己电脑上安装不上或安装缓慢，可在命令后添加

pip install pdfplumber -i https://pypi.tuna./simple/ 进行加速

接下来，我们需要将文件夹中的所有PDF文档读取出来。

我们可以将PDF文件的路径作为参数传入pdfplumber.open()函数来读取PDF文件。

import pdfplumber

import docx

path='/Users/ningbo/Desktop/周期.pdf'

pdf=pdfplumber.open(path)。

2.提取pdf文档。

首先我们要使用for循环遍历.pages属性，逐个获取PDF文档中的每一页对象。

然后通过每一页的对象使用extract_text(）函数即可提取每一页面中的文本

import pdfplumber

import docx

path='/Users/ningbo/Desktop/周期.pdf'

pdf=pdfplumber.open(path)。

for page in pdf.pages:

textData=page.extract_text()

3.创建word文档并添加段落

想要创建一个新的Word文档，我们需要导入Python-docx模块。

使用docx.Document()函数，不传入任何参数，即可创建一个新的Word文档对象。接着使用add_paragraph()函数可以向文档中添加段落，参数是添加的内容字符串。

添加完成后，再使用save()将文档保存到指定路径。

import pdfplumber

import docx

path='/Users/ningbo/Desktop/周期.pdf'

pdf=pdfplumber.open(path)

doc=docx.Document()

for page in pdf.pages:

textData=page.extract_text()

doc.add_paragraph(textData)

doc.add_page_break()

doc.save('/Users/ningbo/Desktop/周期.docx')

初次尝到了python使用的甜头，可谓惊喜连连，成绩满满，大半年来学习的python终究有了一丝丝成绩。虽然还未进行批量转换，但对python的高效率已肃然起敬。

虽然，word文档的排版还不完美，比如，没有开头没有空四行等等，但终于迈出了应用的第一步。先完成再完美嘛。

笑来老师说，学习最好的方法只不过是重复重复再重复。

看来，老师诚不欺我耶。

我应该大胆尝试，灵活应用，把工作生活中遇到的问题尝试用python解决。学习的初级是模仿，中级是应用，高级便是创造了。期待自己像习武之人一样，从一招一式中独创出自己的剑法。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： NeighborMrSun > 《办公自动化》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

NeighborMrSun

关注对话

TA的最新馆藏

数据结构（八）：并查集详解（多图动图）
计算机操作系统强化课笔记（文件系统）（考研）
[转] 一定要背这38组高频短语！ #考研英语#...
每日一题 | 计算机考研20230827
从前慢
计算机考研408如何复习

喜欢该文的人也喜欢更多

热门阅读换一换