搜索

分享

QQ空间 QQ好友新浪微博微信

【原】PDF内容自动提取，想取哪些页面就取哪些页面！ | PA实战案例

大海_Power 2021-12-06

展开全文

但是，在日常工作中，对于很多pdf文件，我们实际上只需要提取其中部分页面的内容即可，这要怎么办呢？

以下，分2种常见情况进行说明，其中隐藏一些技巧，值得注意。

- 1 -

明确单页或范围

首先，如果是要提取的页面是明确的，比如明确的某一页（如第3页）或某一段页码范围（如第8-10页）等，非常简单，在提取PDF文件内容的步骤里进行简单设置即可：

1、取某一页（如第3页）

在“要提取的页面”中选择“单个”，“单个页码”中输入具体页码即可：

2、取某一段页码范围（如第8-10页）

在“要提取的页面”中选择“范围”，并在“起始页码”和“结束页码”中分别输入相应的数值即可：

- 2 -

非连续多页

理论上来说，如果要提取的页码支持类似用逗号分隔的形式输入，那就能轻松解决这个问题，比如输入“2,4”代表要提取第2和4页。

但是，遗憾的是，Power Automate的“从PDF提取文本”功能并不支持这样的设置：

这种情况下，一种方法是预先设置一个列表，然后通过循环控制来提取多个页面的内容，但是，个人认为这种方法并非最佳方式，而是还有更加简便的方法：

先“将 PDF 页面提取到新的 PDF”，然后再从新的pdf文件中提取所有页面——因为“将 PDF 页面提取到新的 PDF”功能直接支持非连续页面的提取：

- 3 -

更加复杂的情况

以上是两种在提取PDF文件多页内容时常见的情况，此外，还有朋友提出了一种比较特别的情况：如对于多个PDF文件，统一不要最后的某几页。

比如，很多企业的pdf报告，前面包含数据的页面不固定，最后几页都是一些例行的备注说明，这样，我们要动态地去取前面的数据页面，最关键的是能获取到整个pdf报告的页数。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：大海_Power > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

大海_Power

关注对话

TA的最新馆藏

被问了无数次！6个日期时间常见问题总结 | Power Query实战
数据堆在一列又混乱，怎么整理？熟练功能操作，能避免复杂代码 | Power Query实战案例
Excel文件换位置，PBI数据刷新出错，怎么办？有什么好的办法吗？| PowerBI实战
读取上一行数据好卡啊！怎样能快一点儿？ | Power Query案例实战
雪花维度合并查询重复列后，Power BI文件竟然还变小了！ | 数据模型优化
PowerBI数据模型优化，从导入数据开始

喜欢该文的人也喜欢更多

热门阅读换一换