分享

PDF内容自动提取,想取哪些页面就取哪些页面! | PA实战案例

 大海_Power 2021-12-06

但是,在日常工作中,对于很多pdf文件,我们实际上只需要提取其中部分页面的内容即可,这要怎么办呢?

以下,分2种常见情况进行说明,其中隐藏一些技巧,值得注意。

- 1 -

明确单页或范围

首先,如果是要提取的页面是明确的,比如明确的某一页(如第3页)或某一段页码范围(如第8-10页)等,非常简单,在提取PDF文件内容的步骤里进行简单设置即可:

1、取某一页(如第3页)

在“要提取的页面”中选择“单个”,“单个页码”中输入具体页码即可:

2、取某一段页码范围(如第8-10页)

在“要提取的页面”中选择“范围”,并在“起始页码”和“结束页码”中分别输入相应的数值即可:

- 2 -

非连续多页

理论上来说,如果要提取的页码支持类似用逗号分隔的形式输入,那就能轻松解决这个问题,比如输入“2,4”代表要提取第2和4页。

但是,遗憾的是,Power Automate的“从PDF提取文本”功能并不支持这样的设置:

这种情况下,一种方法是预先设置一个列表,然后通过循环控制来提取多个页面的内容,但是,个人认为这种方法并非最佳方式,而是还有更加简便的方法:

先“将 PDF 页面提取到新的 PDF”,然后再从新的pdf文件中提取所有页面——因为“将 PDF 页面提取到新的 PDF”功能直接支持非连续页面的提取:

- 3 -

更加复杂的情况

以上是两种在提取PDF文件多页内容时常见的情况,此外,还有朋友提出了一种比较特别的情况:如对于多个PDF文件,统一不要最后的某几页。

比如,很多企业的pdf报告,前面包含数据的页面不固定,最后几页都是一些例行的备注说明,这样,我们要动态地去取前面的数据页面,最关键的是能获取到整个pdf报告的页数。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多