【原】动态提取PDF内容的终极秘籍！兼一个超强网站推荐！| PA重要资源

大海_Power 2021-12-13

展开全文

- 1 -

上次的文章《PDF内容自动提取，想取哪些页面就取哪些页面！| PA实战案例》里，讲解了怎么自动提取指定页码PDF内容的操作方法，并且提及一种动态提取的情况：提取文件中除最后固定几页（如5页）以外的所有内容。

比如，很多企业的pdf报告，前面包含数据的页面不固定，但最后几页，嘿嘿，都是一些例行的备注说明，这样，我们要动态地去取前面的数据页面，最关键的是能获取到整个pdf报告的页数。

但是，目前Power Automate里却没有支持获取pdf文件页数的操作或方法，这时，我们就需要通过Power Automate自动调用第三方的工具来实现了！比如，炒鸡强大的pdf批处理工具：pdftk！

- 2 -

pdftk是啥？简单来说，就是一个操作pdf的工具箱（全称：pdf toolkit），完整介绍及文档可以参考官网PDF Labs：

https://www./tools/pdftk-the-pdf-toolkit/

但是，一般来说，官网的内容对大部分普通用户来说，都是看得贼累的，所以，这个官网并不是本次推荐的关键，下面这个才是——网站“批处理之家”：

http://bbs./

首先是，pdftk到底能干啥？

简单来说，可以通过在DOS下写一些简单的命令，即能实现很多PDF文件处理的功能，具体功能有哪些呢？看图：

具体怎么干？看例子：

合并PDF：pdftk 1.pdf 2.pdf 3.pdf cat output 123.pdf或者 (使用通配符):pdftk *.pdf cat output combined.pdf

把多个PDF的不同页面组合成一个新的PDF文档(将one.pdf的前7页，two.pdf的前5页，one.pdf的第8页按先后顺序合并成combined.pdf)

pdftk A=one.pdf B=two.pdf cat A1-7 B1-5 A8 output combined.pdf旋转PDF的第一页为顺时针90度（向东）（其余页方向不变，2-end表示第2页到最后一页）pdftk in.pdf cat 1E 2-end output out.pdf旋转PDF的第一页为逆时针（向西）90度，只提取第一页pdftk in.pdf cat 1W output out.pdf选择所有PDF页面180度：pdftk in.pdf cat 1-endS output out.pdf使用128强度加密PDF（安全模式，只读）pdftk in.pdf output mydoc.128.pdf owner_pw foopass同上，同时给PDF加上访问密码（会弹出一个密码输入框）pdftk in.pdf output mydoc.128.pdf owner_pw foo user_pw baz同上，但是运行打印：pdftk in.pdf output mydoc.128.pdf owner_pw foo user_pw baz allow printing

解密PDF文档(foopass替换成pdf的owner_pw密码)：注意：前提是你得知道pdf的密码所以此功能只是解除所有者的密码，使阅读者不需要输密码

pdftk secured.pdf input_pw foopass output unsecured.pdf合并两个PDF文档，其中一个是加密的，但最终文档不加密：pdftk A=secured.pdf mydoc.pdf input_pw A=foopass cat output combined.pdf解压PDF流，以便文本编辑：pdftk mydoc.pdf output mydoc.clear.pdf uncompress压缩PDF：pdftk mydoc.pdf output mydoc.clear.pdf compress修复PDF文档pdftk broken.pdf output fixed.pdf分解成单页（文件名以pg_开头）pdftk mydoc.pdf burst报告PDF信息，输出到文本pdftk mydoc.pdf dump_data output report.txt

这么多例子，也不用一下子全部搞懂，这里咱们先看最后一条：报告PDF信息，其中就包含了一个PDF文件有多少页的信息！输出结果如下：