分享

Pdf重制教程(图片重制、文字矢量化)(仓鼠症、强迫症重度患者适用)

 未来决定现在 2023-09-20

电子书源当然是越高清越好。国外最近出版的书大都有矢量高清版,国内的基本只能靠高清扫描了。找书籍推荐新建标签页 () 45。中文书籍高清不知哪个网站比较好,同求网友指路。

0.一些软件

并行批处理MParallel :lordmulder/MParallel: MParallel — Parallel Batch Processor (github.com) 7。

PDF简单处理软件PDFShaper:PDF Shaper Professional / Premium 11.6 Free Download - FileCR 12。

mutool:MuPDF 9。

现实图片超分辨Topaz Gigapixel :Topaz Gigapixel AI 6.0.0 Free Download - FileCR 3 9。

二次元图片超分辨RealCUgan:nihui/realcugan-ncnn-vulkan: real-cugan converter ncnn version, runs fast on intel / amd / nvidia / apple-silicon GPU with vulkan (github.com) 5。

高性能图片处理命令软件libvips:libvips/build-win64-mxe (github.com) 7。

Adobe acrobat:Adobe Acrobat Pro DC 2022.001.20117 - FileCR 13。

PDFXEdit:PDF-XChange Editor Plus 9.3.361.0 Free Download - FileCR 6。

图片矢量化vector magic:https://cloud./index.php/s/czwY2a683ZxY6Wm。 18

1.重制教程

(A)图片无损抽取

推荐用mutool,不容易出问题,也可使用PDFShaper的提取图片。我一般用以下批处理命令:

cd %~dp0
chcp 65001
dir /b *.pdf |MParallel --count=100  --stdin --no-split-lines --shell --auto-wrap --pattern="mkdir {{0:N}} "
dir /b *.pdf |MParallel --count=100  --stdin --no-split-lines --shell --auto-wrap --pattern="move {{0}}  {{0:N}}"
dir /b  /s  *.pdf |MParallel --count=1  --stdin --no-split-lines --shell --auto-wrap --pattern="cd  {{0:P}} && mutool.exe extract {{0}} "
@echo finish
(B)图片超分辨

对于3d,现实图片,推荐Gigapixel 。

对于2d,手绘卡通的。推荐Real-CUGAN。

(C)PDF去图片

使用PDF shaper–文档–移除元素,删除图像。

(D)图片压缩

超分辨后得到的png或tiff比较大。推荐用libvips压缩成jpeg(下述命令使用了mozjpeg,所以出来的jpeg同质量体积相对较小):

cd %~dp0
chcp 65001
dir /b /s  *.png *.bmp *.tiff |MParallel --count=4  --stdin --no-split-lines --auto-wrap --pattern="bin\vips.exe jpegsave {{0}}  --strip --optimize-coding --interlace  --optimize-scans  --trellis-quant --quant-table 3    {{0:N}}.jpeg --Q 85"
@echo finish
(E)图片合成PDF

要注意图片是否与原页面一一对应。要是图片不属于背景,就只能手工替换。推荐使用PDFshaper的图片转PDF功能合成。

(F)图片背景叠加文字

用PDFXEdit打开(C)得到的无图PDF,使用组织–覆盖,选择(E)得到的纯图PDF。右边可以预览页面是否正确。

(G)图片颜色问题

很多书图片是Adobe RGB。如果(F)步出来的pdf图片颜色不对,则需要在Acrobat–工具-- 印刷制作–转换颜色–转换配置:Adobe RGB。注意对象类型只选图片。

(H)文字矢量化

对于只有扫描版的书,特别是英文书。推荐使用acrobat的clearscan来将文字矢量化:工具–扫描和OCR–识别文本–设置–可编辑的文本和图像。

(I)图片矢量化

对于logo、简单2d彩绘、书法作品或者文字。可以使用vector magic矢量化,这个软件可谓图片矢量化最强软件,可惜若干年不更新了。

今天我搜索了几个矢量化图片的软件,对于黑白图片的矢量化,推荐使用

potrace http://potrace./ 4。该软件只能矢量化黑白图片,但是对于优化电子书而言已经足够了。该软件可以将pnm以及bmp格式的图片矢量化为SVG、PDF、EPS、PostScript、DXF、GeoJSON、PGM、Gimppath 或XFig格式输出,但是一般日常使用的多为png、jpg、tiff等格式的图片,因此需要借助图片工厂将png、jpg、tiff等格式的图片转换为bmp格式的文件 图片工厂 Picosmos Tools ,然后再矢量化。

这是优化效果,需要放大后仔细对比。当然,对于一般的使用该书的未优化版本已经足够了,但是对于一些重要的书籍以及扫描质量较差的书籍,就可以使用该软件优化。还有一个问题就是优化后的pdf文件过大,只需要pdf压缩一下即可,在该质量下,压缩结果仍处于清晰状态。

圆滑可以通过参数–alphamax调整,过度可能与控制贝塞尔曲线连接的参数有关,我还没有测试这几个参数。除了封面的那一页,其余页面的长宽比不是一样吗(俺还没注意过长宽比,都是默认的

有一个以potrace为蓝本的矢量化彩色图片的项目 【自荐】位图转彩色矢量 SVG 图片 —— Color Trace - 发现频道 🔍 - 小众软件官方论坛 4。作者说效果比vtracer好,俺也没试过。不过从昨天到现在,俺还是觉得你处理的物理学大词典效果最好。

OCR软件好像不支持矢量图,不过我想如果矢量化软件的效果好,那么再把矢量化的图片转成高分辨率再OCR按理说准确率能提升,但是如果矢量化的效果不好导致丢失了部分笔画也可能导致相反的效果。

其实现在AI OCR的准确性相当可以了,纯中文或纯英文的,300dpi的扫图基本上好几页才会有错字,中英文混排的主要的错漏也在标点、特殊符号之类的上面。目前主要的问题是没有配套的软件,比如最起码的,连个去掉换行符的功能都没有。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多