分享

一个PDF瘦身的实例(zt)

 晴耕雨读夜观星 2014-08-23

一个PDF瘦身的实例

扫描图书不能用黑白格式,一定选灰度的,扫完若嫌文件大,再转换格式和压缩。

在普及传播版(http://bbs./viewthread.php?tid=148763&),tsglxd网友看我做了一个瘦身的PDF,认为“页面也端正,文件也小了,字也很清楚”,给我发短消息,询问做法。

这里就跟大家交流一下。

我从数典下载了源文件,197页的PDF,有57MB。大概因为每页都是jpeg的灰度文件,文件体积很大。又由于源文件是自扫的图象,很多页面文字有倾斜,例如第95页就非常明显。 

下面是我操作的步骤:
1)用Adobe Pro 7.0 打开文件, 另存为TIFF, 得到197个图像文件。 文件的图像色彩仍然是灰度,所以体积很大,每个大约有2M。
2)用Paint Shop Pro 8对图像文件进行批处理。批处理的script做3件事:
  a) 把亮度、对比度(Brightness/Contrast)调高,这样页面的底纹就变浅了。
  b) 使用颜色门槛(Color Threshold),设Threshold=205。 这样,在门槛以下的像素就变成了全黑色;门槛越高,字的笔划越粗。
  c) 把灰度文件“减色”(Decrease Colors)为黑白文件。页面底纹也被完全消除了。
经过批处理,每个tif文件的体积就只有100-200K了。
3)用清华TH-OCR 9.0 打开所有的tif文件。在加载文件的过程中,TH-OCR有一个预处理,校正页面倾斜。加载完毕之后,文字的倾斜就已经校正好了。
4)由于黑白两色的封面页效果不好,把源文件的第一页用Adobe存为JPG,替代第一个tif文件。(JPG对灰度文件的压缩比TIF好很多。)
5)用老马的Pic2Pdf生成瘦身的PDF。

至此,57MB的文件就缩为了8.23MB,并且消除了页面底纹,校正了页面倾斜。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多