分享

pdf转word经验总结第一期(如果是刚接触建议看看)

 小K记 2020-03-19

那不同的pdf是什么意思?pdf是有分类型的。一种同等内容下,文件大小小很多,文字可以选中,看起来很清晰的矢量型PDF。另一种是文件大小会偏大,文字不可选中,并不清晰的图片型或者是扫描型的PDF。对于第一种,用Adobe PDF DC或者PDFement转换出来效果都是特别好。无论当中是否有图片,表格,公式。以下我们重点讨论第二种,对于扫描图片型PDF,当我们只需要它的文字应该怎么转换?

现在来说说转换目标。什么是转换目标?就是你想要这篇pdf的什么内容。一般有:

  1. 纯文字要不要排版都行;

  2. 因为有目录是论文,最好大致保持原排版

  3. 是需要整篇呢?还是当中某部分文字就行

我们从最不严格开始说起,如果我们只要某部分文字,只要OCR就可以。(关于文档的OCR,图片的OCR我们下期分享)那如果需要全文不用排版的呢?就文字正确率最高来说,还是OCR,但是是批量OCR。而不是用Abbyy,Adobe PDF DC等转换软件。唯一需要用到转换软件的,就是对排版非常苛刻,比如一些论文目录页,整体排版字体大小都有要求的项目的时候。这时候也要分情况,主要是根据正确率的需求。

第一种必须百分之一百正确,这样就涉及到校对了。正如一开始所说的没有百分之百准确转换的软件,那剩下不足百分之百的部分就要人工校对。这时候推荐用abbyy14或者汉王OCR。这两款能够清楚地标注转换出来的文字与原文不同的地方,方便校对。第二种,只是运用文字,即使有些小错误,自己修改一下就行了。这里推荐Adobe PDF DC,PDFement,abbyy14。


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多