如何将繁体竖排扫描版pdf电子图书转化为可编辑的文本

易学的探索 2019-05-11

展开全文

如何将繁体竖排扫描版pdf电子图书转化为可编辑的文本文件

一、背景

酷暑难熬，心情烦躁，读书是最好的“清凉饮料”。最近，闲暇时间正在读春秋左传。我读的版本为李梦生撰、上海古籍出版社出版的《左传译注》。在读的过程中，总是感觉有的地方没有注释，只能看译文帮助理解。于是，就想找其它的版本作参考。该书“前言”中提到：“特别需要说明的是，杨伯峻先生的《春秋左传注》一书，对我的帮助尤大。”所以，就在网上下载了此书（修订本）的电子文档。

杨伯峻先生的《春秋左传注》一书是春秋左传的经典必读之书。遗憾的是，此书为繁体竖排，注释插在正文中，并且没有译文。此书对于大陆读者来说，可能很不习惯。能不能将此书重新排版，采用更适合大陆读者阅读习惯的格式，重新出版呢？这或许是我的一个梦想，因为杨伯峻先生已经去世，而且全书有1800多页。

我一时冲动居然想实现这个梦想。我在网上下载的版本是扫描图像制成的pdf格式，要想重新排版，需要可以编辑的文档。我在网上还没有找到此书可编辑的版本。所以，我就试着自己将这本书的扫描版本转化为可编辑的版本。

二、方法

我在网上看了一些相关的资料，借鉴了别人的一些经验，通过反复试验，终于找到了将繁体竖排扫描图像的pdf电子图书转化为可编辑文本的方法。

1、将扫描版pdf图书转化为图像文件

由于扫描后制成pdf格式的图书，内部的每页都是一个图像，所以必须把其中的图像文件提取出来，采用OCR识别的方法，才能转化为可编辑的文本格式。

转化为图像文件，有两种方法：

（1）直接由Adobe Acrobat导出图像文件。

我采用的是Adobe Acrobat Pro 9。选择“文件—导出—图像—TIFF”功能即可从扫描图像的pdf文中提取出多个扫描文档（每页一个）。这种方法非常简单适用，推荐使用。之所以要转化成TIFF格式的图像文件，是因为有介绍说TIFF格式的图像文件，OCR的识别率高。

（2）用Microsoft Office Document Image Writer打印生成pdf文档的图像文件。

Microsoft Office Document Image Writer是Office中带的一个工具。如果在安装Office时没有安装，对于2003和2007版本的Office，只须重新安装一遍即可。在需要安装的内容中，在“工具”中选择后安装即可。我使用的是Office 2010，在安装内容选项中没有找到这个工具。不知道是版本问题，还是2010版本本身就没有这个工具。我用Office 2007安装了此工具，使用正常。因为这就是一个虚拟打印机，所以可以采用以前版本的。安装时，只选择此工具，其它内容全部不选。这样安装后，可以保证Office 2010的正常使用。

Microsoft Office Document Image Writer安装正常后，在Adobe Acrobat Pro 9中打印时，选择此打印机即可将pdf格式的图书转化为一个TIFF文档。

2、对提取到的图像文件进行处理。

此项工作的主要目的是，提高OCR识别率，减少校对编辑时间。如果扫描文件的质量很高，可以不进行此项工作。

我之所以要进行此项工作，并不是因为扫描文件的质量不高，而是因为本书为繁体竖排，而且专有名词下面都带了下划线。就是这些下划线影响了识别率。我在没进行图像处理前进行识别，识别出来的文本错误很多，需要花费很长时间来进行校对。去掉下划线后，识别率显著提高。花了时间去掉下划线，节约了校对时间，但是效率却大幅提高了。

我采用的图像处理软件为PhotoFiltre Studio X 10.2.1。这个软件能够满足对扫描文件的处理。我最初采用的是Windows自带的“画笔”软件，但是存盘后，发现分辨率降低了，以致识别率极低。所以我最后才选定PhotoFiltre Studio X这个软件。使用其中的选择工具，把下划线和所有污点去掉。

3、OCR识别

经过比较，我选定了“汉王文本王文豪7600”（专业版）这个软件。这个软件对于繁体竖排的扫描文件识别率很高（去掉扫描文件中的下划线后），而且校对功能很方便。这是我没有想到的，说明汉王的技术确实不错，不愧为“汉王”。

最好一页一页地识别。打开需要识别的扫描文件，（1）在工具栏中选择选项“竖排”、“简繁”等配置项；（2）选择工具栏中的“版面分析”分析扫描文件的版面。可以将不需要识别的版面去掉。版面会影响识别后的排版格式。（3）选择工具栏中的“识别”进行OCR识别。（4）校对。在校对窗口中校对文本。（5）文本输出。可以将识别后的文本输出到Word 2003，输出到2010可能有些问题。所以我直接将文本复制到Word 2010中，在其中重新编辑排版。

4、繁体字的输入

对于繁体书，在OCR识别后的校对过程中，需要输入繁体字，特别一些生僻的繁体字。对于大陆读者来讲，输入和处理繁体字非常令人头痛。

（1）繁体字库。要处理繁体字，最好还是装一些繁体字库。我装的有：PMingLiU-Fixed.ttf、方正兰亭字库5.0繁体和UniFonts.exe，这些字库在网上搜索下载安装即可，安装到Windows的Fonts目录下。UniFonts.exe字库是为了采用海峰五笔而安装的。

（2）繁体字的输入

网上介绍了很多种输入繁体字的方法，采用哪种方法取决于你所熟悉的输入法。现在，很多输入法，输入简体可以自动转换输出繁体。因为我采用的是五笔，所以采用了万能五笔和海峰五笔。

万能五笔对于一般的繁体字输入是没有问题的，但是对于生僻一点的繁体字就无法输入了。为此，我发现了可以支持大字库Unicode编码的海峰五笔，可以解决繁体生僻字的输入问题。但是对于此书中的个别生僻繁体字，仍然无法输入。

（3）生僻繁体字的输入

生僻繁体字的输入让我伤透了脑筋，总算有了比较好的解决方法。① 采用海峰五笔可以解决绝大多数繁体字的输入。② 对于海峰五笔无法输入或不会拆字的生僻字，我采用的是Word中的插入字符的方法。先在Word中写一个相似的字（部首相同），选择这个字，选择“插入—符号”，即可找到与这个字相似的汉字，在其中查找，找到后插入。在一个字库中找不到，就只能在另外的繁体字库中查找了，相当费时间，不过没办法，这是最后一招了。③ 最麻烦的是字库中没有的生僻繁体字，就只能采用造字或其它方法了。

三、效果

经过一段时间的摸索，上述方法解决了将繁体竖排扫描版pdf图书转化为可编辑的文本文件。目前，我已成功将杨伯峻先生的《春秋左传注》一书的“前言”部分（近60页，3万多字）转化为可编辑的文本文件。

如果有时间，我准备完成全书的转化工作，并对全书进行重新编辑排版，以表达对杨先生的崇敬。当然，著作权仍然归杨先生所有，转化后的文档只能用于学习，我们要充分尊重杨先生的著作权。为了表示我对杨先生著作权和版权的尊重，我已购买了此书，中华书局的一套四本修订版。