经常会被问到的两个办公室常见问题:要如何把录音(语音)转为文字输出?怎么复制图片里的文字内容呢?其实这些问题都牵涉到辨识技术,只是一个是语音辨识,另一个就是很常听到的「光学字元识别」(Optical Character Recognition,简称OCR)。 本文要推荐的「Free Online OCR」是一款免费的线上光学字元辨识服务,如果你要把扫描的PDF文件或图片(JPG、PNG、BMP、TIFF或GIF)内文字输出成Word、Excel或可编辑的纯文字格式这项服务可以帮你解决。因为是线上工具,使用者不用额外下载或安装任何软体,Windows、MacOS甚至是手机都能使用,你需要做的就是把图片或档案上传上去,即可快速转为文字。 Free Online OCR支援46种语言,除了英文外,也支援中文、日文及韩文(完整语言列表),适用的格式有PDF、TIF/TIFF、JPEG/JPG、BMP、PCX、PNG、GIF,根据网站说明,图片品质是影响到辨识准确度的最重要因素之一,图片解析度200-400 DPI可获得最佳效果。 根据我的测试,Free Online OCR 对于英文的辨识效果最好,中文的话可能是我的图片品质不高,辨识效果不是非常精确,但确实可以判断中文内容(其他语言我就没测试了),如果你正好需要免费OCR 工具的话,或许可以试试看这款免费服务。
第一步 开启Free Online OCR服务,点击步骤一的「Select File」按钮选取要上传辨识的PDF或图片,未注册情况下只能上传单档5 MB以下(注册后可提高至200 MB,稍后说明)。 第二步 接着从步骤二来选取该文件或图片的语系,如果是繁体中文请选择「CHINESETRADITIONAL」,这里全部都是以英文标示,不清楚的话就先Google 或翻译一下,记得要挑选正确否则无法辨识。 预设汇出格式有Word(.docx)、Excel(.xlsx)和纯文字(.txt),注册后可选择.doc、.xls、.pdf 和.rtf 额外三种,不过通常只要能把文字成功辨识转换出来就不简单了,其实什么格式应该都没关系,反正最后自己编辑一下即可。 在开始转换前,请记得输入底下的验证码,确认你不是机器人,再按下「Convert」转换! 第三步 下图就是我随意丢一张网页撷图给Free Online OCR辨识的结果,可以看到英文部分其实辨识度相当高且准确,如果你选择的是汇出为纯文字,会直接显示于网页下方,也可点击「Download Output File」来下载汇出档案。 |
|