分享

OCR多彩世界

 springtime12 2017-02-23

在职场上,人们总会面对堆积如山的各种纸质资料、不同种类pdf文档和图片形式的多种资料,对于这样的资料整理,大家都会选择怎么处理呢?一页一页的手动录入?



当然对于这样问题的答案我们也要大胆的说出NO!那么接下来小编就来助大家一臂之力吧!带大家走入识别工具的多彩世界。


在开始之前,小编要给大家普及下可编辑和不可编辑文档;简单的说就是PDF文档中的文字是否可以用鼠标选中。可以选中的文档就视为可编辑,不可选中就是不可编辑,例如图片类的资料、纸质文档扫描的pdf版本就是不可编辑。(注:可编辑中也会存在一部分“假文档”,只能跳跃性的选中局部文字,这样的文档通常清晰度低,我们就把这类的文档视为不可编辑)

 

电脑版OCR:

1. 汉王识别软件—— 



软件介绍:汉王OCR文字识别软件具有识别正确率较高,识别速度快的特点。支持批量处理功能,避免了单页处理的麻烦。汉王OCR支持处理灰度、彩色、黑白三种色彩的BMP、TIF、JPG、PDF多种格式的图像文件;具有简单易用的表格识别功能;具有TXT、RTF、HTM和XLS多种输出格式,并有所见即所得的版面还原功能。


使用特点:仅支持简体、繁体和英文三种语言,同时格式相对比较受限制。对于这款软件的使用建议识别格式较简单、字体(全篇纯汉字)较清晰的文档;虽然支持批量处理,但是对于页数数量比较庞大的不建议使用。剪刀工具可以剪切扫描的一些黑色阴影等。

 

2. 尚书7号识别软件—— 


大家可以看出尚书7号和汉王很像,那是因为尚书7号OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权的。尚书七号OCR软件适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。



软件介绍:尚书7号识别软件除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。对于表格识别可以自动判断、拆分、识别和还原各种通用型印刷体表格。可支持繁体WINDOWS系统。


使用特点:尚书7号是建立在汉王的基础上,所以很多都很相似。识别的字体种类较多,但是识别的语种还是主要以汉英为主。对于此款软件建议使用于简单识别格式较简单、字体较清晰的文档。剪刀工具同样很实用。

 

3. 清华识别软件—— 



软件介绍:清华识别软件能够适应超过一百种Windows字体,识别全部简体国标一二级6763个字符,繁体13000多字符;识别彩色图象,并转换成带有彩色图片的RTF格式(WORD可编辑)。并且支持多任务,可以在识别一篇文章的同时扫描或编辑其它文档。对于每个区域可以设定不同的字体。版面分析前根据实际情况选择“报纸版面”或“杂志版面”可以提高版面分析正确性。对一般文本识别扫描分辨率用300DPI比较合适,别小于5号的字可选400DPI。选择“简体全字集”或“繁体全字集”,能够识别更多的字体和全部字符集,但识别速度较慢。


使用特点:清华软件首先不支持文档直接拖拉,格式比较受限制(仅支持tif、bmp、pcx、fax、jpg),语种设置中除了中英还包含日和韩。建议使用于比较清晰格式单一的单页文档。尤其是很对繁体的纯文档效果还是很不错。

 

4. 赛酷OCR—— 



软件介绍:赛酷OCR是首款基于互联网的OCR识别软件,赛酷OCR是集文字识别、表格识别、公式识别于一体的办公软件,可直接识别扫描仪、数码相机、一体化机、拍照手机扫描的各类文档图像或PDF,并对识别结果进行版面重构;是一款图片转WORD,图片提取文字的识别工具。


使用特点:需要连接互联网注册使用,精确的版面自动分析、倾斜的文档自动校正;支持多种图像文件格式(BMP、JPG、TIF、多页TIF、PDF等);可自主设定识别区域,设定竖版、单栏、图像、表格、公式局部定义;可去除印章,图像修正(擦除、连线、图像平衡);持批处理识别;

 

5. 捷速OCR—— 



软件介绍:捷速OCR软件可以通过电子设备(例如扫描仪或数码相机)将纸质文档录入到电脑中,支持JPG、GIF、PNG、BMP、TIF图片文件格式拖曳上传;可以通过系统直接打开,也可以打开文件所在目录;支持PDF源文件和扫描件:识别前对页面的分析、识别时对文件的预览及修改、识别后直接打开即可进行编辑的超强功能。图片转换成word,图片转换成文字,扫描文件转换成word等。


使用特点:支持图片转换成WORD、图片转换成文字等可编辑文字,一键转换!支持多种格式。需要购买注册才可使用,语种比较受限制。对于简单的文档识别率相对来说较好。如果复杂的文档不建议使用。

 

6. Leadtools OCR—— 


LeadTools OCR文字识别引擎是一种光学字符识别软件开发工具包(SDK),它可以为开发人员、集成商、业务流程外包商(BPO)和原始设备制造商(OEM)提供强大、简单易用的控件,从而非常容易的将OCR技术集成到应用和设备中。



使用特点:支持超过40多种语言,针对图片不可编辑的文档,识别率都相当高,支持自动矫正功能,将扫描结果保存为 PDF、 PDF/A、 DOC/DOCX、 XPS、 EXCEL、 RTF等,对于报告等复杂的种类可以系统扫描进行编辑存档。此软件需要购买后方可使用。

 

7. Solid Converter Pdf v9—— 



软件介绍:SolidConverter PDF是一套专门将pdf文件转换成word的软件, SolidConverter PDF除了转换成word文件外,还可以转换成RTF以及WordXML文件。Solid Converter PDF号称是PDF转为WORD的最好软件。


使用特点:SolidConverter Pdf v9针对可编辑的pdf文档,可以处理成和原文的格式一致,并且识别率很高。支持多国语言兵器能够识别成多种格式(word、ppt、excel等),Solid Converter Pdf v9 也可以支持不可编辑的pdf文档,但是不可以手动圈选,效果相对较差。


8. ABBYY FineReader 12—— 



软件介绍:ABBYYFineReader识别率极高,可以在同一页面手动划分不同的区块,每一个区块也可以分别设置表格或文字;包含简体、繁体、英文、数字、多国小语种等。可以保持原有表格格式:省去二次编辑。跨页识别表格时,选择识别为EXCEL”ABBYY可以将表格连在一起,产出的是一整个excel文件,分析起来就方便多了。歪斜校正之类的许多图片校正方式,即使扫描得歪了,或者因为书本太厚而导致靠近书脊的部分文字扭曲,都可以校正回来。


使用特点:ABBYY是一款比较强悍的识别软件,支持 179 种语言(仅912版支持俄语),操作简单,支持批量处理文件,对于复杂的格式也可以一一应对,支持多种保存的格式,同时可以通过文档布局来调整所需格式,无论是图片表格文本都可以识别。此款软件试用于不可编辑的文档和图片等。


9. Nitro Pro 10—— 



软件介绍:Nitro Pro是由ArtsPDF出品一款多功能PDF制作与管理软件,支持PDF的全部特性,用户可以自由进行添加注释、补充内容和作者、数字签名、全文编辑等操作,除标准的PDF阅读功能(阅读、注释、导航、表单)外,Nitro Pro 10提供的新建功能还可将Word文档、HTML档、文本文档、图像档等转换到PDF格式,然后利用内置的模块进行多样化的编辑。安装中,Nitro还会自动安装一个名为NitroPDF Creator的虚拟打印机,让用户可以轻松制作PDF文件。


使用特点:Nitro Pro支援分页浏览,不需开启多个窗口就能同时浏览、编辑数个 PDF 文件;附加安装在WordPowerPointExcel中的增益集可让您快速将 Office 文件转换成PDF 文件; PDF 虚拟印表机可将任何应用程式的文件转换成 PDF 文件;整合到文档总管中的滑鼠右键快显功能表,可让您方便快速转换 PDF;可将数个支持的文档类型合并成一个 PDF 文件。可将 PDF 文件转成WordText,或摘取出PDF 文件中的文字与图片。完整的编辑功能(书签、链结、浮水印、文字框、图片、注解、萤光标示、印章、密码保护…)但是对于不可编辑的文档不建议使用。

 

手机版ocr:

1. 涂书笔记—— 


软件介绍:涂书笔记,免费的纸质书文字摘录APP,采用了百度OCR文字识别技术打造。用手机拍下书中文字,选出要摘录的部分,即可自动转化为电子文本,供用户随时随地阅读,随心编辑和分享。云储存,笔记永不丢失;手机、Pad、电脑多端同步。


使用特点:软件目前只支持横屏拍照识别,所以我们把手机横过来,摄像头对准要拍照的书籍、杂志甚至PPT也可以。拍照后,用手指在需要文字识别的地方涂抹。本款软件只支持中英两种语言,识别率较高,但是只试用于小范围。在记笔记的同时,可以随手记下自己的感悟。推荐给那些喜欢读书的并且随手记录的同仁们。


2. ABBYY TextGrabber—— 



拍照识别翻译APP(ABBYYTextGrabber)是一款易于使用的应用程序,只需在任何印刷源上对您感兴趣的文本进行拍照,然后选择所需的选项即可。这都归功于 ABBYY 的Mobile OCR 技术,TextGrabber + Translator 可为您提供高质量的效果并在几秒钟内识别超过 60 种语言的任何平文本。此应用程序支持超过 40 种语言的全文本翻译,并可以与 Lingvo Dictionaries 应用程序集成,让您访问最新的综合词典,帮助您翻译不熟悉的词语。您也可以在应用程序内直接搜索互联网,以查找有关任何您不熟悉的字词或条目的附加信息。


使用特点:文本识别和应用程序的执行都不需要互联网连接;可翻译 40 多种语言(需要互联网连接);在应用程序内将识别的文本发布至 Facebook、DropBox,Twitter 和 Evernote;可编辑捕捉的文本或将其复制到剪切板以便粘贴到其他应用程序;可在互联网上搜索已识别文本或其部分文本的附加信息;所有捕获的文本都将备份在历史文件夹中以便在您方便的时候打开和编辑;手机版通常试用于小范围、格式简单、纯文本,并且不支持批量转换。


在线版ocr:

Super Tools

网址:http://www./



1. TextConv—— 



软件介绍:TextConv是SuperTools中的一款在线识别软件,可以将图片和pdf文档识别成可编辑pdf和word文档。在免费的范围内仅支持小于1M文件。免费用户不支持批量上传。收费最多可达300份图片,Pdf总大小200M文件。易于操作,方便使用。


使用特点:TextConv使用比较方便,操作简单,一键识别。仅支持三种格式(png、jpg、pdf),转换结果支持两种(可编辑pdf、word);识别结果word和原文格式基本一致,但是内容被分割多块;不支持小语种;建议针对小文档来使用。

 

2. Pdf to word—— 




软件介绍:Pdf to word是Super Tools中的一款在线识别软件,仅支持pdf转word。在免费的范围内仅支持小于1M文件,收费可上传总大小200M的PDF文档,不支持批量转换。操作简单,方便使用。


使用特点:Pdf to word使用比较方便,操作简单,一键识别。仅支持pdf格式,转换成word(doc、docx;docx响应速度比较快、体积小、支持复杂公式、图片的编辑等);识别结果word和原文格式基本一致,精确性比较高;识别的内容又多个文本框构成。不支持小语种。

 

3. OCR image to txt

网址:http://cn./OCR/



软件介绍:OCR image to txt是一款只支持图片转成TXT的在线识别软件,操作简单一键完成。选择图片后直接等待,直接生成压缩包。


使用特点:OCR image to txt不支持拖拽功能,并且使用受限制;只支持图片转txt;转换时间长,适用于清晰文本图片。不支持小语种的识别。

 

4.

http://www./



软件介绍:是一个免费的在线OCR(光学字符识别)服务,可以分析文本在任何图像文件上传,然后将文字从图像转化为文本,你可以很容易地在您的计算机上编辑,支持识别JPEG, PNG, GIF, BMP,TIFF, PDF, DjVu上的文字。


使用特点:支持多种语言,同时支持多种格式,使用方便,但是对于格式复杂的效果一般;所以建议主要用于格式简单字体清晰的版本。

 

5. Free Oline OCR

网址:://www.free-online-ocr.com/



软件介绍:

FreeOline OCR是一款在线的免费识别软件,让您轻松扫描的文档,PDF文件、发票、截图和照片成可编辑和可搜索的文本。


使用特点:

精确的图像转换为文本;保持布局和格式;支持PDF格式,GIF,BMP,JPEG,TIFF或PNG作为输入;支持DOC,PDF,TXT或RTF格式输出;自动旋转页面;支持低分辨率图像;保持一个扫描的PDF图像层;在线使用-无需安装;针对识别可编辑文档,识别效果较好。

 

小编介绍了十多种OCR软件,包含PC版、手机版、在线版。不知大家消化了多少!大家可以根据自己文档特点来进行选取。最后小编送给大家一些温馨提示,对于可编辑的文档我们建议选择“Solid Converter Pdf v9”、“NitroPro”,对于不可编辑的文档建议选择“ABBYY FineReader”,针对需要编辑的文档建议使用“Nitro Pro”。手机版建议使用于小范围内!对于格式简单的而且容易处理的就建议使用在线版,这样既省时又省事。


希望这些工具对大家的日常工作能有所帮助!!


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多