1.书籍中的文字电子化 1、OCR技术文献数字化:基于OCR技术的文字识别软件,可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可供计算机识别和处理的文本信息。与传统录入方式相比,OCR技术极大的提高了资料存储、检索、加工的效率。 2、OCR技术的特点: 与传统的手工资料录入方式相比,文通文字识别软件有以下优势: (1)效率高,其速度是人工录入的上百倍甚至上千倍; (2)经济性好,大大节约了录入人员的开销; (3)准确性更高,根据数据统计显示,OCR录入方式的准确率远高于人工录入。 3、OCR的技术支持,文字识别软件 2.手写文字数字化 1)图文输入 是指通过输入设备将文档输入到计算机中也就是实现原稿的数字化。在用得比较普遍的设备是扫描仪。文档图像的扫描质量是OCR软件正确识别的前提条件。恰当地选择扫描分辨率及相关参数是保证文字清楚、特征不丢失 的关键。 2)预处理 扫描一幅简单的印刷文档的图像将每一个文字图像分检出来交给识别模块识别这一过程称为图像预处理。预处理是指在进行文字识别之前的一些准备工作包括图像净化处理去掉原始图像中的显见噪声干扰。 3)单字识别 单字识别是体现OCR文字识别的核心技术。从扫描文本中分检出的文字图 像由计算机将其图形、图像转变成文字的标准代码是让计算机"认字"的关 键也就是所谓的识别技术。 4)后处理 后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配 即将单字识别的结果进行分词与词库中的词组进行比较以提高系统的识别 率减少误识率。 |
|
来自: 昵称47118512 > 《教育技术》