扫描文件还不会用百度网盘，鸡哔你！

laoyu2012 2023-09-01 发布于北京

展开全文

文件再多我不怕不怕啦！用网盘扫一扫，高清储存随取随用没烦恼！

在日常生活办公中，你是否临近材料提交，需要文件扫描件，却找不到扫描仪？你是否在需要提交照片时，觉得直接拍照发送显得不正式？你是否合同、文件资料堆积成山，要用的时候又找不到？

用扫描界的“显眼包”百度网盘，不跑打印店、不需要用扫描仪、不会找文件时焦头烂额，一部手机搞定你的所有扫描需求！随时随地用手机快速扫描文件，就能高清记录、安全备份、智能搜索，更加符合学生党和打工人体质！

始于需求提效神器了解一下

🌟打印神器：扫描一下，弯曲变平整

借阅老师、同学的书籍资料，拍照之后有弯曲部分？不要怕！为了让用户能够顺畅使用功能，百度网盘把多种功能集成到了一起，即使是弯曲褶皱的文档，都能还原成平整的扫描件，哪怕随手拍的照片，都能拯救回来。

如果不小心把手指头也拍进去了？不用担心！网盘扫一扫，轻松GET手指消失术！

🌟刷题神器：扫描一下，试卷去手写

很多学生党还有家长反馈，做过的试卷，能不能把手写和批改的部分擦掉？没问题，安排！百度网盘扫完直接清除字迹，帮你快速获得空白卷，一键打印、反复练习！

🌟复习神器：扫描一下，笔记变文档

学习资料、课堂PPT，扫描也能直接生成电子版文字。省去一个一个字敲、记录课堂板书的时间。不管是电子版资料，还是手写笔记！百度网盘统统帮你提取出来！表格还能还原版式！

陷于实力我的扫描超乎你想象

✨超清镜头：随手一拍 4K大片

用网盘拍照打印怕不清晰？不存在的！只要手机随手一拍，就能像扫描一样，最高分辨率还可以达到4k。技术同学和各类bug场景死磕到底，强大扫描功能可以解决阴影祛除、扭曲矫正、清晰度增强和屏纹祛除等多种需求痛点。

✨超准输出：各类文字智能识别

文字识别是大家使用非常频繁的功能，而文字提取的实际场景比较复杂，字体、语种、字符类别多样，大家可以先自行感受一下，有木有觉得头晕眼花！

以前的OCR识别主要依赖人工标注，要标注大量的数据，人工成本和难度都非常高。针对这个问题，百度网盘采用了预训练技术，来提升模型的效果。

现有的预训练方案主要有两种：1）强监督预训练；2）自监督预训练。接下来我们一起了解它背后的技术原理。

强监督预训练

强监督预训练通常通过数据生成的方式生成大量的合成数据做预训练，并结合少量真实数据finetune 的方式来提升识别精度。生成数据可以很好解决数据样本少的问题，并能通过大量的语料，让模型学习更多的文本语义信息。然而，受限于真实场景的复杂程度和数据生成技术的效果，生成的数据和真实场景往往存在较大的差异性。因此通过合成数据预训练的方式，对模型识别精度提升存在着瓶颈。

强监督预训练方案

自监督预训练

近年来无监督学习技术的发展，为大规模无标签真实数据利用带来了可能性。Mask Image modeling 和 contrastive learning 技术被广泛地用于视觉任务中，以从无标签真实数据中学习视觉表征。虽然目前的自监督预训练能够很好利用大量的无监督数据，以学习良好的视觉表征，但是却忽略了对文本语义的建模。

自监督预训练方案

针对OCR识别存在的难点，以及当前技术方案存在的痛点，百度OCR首次提出了基于视觉和语义多模态预训练的方案 VIMER-MaskOCR。

VIMER-MaskOCR同时兼顾了视觉表征的学习和文本语义的建模，有效解决了目前方案中存在的缺陷。VIMER-MaskOCR 的技术创新和优势主要体现在以下方面：

· 兼顾视觉特征表示和文本语义建模的预训练方案，并统一到经典的encoder-decoder 识别架构中。

· 基于亿级别的真实数据和合成数据预训练，VIMER-MaskOCR 将识别精度提升到了一个新的高度。

这里主要介绍下兼顾视觉特征表示和文本语义建模的预训练方案。

针对目前预训练方案存在的合成数据和下游任务差异大，以及忽略文本语义建模的问题，百度创造性地提出了图像文本多模态，自监督和强监督结合的预训练范式。通过使用Mask Image Modeling (MIM) 在大量的真实数据上面预训练encoder，以使encoder具备提取较好的视觉表征的能力。

同时，使用Mask Vision Language Modeling (MVLM) 的方式在合成数据上面预训练decoder，使decoder能够建模文本语义。此外，为了避免合成数据对encoder产生干扰，在训练decoder的时候，通过固定住encoder的参数，即保留了encoder在真实数据上面提取良好视觉表征的能力，同时也兼顾了语义的建模。

基于VIMER-MaskOCR底座大模型，百度网盘在各种类型的文字识别上效果提升显著，一起来看看效果：

✨超强大脑：复杂排版一键还原

考虑实际使用场景，很多时候我们的试卷、文档里面有时候排版比较复杂，这个时候，想要生成电子版文字，需要精准输出的难度会比较大。现在复杂的排版，百度网盘都能帮你还原回来。

百度网盘引入了百度视觉技术部首创提出的“单模态图像输入、多模态知识学习”预训练框架，具有超强的语义结构化信息理解能力，是业界首个OCR全任务基础预训练模型——VIMER-StrucText 2.0。

VIMER-StrucTexT 2.0

VIMER-StrucTexT 2.0避免了传统OCR + NLP的两阶段算法导致的优化效率低下的问题，真正做到一个模型输出OCR全任务结果，包括文档图像分类、文档版式分析、表格结构解析、文档端到端OCR和端到端信息抽取任务。相关论文已被国际顶级会议ICLR 2023接收。

VIMER-StrucTexT 2.0获得的显著性能提升，主要来源于模型的Hybrid骨架结构、自监督预训练任务以及亿级别预训练数据，从而更好地学习到了多模态信息之间的关联以及特征表达。

Hybrid神经网络结构

Hybrid神经网络结构，它的主体由卷积神经网络以及带有自注意力机制的Transformer网络组成。卷积神经网络主要负责捕捉输入图像的视觉特征，Transformer网络则主要负责捕捉输入图像的语义上下文特征。

它的优势在于：一是在输入阶段仅仅只需要图像输入，网络利用卷积神经网络以及Transformer网络来捕捉不同模态信息，并实现多模态信息的深度融合。相比于其他多模态方法需要通过OCR引擎来获得文本结果作为输入，VIMER-StrucTexT 2.0的输入更加简洁。二是利用多模态信息，进一步加深模型对于输入文档信息的理解。

如上图所示，模型首先将文档图像作为输入，使用卷积神经网络进行特征提取以及降低图像特征尺度，然后再将图像特征交给Transformer网络进行语义提取，最终将图像特征以及语义特征融合，供下游任务使用。

自监督预训练任务

VIMER-StrucTexT 2.0 预训练环节采用的是在 CV&NLP 领域被广泛应用的 Mask-Predict 机制。预训练流程包括四个环节：

1）基于网络公开数据抓取超 1 亿张文档图像数据，采用百度高精度OCR服务进行文字检测和识别，保留高置信度文字信息（包括文本内容和位置）；

2）对文档图像的文本区域进行随机掩码，并输入给编码器进行特征编码；

3）利用文字位置信息对掩码的文本区域通过ROI操作提取相应的特征，得到每个文本区域的表征信息；

4）最后将表征信息分别输入给两个掩码预训练任务进行图像重建（采用图像生成模型设计方式，还原被掩码的文本区域图像）和文本推理（利用文本区域表征信息直接预测被掩码区域中的文本内容），通过大数据的加持能够让编码器充分学习到文档多模态知识。

基于这套底层技术方案，使得版面分析与图片转word效果得到了明显的提升，下面看实际应用的效果：

图片转word效果

忠于扫描却不止于扫描

🤖️会提取：视频课件一键生成PDF

结合学习中的实际应用场景，很多用户在网盘上学习网课的时候，想要提升效率，希望能把视频里的课件提取出来。