![]() 打开今日头条查看图片详情
以上是对DeepSeek-OCR的一个快速理解,这篇文章,我不去关注这项技术多牛逼和以及怎么实现的等相关的问题,更多的是站在产品经理实用的角度去理解DeepSeek-OCR,我将重点理解清楚如下几个问题: 1.DeepSeek-OCR到底解决了哪些目前存在的行业问题和痛点?与传统OCR的区别? 2.DeepSeek-OCR的性能和表现数据如何? 3.从应用层的角度看DeepSeek-OCR将影响哪些应用场景? 4.技术社区和专家观点评价 5.DeepSeek OCR将带来哪些行业思考? 6.企业和AI应用怎么使用? 1.DeepSeek-OCR解决了什么行业问题?1.AI应用领域目前存在的行业痛点在实际的AI应用场景中,特别是办公场景,相信大家有大量的应用场景是跟文档(包括PDF和word文档等)有关的,比如阅读文档、基于文档的内容生成等,大模型在文档处理这个领域的技术,会影响到相当多的AI应用和使用场景,因此这个领域的痛点,也是一个普遍存在的行业痛点。 只要是做过跟文档处理相关的 AI 应用的朋友,都会知道文档处理是一个充满技术挑战的难题。以 AI 快研侠在实现 AI生成报告的场景为例,我们主要遇到了如下3个问题: 1)文档内容识别和信息提取问题 大家平时提交给大模型和AI应用的大部分文档里面,有很多是以PDF或者Word的格式存在的,通常这些文档里面可能不仅仅只有文字,还可能存在图片、图表、表格等比较复杂的内容。 这些内容大模型是无法直接识别和理解的,通用大模型目前只能处理文本信息的内容,所以现有的AI读文档的应用,实现机制大部分是只提取文档中的文本内容,然后把它们提交给大模型用于内容生成,而其中的图片、表格、图表这些基本上会被忽略,这就很容易导致信息丢失从而影响AI应用的效果的问题。 可是如果想要去识别这些信息,现有的方式主要是通过OCR和多模态大模型来处理,将信息提取转来转换成文本之后交给大模型,然而,这种方式的识别成本非常高,除了面向企业的应用场景有可能会使用之外,普通面向C端的产品基本不太可能使用这种方式来实现。 2)生成成本巨大和处理时间很长的问题 基于文档生成的场景还有一个普遍存在的问题,就是生成成本巨大的问题,比如大家随便上传几个文档,可能字数就会超过十几万字,和AI聊天的场景等不同的是,生成一篇长文的时候,其token的消耗很容易就会达到百万级别的消耗,所基于文档生成的场景也是一个非常消耗成本的应用场景。 因为处理的文件数量和字数比较多,所以也通常导致了模型需要很长时间去处理的问题,最后导致的结果就是生成文本的时候,用户需要更多的等待时间,从而影响用户的体验。 3)超长文本情况下,大模型出现失忆的问题会更严重 大家都知道,大模型存在上下文长度的窗口,一旦输入的内容太长,大模型就很容易出现失忆的情况,相信大家也经常会遇到,在使用chatgpt类产品用于文档对话问答的情况下,常常会出现对话了几轮之后模型就出现了失忆的情况,所以,失忆的问题也是AI应用场景经常需要面临的挑战。 2. DeepSeek OCR 如何解决以上的行业问题?1)DS-OCR采用将文本“画”成图像再压缩读取的方式解决内容识别问题 对于文档内容识别的问题,DeepSeek OCR采用了光学压缩的机制来实现,该机制的实现方式是:
这个方式相比传统OCR的识别方式,可以做到在保证识别率精度的情况下,把识别成本进一步压缩的更低,DeepSeek-OCR 的实验数据显示,在 10 倍压缩率下(例如,把一篇 1000 个词的文章压缩成 100 个视觉 token),原文的恢复率高达 97%,几乎做到了无损。 对于AI应用开发者来说,相当于我们拥有了一种成本更低的方式去解决文档识别的问题,因此对于AI应用层来说,DeepSeek-OCR是我们听到的福音; 2)“看图阅读”的方式极大提升信息处理效率,也降低了生成成本 光学压缩的方式,简单一点理解,就是用少量视觉token表示大量文本token,以此来大幅降低后续语言模型处理时的计算开销。 前面也提到,用这种方式实现的情况下,同样处理比如1000个文本token对应长度的内容(比如1700个汉字),之前的大模型处理的方式需要阅读1000个文本token,而视觉压缩的方式,只需要阅读100个视觉token,因此信息处理量明显下降,处理的效率大幅提升,同时也降低了生成成本。 通俗一点理解,这种方式的意义在于,它让AI从“逐字阅读”(处理海量的文本 token)转变为“看图阅读”(处理极少的视觉 token)。这就好比你看书时,不是一个字一个字地读,而是一眼扫过去就抓住了整页的核心内容,信息处理的效率得到了根本性的提升。 值得注意的是,前面部分节省的是OCR的成本,如果AI应用开发者放弃了支持图片和图表等信息识别的能力,这部分成本也没啥区别,但是文本处理部分是一定会发生的,Deepseek-OCR目前的机制,意味着可以让应用开发者在处理文本部分的成本就直接大幅下降(可能是降低10倍)。 3)改善大模型失忆的问题 前面提到,大模型失忆的主要问题是因为输入内容过长,超过了上下文长度而导致的,DeepSeek OCR 目前的实现方式直接通过视觉压缩的方式,可以把文本token的长度压缩10 倍,因此,这对于改善大模型失忆的问题大有裨益。 以下通过一张表清晰的对比为了解决文档识别的应用场景问题,传统的技术方案和DeepSeek-OCR方式的差异: ![]() 打开今日头条查看图片详情 一句话总结而言,DeepSeek OCR 让相当多的AI应用开发者在处理文档技术问题的时候,以更低的成本解决内容内别的问题,同时还降低了大模型文本输入的成本,提升响应的效率,以及环节了超长文本下大模型的失忆问题。 2.DeepSeek-OCR的性能和表现数据如何?1)识别精度表现:10倍压缩的情况下,几乎无损精确识别 除了压缩成本等相关的问题,大家对于DeepSeek-OCR更加高度关注的是其识别精度的问题,目前在大家相对比较认可的Fox 基准测试(一个专门测量在不同压缩率下的精确文本匹配能力的测试)中,测试结果显示: 当使用 100 个视觉 token(作为压缩预算)时:
这说明在 10 倍左右的压缩率下,模型几乎是“无损”的。 当把压缩预算降低到 64 个视觉 token(意味着压缩率更高) 时,模型的表现如下:
这符合直觉:给的“信息预算”越少,能承载的原文信息就越有限。 ![]() 打开今日头条查看图片详情 2)性能表现:达到SOTA,在OmniDocBench上表现优异 在业界公认的权威基准测试 OmniDocBench 上,deepseek-ocr取得了 SOTA(State-of-the-Art,即业界顶尖)的性能。
3)生产效率:单A100每天可处理超20万页 这个模型不仅效果好,而且“跑得快”。在生产环境中,单块 A100-40G 的 GPU 每天可以生成(处理)超过 20 万页的训练数据。这意味着它具备了大规模商业化落地的高吞吐量能力。 3.DeepSeek-OCR将影响哪些应用场景的发展?宽泛一点讲,所有跟文档识别相关的应用场景,都会受益,个人认为,重点受益的场景主要包括如下:
4.技术社区和专家观点评价1)硅谷热议,被誉为“AI的JPEG时刻” 模型一经发布,就因为它 3B(30亿)参数的“小”规模、带来的指数级效能变革以及“大道至简”的设计思想,在硅谷引发了热议。
2)DeepSeek将模型连同权重开源,实现“把贵的东西做成白菜价” DeepSeek 团队延续了他们一贯的风格,将这个强大的模型连同权重一起开源了。这相当于“把贵的东西做成白菜价”,让所有开发者都能享受到这项技术红利,这对于整个 AI 领域,特别是文档处理(Document AI)方向,是实用且重要的一步,所以也获得了广大AI应用开发者的好评; 3)争议:10倍压缩97%精度,需在实际工作负载中验证 DeepSeek 宣称的“10 倍压缩 97% 精度”是在特定基准(Fox)上测试的,这个声明是否能在用户实际的、五花八门的工作负载中同样成立,还需要大量的实践来验证。 4)争议:OCR是否已“基本解决”? 社区对于“OCR 是否已经被 LLM 基本解决了”这个问题,存在巨大争议: 正方观点(如 pietz):认为 OCR 基本解决了。例如 Gemini 2.5 Flash Lite 已经能以极低成本(1000 页/$0.20)处理多种 OCR 任务。 反方观点(如 cahaya, carschno, mormegil):坚决反驳。
有开发者(breadislove)认为,端到端的 OCR(即模型一步到位完成所有事)仍然“极其棘手”。在实际工程中,组合式的流水线(先做布局检测 -> 再做阅读顺序判断 -> 最后再做 OCR)效果往往更好。 5)挑战:Karpathy指出的不对称性、成本和生态问题 Karpathy 本人也指出了“以图为入”的几个挑战:
五、DeepSeek OCR将带来的行业思考1.使用图像作为LLM输入可能比传统文本更高效特斯拉前AI总监Karpathy评论:使用图像作为LLM输入可能比传统文本更高效,他的观点甚至挑战了“文本 token 是标准输入”这一常规假设,并暗示了“语言模型”(Language Model)未来可能会向更通用的“信息处理模型”(Information Processing Model)进化,而视觉(图像)可能是比文本更通用的信息载体,其中的原因包括: 1)一个图像patch可包含多个字符
2)图像天生支持粗体、颜色、布局等视觉元素,纯文本输入会丢失大量信息。例如,“加粗”、“红色”、“标题字体”、“段落布局”,这些信息在纯文本中要么丢失了,要么需要用 HTML 或 Markdown 这样的额外标记(markup)来描述。而图像输入天生就“看”到了这些视觉元素,信息更丰富。 3)图像输入可使用更强的双向注意力
2.突破LLM“内存限制”,使AI能处理数百页超长上下文这项技术的潜力在于,它有望突破 LLM 的“内存限制”。当 AI 能够以极高压缩率处理信息时,它就有可能用更少的算力去处理以往无法想象的超长上下文,比如几百页的财报或一整本小说。 3.未来构想:AI可将旧记忆存储为图像,实现高效信息归档一个有趣的未来构想是,AI 可以将“旧的记忆”(即久远的上下文)存储为图像,以此来实现高效的信息归档。 4.“用光学压缩模拟人类遗忘机制”,更好的解决计算资源的问题这个构想进一步被比作人类的“遗忘曲线”,模拟了自然的记忆和遗忘过程:
这种“文本遗忘”机制,是平衡无限上下文信息和有限计算资源的一个早期研究方向,未来可能带来巨大突破。 六、企业如何部署和使用?DeepSeek-OCR 不仅仅是一个研究模型,它提供了清晰的使用和部署路径。 1.DeepEncoder支持多种具有固定token预算的“原生分辨率”模式 模型提供了多种“档位”供开发者选择,让你可以根据需求平衡成本和性能。这些被称为“原生分辨率”模式:
2.DeepEncoder还支持“动态分辨率”模式(Gundam)除了固定档位,它还支持一种更强大的“动态分辨率”模式(Gundam),这种模式会混合平铺的“局域视图”(看清细节)和“全局视图”(看清整体布局)。
3.官方建议1.对于典型文档(报告、书籍),建议从Small模式(100 tokens)开始测试 在实际评估时,官方给出了建议:
2.对于包含密集小字体或极高token数的页面,应使用Gundam模式 如果你的业务场景非常极端,比如页面上塞满了密密麻麻的小字体,或者单页的 token 数极高,那么应该使用Gundam 模式。Gundam 模式结合了全局和局域视野,并提供了明确的 token 预算,专为复杂场景设计。 3.通过二次模型调用(需提示词),模型能对复杂结构的内容进行深度解析和推理 需要注意的是,该模型还可以支持图表、几何图形、化学公式等复杂元素的深度解析和推理,通常需要通过“二次调用”并配合特定的提示词(Prompt)来实现,具体可以后续大家需要的时候详细体验和关注,其中包括:
同时官方也提供了一些提示词示例如下:
4.模型已开源,Hugging Face和GitHub提供了部署指引模型的部署门槛相对较低:
以上为我站在产品经理角度,对于当下大家热评的DS OCR的一些理解和观点 |
|
|
来自: mrjiangkai > 《我的图书馆》