DeepSeek OCR2

文档识别引擎

为真实文档而生的 OCR

deepseek ocr2:让识别结果真正可用

兼顾速度与准确率,扫描件、照片、票据都能稳定识别。

输出结构化字段与位置关系,支持快速接入业务流程。

多语种识别表格抽取版式保留

99.2%

字符准确率

180ms

平均延迟

50+

支持文档

OCR2 控制台

Live

识别结果

INVOICE 2471 · TOTAL: $4,820.00 · DUE: 2025-05-24

输出包含置信度与坐标框,便于复核。

版式重建

12 columns · 4 sections

标题、分栏与表格结构保持一致。

导出格式

CSV / JSON / PDF

JSON / CSV / 可检索 PDF

核心能力

识别能力一览

围绕真实文档场景,强调稳定输出与可复用结构。适合票据、合同、报表等高频文档,既能批量处理,也能保留关键结构,便于后续核验与追踪。

稳健文字识别

低清、倾斜、噪点场景也能输出一致结果。

版式理解

保留阅读顺序与位置信息,支持多栏与复杂版面。

表格与表单

无需模板即可还原表格结构与键值对。

质量信号

置信度、坐标框与校验字段便于自动审核。

安全与审计

保留识别轨迹,支持脱敏与审计回放。

弹性部署

支持公有云、混合云与私有化部署。

流程

从扫描到结构化数据

1

接入文档

API 批量上传或同步扫描目录。

2

识别与解析

一次完成文字、表格与版式解析。

3

核验与回写

用置信度与规则校验结果。

4

导出与落库

输出 JSON、CSV 或检索 PDF。

性能

速度与准确兼得

即使在高并发场景,也能保持识别稳定与响应速度,适合持续批量处理,输出更稳定便于核验。

97.4%

表格准确率

基于复杂票据与报表评测。

30+

多语言支持

混合语种也能保持稳定。

12k 页/小时

批处理吞吐

标准 A4 扫描件评测。

论文解读

从论文视角理解 OCR2

如果用论文思路审视 deepseek ocr2,重点在于编码器设计、视觉 token 流动与评测口径是否贴合业务文档。

1

DeepEncoder V2 以 LLM 风格编码器替换 CLIP,引入 causal flow queries 做语义重排。

2

视觉 token 仍保持双向注意力,causal queries 使用因果注意力,重排后仅后半部分输入解码器。

3

论文在 OmniDocBench v1.5 上报告相较 DeepSeek-OCR 整体 +3.73% 增益。

4

视觉 token 预算限定在 256–1120,兼顾压缩率与解码效率。

5

训练数据中 OCR 占比约 80%,并采用三阶段训练:编码器预训、query 增强、解码器专化。

6

支持动态分辨率推理,768/1024 多裁剪混合输入更适合复杂文档。

OmniDocBench 指标

TextEdit

文本编辑距离,衡量阅读正确性。

Formula CDM

公式识别的一致性衡量。

Table TEDS

表格结构相似度评估。

R-order Edit

阅读顺序的编辑距离指标。

提示词示例

保留版式

<image>\n<|grounding|> Convert the document to markdown.

纯 OCR

<image>\nFree OCR.

场景

适合这些真实业务

覆盖票据、合同、物流与知识归档等场景。适合需要高质量检索与复核的团队,并支持持续批量处理与阶段性抽检。

票据自动化

提取抬头、金额、税率与明细字段。

合规归档

文档可检索、可审计,回溯成本更低。

物流单据

规范提单、清关与签收字段。

知识数字化

把纸质资料变成可搜索的知识库。

FAQ

常见问题

支持多语种混排吗?

支持。识别时会自动区分不同语种。

可以私有化部署吗?

可以,支持私有化与混合部署方案。

如何评估识别效果?

建议用真实票据建评测集,按字段精度验证。

支持哪些文件格式?

图片、PDF、扫描件与多页文档均可。

准备上线

让 OCR2 成为你的识别底座

从识别到结构化输出,一步接入业务流程。