DeepSeek OCR2

文档识别引擎

为真实文档而生的 OCR

deepseek ocr2：让识别结果真正可用

兼顾速度与准确率，扫描件、照片、票据都能稳定识别。

输出结构化字段与位置关系，支持快速接入业务流程。

立即体验查看 OCR2 API

多语种识别表格抽取版式保留

99.2%

字符准确率

180ms

平均延迟

50+

支持文档

OCR2 控制台

Live

识别结果

INVOICE 2471 · TOTAL: $4,820.00 · DUE: 2025-05-24

输出包含置信度与坐标框，便于复核。

版式重建

12 columns · 4 sections

标题、分栏与表格结构保持一致。

导出格式

CSV / JSON / PDF

JSON / CSV / 可检索 PDF

核心能力

识别能力一览

围绕真实文档场景，强调稳定输出与可复用结构。适合票据、合同、报表等高频文档，既能批量处理，也能保留关键结构，便于后续核验与追踪。

稳健文字识别

低清、倾斜、噪点场景也能输出一致结果。

版式理解

保留阅读顺序与位置信息，支持多栏与复杂版面。

表格与表单

无需模板即可还原表格结构与键值对。

质量信号

置信度、坐标框与校验字段便于自动审核。

安全与审计

保留识别轨迹，支持脱敏与审计回放。

弹性部署

支持公有云、混合云与私有化部署。

流程

从扫描到结构化数据

接入文档

API 批量上传或同步扫描目录。

识别与解析

一次完成文字、表格与版式解析。

核验与回写

用置信度与规则校验结果。

导出与落库

输出 JSON、CSV 或检索 PDF。

性能

速度与准确兼得

即使在高并发场景，也能保持识别稳定与响应速度，适合持续批量处理，输出更稳定便于核验。

97.4%

表格准确率

基于复杂票据与报表评测。

30+

多语言支持

混合语种也能保持稳定。

12k 页/小时

批处理吞吐

标准 A4 扫描件评测。

论文解读

从论文视角理解 OCR2

如果用论文思路审视 deepseek ocr2，重点在于编码器设计、视觉 token 流动与评测口径是否贴合业务文档。

DeepEncoder V2 以 LLM 风格编码器替换 CLIP，引入 causal flow queries 做语义重排。

视觉 token 仍保持双向注意力，causal queries 使用因果注意力，重排后仅后半部分输入解码器。

论文在 OmniDocBench v1.5 上报告相较 DeepSeek-OCR 整体 +3.73% 增益。

视觉 token 预算限定在 256–1120，兼顾压缩率与解码效率。

训练数据中 OCR 占比约 80%，并采用三阶段训练：编码器预训、query 增强、解码器专化。

支持动态分辨率推理，768/1024 多裁剪混合输入更适合复杂文档。

OmniDocBench 指标

TextEdit

文本编辑距离，衡量阅读正确性。

Formula CDM

公式识别的一致性衡量。

Table TEDS

表格结构相似度评估。

R-order Edit

阅读顺序的编辑距离指标。

提示词示例

保留版式

<image>\n<|grounding|> Convert the document to markdown.

纯 OCR

<image>\nFree OCR.

论文 PDF Hugging Face 模型卡 GitHub 仓库

场景

适合这些真实业务

覆盖票据、合同、物流与知识归档等场景。适合需要高质量检索与复核的团队，并支持持续批量处理与阶段性抽检。

票据自动化

提取抬头、金额、税率与明细字段。

合规归档

文档可检索、可审计，回溯成本更低。

物流单据

规范提单、清关与签收字段。

知识数字化

把纸质资料变成可搜索的知识库。

FAQ

常见问题

支持多语种混排吗？

支持。识别时会自动区分不同语种。

可以私有化部署吗？

可以，支持私有化与混合部署方案。

如何评估识别效果？

建议用真实票据建评测集，按字段精度验证。

支持哪些文件格式？

图片、PDF、扫描件与多页文档均可。

准备上线

让 OCR2 成为你的识别底座

从识别到结构化输出，一步接入业务流程。

申请试用查看接入指南