核心能力
识别能力一览
围绕真实文档场景,强调稳定输出与可复用结构。适合票据、合同、报表等高频文档,既能批量处理,也能保留关键结构,便于后续核验与追踪。
流程
从扫描到结构化数据
接入文档
API 批量上传或同步扫描目录。
识别与解析
一次完成文字、表格与版式解析。
核验与回写
用置信度与规则校验结果。
导出与落库
输出 JSON、CSV 或检索 PDF。
性能
速度与准确兼得
即使在高并发场景,也能保持识别稳定与响应速度,适合持续批量处理,输出更稳定便于核验。
97.4%
表格准确率
基于复杂票据与报表评测。
30+
多语言支持
混合语种也能保持稳定。
12k 页/小时
批处理吞吐
标准 A4 扫描件评测。
论文解读
从论文视角理解 OCR2
如果用论文思路审视 deepseek ocr2,重点在于编码器设计、视觉 token 流动与评测口径是否贴合业务文档。
DeepEncoder V2 以 LLM 风格编码器替换 CLIP,引入 causal flow queries 做语义重排。
视觉 token 仍保持双向注意力,causal queries 使用因果注意力,重排后仅后半部分输入解码器。
论文在 OmniDocBench v1.5 上报告相较 DeepSeek-OCR 整体 +3.73% 增益。
视觉 token 预算限定在 256–1120,兼顾压缩率与解码效率。
训练数据中 OCR 占比约 80%,并采用三阶段训练:编码器预训、query 增强、解码器专化。
支持动态分辨率推理,768/1024 多裁剪混合输入更适合复杂文档。
TextEdit
文本编辑距离,衡量阅读正确性。
Formula CDM
公式识别的一致性衡量。
Table TEDS
表格结构相似度评估。
R-order Edit
阅读顺序的编辑距离指标。
提示词示例
保留版式
<image>\n<|grounding|> Convert the document to markdown.
纯 OCR
<image>\nFree OCR.
场景
适合这些真实业务
覆盖票据、合同、物流与知识归档等场景。适合需要高质量检索与复核的团队,并支持持续批量处理与阶段性抽检。
票据自动化
提取抬头、金额、税率与明细字段。
合规归档
文档可检索、可审计,回溯成本更低。
物流单据
规范提单、清关与签收字段。
知识数字化
把纸质资料变成可搜索的知识库。
FAQ
常见问题
支持多语种混排吗?
支持。识别时会自动区分不同语种。
可以私有化部署吗?
可以,支持私有化与混合部署方案。
如何评估识别效果?
建议用真实票据建评测集,按字段精度验证。
支持哪些文件格式?
图片、PDF、扫描件与多页文档均可。