コア機能
deepseek ocr2 の強み
速度・精度・運用性を重視した6つの柱。
フロー
スキャンから構造化データまで
取り込み
APIでPDF・画像を一括登録。
認識・解析
文字、表、レイアウトを一度に抽出。
検証
信頼度とルールで結果をチェック。
出力
JSON / CSV / PDFで連携。
性能
速さも精度も妥協しない
高負荷でも安定したレイアウトと応答を維持。
97.4%
表の精度
請求書や報告書で評価。
30+
多言語対応
混在文書でも安定。
12k ページ/時
バッチ処理
A4スキャン基準。
論文メモ
論文ベースで見る OCR2
OCR2 は causal flow と token 再配置、ドキュメント評価に主眼が置かれています。
DeepEncoder V2 は CLIP を LLM 風エンコーダに置き換え、causal flow queries を導入。
視覚 token は双方向注意、causal query は因果注意を使い、その出力のみがデコーダへ。
論文では DeepSeek-OCR 比で OmniDocBench v1.5 にて 3.73% 改善と報告。
視覚 token の上限は 256〜1120 に制約し、コストと精度のバランスを取る。
OCR データ比率は約 80%。3 段階学習(事前学習→クエリ強化→デコーダ特化)。
動的解像度推論でサイズ混在文書に対応。
TextEdit
テキスト編集距離で正確性を評価。
Formula CDM
数式の整合性指標。
Table TEDS
表構造の類似度評価。
R-order Edit
読み順の編集距離。
プロンプト例
レイアウト保持
<image>\n<|grounding|> Convert the document to markdown.
シンプルOCR
<image>\nFree OCR.
活用シーン
使われる現場
経理、物流、サポート、ナレッジ整理に最適。
請求書自動化
金額・明細・税情報を正確に抽出。
コンプラ文書
検索性と監査性を高め、保管コストを削減。
物流書類
送り状や通関書類を統一フォーマットに。
ナレッジ化
紙資料を検索可能な知識に変換。
FAQ
よくある質問
多言語が混ざっていても大丈夫?
はい。自動で言語を判定して読み取ります。
オンプレ運用は可能?
可能です。プライベート/ハイブリッドに対応。
精度はどう測る?
実文書で評価セットを作り、項目単位で比較します。
対応ファイルは?
画像、PDF、スキャン、多ページ文書に対応。