deepseek ocr2

ドキュメント認識エンジン

現場の書類に強いOCR

deepseek ocr2:実運用で崩れないOCR

傾きやノイズがあるスキャンでも、精度とスピードを両立。

構造化された出力で、業務フローにそのまま接続できます。

多言語OCR表の抽出レイアウト保持

99.2%

文字精度

180ms

平均遅延

50+

対応文書

OCR2 コンソール

Live

認識結果

INVOICE 2471 · TOTAL: $4,820.00 · DUE: 2025-05-24

信頼度と座標が自動付与されます。

レイアウト再構成

12 columns · 4 sections

見出し・段組・表を崩しません。

出力形式

CSV / JSON / PDF

JSON / CSV / 検索可能PDF

コア機能

deepseek ocr2 の強み

速度・精度・運用性を重視した6つの柱。

堅牢な文字認識

ブレや低コントラストでも安定した結果。

レイアウト理解

読み順と位置情報を保持し、複雑な段組にも対応。

表・フォーム抽出

テンプレートなしでセルと項目を抽出。

品質シグナル

信頼度、バウンディング、検証でチェックを自動化。

安全性と監査

ログとマスキングでコンプライアンスに対応。

柔軟な展開

クラウド/ハイブリッド/オンプレでスケール。

フロー

スキャンから構造化データまで

1

取り込み

APIでPDF・画像を一括登録。

2

認識・解析

文字、表、レイアウトを一度に抽出。

3

検証

信頼度とルールで結果をチェック。

4

出力

JSON / CSV / PDFで連携。

性能

速さも精度も妥協しない

高負荷でも安定したレイアウトと応答を維持。

97.4%

表の精度

請求書や報告書で評価。

30+

多言語対応

混在文書でも安定。

12k ページ/時

バッチ処理

A4スキャン基準。

論文メモ

論文ベースで見る OCR2

OCR2 は causal flow と token 再配置、ドキュメント評価に主眼が置かれています。

1

DeepEncoder V2 は CLIP を LLM 風エンコーダに置き換え、causal flow queries を導入。

2

視覚 token は双方向注意、causal query は因果注意を使い、その出力のみがデコーダへ。

3

論文では DeepSeek-OCR 比で OmniDocBench v1.5 にて 3.73% 改善と報告。

4

視覚 token の上限は 256〜1120 に制約し、コストと精度のバランスを取る。

5

OCR データ比率は約 80%。3 段階学習(事前学習→クエリ強化→デコーダ特化)。

6

動的解像度推論でサイズ混在文書に対応。

OmniDocBench 指標

TextEdit

テキスト編集距離で正確性を評価。

Formula CDM

数式の整合性指標。

Table TEDS

表構造の類似度評価。

R-order Edit

読み順の編集距離。

プロンプト例

レイアウト保持

<image>\n<|grounding|> Convert the document to markdown.

シンプルOCR

<image>\nFree OCR.

活用シーン

使われる現場

経理、物流、サポート、ナレッジ整理に最適。

請求書自動化

金額・明細・税情報を正確に抽出。

コンプラ文書

検索性と監査性を高め、保管コストを削減。

物流書類

送り状や通関書類を統一フォーマットに。

ナレッジ化

紙資料を検索可能な知識に変換。

FAQ

よくある質問

多言語が混ざっていても大丈夫?

はい。自動で言語を判定して読み取ります。

オンプレ運用は可能?

可能です。プライベート/ハイブリッドに対応。

精度はどう測る?

実文書で評価セットを作り、項目単位で比較します。

対応ファイルは?

画像、PDF、スキャン、多ページ文書に対応。

準備完了

deepseek ocr2 を業務の標準に

紙の情報を、すぐ使えるデータへ。