deepseek ocr2

ドキュメント認識エンジン

現場の書類に強いOCR

deepseek ocr2：実運用で崩れないOCR

傾きやノイズがあるスキャンでも、精度とスピードを両立。

構造化された出力で、業務フローにそのまま接続できます。

deepseek ocr2 を試す OCR2 API を見る

多言語OCR表の抽出レイアウト保持

99.2%

文字精度

180ms

平均遅延

50+

対応文書

OCR2 コンソール

Live

認識結果

INVOICE 2471 · TOTAL: $4,820.00 · DUE: 2025-05-24

信頼度と座標が自動付与されます。

レイアウト再構成

12 columns · 4 sections

見出し・段組・表を崩しません。

出力形式

CSV / JSON / PDF

JSON / CSV / 検索可能PDF

コア機能

deepseek ocr2 の強み

速度・精度・運用性を重視した6つの柱。

堅牢な文字認識

ブレや低コントラストでも安定した結果。

レイアウト理解

読み順と位置情報を保持し、複雑な段組にも対応。

表・フォーム抽出

テンプレートなしでセルと項目を抽出。

品質シグナル

信頼度、バウンディング、検証でチェックを自動化。

安全性と監査

ログとマスキングでコンプライアンスに対応。

柔軟な展開

クラウド／ハイブリッド／オンプレでスケール。

フロー

スキャンから構造化データまで

取り込み

APIでPDF・画像を一括登録。

認識・解析

文字、表、レイアウトを一度に抽出。

検証

信頼度とルールで結果をチェック。

出力

JSON / CSV / PDFで連携。

性能

速さも精度も妥協しない

高負荷でも安定したレイアウトと応答を維持。

97.4%

表の精度

請求書や報告書で評価。

30+

多言語対応

混在文書でも安定。

12k ページ/時

バッチ処理

A4スキャン基準。

論文メモ

論文ベースで見る OCR2

OCR2 は causal flow と token 再配置、ドキュメント評価に主眼が置かれています。

DeepEncoder V2 は CLIP を LLM 風エンコーダに置き換え、causal flow queries を導入。

視覚 token は双方向注意、causal query は因果注意を使い、その出力のみがデコーダへ。

論文では DeepSeek-OCR 比で OmniDocBench v1.5 にて 3.73% 改善と報告。

視覚 token の上限は 256〜1120 に制約し、コストと精度のバランスを取る。

OCR データ比率は約 80%。3 段階学習（事前学習→クエリ強化→デコーダ特化）。

動的解像度推論でサイズ混在文書に対応。

OmniDocBench 指標

TextEdit

テキスト編集距離で正確性を評価。

Formula CDM

数式の整合性指標。

Table TEDS

表構造の類似度評価。

R-order Edit

読み順の編集距離。

プロンプト例

レイアウト保持

<image>\n<|grounding|> Convert the document to markdown.

シンプルOCR

<image>\nFree OCR.

論文PDF Hugging Face モデルカード GitHub リポジトリ

活用シーン

使われる現場

経理、物流、サポート、ナレッジ整理に最適。

請求書自動化

金額・明細・税情報を正確に抽出。

コンプラ文書

検索性と監査性を高め、保管コストを削減。

物流書類

送り状や通関書類を統一フォーマットに。

ナレッジ化

紙資料を検索可能な知識に変換。

FAQ

よくある質問

多言語が混ざっていても大丈夫？

はい。自動で言語を判定して読み取ります。

オンプレ運用は可能？

可能です。プライベート／ハイブリッドに対応。

精度はどう測る？

実文書で評価セットを作り、項目単位で比較します。

対応ファイルは？

画像、PDF、スキャン、多ページ文書に対応。

準備完了

deepseek ocr2 を業務の標準に

紙の情報を、すぐ使えるデータへ。

利用申請接続ガイドを見る