DeepSeek、DeepSeek-OCR-2をリリース - ビジュアル因果フローを搭載した文書理解モデル
2026年1月27日、DeepSeekは最新のオープンソースモデルDeepSeek-OCR-2を正式にリリースし、新しいDeepEncoder V2ビジョンエンコーダを導入しました。このエンコーダアーキテクチャは、従来のモデルの固定スキャン順序(左上から右下)の制限を打破し、人間の視覚の**「因果フロー(Causal Flow)」**ロジックを模倣し、AIが画像の意味に基づいて画像セグメントを動的に再配置できるようにします。
コアイノベーション:ビジュアル因果フロー
固定スキャン順序の打破
従来の視覚言語モデル(VLM)は通常、固定のラスタースキャン順序(左上から右下)で画像を処理します。この硬直したアプローチは人間の視覚認識と一致しません。人間はコンテンツに基づいて柔軟にスキャンし、表、数式、多段組テキストなどの複雑なレイアウトを処理する際、固定スキャンは誤った情報を導入します。
DeepSeek-OCR-2は新しいDeepEncoder V2エンコーダを利用し、モデルに**「ビジュアル因果フロー Visual Causal Flow」**能力を与え、画像コンテンツに基づいてビジュアルトークンを動的に再配置できるようにします。
DeepEncoder V2アーキテクチャ
DeepEncoder V2はカスタマイズされた**アテンションマスク(Attention Mask)**戦略を採用しています:
ビジュアルトークン部分
- 双方向アテンションメカニズムを保持
- CLIPのようなグローバル受容野を確保
- 画像全体の特徴を捉える
因果フロートークン部分
- 因果アテンションメカニズムを採用(Decoder-only LLMに類似)
- 各クエリトークンは前のトークンのみに注目可能
- ビジュアル情報のインテリジェントな再配置を実現
この設計により、ビジュアルトークンはグローバル情報の相互作用を維持し、因果フロートークンはビジュアル情報を再配置する能力を獲得します。
Qwen2-0.5Bベース
実装において、DeepSeekチームはQwen2-0.5Bを使用してこのアーキテクチャをインスタンス化し、軽量言語モデルの因果推論能力をビジュアルエンコーディング段階に導入しました。
技術アーキテクチャ
2段階推論ループ
DeepSeek-OCR-2は**「2つのカスケードされた1D因果推論器」**パターンを示します:
-
第1段階(エンコーダ):読解ロジック推論
- DeepEncoder V2内で意味的順序付けを完了
- 文書構造に基づいてトークン順序を動的に調整
-
第2段階(デコーダ):ビジュアルタスク推論
- デコーダで自己回帰生成に集中
- 再配置されたビジュアル情報に基づいてテキストを生成
このアプローチは2D理解を2つの補完的なサブタスクに分解し、真の2D推論を実現するための画期的なアーキテクチャ手法を表しています。
マルチクロップ戦略
DeepSeek-OCR-2は**マルチクロップ戦略(Multi-crop strategy)**を採用しています:
- 画像解像度に応じて変化
- LLMに入力される最終的な再配置ビジュアルトークンの総数は256から1120の範囲
- 1024×1024で256個の粗粒度クエリを生成
- 768×768の詳細領域でブロックごとに144個の高精度クエリを生成
これにより、数式、スタンプ、小さなテキスト注釈などの詳細が失われることはありません。
ビジュアルトークナイザの最適化
- 80MパラメータSAM-baseアーキテクチャを使用
- 出力次元を1024から896に圧縮
- 16倍トークン圧縮比と組み合わせ
- グローバルアテンション計算オーバーヘッドを大幅に削減
デコーダアーキテクチャ
- 3B MoEスパースアーキテクチャを継続
- 実際の活性化は約500Mパラメータのみ
- パフォーマンスとデプロイメントコストのバランス
パフォーマンス
OmniDocBench v1.5
雑誌、論文、ホワイトペーパーなど9つの主要カテゴリ、1,355ページの文書をカバーする権威あるベンチマークで:
- 総合精度:91.09%(記録更新)
- 前世代からの向上:3.73%
- 読解順序編集距離:0.085から0.057に削減
本番環境パフォーマンス
- オンラインサービス重複率削減:33%(6.25% → 4.17%)
- PDF本番データ重複率削減:22%(3.69% → 2.88%)
Gemini-3 Proとの比較
文書解析編集距離において:
- DeepSeek-OCR-2:0.100
- Gemini-3 Pro:0.115
読解順序精度が**34%**以上向上しました。
トレーニング戦略
データ配分の最適化
- OCRデータ比率:80%
- 本文/数式/表のサンプリング比:3:1:1
- 「キャプション/タイトル」などの意味的に類似したラベルを統合
- 学術PDF、財務報告書、入札文書などの実際のシナリオに対する汎化能力を大幅に向上
中国語文書の最適化
トレーニング戦略は中国語文書の特性をよりよく理解し、複雑な中国語レイアウトの処理において優れたパフォーマンスを発揮します。
応用シナリオ
DeepSeek-OCR-2は特に以下のシナリオに適しています:
学術文書処理
- 論文PDFからMarkdownへの変換
- 複雑な数式認識
- 多段組レイアウト理解
- 参考文献抽出
ビジネス文書分析
- 財務諸表解析
- 契約テキスト抽出
- 入札文書処理
- 請求書認識
技術文書変換
- 技術マニュアルのデジタル化
- APIドキュメント抽出
- コードコメント認識
多言語文書
- 100以上の言語をサポート
- 混合言語文書処理
- 元の形式構造を維持
技術的意義
統一マルチモーダルエンコーダへ
DeepSeekチームは、これが統一マルチモーダルエンコーダへの有望な道を提供すると考えています。将来、単一のエンコーダがモダリティ固有の学習可能なクエリを構成することで、同じパラメータ空間内で画像、音声、テキストの特徴抽出と圧縮を実現できる可能性があります。
ビジュアルエンコーディングの新しいパラダイム
DeepSeek-OCR 1が業界に「ビジュアル圧縮」が深刻に過小評価されている技術ルートである可能性があることを初めて認識させたとすれば、DeepSeek-OCR-2は明らかにこの道をより積極的に進むことを決定しました。
DeepEncoder V2はもはやビジュアルエンコーディングを静的で固定戦略のスキャンプロセスとは見なさず、意味駆動型の動的エンコーディングメカニズムを導入しています。モデルはエンコーディング段階で、どの領域が重要な情報を含む可能性が高いかを判断し始め、それに応じてビジュアルトークンの割り当てと表現方法を調整します。
言い換えれば、ビジュアルエンコーディングはもはや単なる「前処理」ではなく、すでに「理解段階」に事前に入っています。
オープンソースと可用性
DeepSeek-OCR-2は完全にオープンソース化され、以下を提供します:
- モデルウェイト
- 完全なコード
- 技術レポート
アクセス
- GitHubプロジェクト:https://github.com/deepseek-ai/DeepSeek-OCR-2
- HuggingFaceモデル:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- 技術論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
コミュニティサポート
コミュニティ開発者がすでにDeepSeek-OCR-2のComfyUI統合を提供しています:
- ComfyUI-DeepSeek-OCR:https://github.com/1038lab/ComfyUI-DeepSeek-OCR
現在V0.0.1ベータ版ですが、ComfyUIユーザーに便利な使用方法を提供しています。
関連リンク
- GitHubリポジトリ:https://github.com/deepseek-ai/DeepSeek-OCR-2
- HuggingFaceモデル:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- 技術論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
- ComfyUIプラグイン:https://github.com/1038lab/ComfyUI-DeepSeek-OCR