OpenMOSS、MOVA をリリース - オープンソース音声・動画同期生成モデル

2026/01/29

DeepSeek、DeepSeek-OCR-2をリリース - ビジュアル因果フローを搭載した文書理解モデル

2026年1月27日、DeepSeekは最新のオープンソースモデルDeepSeek-OCR-2を正式にリリースし、新しいDeepEncoder V2ビジョンエンコーダを導入しました。このエンコーダアーキテクチャは、従来のモデルの固定スキャン順序（左上から右下）の制限を打破し、人間の視覚の**「因果フロー（Causal Flow）」**ロジックを模倣し、AIが画像の意味に基づいて画像セグメントを動的に再配置できるようにします。

コアイノベーション：ビジュアル因果フロー

固定スキャン順序の打破

従来の視覚言語モデル（VLM）は通常、固定のラスタースキャン順序（左上から右下）で画像を処理します。この硬直したアプローチは人間の視覚認識と一致しません。人間はコンテンツに基づいて柔軟にスキャンし、表、数式、多段組テキストなどの複雑なレイアウトを処理する際、固定スキャンは誤った情報を導入します。

DeepSeek-OCR-2は新しいDeepEncoder V2エンコーダを利用し、モデルに**「ビジュアル因果フロー Visual Causal Flow」**能力を与え、画像コンテンツに基づいてビジュアルトークンを動的に再配置できるようにします。

DeepEncoder V2アーキテクチャ

DeepEncoder V2はカスタマイズされた**アテンションマスク（Attention Mask）**戦略を採用しています：

ビジュアルトークン部分

双方向アテンションメカニズムを保持
CLIPのようなグローバル受容野を確保
画像全体の特徴を捉える

因果フロートークン部分

因果アテンションメカニズムを採用（Decoder-only LLMに類似）
各クエリトークンは前のトークンのみに注目可能
ビジュアル情報のインテリジェントな再配置を実現

この設計により、ビジュアルトークンはグローバル情報の相互作用を維持し、因果フロートークンはビジュアル情報を再配置する能力を獲得します。

Qwen2-0.5Bベース

実装において、DeepSeekチームはQwen2-0.5Bを使用してこのアーキテクチャをインスタンス化し、軽量言語モデルの因果推論能力をビジュアルエンコーディング段階に導入しました。

技術アーキテクチャ

2段階推論ループ

DeepSeek-OCR-2は**「2つのカスケードされた1D因果推論器」**パターンを示します：

第1段階（エンコーダ）：読解ロジック推論
- DeepEncoder V2内で意味的順序付けを完了
- 文書構造に基づいてトークン順序を動的に調整
第2段階（デコーダ）：ビジュアルタスク推論
- デコーダで自己回帰生成に集中
- 再配置されたビジュアル情報に基づいてテキストを生成

このアプローチは2D理解を2つの補完的なサブタスクに分解し、真の2D推論を実現するための画期的なアーキテクチャ手法を表しています。

マルチクロップ戦略

DeepSeek-OCR-2は**マルチクロップ戦略（Multi-crop strategy）**を採用しています：

画像解像度に応じて変化
LLMに入力される最終的な再配置ビジュアルトークンの総数は256から1120の範囲
1024×1024で256個の粗粒度クエリを生成
768×768の詳細領域でブロックごとに144個の高精度クエリを生成

これにより、数式、スタンプ、小さなテキスト注釈などの詳細が失われることはありません。

ビジュアルトークナイザの最適化

80MパラメータSAM-baseアーキテクチャを使用
出力次元を1024から896に圧縮
16倍トークン圧縮比と組み合わせ
グローバルアテンション計算オーバーヘッドを大幅に削減

デコーダアーキテクチャ

3B MoEスパースアーキテクチャを継続
実際の活性化は約500Mパラメータのみ
パフォーマンスとデプロイメントコストのバランス

パフォーマンス

OmniDocBench v1.5

雑誌、論文、ホワイトペーパーなど9つの主要カテゴリ、1,355ページの文書をカバーする権威あるベンチマークで：

総合精度：91.09%（記録更新）
前世代からの向上：3.73%
読解順序編集距離：0.085から0.057に削減

本番環境パフォーマンス

オンラインサービス重複率削減：33%（6.25% → 4.17%）
PDF本番データ重複率削減：22%（3.69% → 2.88%）

Gemini-3 Proとの比較

文書解析編集距離において：

DeepSeek-OCR-2：0.100
Gemini-3 Pro：0.115

読解順序精度が**34%**以上向上しました。

トレーニング戦略

データ配分の最適化

OCRデータ比率：80%
本文/数式/表のサンプリング比：3:1:1
「キャプション/タイトル」などの意味的に類似したラベルを統合
学術PDF、財務報告書、入札文書などの実際のシナリオに対する汎化能力を大幅に向上

中国語文書の最適化

トレーニング戦略は中国語文書の特性をよりよく理解し、複雑な中国語レイアウトの処理において優れたパフォーマンスを発揮します。

応用シナリオ

DeepSeek-OCR-2は特に以下のシナリオに適しています：

学術文書処理

論文PDFからMarkdownへの変換
複雑な数式認識
多段組レイアウト理解
参考文献抽出

ビジネス文書分析

財務諸表解析
契約テキスト抽出
入札文書処理
請求書認識

技術文書変換

技術マニュアルのデジタル化
APIドキュメント抽出
コードコメント認識

多言語文書

100以上の言語をサポート
混合言語文書処理
元の形式構造を維持

技術的意義

統一マルチモーダルエンコーダへ

DeepSeekチームは、これが統一マルチモーダルエンコーダへの有望な道を提供すると考えています。将来、単一のエンコーダがモダリティ固有の学習可能なクエリを構成することで、同じパラメータ空間内で画像、音声、テキストの特徴抽出と圧縮を実現できる可能性があります。

ビジュアルエンコーディングの新しいパラダイム

DeepSeek-OCR 1が業界に「ビジュアル圧縮」が深刻に過小評価されている技術ルートである可能性があることを初めて認識させたとすれば、DeepSeek-OCR-2は明らかにこの道をより積極的に進むことを決定しました。

DeepEncoder V2はもはやビジュアルエンコーディングを静的で固定戦略のスキャンプロセスとは見なさず、意味駆動型の動的エンコーディングメカニズムを導入しています。モデルはエンコーディング段階で、どの領域が重要な情報を含む可能性が高いかを判断し始め、それに応じてビジュアルトークンの割り当てと表現方法を調整します。

言い換えれば、ビジュアルエンコーディングはもはや単なる「前処理」ではなく、すでに「理解段階」に事前に入っています。

オープンソースと可用性

DeepSeek-OCR-2は完全にオープンソース化され、以下を提供します：

モデルウェイト
完全なコード
技術レポート

アクセス

GitHubプロジェクト：https://github.com/deepseek-ai/DeepSeek-OCR-2
HuggingFaceモデル：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
技術論文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

コミュニティサポート

コミュニティ開発者がすでにDeepSeek-OCR-2のComfyUI統合を提供しています：

ComfyUI-DeepSeek-OCR：https://github.com/1038lab/ComfyUI-DeepSeek-OCR

現在V0.0.1ベータ版ですが、ComfyUIユーザーに便利な使用方法を提供しています。