Skip to content
Follow me on X
ComfyUI Wiki
ActualitésDeepSeek lance DeepSeek-OCR-2 - Modèle de compréhension de documents avec flux causal visuel
Aucun article pour le moment. Revenez plus tard !

DeepSeek lance DeepSeek-OCR-2 - Modèle de compréhension de documents avec flux causal visuel

Le 27 janvier 2026, DeepSeek a officiellement lancé le dernier modèle open source DeepSeek-OCR-2, introduisant le nouvel encodeur de vision DeepEncoder V2. Cette architecture d’encodeur rompt avec l’ordre de balayage fixe des modèles traditionnels (de haut à gauche à bas à droite), imitant plutôt la logique de “flux causal (Causal Flow)” visuel humain, permettant à l’IA de réorganiser dynamiquement les segments d’image en fonction de la signification de l’image.

Innovation principale : Flux causal visuel

Briser l’ordre de balayage fixe

Les modèles vision-langage (VLM) traditionnels traitent généralement les images dans un ordre de balayage raster fixe (de haut à gauche à bas à droite). Cette approche rigide ne s’aligne pas avec la perception visuelle humaine. Les humains balaient de manière flexible en fonction du contenu, et lors du traitement de mises en page complexes comme les tableaux, les formules et le texte multi-colonnes, le balayage fixe introduit des informations erronées.

DeepSeek-OCR-2 utilise le nouvel encodeur DeepEncoder V2, donnant au modèle la capacité de “flux causal visuel Visual Causal Flow”, lui permettant de réorganiser dynamiquement les tokens visuels en fonction du contenu de l’image.

Architecture DeepEncoder V2

DeepEncoder V2 emploie une stratégie de masque d’attention (Attention Mask) personnalisée :

Section de tokens visuels

  • Conserve le mécanisme d’attention bidirectionnelle
  • Assure un champ réceptif global comme CLIP
  • Capture les caractéristiques générales de l’image

Section de tokens de flux causal

  • Adopte le mécanisme d’attention causale (similaire au LLM décodeur uniquement)
  • Chaque token de requête ne peut assister qu’aux tokens précédents
  • Réalise une réorganisation intelligente de l’information visuelle

Grâce à cette conception, les tokens visuels maintiennent l’interaction d’informations globales, tandis que les tokens de flux causal obtiennent la capacité de réorganiser l’information visuelle.

Basé sur Qwen2-0.5B

Dans l’implémentation, l’équipe DeepSeek utilise Qwen2-0.5B pour instancier cette architecture, introduisant les capacités de raisonnement causal des modèles de langage légers dans l’étape d’encodage visuel.

Architecture technique

Boucle de raisonnement en deux étapes

DeepSeek-OCR-2 démontre un modèle de “deux raisonneurs causaux 1D en cascade” :

  1. Première étape (encodeur) : Raisonnement de logique de lecture

    • Complète l’ordonnancement sémantique dans DeepEncoder V2
    • Ajuste dynamiquement l’ordre des tokens en fonction de la structure du document
  2. Deuxième étape (décodeur) : Raisonnement de tâches visuelles

    • Se concentre sur la génération autorégressive dans le décodeur
    • Génère du texte basé sur l’information visuelle réorganisée

Cette approche décompose la compréhension 2D en deux sous-tâches complémentaires, représentant une méthode architecturale révolutionnaire pour réaliser un véritable raisonnement 2D.

Stratégie multi-recadrage

DeepSeek-OCR-2 emploie une stratégie multi-recadrage (Multi-crop strategy) :

  • Varie selon la résolution de l’image
  • Les tokens visuels réorganisés finaux entrés dans le LLM vont de 256 à 1120
  • Génère 256 requêtes à grain grossier en 1024×1024
  • Génère 144 requêtes haute précision par bloc dans les régions détaillées 768×768

Cela garantit zéro perte de détails comme les formules, les tampons et les annotations de texte petit.

Optimisation du tokenizer visuel

  • Utilise l’architecture SAM-base de 80M paramètres
  • Dimension de sortie compressée de 1024 à 896
  • Combiné avec ratio de compression de tokens 16x
  • Réduit significativement la surcharge de calcul d’attention globale

Architecture du décodeur

  • Continue l’architecture clairsemée 3B MoE
  • Activation réelle seulement environ 500M paramètres
  • Équilibre performance avec coût de déploiement

Performance

OmniDocBench v1.5

Sur le benchmark faisant autorité couvrant 9 catégories principales avec 1,355 pages de documents incluant magazines, articles et livres blancs :

  • Précision globale : 91.09% (record)
  • Amélioration par rapport à la génération précédente : 3.73%
  • Distance d’édition d’ordre de lecture : Réduite de 0.085 à 0.057

Performance en environnement de production

  • Réduction du taux de répétition du service en ligne : 33% (6.25% → 4.17%)
  • Réduction du taux de répétition des données PDF de production : 22% (3.69% → 2.88%)

Comparaison avec Gemini-3 Pro

En distance d’édition d’analyse de documents :

  • DeepSeek-OCR-2 : 0.100
  • Gemini-3 Pro : 0.115

Précision d’ordre de lecture améliorée de plus de 34%.

Stratégie d’entraînement

Optimisation de la distribution des données

  • Proportion de données OCR : 80%
  • Ratio d’échantillonnage texte/formule/tableau : 3:1:1
  • Fusionne les étiquettes sémantiquement similaires comme “légendes/titres”
  • Améliore significativement la généralisation pour les scénarios du monde réel comme les PDF académiques, les rapports financiers et les documents d’appel d’offres

Optimisation des documents chinois

La stratégie d’entraînement comprend mieux les caractéristiques des documents chinois, avec d’excellentes performances lors du traitement de mises en page chinoises complexes.

Scénarios d’application

DeepSeek-OCR-2 est particulièrement adapté pour :

Traitement de documents académiques

  • Conversion de PDF d’articles en Markdown
  • Reconnaissance de formules complexes
  • Compréhension de mise en page multi-colonnes
  • Extraction de références

Analyse de documents commerciaux

  • Analyse d’états financiers
  • Extraction de texte de contrats
  • Traitement de documents d’appel d’offres
  • Reconnaissance de factures

Conversion de documentation technique

  • Numérisation de manuels techniques
  • Extraction de documentation API
  • Reconnaissance de commentaires de code

Documents multilingues

  • Prend en charge plus de 100 langues
  • Traitement de documents en langues mixtes
  • Maintient la structure de format originale

Signification technique

Vers un encodeur multimodal unifié

L’équipe DeepSeek estime que cela fournit un chemin prometteur vers un encodeur multimodal unifié. À l’avenir, un seul encodeur pourrait réaliser l’extraction et la compression de caractéristiques pour les images, l’audio et le texte dans le même espace de paramètres en configurant des requêtes apprenables spécifiques à la modalité.

Nouveau paradigme pour l’encodage visuel

Si DeepSeek-OCR 1 a fait prendre conscience à l’industrie pour la première fois que la “compression visuelle” pourrait être une voie technique sérieusement sous-estimée, alors DeepSeek-OCR-2 a clairement décidé de prendre ce chemin de manière plus agressive.

DeepEncoder V2 ne considère plus l’encodage visuel comme un processus de balayage statique à stratégie fixe, mais introduit un mécanisme d’encodage dynamique piloté par la sémantique. Le modèle commence à juger quelles régions sont les plus susceptibles de contenir des informations clés pendant l’étape d’encodage et ajuste l’allocation et la méthode d’expression des tokens visuels en conséquence.

En d’autres termes, l’encodage visuel n’est plus seulement du “prétraitement” mais est déjà entré dans “l’étape de compréhension” à l’avance.

Open source et disponibilité

DeepSeek-OCR-2 est entièrement open source, fournissant :

  • Poids du modèle
  • Code complet
  • Rapport technique

Accès

Support de la communauté

Les développeurs de la communauté ont déjà fourni une intégration ComfyUI pour DeepSeek-OCR-2 :

Bien qu’actuellement en état bêta V0.0.1, il fournit une méthode d’utilisation pratique pour les utilisateurs de ComfyUI.

Liens connexes