DeepSeek lance DeepSeek-OCR-2 - Modèle de compréhension de documents avec flux causal visuel
Le 27 janvier 2026, DeepSeek a officiellement lancé le dernier modèle open source DeepSeek-OCR-2, introduisant le nouvel encodeur de vision DeepEncoder V2. Cette architecture d’encodeur rompt avec l’ordre de balayage fixe des modèles traditionnels (de haut à gauche à bas à droite), imitant plutôt la logique de “flux causal (Causal Flow)” visuel humain, permettant à l’IA de réorganiser dynamiquement les segments d’image en fonction de la signification de l’image.
Innovation principale : Flux causal visuel
Briser l’ordre de balayage fixe
Les modèles vision-langage (VLM) traditionnels traitent généralement les images dans un ordre de balayage raster fixe (de haut à gauche à bas à droite). Cette approche rigide ne s’aligne pas avec la perception visuelle humaine. Les humains balaient de manière flexible en fonction du contenu, et lors du traitement de mises en page complexes comme les tableaux, les formules et le texte multi-colonnes, le balayage fixe introduit des informations erronées.
DeepSeek-OCR-2 utilise le nouvel encodeur DeepEncoder V2, donnant au modèle la capacité de “flux causal visuel Visual Causal Flow”, lui permettant de réorganiser dynamiquement les tokens visuels en fonction du contenu de l’image.
Architecture DeepEncoder V2
DeepEncoder V2 emploie une stratégie de masque d’attention (Attention Mask) personnalisée :
Section de tokens visuels
- Conserve le mécanisme d’attention bidirectionnelle
- Assure un champ réceptif global comme CLIP
- Capture les caractéristiques générales de l’image
Section de tokens de flux causal
- Adopte le mécanisme d’attention causale (similaire au LLM décodeur uniquement)
- Chaque token de requête ne peut assister qu’aux tokens précédents
- Réalise une réorganisation intelligente de l’information visuelle
Grâce à cette conception, les tokens visuels maintiennent l’interaction d’informations globales, tandis que les tokens de flux causal obtiennent la capacité de réorganiser l’information visuelle.
Basé sur Qwen2-0.5B
Dans l’implémentation, l’équipe DeepSeek utilise Qwen2-0.5B pour instancier cette architecture, introduisant les capacités de raisonnement causal des modèles de langage légers dans l’étape d’encodage visuel.
Architecture technique
Boucle de raisonnement en deux étapes
DeepSeek-OCR-2 démontre un modèle de “deux raisonneurs causaux 1D en cascade” :
-
Première étape (encodeur) : Raisonnement de logique de lecture
- Complète l’ordonnancement sémantique dans DeepEncoder V2
- Ajuste dynamiquement l’ordre des tokens en fonction de la structure du document
-
Deuxième étape (décodeur) : Raisonnement de tâches visuelles
- Se concentre sur la génération autorégressive dans le décodeur
- Génère du texte basé sur l’information visuelle réorganisée
Cette approche décompose la compréhension 2D en deux sous-tâches complémentaires, représentant une méthode architecturale révolutionnaire pour réaliser un véritable raisonnement 2D.
Stratégie multi-recadrage
DeepSeek-OCR-2 emploie une stratégie multi-recadrage (Multi-crop strategy) :
- Varie selon la résolution de l’image
- Les tokens visuels réorganisés finaux entrés dans le LLM vont de 256 à 1120
- Génère 256 requêtes à grain grossier en 1024×1024
- Génère 144 requêtes haute précision par bloc dans les régions détaillées 768×768
Cela garantit zéro perte de détails comme les formules, les tampons et les annotations de texte petit.
Optimisation du tokenizer visuel
- Utilise l’architecture SAM-base de 80M paramètres
- Dimension de sortie compressée de 1024 à 896
- Combiné avec ratio de compression de tokens 16x
- Réduit significativement la surcharge de calcul d’attention globale
Architecture du décodeur
- Continue l’architecture clairsemée 3B MoE
- Activation réelle seulement environ 500M paramètres
- Équilibre performance avec coût de déploiement
Performance
OmniDocBench v1.5
Sur le benchmark faisant autorité couvrant 9 catégories principales avec 1,355 pages de documents incluant magazines, articles et livres blancs :
- Précision globale : 91.09% (record)
- Amélioration par rapport à la génération précédente : 3.73%
- Distance d’édition d’ordre de lecture : Réduite de 0.085 à 0.057
Performance en environnement de production
- Réduction du taux de répétition du service en ligne : 33% (6.25% → 4.17%)
- Réduction du taux de répétition des données PDF de production : 22% (3.69% → 2.88%)
Comparaison avec Gemini-3 Pro
En distance d’édition d’analyse de documents :
- DeepSeek-OCR-2 : 0.100
- Gemini-3 Pro : 0.115
Précision d’ordre de lecture améliorée de plus de 34%.
Stratégie d’entraînement
Optimisation de la distribution des données
- Proportion de données OCR : 80%
- Ratio d’échantillonnage texte/formule/tableau : 3:1:1
- Fusionne les étiquettes sémantiquement similaires comme “légendes/titres”
- Améliore significativement la généralisation pour les scénarios du monde réel comme les PDF académiques, les rapports financiers et les documents d’appel d’offres
Optimisation des documents chinois
La stratégie d’entraînement comprend mieux les caractéristiques des documents chinois, avec d’excellentes performances lors du traitement de mises en page chinoises complexes.
Scénarios d’application
DeepSeek-OCR-2 est particulièrement adapté pour :
Traitement de documents académiques
- Conversion de PDF d’articles en Markdown
- Reconnaissance de formules complexes
- Compréhension de mise en page multi-colonnes
- Extraction de références
Analyse de documents commerciaux
- Analyse d’états financiers
- Extraction de texte de contrats
- Traitement de documents d’appel d’offres
- Reconnaissance de factures
Conversion de documentation technique
- Numérisation de manuels techniques
- Extraction de documentation API
- Reconnaissance de commentaires de code
Documents multilingues
- Prend en charge plus de 100 langues
- Traitement de documents en langues mixtes
- Maintient la structure de format originale
Signification technique
Vers un encodeur multimodal unifié
L’équipe DeepSeek estime que cela fournit un chemin prometteur vers un encodeur multimodal unifié. À l’avenir, un seul encodeur pourrait réaliser l’extraction et la compression de caractéristiques pour les images, l’audio et le texte dans le même espace de paramètres en configurant des requêtes apprenables spécifiques à la modalité.
Nouveau paradigme pour l’encodage visuel
Si DeepSeek-OCR 1 a fait prendre conscience à l’industrie pour la première fois que la “compression visuelle” pourrait être une voie technique sérieusement sous-estimée, alors DeepSeek-OCR-2 a clairement décidé de prendre ce chemin de manière plus agressive.
DeepEncoder V2 ne considère plus l’encodage visuel comme un processus de balayage statique à stratégie fixe, mais introduit un mécanisme d’encodage dynamique piloté par la sémantique. Le modèle commence à juger quelles régions sont les plus susceptibles de contenir des informations clés pendant l’étape d’encodage et ajuste l’allocation et la méthode d’expression des tokens visuels en conséquence.
En d’autres termes, l’encodage visuel n’est plus seulement du “prétraitement” mais est déjà entré dans “l’étape de compréhension” à l’avance.
Open source et disponibilité
DeepSeek-OCR-2 est entièrement open source, fournissant :
- Poids du modèle
- Code complet
- Rapport technique
Accès
- Projet GitHub : https://github.com/deepseek-ai/DeepSeek-OCR-2
- Modèle HuggingFace : https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Article technique : https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
Support de la communauté
Les développeurs de la communauté ont déjà fourni une intégration ComfyUI pour DeepSeek-OCR-2 :
- ComfyUI-DeepSeek-OCR : https://github.com/1038lab/ComfyUI-DeepSeek-OCR
Bien qu’actuellement en état bêta V0.0.1, il fournit une méthode d’utilisation pratique pour les utilisateurs de ComfyUI.
Liens connexes
- Dépôt GitHub : https://github.com/deepseek-ai/DeepSeek-OCR-2
- Modèle HuggingFace : https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Article technique : https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
- Plugin ComfyUI : https://github.com/1038lab/ComfyUI-DeepSeek-OCR