OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto
29/01/2026
DeepSeek lanza DeepSeek-OCR-2 - Modelo de comprensión de documentos con flujo causal visual
El 27 de enero de 2026, DeepSeek lanzó oficialmente el último modelo de código abierto DeepSeek-OCR-2, introduciendo el nuevo codificador de visión DeepEncoder V2. Esta arquitectura de codificador rompe con el orden de escaneo fijo de los modelos tradicionales (de arriba a la izquierda a abajo a la derecha), imitando en su lugar la lógica de “flujo causal (Causal Flow)” visual humana, permitiendo que la IA reorganice dinámicamente los segmentos de imagen basándose en el significado de la imagen.
Innovación principal: Flujo causal visual
Rompiendo el orden de escaneo fijo
Los modelos de visión-lenguaje (VLM) tradicionales típicamente procesan imágenes en un orden de escaneo de trama fijo (de arriba a la izquierda a abajo a la derecha). Este enfoque rígido no se alinea con la percepción visual humana. Los humanos escanean flexiblemente basándose en el contenido, y al procesar diseños complejos como tablas, fórmulas y texto multicolumna, el escaneo fijo introduce información errónea.
DeepSeek-OCR-2 utiliza el nuevo codificador DeepEncoder V2, otorgando al modelo capacidad de “flujo causal visual Visual Causal Flow”, permitiéndole reordenar dinámicamente tokens visuales basándose en el contenido de la imagen.
Arquitectura DeepEncoder V2
DeepEncoder V2 emplea una estrategia de máscara de atención (Attention Mask) personalizada:
Sección de tokens visuales
- Retiene mecanismo de atención bidireccional
- Asegura un campo receptivo global como CLIP
- Captura características generales de la imagen
Sección de tokens de flujo causal
- Adopta mecanismo de atención causal (similar a LLM solo decodificador)
- Cada token de consulta solo puede atender a tokens anteriores
- Logra reordenamiento inteligente de información visual
A través de este diseño, los tokens visuales mantienen la interacción de información global, mientras que los tokens de flujo causal obtienen la capacidad de reordenar información visual.
Basado en Qwen2-0.5B
En la implementación, el equipo de DeepSeek usa Qwen2-0.5B para instanciar esta arquitectura, introduciendo capacidades de razonamiento causal de modelos de lenguaje ligeros en la etapa de codificación visual.
Arquitectura técnica
Bucle de razonamiento de dos etapas
DeepSeek-OCR-2 demuestra un patrón de “dos razonadores causales 1D en cascada”:
-
Primera etapa (codificador): Razonamiento de lógica de lectura
- Completa el ordenamiento semántico dentro de DeepEncoder V2
- Ajusta dinámicamente el orden de tokens basándose en la estructura del documento
-
Segunda etapa (decodificador): Razonamiento de tareas visuales
- Se enfoca en generación autoregresiva en el decodificador
- Genera texto basándose en información visual reordenada
Este enfoque descompone la comprensión 2D en dos subtareas complementarias, representando un método arquitectónico innovador para lograr razonamiento 2D verdadero.
Estrategia multi-recorte
DeepSeek-OCR-2 emplea una estrategia multi-recorte (Multi-crop strategy):
- Varía según la resolución de la imagen
- Los tokens visuales reordenados finales ingresados al LLM van de 256 a 1120
- Genera 256 consultas de grano grueso en 1024×1024
- Genera 144 consultas de alta precisión por bloque en regiones detalladas de 768×768
Esto asegura cero pérdida de detalles como fórmulas, sellos y anotaciones de texto pequeño.
Optimización del tokenizador visual
- Usa arquitectura SAM-base de 80M parámetros
- Dimensión de salida comprimida de 1024 a 896
- Combinado con relación de compresión de tokens 16x
- Reduce significativamente la sobrecarga de cálculo de atención global
Arquitectura del decodificador
- Continúa arquitectura dispersa 3B MoE
- Activación real solo alrededor de 500M parámetros
- Equilibra rendimiento con costo de implementación
Rendimiento
OmniDocBench v1.5
En el benchmark autorizado que cubre 9 categorías principales con 1,355 páginas de documentos incluyendo revistas, artículos y documentos técnicos:
- Precisión general: 91.09% (récord)
- Mejora sobre generación anterior: 3.73%
- Distancia de edición de orden de lectura: Reducida de 0.085 a 0.057
Rendimiento en entorno de producción
- Reducción de tasa de repetición de servicio en línea: 33% (6.25% → 4.17%)
- Reducción de tasa de repetición de datos PDF de producción: 22% (3.69% → 2.88%)
Comparación con Gemini-3 Pro
En distancia de edición de análisis de documentos:
- DeepSeek-OCR-2: 0.100
- Gemini-3 Pro: 0.115
Precisión de orden de lectura mejorada en más del 34%.
Estrategia de entrenamiento
Optimización de distribución de datos
- Proporción de datos OCR: 80%
- Relación de muestreo texto/fórmula/tabla: 3:1:1
- Fusiona etiquetas semánticamente similares como “subtítulos/títulos”
- Mejora significativamente la generalización para escenarios del mundo real como PDFs académicos, informes financieros y documentos de licitación
Optimización de documentos en chino
La estrategia de entrenamiento comprende mejor las características de los documentos en chino, con excelente rendimiento al procesar diseños complejos en chino.
Escenarios de aplicación
DeepSeek-OCR-2 es particularmente adecuado para:
Procesamiento de documentos académicos
- Conversión de PDF de artículos a Markdown
- Reconocimiento de fórmulas complejas
- Comprensión de diseño multicolumna
- Extracción de referencias
Análisis de documentos comerciales
- Análisis de estados financieros
- Extracción de texto de contratos
- Procesamiento de documentos de licitación
- Reconocimiento de facturas
Conversión de documentación técnica
- Digitalización de manuales técnicos
- Extracción de documentación API
- Reconocimiento de comentarios de código
Documentos multilingües
- Soporta más de 100 idiomas
- Procesamiento de documentos de idiomas mixtos
- Mantiene estructura de formato original
Significado técnico
Hacia un codificador multimodal unificado
El equipo de DeepSeek cree que esto proporciona un camino prometedor hacia un codificador multimodal unificado. En el futuro, un solo codificador podría lograr extracción y compresión de características para imágenes, audio y texto dentro del mismo espacio de parámetros configurando consultas aprendibles específicas de modalidad.
Nuevo paradigma para codificación visual
Si DeepSeek-OCR 1 hizo que la industria se diera cuenta por primera vez de que la “compresión visual” podría ser una ruta técnica seriamente subestimada, entonces DeepSeek-OCR-2 claramente decidió tomar este camino de manera más agresiva.
DeepEncoder V2 ya no ve la codificación visual como un proceso de escaneo estático de estrategia fija, sino que introduce un mecanismo de codificación dinámica impulsado por semántica. El modelo comienza a juzgar qué regiones tienen más probabilidades de contener información clave durante la etapa de codificación y ajusta la asignación y el método de expresión de tokens visuales en consecuencia.
En otras palabras, la codificación visual ya no es solo “preprocesamiento” sino que ya ha entrado en la “etapa de comprensión” por adelantado.
Código abierto y disponibilidad
DeepSeek-OCR-2 es completamente de código abierto, proporcionando:
- Pesos del modelo
- Código completo
- Informe técnico
Acceso
- Proyecto GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
- Modelo HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Artículo técnico: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
Soporte de la comunidad
Los desarrolladores de la comunidad ya han proporcionado integración de ComfyUI para DeepSeek-OCR-2:
- ComfyUI-DeepSeek-OCR: https://github.com/1038lab/ComfyUI-DeepSeek-OCR
Aunque actualmente en estado beta V0.0.1, proporciona un método de uso conveniente para usuarios de ComfyUI.
Enlaces relacionados
- Repositorio GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
- Modelo HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Artículo técnico: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
- Plugin ComfyUI: https://github.com/1038lab/ComfyUI-DeepSeek-OCR