DeepSeek выпускает DeepSeek-OCR-2 - модель понимания документов с визуальным причинным потоком
27 января 2026 года DeepSeek официально выпустила последнюю модель с открытым исходным кодом DeepSeek-OCR-2, представив новый визуальный кодировщик DeepEncoder V2. Эта архитектура кодировщика нарушает фиксированный порядок сканирования традиционных моделей (сверху слева вниз справа), вместо этого имитируя логику “причинного потока (Causal Flow)” человеческого зрения, позволяя AI динамически переупорядочивать сегменты изображения на основе смысла изображения.
Основная инновация: Визуальный причинный поток
Нарушение фиксированного порядка сканирования
Традиционные модели зрение-язык (VLM) обычно обрабатывают изображения в фиксированном порядке растрового сканирования (сверху слева вниз справа). Этот жесткий подход не соответствует человеческому визуальному восприятию. Люди сканируют гибко на основе содержимого, и при обработке сложных макетов, таких как таблицы, формулы и многоколоночный текст, фиксированное сканирование вводит ошибочную информацию.
DeepSeek-OCR-2 использует новый кодировщик DeepEncoder V2, наделяя модель способностью “визуального причинного потока Visual Causal Flow”, позволяя ей динамически переупорядочивать визуальные токены на основе содержимого изображения.
Архитектура DeepEncoder V2
DeepEncoder V2 использует настраиваемую стратегию маски внимания (Attention Mask):
Секция визуальных токенов
- Сохраняет механизм двунаправленного внимания
- Обеспечивает глобальное рецептивное поле, как CLIP
- Захватывает общие характеристики изображения
Секция токенов причинного потока
- Принимает механизм причинного внимания (похож на LLM только с декодером)
- Каждый токен запроса может обращаться только к предыдущим токенам
- Достигает интеллектуального переупорядочивания визуальной информации
Благодаря этому дизайну визуальные токены поддерживают глобальное взаимодействие информации, в то время как токены причинного потока получают способность переупорядочивать визуальную информацию.
На основе Qwen2-0.5B
В реализации команда DeepSeek использует Qwen2-0.5B для создания этой архитектуры, вводя возможности причинного рассуждения легких языковых моделей на этапе визуального кодирования.
Техническая архитектура
Двухэтапный цикл рассуждения
DeepSeek-OCR-2 демонстрирует паттерн “двух каскадных 1D причинных рассуждателей”:
-
Первый этап (кодировщик): Рассуждение логики чтения
- Завершает семантическое упорядочивание внутри DeepEncoder V2
- Динамически корректирует порядок токенов на основе структуры документа
-
Второй этап (декодер): Рассуждение визуальных задач
- Фокусируется на авторегрессивной генерации в декодере
- Генерирует текст на основе переупорядоченной визуальной информации
Этот подход разбивает 2D понимание на две дополняющие подзадачи, представляя прорывной архитектурный метод для достижения истинного 2D рассуждения.
Стратегия множественного кадрирования
DeepSeek-OCR-2 использует стратегию множественного кадрирования (Multi-crop strategy):
- Варьируется в зависимости от разрешения изображения
- Окончательные переупорядоченные визуальные токены, вводимые в LLM, варьируются от 256 до 1120
- Генерирует 256 грубозернистых запросов при 1024×1024
- Генерирует 144 высокоточных запроса на блок в детализированных областях 768×768
Это обеспечивает нулевую потерю деталей, таких как формулы, печати и аннотации мелкого текста.
Оптимизация визуального токенизатора
- Использует архитектуру SAM-base с 80M параметрами
- Выходная размерность сжата с 1024 до 896
- В сочетании с коэффициентом сжатия токенов 16x
- Значительно снижает накладные расходы на вычисление глобального внимания
Архитектура декодера
- Продолжает разреженную архитектуру 3B MoE
- Фактическая активация только около 500M параметров
- Балансирует производительность со стоимостью развертывания
Производительность
OmniDocBench v1.5
На авторитетном бенчмарке, охватывающем 9 основных категорий с 1,355 страницами документов, включая журналы, статьи и технические документы:
- Общая точность: 91.09% (рекорд)
- Улучшение по сравнению с предыдущим поколением: 3.73%
- Расстояние редактирования порядка чтения: Снижено с 0.085 до 0.057
Производительность в производственной среде
- Снижение коэффициента повторения онлайн-сервиса: 33% (6.25% → 4.17%)
- Снижение коэффициента повторения производственных данных PDF: 22% (3.69% → 2.88%)
Сравнение с Gemini-3 Pro
В расстоянии редактирования анализа документов:
- DeepSeek-OCR-2: 0.100
- Gemini-3 Pro: 0.115
Точность порядка чтения улучшена более чем на 34%.
Стратегия обучения
Оптимизация распределения данных
- Доля данных OCR: 80%
- Соотношение выборки текст/формула/таблица: 3:1:1
- Объединяет семантически похожие метки, такие как “подписи/заголовки”
- Значительно улучшает обобщение для реальных сценариев, таких как академические PDF, финансовые отчеты и тендерные документы
Оптимизация китайских документов
Стратегия обучения лучше понимает характеристики китайских документов, с отличной производительностью при обработке сложных китайских макетов.
Сценарии применения
DeepSeek-OCR-2 особенно подходит для:
Обработка академических документов
- Конвертация PDF статей в Markdown
- Распознавание сложных формул
- Понимание многоколоночного макета
- Извлечение ссылок
Анализ бизнес-документов
- Анализ финансовых отчетов
- Извлечение текста контрактов
- Обработка тендерных документов
- Распознавание счетов
Конвертация технической документации
- Оцифровка технических руководств
- Извлечение документации API
- Распознавание комментариев кода
Многоязычные документы
- Поддерживает более 100 языков
- Обработка документов на смешанных языках
- Сохраняет исходную структуру формата
Техническое значение
К унифицированному мультимодальному кодировщику
Команда DeepSeek считает, что это обеспечивает многообещающий путь к унифицированному мультимодальному кодировщику. В будущем один кодировщик может достичь извлечения и сжатия признаков для изображений, аудио и текста в одном пространстве параметров, настраивая обучаемые запросы, специфичные для модальности.
Новая парадигма для визуального кодирования
Если DeepSeek-OCR 1 впервые заставил индустрию осознать, что “визуальное сжатие” может быть серьезно недооцененным техническим путем, то DeepSeek-OCR-2 явно решил пойти по этому пути более агрессивно.
DeepEncoder V2 больше не рассматривает визуальное кодирование как статический процесс сканирования с фиксированной стратегией, а вводит механизм динамического кодирования, управляемый семантикой. Модель начинает судить, какие области с большей вероятностью содержат ключевую информацию на этапе кодирования, и соответственно корректирует распределение и метод выражения визуальных токенов.
Другими словами, визуальное кодирование больше не просто “предварительная обработка”, а уже заранее вошло в “этап понимания”.
Открытый исходный код и доступность
DeepSeek-OCR-2 полностью открыт, предоставляя:
- Веса модели
- Полный код
- Технический отчет
Доступ
- Проект GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
- Модель HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Техническая статья: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
Поддержка сообщества
Разработчики сообщества уже предоставили интеграцию ComfyUI для DeepSeek-OCR-2:
- ComfyUI-DeepSeek-OCR: https://github.com/1038lab/ComfyUI-DeepSeek-OCR
Хотя в настоящее время в состоянии бета-версии V0.0.1, он предоставляет удобный метод использования для пользователей ComfyUI.
Связанные ссылки
- Репозиторий GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
- Модель HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Техническая статья: https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
- Плагин ComfyUI: https://github.com/1038lab/ComfyUI-DeepSeek-OCR