Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Pixel-Reasoner: выпущена модель визуального рассуждения на пиксельном уровне с открытым исходным кодом
Pixel-Reasoner - это визуальная языковая модель с открытым исходным кодом, основанная на Qwen2, фокусирующаяся на улучшении пиксельного визуального понимания и рассуждения. Модель может анализировать все изображение глобально и также поддерживает увеличение локальных областей для детального наблюдения, помогая захватывать тонкие детали в изображениях.
Основные особенности
- Пиксельное рассуждение: Pixel-Reasoner может рассуждать напрямую в пиксельном пространстве изображений, не ограничиваясь традиционным текстовым рассуждением.
- Сочетание глобального и локального понимания: Модель может схватывать общий контент изображения и также “увеличивать” для фокусировки на конкретных областях для более детального анализа.
- Обучение, управляемое любопытством: Вводя механизм награды любопытства, модель поощряется активно исследовать и использовать пиксельные операции, улучшая разнообразие и точность визуального рассуждения.
- Доступность с открытым исходным кодом: Модель, наборы данных и соответствующий код все с открытым исходным кодом, что легко для сообщества загрузить и попробовать.
Новая парадигма для пиксельного рассуждения
Pixel-Reasoner вводит новую концепцию “Пиксельного рассуждения”. В отличие от традиционных визуальных языковых моделей, которые полагаются только на текстовое рассуждение, Pixel-Reasoner может анализировать и оперировать напрямую на пиксельном уровне изображений.
Как показано выше, модель может понимать все изображение и также увеличивать или выбирать области для фокусировки на деталях, улучшая свою способность понимать сложный визуальный контент.
Проблемы обучения и инновационные механизмы
Во время обучения команда обнаружила, что существующие визуальные языковые модели сталкиваются с “ловушкой обучения” в пиксельном рассуждении - они лучше в текстовом рассуждении и склонны терпеть неудачу в пиксельных операциях, не имея мотивации исследовать визуальные действия.
Изображение выше показывает узкое место, встреченное в раннем пиксельном рассуждении: из-за ограниченной начальной способности модель склонна избегать визуальных операций, что влияет на развитие навыков пиксельного рассуждения.
Для решения этого Pixel-Reasoner использует механизм обучения с подкреплением, управляемый любопытством, награждая модель за активные попытки пиксельных операций и постепенно улучшая свою способность рассуждения в визуальном пространстве.
Синтез данных и процесс обучения
Обучение Pixel-Reasoner разделено на два этапа:
- Инструктивное дообучение: Синтетические траектории рассуждения с визуальными операциями помогают модели ознакомиться с различными пиксельными действиями.
- Обучение с подкреплением, управляемое любопытством: Механизм награды поощряет модель активно исследовать и использовать визуальные операции во время рассуждения.
Как показано выше, команда использует высокоразрешающие изображения и видео, сочетая автоматическую и ручную аннотацию, для генерации разнообразных данных рассуждения, помогая модели научиться анализировать и самокорректироваться в визуальном пространстве.
Типичные сценарии применения
Pixel-Reasoner особенно подходит для:
- Задач, требующих идентификации маленьких объектов или деталей в изображениях
- Понимания многоплощадной, многоуровневой информации в сложных изображениях или видео
- Задач визуального рассуждения, сочетающих глобальную и локальную информацию
Сценарии применения
Pixel-Reasoner идеален для сценариев, требующих детального визуального понимания, таких как:
- Анализ сложных изображений или видео контента
- Распознавание маленьких объектов, тонких отношений или встроенного текста
- Визуальные задачи, сочетающие глобальную и локальную информацию
Связанные ссылки
- Статья: https://arxiv.org/abs/2505.15966
- Официальная домашняя страница: https://tiger-ai-lab.github.io/Pixel-Reasoner/
- Модель HuggingFace: https://huggingface.co/TIGER-Lab/PixelReasoner-RL-v1
- Онлайн демо: https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner
Эта статья ссылается на официальные материалы и статьи Pixel-Reasoner.