Подписаться в XComfyUI WikiComfyUI Wiki — неофициальный сайт, поддерживаемый сообществом. Официальная документация ComfyUI отделена от этого сайта.
К списку новостей

NVIDIA выпускает LocateAnything-3B — модель привязки визуального языка с открытым исходным кодом и параллельным декодированием боксов

news

NVIDIA открывает исходный код LocateAnything-3B, модели визуально-языковой привязки с Parallel Box Decoding (PBD) для быстрой и точной локализации объектов, поддерживающей обнаружение объектов, привязку элементов GUI, локализацию OCR и точечную привязку в различных областях

29 июня 2026 года компания NVIDIA официально выпустила LocateAnything-3B — модель визуально-языковой привязки с открытым исходным кодом, обеспечивающую быструю и качественную визуальную локализацию по командам на естественном языке. Модель представляет Parallel Box Decoding (PBD) — новый парадигма декодирования, которая предсказывает полные координаты ограничивающих прямоугольников за один параллельный шаг вместо авторегрессивного декодирования токен за токеном, достигая пропускной способности до 2.5× выше по сравнению с предыдущими подходами.

Тизер LocateAnything LocateAnything обеспечивает точную локализацию объектов в различных областях, включая природные сцены, робототехнику, взаимодействие с GUI и понимание документов.

Обзор модели

LocateAnything — это универсальная модель визуально-языковой привязки, разработанная в рамках семейства моделей NVIDIA Eagle VLM. Она поддерживает широкий спектр задач локализации:

  • Привязка по референтным выражениям: Локализация объектов, описанных на естественном языке
  • Обнаружение объектов открытого множества: Детекция как обычных, так и редких категорий объектов
  • Привязка элементов GUI: Локализация элементов пользовательского интерфейса для агентных систем
  • Привязка макетов документов: OCR и локализация текста
  • Точечная локализация: Тонкое пространственное рассуждение с помощью указания

Модель интегрирована в продуктовые линейки NVIDIA Nemotron и Cosmos, обеспечивая функции компьютерного использования и визуальной привязки.

Ключевая инновация: Parallel Box Decoding (PBD)

Традиционные модели визуальной привязки генерируют координаты ограничивающих прямоугольников авторегрессивно, токен за токеном. LocateAnything представляет Parallel Box Decoding:

  • Предсказывает полные ограничивающие прямоугольники (x1, y1, x2, y2) и точки в параллельных структурированных блоках
  • Использует блочную структуру предсказания нескольких токенов
  • Достигает пропускной способности в 2.5× выше без потери геометрической согласованности
  • Поддерживает три режима вывода:
    • Быстрый режим: Параллельное декодирование для максимальной скорости
    • Медленный режим: Авторегрессивное декодирование для максимальной точности
    • Гибридный режим: По умолчанию; параллельное декодирование с возвратом к авторегрессивному при нарушениях формата

Техническая архитектура

КомпонентДетали
АрхитектураТрансформерная VLM
Кодировщик изображенийMoonViT (нативное разрешение, до 2.5K)
Языковая модельQwen2.5-3B-Instruct
Мультимодальный проекторMLP проектор
Всего параметров3B
Макс. разрешение изображения2.5K (продакшн), до 4K при батч-инференсе
Макс. длина последовательности25 600 токенов (обучение), 8192 токенов генерации (инференс)
Формат выводаНа основе блоков: Semantic, Box, Negative и End блоки

Данные для обучения

  • 12M уникальных изображений, 138M+ запросов, 785M ограничивающих прямоугольников
  • Мультидоменные: природные сцены, робототехника, вождение, GUI, документы
  • Гибридные источники данных: кураторские, открытые, синтетические аннотации с помощью моделей

Производительность

LocateAnything демонстрирует высокую производительность на нескольких эталонных тестах привязки, включая COCO/LVIS для обнаружения открытого множества, ScreenSpot-Pro для привязки GUI и различные тесты понимания макетов документов.

Эффективность вывода

С использованием бэкенда внимания la_flash и батч-гибридным выводом:

БэкендВремя (4K проб)Пиковая память
SDPA (плотные маски)8,26 с35,12 ГБ
la_flash (FlashAttention)8,03 с11,71 ГБ

Открытый исходный код и доступность

LocateAnything-3B выпускается под лицензией NVIDIA для некоммерческих исследовательских и разработочных целей:

Требования к оборудованию

Оптимизировано для GPU NVIDIA (Ampere, Blackwell, Hopper, Lovelace) с точностью BF16 и KV-кэшем. Батч-инференс через бэкенд la_flash снижает пиковое потребление памяти с 35 ГБ до ~12 ГБ на A100.

Связанные ссылки

NVIDIA выпускает LocateAnything-3B — модель привязки визуального языка с открытым исходным кодом и параллельным декодированием боксов | ComfyUI Wiki