Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Tencent выпускает мультимодальную систему генерации видео HunyuanCustom
Tencent недавно представил инновационную технологию генерации видео — HunyuanCustom, мультимодальный фреймворк кастомизации видео, способный поддерживать согласованность субъекта, поддерживая различные входные условия, включая текст, изображения, аудио и видео. Технология была открыта с исходным кодом вместе с соответствующими моделями и кодом, принося новые возможности в создание видео контента.
Техническая инновация
Построенная на основе фреймворка генерации видео Hunyuan, HunyuanCustom фокусируется на решении двух основных проблем в текущей технологии генерации видео: согласованность идентичности и ограниченные входные модальности. Технология вводит несколько ключевых инноваций:
- Модуль слияния текста и изображения: На основе технологии LLaVA, улучшая возможности мультимодального понимания
- Модуль улучшения ID изображения: Используя временную конкатенацию для усиления особенностей идентичности через кадры
- Механизмы инъекции условий, специфичные для модальности:
- Модуль AudioNet: Достижение иерархического выравнивания через пространственное кросс-внимание
- Модуль инъекции, управляемый видео: Интеграция условного видео через сеть выравнивания особенностей на основе patchify
Эти технические инновации позволяют HunyuanCustom значительно превосходить существующие методы с открытым и закрытым исходным кодом в терминах согласованности идентичности, реализма и выравнивания текст-видео.
Возможности мультимодальной кастомизации видео
HunyuanCustom поддерживает различные формы ввода, конкретно включая:
- Текстовый и изображения ввод: Может обрабатывать одиночные или множественные входные изображения для обеспечения кастомизированной генерации видео для одного или более субъектов
- Аудио ввод: Может включать дополнительный аудио ввод для управления субъектом говорить соответствующий аудио контент
- Видео ввод: Поддерживает видео ввод, позволяя замену конкретных объектов в видео субъектами из данного изображения
Сценарии применения
Мультимодальные возможности HunyuanCustom поддерживают различные нисходящие задачи:
- Виртуальные человеческие рекламы: Создание видео демонстрации продуктов путем ввода множественных изображений
- Виртуальная примерка: Генерация видео людей, носящих конкретную одежду
- Поющие аватары: Создание виртуальных персонажей, которые поют, сочетая изображение и аудио
- Редактирование видео: Использование изображения и видео как входов для замены субъектов в видео
Сравнение производительности
HunyuanCustom был сравнен с передовыми методами кастомизации видео, включая VACE, Skyreels, Pika, Vidu, Keling и Hailuo. Оценка фокусировалась на согласованности лица/субъекта, выравнивании видео-текст и общем качестве видео.
В терминах ключевых метрик HunyuanCustom продемонстрировал значительные преимущества:
- Сходство лица (Face-Sim): 0.627 (Ранг 1)
- Сходство DINO: 0.593 (Ранг 1)
- Временная согласованность: 0.958 (Близко к лучшему)
План открытого исходного кода
Tencent выпустил код вывода и веса модели HunyuanCustom 8 мая 2025 года. Согласно плану открытого исходного кода, команда будет постепенно выпускать:
- Кастомизация видео с одним субъектом
- Код вывода (уже выпущен)
- Чекпоинты модели (уже выпущены)
- Плагин ComfyUI
- Кастомизация видео, управляемая аудио
- Кастомизация видео, управляемая видео
- Кастомизация видео с множественными субъектами
Системные требования
Системные требования для генерации видео с моделью HunyuanCustom следующие:
Модель | Настройка (высота/ширина/кадры) | Пиковая память GPU |
---|---|---|
HunyuanCustom | 720px1280px129f | 80GB |
HunyuanCustom | 512px896px129f | 60GB |
- Минимальное требование: Нужно как минимум 24GB VRAM для генерации 720p видео (но очень медленно)
- Рекомендуемая конфигурация: Рекомендуется GPU с 80GB памяти для лучшего качества генерации