Tencent выпускает мультимодальную систему генерации видео HunyuanCustom

Tencent недавно представил инновационную технологию генерации видео — HunyuanCustom, мультимодальный фреймворк кастомизации видео, способный поддерживать согласованность субъекта, поддерживая различные входные условия, включая текст, изображения, аудио и видео. Технология была открыта с исходным кодом вместе с соответствующими моделями и кодом, принося новые возможности в создание видео контента.

Техническая инновация

Построенная на основе фреймворка генерации видео Hunyuan, HunyuanCustom фокусируется на решении двух основных проблем в текущей технологии генерации видео: согласованность идентичности и ограниченные входные модальности. Технология вводит несколько ключевых инноваций:

Модуль слияния текста и изображения: На основе технологии LLaVA, улучшая возможности мультимодального понимания
Модуль улучшения ID изображения: Используя временную конкатенацию для усиления особенностей идентичности через кадры
Механизмы инъекции условий, специфичные для модальности:
- Модуль AudioNet: Достижение иерархического выравнивания через пространственное кросс-внимание
- Модуль инъекции, управляемый видео: Интеграция условного видео через сеть выравнивания особенностей на основе patchify

Эти технические инновации позволяют HunyuanCustom значительно превосходить существующие методы с открытым и закрытым исходным кодом в терминах согласованности идентичности, реализма и выравнивания текст-видео.

Возможности мультимодальной кастомизации видео

HunyuanCustom поддерживает различные формы ввода, конкретно включая:

Текстовый и изображения ввод: Может обрабатывать одиночные или множественные входные изображения для обеспечения кастомизированной генерации видео для одного или более субъектов
Аудио ввод: Может включать дополнительный аудио ввод для управления субъектом говорить соответствующий аудио контент
Видео ввод: Поддерживает видео ввод, позволяя замену конкретных объектов в видео субъектами из данного изображения

Сценарии применения

Мультимодальные возможности HunyuanCustom поддерживают различные нисходящие задачи:

Виртуальные человеческие рекламы: Создание видео демонстрации продуктов путем ввода множественных изображений
Виртуальная примерка: Генерация видео людей, носящих конкретную одежду
Поющие аватары: Создание виртуальных персонажей, которые поют, сочетая изображение и аудио
Редактирование видео: Использование изображения и видео как входов для замены субъектов в видео

Сравнение производительности

HunyuanCustom был сравнен с передовыми методами кастомизации видео, включая VACE, Skyreels, Pika, Vidu, Keling и Hailuo. Оценка фокусировалась на согласованности лица/субъекта, выравнивании видео-текст и общем качестве видео.

В терминах ключевых метрик HunyuanCustom продемонстрировал значительные преимущества:

Сходство лица (Face-Sim): 0.627 (Ранг 1)
Сходство DINO: 0.593 (Ранг 1)
Временная согласованность: 0.958 (Близко к лучшему)

План открытого исходного кода

Tencent выпустил код вывода и веса модели HunyuanCustom 8 мая 2025 года. Согласно плану открытого исходного кода, команда будет постепенно выпускать:

Кастомизация видео с одним субъектом
- Код вывода (уже выпущен)
- Чекпоинты модели (уже выпущены)
- Плагин ComfyUI
Кастомизация видео, управляемая аудио
Кастомизация видео, управляемая видео
Кастомизация видео с множественными субъектами

Системные требования

Системные требования для генерации видео с моделью HunyuanCustom следующие:

-- |

Минимальное требование: Нужно как минимум 24GB VRAM для генерации 720p видео (но очень медленно)
Рекомендуемая конфигурация: Рекомендуется GPU с 80GB памяти для лучшего качества генерации