Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиTencent выпускает мультимодальную систему генерации видео HunyuanCustom

Tencent выпускает мультимодальную систему генерации видео HunyuanCustom

Tencent недавно представил инновационную технологию генерации видео — HunyuanCustom, мультимодальный фреймворк кастомизации видео, способный поддерживать согласованность субъекта, поддерживая различные входные условия, включая текст, изображения, аудио и видео. Технология была открыта с исходным кодом вместе с соответствующими моделями и кодом, принося новые возможности в создание видео контента.

Общая архитектура HunyuanCustom

Техническая инновация

Построенная на основе фреймворка генерации видео Hunyuan, HunyuanCustom фокусируется на решении двух основных проблем в текущей технологии генерации видео: согласованность идентичности и ограниченные входные модальности. Технология вводит несколько ключевых инноваций:

  1. Модуль слияния текста и изображения: На основе технологии LLaVA, улучшая возможности мультимодального понимания
  2. Модуль улучшения ID изображения: Используя временную конкатенацию для усиления особенностей идентичности через кадры
  3. Механизмы инъекции условий, специфичные для модальности:
    • Модуль AudioNet: Достижение иерархического выравнивания через пространственное кросс-внимание
    • Модуль инъекции, управляемый видео: Интеграция условного видео через сеть выравнивания особенностей на основе patchify

Эти технические инновации позволяют HunyuanCustom значительно превосходить существующие методы с открытым и закрытым исходным кодом в терминах согласованности идентичности, реализма и выравнивания текст-видео.

Возможности мультимодальной кастомизации видео

HunyuanCustom поддерживает различные формы ввода, конкретно включая:

  • Текстовый и изображения ввод: Может обрабатывать одиночные или множественные входные изображения для обеспечения кастомизированной генерации видео для одного или более субъектов
  • Аудио ввод: Может включать дополнительный аудио ввод для управления субъектом говорить соответствующий аудио контент
  • Видео ввод: Поддерживает видео ввод, позволяя замену конкретных объектов в видео субъектами из данного изображения

Мультимодальные возможности HunyuanCustom

Сценарии применения

Мультимодальные возможности HunyuanCustom поддерживают различные нисходящие задачи:

  • Виртуальные человеческие рекламы: Создание видео демонстрации продуктов путем ввода множественных изображений
  • Виртуальная примерка: Генерация видео людей, носящих конкретную одежду
  • Поющие аватары: Создание виртуальных персонажей, которые поют, сочетая изображение и аудио
  • Редактирование видео: Использование изображения и видео как входов для замены субъектов в видео

Сценарии применения HunyuanCustom

Сравнение производительности

HunyuanCustom был сравнен с передовыми методами кастомизации видео, включая VACE, Skyreels, Pika, Vidu, Keling и Hailuo. Оценка фокусировалась на согласованности лица/субъекта, выравнивании видео-текст и общем качестве видео.

В терминах ключевых метрик HunyuanCustom продемонстрировал значительные преимущества:

  • Сходство лица (Face-Sim): 0.627 (Ранг 1)
  • Сходство DINO: 0.593 (Ранг 1)
  • Временная согласованность: 0.958 (Близко к лучшему)

План открытого исходного кода

Tencent выпустил код вывода и веса модели HunyuanCustom 8 мая 2025 года. Согласно плану открытого исходного кода, команда будет постепенно выпускать:

  • Кастомизация видео с одним субъектом
    • Код вывода (уже выпущен)
    • Чекпоинты модели (уже выпущены)
    • Плагин ComfyUI
  • Кастомизация видео, управляемая аудио
  • Кастомизация видео, управляемая видео
  • Кастомизация видео с множественными субъектами

Системные требования

Системные требования для генерации видео с моделью HunyuanCustom следующие:

МодельНастройка (высота/ширина/кадры)Пиковая память GPU
HunyuanCustom720px1280px129f80GB
HunyuanCustom512px896px129f60GB
  • Минимальное требование: Нужно как минимум 24GB VRAM для генерации 720p видео (но очень медленно)
  • Рекомендуемая конфигурация: Рекомендуется GPU с 80GB памяти для лучшего качества генерации

Связанные ссылки