Skip to content
Follow me on X
ComfyUI Wiki
НовостиTencent выпускает мультимодальную систему генерации видео HunyuanCustom

Tencent выпускает мультимодальную систему генерации видео HunyuanCustom

Tencent недавно представил инновационную технологию генерации видео — HunyuanCustom, мультимодальный фреймворк кастомизации видео, способный поддерживать согласованность субъекта, поддерживая различные входные условия, включая текст, изображения, аудио и видео. Технология была открыта с исходным кодом вместе с соответствующими моделями и кодом, принося новые возможности в создание видео контента.

Общая архитектура HunyuanCustom

Техническая инновация

Построенная на основе фреймворка генерации видео Hunyuan, HunyuanCustom фокусируется на решении двух основных проблем в текущей технологии генерации видео: согласованность идентичности и ограниченные входные модальности. Технология вводит несколько ключевых инноваций:

  1. Модуль слияния текста и изображения: На основе технологии LLaVA, улучшая возможности мультимодального понимания
  2. Модуль улучшения ID изображения: Используя временную конкатенацию для усиления особенностей идентичности через кадры
  3. Механизмы инъекции условий, специфичные для модальности:
    • Модуль AudioNet: Достижение иерархического выравнивания через пространственное кросс-внимание
    • Модуль инъекции, управляемый видео: Интеграция условного видео через сеть выравнивания особенностей на основе patchify

Эти технические инновации позволяют HunyuanCustom значительно превосходить существующие методы с открытым и закрытым исходным кодом в терминах согласованности идентичности, реализма и выравнивания текст-видео.

Возможности мультимодальной кастомизации видео

HunyuanCustom поддерживает различные формы ввода, конкретно включая:

  • Текстовый и изображения ввод: Может обрабатывать одиночные или множественные входные изображения для обеспечения кастомизированной генерации видео для одного или более субъектов
  • Аудио ввод: Может включать дополнительный аудио ввод для управления субъектом говорить соответствующий аудио контент
  • Видео ввод: Поддерживает видео ввод, позволяя замену конкретных объектов в видео субъектами из данного изображения

Мультимодальные возможности HunyuanCustom

Сценарии применения

Мультимодальные возможности HunyuanCustom поддерживают различные нисходящие задачи:

  • Виртуальные человеческие рекламы: Создание видео демонстрации продуктов путем ввода множественных изображений
  • Виртуальная примерка: Генерация видео людей, носящих конкретную одежду
  • Поющие аватары: Создание виртуальных персонажей, которые поют, сочетая изображение и аудио
  • Редактирование видео: Использование изображения и видео как входов для замены субъектов в видео

Сценарии применения HunyuanCustom

Сравнение производительности

HunyuanCustom был сравнен с передовыми методами кастомизации видео, включая VACE, Skyreels, Pika, Vidu, Keling и Hailuo. Оценка фокусировалась на согласованности лица/субъекта, выравнивании видео-текст и общем качестве видео.

В терминах ключевых метрик HunyuanCustom продемонстрировал значительные преимущества:

  • Сходство лица (Face-Sim): 0.627 (Ранг 1)
  • Сходство DINO: 0.593 (Ранг 1)
  • Временная согласованность: 0.958 (Близко к лучшему)

План открытого исходного кода

Tencent выпустил код вывода и веса модели HunyuanCustom 8 мая 2025 года. Согласно плану открытого исходного кода, команда будет постепенно выпускать:

  • Кастомизация видео с одним субъектом
    • Код вывода (уже выпущен)
    • Чекпоинты модели (уже выпущены)
    • Плагин ComfyUI
  • Кастомизация видео, управляемая аудио
  • Кастомизация видео, управляемая видео
  • Кастомизация видео с множественными субъектами

Системные требования

Системные требования для генерации видео с моделью HunyuanCustom следующие:

МодельНастройка (высота/ширина/кадры)Пиковая память GPU
HunyuanCustom720px1280px129f80GB
HunyuanCustom512px896px129f60GB
  • Минимальное требование: Нужно как минимум 24GB VRAM для генерации 720p видео (но очень медленно)
  • Рекомендуемая конфигурация: Рекомендуется GPU с 80GB памяти для лучшего качества генерации

Связанные ссылки