Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиTencent открывает исходный код HunyuanVideo — новая эра генерации видео

Tencent открыла исходный код крупной модели HunyuanVideo

Компания Tencent официально открыла исходный код HunyuanVideo — на данный момент самой крупной модели генерации видео в отрасли. Модель содержит 13 миллиардов параметров и демонстрирует высокие результаты по качеству видео и стабильности движения. Теперь она полностью доступна с открытым исходным кодом на платформах GitHub и Hugging Face.

Основные особенности модели

Унифицированная архитектура генерации изображений и видео

  • Использует гибридный дизайн модели «двойной поток — единый поток»
  • Применяет архитектуру Transformer с полной системой внимания
  • Поддерживает единый процесс генерации как изображений, так и видео

Продвинутые технические возможности

  • В качестве текстового энкодера используется мультимодальная большая языковая модель (MLLM)
  • Реализована 3D VAE для пространственно-временного сжатия
  • Встроенная система переписывания подсказок с режимами Normal и Master
  • Поддержка генерации видео высокого разрешения до 720p

Уникальные преимущества

  • Хорошо справляется с контентом в китайском стиле, включая традиционные и современные темы
  • Поддерживает смену кадров по подсказкам с сохранением идентичности объектов
  • Сохраняет физическую стабильность даже при интенсивных движениях
  • Профессиональные оценки показывают высокие результаты по соответствию тексту, качеству движения и визуальному качеству по сравнению с существующими закрытыми моделями

Требования к оборудованию

  • Минимум: 45 ГБ видеопамяти GPU (разрешение 544x960)
  • Рекомендуется: 60 ГБ видеопамяти GPU (разрешение 720x1280)
  • Совместимость с H800/H20 и другими видеокартами

Открытые ресурсы

Модель доступна по следующим ссылкам:

Онлайн-демонстрация

Пользователи могут попробовать HunyuanVideo через:

Сопутствующие технологии

Помимо основной модели генерации видео, Tencent представила ряд дополнительных технологий:

  1. Совместная генерация голоса и изображения

    • Поддержка генерации видео с речью и движениями лица
    • Точный контроль движений всего тела
  2. Понимание видеоконтента и озвучка

    • Интеллектуальное распознавание содержания видео
    • Генерация подходящей озвучки на основе подсказок
  3. Передача мимики лица

    • Точная синхронизация губ
    • Естественная передача выражений

Перспективы развития

Открытие исходного кода HunyuanVideo открывает новые возможности для всей сферы генерации видео с помощью искусственного интеллекта. Tencent надеется, что публикация исходного кода и весов модели поможет развитию экосистемы генерации видео и позволит большему числу разработчиков и исследователей участвовать в инновациях.

С дальнейшей оптимизацией модели и поддержкой сообщества ожидается, что технологии генерации видео на базе ИИ будут играть всё более важную роль в творчестве, производстве контента и других сферах.

Связанные ресурсы