Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиOmniAvatar: выпуск эффективной модели генерации видео виртуальных людей, управляемой аудио

OmniAvatar: выпуск эффективной модели генерации видео виртуальных людей, управляемой аудио

OmniAvatar - это проект с открытым исходным кодом, совместно разработанный Чжэцзянским университетом и группой Alibaba (выпущен в июне 2025 года). Это модель генерации видео цифровых людей в полный рост, управляемая аудио, которая создает естественные и плавные видео виртуальных людей через одно эталонное изображение, аудиовход и текстовые подсказки. Она поддерживает точную синхронизацию губ, контроль движений всего тела и многосценное взаимодействие, что знаменует значительный прогресс в технологии цифровых людей.

Демо OmniAvatar

I. Основные технические принципы

Пиксельное многослойное аудиовстраивание

  • Использует Wav2Vec2 для извлечения аудио-особенностей, выравнивая голосовые характеристики в скрытое пространство видео пиксель за пикселем через модуль Audio Pack, встраивая аудиоинформацию на нескольких временных слоях в диффузионной модели (DiT).
  • Преимущества: Достигает синхронизации губ на уровне кадров (таких как тонкие выражения, вызванные придыхательными словами) и координации движений всего тела (как движения плеч и ритмы жестов), с более высокой точностью синхронизации, чем основные модели.

Стратегия тонкой настройки LoRA

  • Вставляет матрицы низкоранговой адаптации (LoRA) в слои внимания Transformer и слои прямой сети, тонко настраивая только дополнительные параметры, сохраняя при этом возможности базовой модели.
  • Эффекты: Предотвращает переобучение, улучшает стабильность аудио-видео выравнивания и поддерживает детальный контроль через текстовые подсказки (такие как амплитуда жестов и эмоциональное выражение).

Механизм генерации длинных видео

  • Включает скрытое кодирование эталонного изображения как якоря идентичности, в сочетании со стратегией перекрытия кадров и прогрессивными алгоритмами генерации для смягчения проблем дрейфа цвета и несогласованности идентичности в длинных видео.

II. Основные особенности и инновации

Генерация движений всего тела

  • Прорывает традиционное ограничение “движения только головы”, генерируя естественные и скоординированные движения тела (такие как махание, тост, танцы).

Возможности многомодального контроля

  • Контроль текстовых подсказок: Точная настройка действий (как “праздничный тост”), фонов (как “звездная живая студия”) и эмоций (как “радость/гнев”) через описания.
  • Взаимодействие с объектами: Поддерживает взаимодействие виртуальных людей с объектами сцены (как демонстрации продуктов), улучшая реализм в электронной коммерции и маркетинге.

Поддержка многоязычности и длинных видео

  • Поддерживает адаптацию синхронизации губ для 31 языка, включая китайский, английский и японский, способна генерировать связные видео более 10 секунд (требует устройства с высоким VRAM).

III. Богатые видео-демонстрации

Официальный веб-сайт OmniAvatar предоставляет многочисленные реальные демонстрации, охватывающие различные сценарии и возможности контроля. Вот избранные видео:

1. Движения и выражения говорящего в полный рост

2. Разнообразные действия и эмоциональные выражения

3. Взаимодействие человека с объектами

4. Контроль фона и сцены

5. Эмоциональное выражение

6. Сценарии подкастов и пения

Для большего количества демонстраций посетите Официальный веб-сайт OmniAvatar

IV. Открытый исходный код и экосистема


Контент взят с Официального веб-сайта OmniAvatar, GitHub и связанных материалов с открытым исходным кодом.