Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиByteDance открывает исходный код LatentSync - технология высокоточного синхронизации губ на основе диффузионной модели

ByteDance открывает исходный код LatentSync - технология высокоточного синхронизации губ на основе диффузионной модели

ByteDance недавно открыл исходный код инновационного инструмента синхронизации губ под названием LatentSync на GitHub. Этот сквозной фреймворк синхронизации губ, основанный на диффузионной модели латентного пространства с аудио-условиями, не только достигает высокоточного аудиовизуального синхронизма, но и решает общие проблемы дрожания кадров, встречающиеся в традиционных методах.

Технические инновации

Основные технические инновации LatentSync включают:

  1. Сквозная диффузионная модель латентного пространства

    • Не требует промежуточных представлений движения
    • Прямое моделирование сложных аудиовизуальных отношений в латентном пространстве
    • Использует мощные возможности Stable Diffusion
  2. Оптимизация временной консистентности

    • Вводит инновационную технологию Temporal Representation Alignment (TREPA)
    • Использует крупномасштабные самоконтролируемые видеомодели для извлечения временных признаков
    • Эффективно улучшает временную согласованность в сгенерированных видео

Полный инструментарий

LatentSync предоставляет комплексный инструментарий обработки видео:

  • Инструменты предобработки

    • Изменение частоты кадров видео (25 кадров/с)
    • Передискретизация аудио (16000 Гц)
    • Обнаружение и сегментация сцен
    • Обнаружение и выравнивание лиц
  • Обеспечение качества

    • Проверка размера и количества лиц
    • Оценка уверенности аудиовизуального синхронизма
    • Оценка качества изображений hyperIQA

Широкая применимость

LatentSync демонстрирует отличную универсальность:

  • Видео реальных людей: Точно захватывает и воспроизводит движения губ реальных людей
  • Анимированные персонажи: В равной степени применим к синхронизации губ для анимированных персонажей
  • Низкие требования к ресурсам: Требует только около 6,5 ГБ видеопамяти для вывода

Открытый исходный код и сообщество

Проект открыт на GitHub, предоставляя:

  • Код вывода и предобученные модели
  • Полный конвейер обработки данных
  • Код обучения и файлы конфигурации

Перспективы применения

Релиз LatentSync приносит новые возможности в видеопроизводство:

  • Постпродакшн видео
  • Локализация многоязычного дубляжа
  • Генерация контента виртуальных ведущих
  • Производство образовательных видео

Ссылки