Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식바이트댄스, Seaweed-7B 출시: 비용 효율적인 비디오 생성 기반 모델

바이트댄스, Seaweed-7B 출시: 비용 효율적인 비디오 생성 기반 모델

바이트댄스는 최근 비디오 생성 분야에서 중요한 돌파구를 발표했습니다 — Seaweed-7B는 단 70억 개의 매개변수로 뛰어난 성능을 자랑하는 비디오 생성 기반 모델입니다. 공식 기술 보고서에 따르면, 이 모델은 핵심 작업에서 매개변수 수가 두 배인 주류 모델을 능가하면서도 훈련 비용은 경쟁사의 약 3분의 1 수준에 불과합니다.

혁신적인 성능과 효율성

Seaweed-7B(‘Seed-Video’에서 파생)는 여러 핵심 지표에서 인상적인 성능을 보여줍니다:

  • 매개변수 규모: 단 70억 개의 매개변수로 140억 매개변수의 Wan 2.1 모델을 능가하는 성능
  • 훈련 비용: 665,000 H100 GPU 시간으로 훈련 완료, 유사한 모델은 일반적으로 200만 GPU 시간 이상 필요
  • 추론 속도: 실시간으로 24fps의 720p 비디오 생성 가능, 비슷한 모델보다 62배 빠름
  • 자원 요구사항: 1280×720 해상도 생성에 단 40GB VRAM만 필요하여 중소 규모 팀도 활용 가능

이미지에서 비디오 생성 평가에서 Seaweed-7B는 Elo 점수 1047, 승률 58%를 달성했으며, Wan 2.1(14B 매개변수)은 53%, Sora는 36%에 그쳤습니다.

세 가지 핵심 기술 혁신

Seaweed-7B의 비용 효율성은, 세 가지 핵심 기술 혁신에서 기인합니다:

1. 데이터 정제 기술

바이트댄스 팀은 시공간 분할, 품질 필터링, 합성 강화를 사용하는 6단계 데이터 정화 파이프라인을 개발하여, 비효율적인 데이터 비율을 42%에서 2.9%로 줄이고 효과적인 훈련 데이터를 97.1%로 증가시켰으며, 같은 컴퓨팅 파워로 데이터 활용 효율성을 4배 향상시켰습니다.

2. 혁신적인 아키텍처 설계

이 모델은 64× 압축비 VAE와 하이브리드 플로우 Transformer 아키텍처를 사용합니다:

  • VAE 설계: 전통적인 패치 기반 압축을 버리고 인과적 3D 컨볼루션 아키텍처를 채택하여, 720p 고화질 재구성을 보장하면서 모델 수렴 속도를 30% 향상
  • Transformer 최적화: 혁신적인 하이브리드 플로우 Diffusion 아키텍처로 피드포워드 네트워크 매개변수의 2/3를 공유하여, 듀얼 플로우 아키텍처보다 계산량을 20% 감소

3. 점진적 훈련 전략

모델 훈련은 네 단계로 나뉩니다:

  1. 이미지 기초(256p): 정적 이미지부터 시작하여 견고한 시각적 기반 구축
  2. 단편 비디오 시작(360p): 3-5초 짧은 시퀀스 처리, 동작 일관성에 집중
  3. 고화질 돌파(720p): 고해상도 세부 사항 최적화, 텍스트-비디오 변환 작업 비중을 80%로 확대
  4. 후처리 미세 조정: SFT로 미적 효과 향상, RLHF로 움직임 구조 최적화하여 부자연스러운 동작 방지

광범위한 응용 시나리오

기반 모델로서 Seaweed-7B는 다양한 다운스트림 응용 프로그램을 지원합니다:

  • 이미지-비디오 생성: 단일 이미지 또는 첫 번째와 마지막 프레임에서 일관된 비디오 생성
  • 인물 비디오 생성: 다양한 동작과 표현을 보여주는 사실적인 인물 캐릭터 생성
  • 오디오-비디오 공동 생성: 매칭되는 오디오와 비디오 콘텐츠를 동시에 생성
  • 긴 비디오와 스토리텔링: 최대 1분 길이의 단일 샷 비디오와 멀티 샷 장편 스토리텔링 지원
  • 실시간 생성: 24fps로 720p 비디오를 실시간 생성
  • 초고해상도 생성: 비디오를 2K QHD(2560×1440) 해상도로 업스케일
  • 카메라 제어 생성: 정의된 궤적을 통한 정밀한 카메라 제어로 인터랙티브한 세계 탐험 제공

향상된 물리적 일관성

CGI 렌더링된 합성 비디오에 대한 후속 훈련을 통해, Seaweed-7B는 사진 같은 사실감을 유지하면서 비디오 생성의 물리적 일관성도 향상시켜 복잡한 동작과 3D 장면이 더 자연스럽고 현실적으로 보이게 합니다.

관련 링크