Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식2025 05 22 Bagel

title: “BAGEL: ByteDance, 텍스트·이미지·비디오 이해 및 생성을 위한 통합 멀티모달 기반 모델 오픈소스 공개” description: “ByteDance가 7B 활성 파라미터를 갖춘 오픈소스 멀티모달 기반 모델 BAGEL을 공개했습니다. 텍스트, 이미지, 비디오 등 다양한 데이터의 이해와 생성을 지원하며, 여러 공개 벤치마크에서 우수한 성능을 보입니다.” tag: open-source, bytedance date: 2025-05-22

BAGEL: ByteDance, 텍스트·이미지·비디오 이해 및 생성을 위한 통합 멀티모달 기반 모델 오픈소스 공개

BAGEL

BAGEL은 ByteDance가 오픈소스로 공개한 통합 멀티모달 기반 모델로, 7B 활성 파라미터(총 14B 파라미터)를 탑재하고 있습니다. 텍스트, 이미지, 비디오 등 다양한 데이터를 처리·생성할 수 있어 멀티모달 이해와 창작이 가능합니다. BAGEL은 주요 공개 벤치마크에서 선도적인 성과를 거두었으며, 고품질 텍스트-이미지 생성, 복잡한 이미지 편집, 세계 모델링 등 다양한 기능을 지원합니다.

BAGEL 아키텍처

주요 특징

  • 멀티모달 통합 모델링: BAGEL은 텍스트, 이미지, 비디오 입력을 동시에 처리할 수 있으며, 출력도 텍스트, 이미지 또는 조합 형태로 가능합니다. 다중 턴 대화, 이미지 생성, 비디오 이해 등 다양한 활용에 적합합니다.
  • 강력한 생성 및 편집 능력: 고해상도 이미지·비디오 프레임 생성, 스타일 변환·3D 애니메이션·인형 스타일 등 복잡한 이미지 편집, 자유로운 시각적 조작을 지원합니다.
  • 세계 모델링 및 내비게이션: 대규모 비디오·웹 데이터로 학습하여 현실 세계의 동적 지식을 습득, 다중 시점 합성 및 세계 내비게이션 등 고급 작업도 지원합니다.
  • 다중 턴 상호작용 및 추론: 멀티모달 다중 턴 대화를 지원하며, Chain-of-Thought(CoT) 추론 기능으로 짧은 프롬프트를 상세하고 논리적인 출력으로 전환합니다.

기술 아키텍처

BAGEL은 Mixture-of-Transformer-Experts(MoT) 아키텍처를 채택, 두 개의 독립적인 비주얼 인코더로 픽셀 및 의미 수준의 특징을 추출합니다. 전체 프레임워크는 “다음 토큰 그룹 예측” 패러다임을 기반으로 하며, 대규모 교차 멀티모달 데이터로 사전학습·지속학습·지도 미세조정을 거쳐 강력한 이해 및 생성 능력을 갖추었습니다.

  • 비주얼 이해: ViT 인코더로 이미지를 토큰화하여 시각적 내용 이해력을 높입니다.
  • 비주얼 생성: FLUX.1-schnell 변분 오토인코더(VAE)를 통합해 고품질 이미지 생성을 실현합니다.
  • 일반화 인과 어텐션: 멀티모달 토큰 간 효율적 상호작용으로 추론·생성 시 맥락 일관성을 높입니다.

성능

BAGEL은 공개 벤치마크에서 우수한 성능을 보입니다:

  • 비주얼 이해: MME, MMBench, MM-Vet, MathVista 등에서 동종 오픈소스 모델을 능가합니다.
  • 텍스트-이미지 생성: GenEval 전체 점수 0.88로 FLUX-1-dev, SD3-Medium, Janus-Pro-7B를 앞섭니다.
  • 이미지 편집: GEdit-Bench-EN, IntelligentBench에서 높은 구조 일관성·프롬프트 품질을 보여 주요 모델을 능가합니다.
작업지표/벤치마크BAGEL 점수비교 모델(일부)
비주얼 이해MME2388Qwen2.5-VL-7B: 2347
MMBench85.0Janus-Pro-7B: 79.2
MM-Vet67.2Qwen2.5-VL-7B: 67.1
텍스트-이미지 생성GenEval0.88FLUX-1-dev: 0.82
이미지 편집GEdit-Bench-EN SC7.36Step1X-Edit: 7.09
IntelligentBench44.0Step1X-Edit: 14.9

새로운 능력의 출현

사전학습 규모가 커질수록 BAGEL은 단계별로 능력이 출현합니다. 초기에는 멀티모달 이해·생성, 중기에는 기본 이미지 편집, 후기에는 복잡한 지능형 편집·자유로운 시각 조작·세계 모델링이 가능해집니다. 연구에 따르면 VAE와 ViT 특징을 결합하면 지능형 편집 능력이 크게 향상되며, 고급 멀티모달 추론에는 시각-의미 맥락이 중요합니다.

활용 사례

  • AI 이미지 생성 및 편집
  • 멀티모달 대화 및 Q&A
  • 비디오 이해 및 세계 모델링
  • 크로스모달 콘텐츠 제작 및 지원

오픈소스 및 라이선스

BAGEL은 Apache 2.0 라이선스로 공개됩니다. 모델 가중치, 코드, 문서는 아래 링크에서 확인할 수 있습니다. Qwen2.5-7B-Instruct, siglip-so400m-14-384-flash-attn2, FLUX.1-schnell VAE를 기반으로 파인튜닝·통합되었습니다.

관련 링크


출처