Skip to content
ComfyUI Wiki
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식OmniGen2 출시: 자연어 지시를 통한 통합 이미지 이해 및 생성 모델

OmniGen2 출시: 자연어 지시를 통한 통합 이미지 이해 및 생성 모델

VectorSpaceLab 팀이 강력한 멀티모달 이미지 생성 모델인 OmniGen2를 공식 출시했습니다. 이전 버전인 OmniGen v1과 달리, OmniGen2는 텍스트와 이미지 모달리티의 이중 경로 디코딩 설계를 채택하고, 독립적인 매개변수와 분리된 이미지 토크나이저를 사용하여 이미지 편집 분야에서 상당한 성능 향상을 달성했습니다.

OmniGen2 전체 기능 시연

핵심 기능

OmniGen2는 네 가지 핵심 능력을 보유하며, 특히 이미지 편집 분야에서 뛰어난 성능을 발휘합니다:

자연어 지시 기반 이미지 편집

OmniGen2의 가장 큰 특징은 자연어 지시를 통한 정밀한 국소 이미지 편집을 지원한다는 것입니다. 사용자는 원하는 수정 사항을 간단히 설명하기만 하면, 모델이 다양한 복잡한 편집 작업을 정확하게 수행할 수 있습니다:

  • 의상 수정: “드레스를 파란색으로 변경”과 같은 작업
  • 동작 조정: “손을 들어올리기”, “미소 짓게 하기” 등
  • 배경 처리: “배경을 교실로 변경” 등
  • 객체 추가: “여성의 머리에 어부 모자 추가” 등
  • 객체 교체: “검을 망치로 교체” 등
  • 객체 제거: “고양이 제거” 등
  • 스타일 변환: “원본 이미지를 기반으로 애니메이션 스타일 피규어 생성” 등

OmniGen2 이미지 편집 기능 시연

텍스트-이미지 생성

텍스트 설명을 기반으로 고품질의 아름다운 이미지를 생성하며, 다양한 창의적 시나리오 구현을 지원합니다.

컨텍스트 내 생성

OmniGen2는 인물, 참조 객체, 장면을 포함한 다양한 입력을 처리하고 유연하게 결합하여 새롭고 일관성 있는 시각적 출력을 생성하는 능력을 갖추고 있습니다.

OmniGen2 컨텍스트 내 생성 기능 시연

시각적 이해

Qwen-VL-2.5 기반에서 상속받은 강력한 시각적 이해 능력으로 이미지 콘텐츠를 해석하고 분석할 수 있습니다.

기술적 장점

OmniGen2는 오픈소스 모델 중에서 이미지 편집 분야의 최고 성능을 달성했으며, 다음과 같은 장점을 가지고 있습니다:

  • 더 정밀한 편집 제어: 자연어 지시를 통한 세밀한 이미지 수정
  • 높은 리소스 효율성: CPU 오프로드 옵션을 제공하여 제한된 VRAM 장치에서의 실행 지원
  • 다국어 지원: 영어에서 최상의 성능을 보이지만 다양한 언어 입력 지원
  • 사용 편의성: 간단한 API 인터페이스와 온라인 데모 제공

시스템 요구사항 및 사용법

OmniGen2는 기본적으로 NVIDIA RTX 3090 또는 동급 GPU에 약 17GB VRAM이 필요합니다. VRAM이 적은 장치의 경우 CPU 오프로드 기능을 활성화하여 모델을 실행할 수 있습니다.

모델은 다양한 사용 방법을 지원합니다:

  • 명령행 도구
  • Gradio 웹 인터페이스
  • Jupyter 노트북
  • 온라인 데모 플랫폼

사용 권장사항

최적의 결과를 얻기 위해 사용자들에게 다음을 권장합니다:

  1. 고품질 이미지 사용: 명확한 이미지, 가급적 512×512 픽셀 이상의 해상도 제공
  2. 상세한 지시 설명: 수정할 내용과 기대하는 결과를 명확하게 설명
  3. 영어 프롬프트 사용: 모델은 영어 프롬프트에서 최상의 성능 발휘
  4. 매개변수 설정 조정: 작업 유형에 따라 텍스트 가이던스 강도와 이미지 가이던스 강도 조정

기술적 한계

현재 버전에는 몇 가지 제한사항이 있습니다:

  • 모델이 때때로 지시를 완전히 따르지 않을 수 있어 여러 이미지를 생성하여 선택하는 것을 권장
  • 출력 이미지 크기를 자동으로 결정할 수 없으며 기본값은 1024×1024
  • 여러 이미지 처리 시 편집 대상에 맞춰 출력 크기를 수동으로 설정해야 함

관련 링크

오픈소스 프로젝트로서 OmniGen2는 제어 가능하고 개인화된 생성 AI 분야를 탐구하는 연구자와 개발자들에게 강력하고 효율적인 기반 도구를 제공합니다. 팀은 커뮤니티에 더 많은 지원을 제공하기 위해 훈련 코드와 데이터셋을 출시할 예정임을 밝혔습니다.