Skip to content
더 나은 ComfyUI 지식베이스 구축을 돕기 후원자 되기
새소식Insert Anything: 원활한 이미지 삽입을 위한 오픈소스 프레임워크

Insert Anything: 원활한 이미지 삽입을 위한 오픈소스 프레임워크

Insert Anything 개요

Insert Anything은 저장대학교, 하버드 대학교, 난양 공과대학교의 연구팀(Wensong Song, Hong Jiang, Zongxing Yang, Ruijie Quan, Yi Yang)이 공동으로 개발한 새로운 오픈소스 이미지 편집 프레임워크입니다. 이 프레임워크는 사용자가 지정한 제어 가이드에 따라 참조 이미지의 객체를 대상 장면에 원활하게 통합할 수 있습니다.

이 통합 이미지 삽입 프레임워크는 예술적 창작, 실제 얼굴 교체, 영화 장면 구성, 가상 의류 시착, 액세서리 맞춤화, 디지털 소품 교체 등 여러 실용적인 응용 시나리오를 지원하여 다양한 이미지 편집 작업에서의 다재다능함과 효율성을 완벽하게 보여줍니다.

주요 기능

  • 통합 삽입 프레임워크: 다른 작업에 대해 별도의 모델을 훈련할 필요 없이 하나의 모델로 여러 삽입 시나리오 지원
  • 다양한 제어 방법: 마스크 기반 및 텍스트 기반 편집 가이드 지원
  • 신원 특징 보존: 스타일, 색상, 텍스처의 다양한 로컬 조정을 허용하면서 신원 특징과 세부 사항을 정확하게 캡처
  • 컨텍스트 편집 메커니즘: 참조 이미지를 컨텍스트 정보로 취급하고, 두 가지 프롬프팅 전략을 사용하여 삽입된 요소를 대상 장면과 조화롭게 혼합
  • 저사양 VRAM 버전 지원: Nunchaku 기반의 10GB VRAM 버전 제공, 일반 사용자에게 편리함

응용 사례

밈 제작

밈 제작은 Insert Anything의 중요한 응용 시나리오입니다. 다음은 몇 가지 비교 이미지입니다:

밈 예시 1 밈 효과 1

밈 예시 2 밈 효과 2

밈 예시 3 밈 효과 3

상업 광고 디자인

상업 광고 디자인은 Insert Anything의 또 다른 중요한 응용 시나리오입니다. 다음은 몇 가지 비교 이미지입니다:

광고 예시 1 광고 효과 1

광고 예시 2 광고 효과 2

광고 예시 3 광고 효과 3

대중문화 창작

대중문화 창작은 Insert Anything의 창의적 콘텐츠 생성 잠재력을 보여줍니다:

대중문화 예시 1 대중문화 효과 1

대중문화 예시 2 대중문화 효과 2

대중문화 예시 3 대중문화 효과 3

대중문화 예시 4 대중문화 효과 4

기술적 하이라이트

Insert Anything 방법론 개요

Insert Anything은 디퓨전 트랜스포머(DiT)의 멀티모달 어텐션 메커니즘을 활용하여 마스크 기반 및 텍스트 기반 편집을 모두 지원합니다. 다양한 유형의 프롬프트에 따라 이 통합 프레임워크는 여러 입력 이미지(참조 이미지, 소스 이미지 및 마스크의 조합)를 고정된 VAE 인코더를 통해 처리하여 고주파 세부 정보를 보존하고, 이미지 및 텍스트 인코더에서 의미론적 가이드를 추출합니다. 이러한 임베딩은 결합되어 컨텍스트 학습을 위한 학습 가능한 DiT 트랜스포머 블록에 입력되어 마스크 또는 텍스트 프롬프트를 기반으로 정밀하고 유연한 이미지 삽입을 가능하게 합니다.

AnyInsertion 데이터셋

AnyInsertion 데이터셋 예시

AnyInsertion 데이터셋 정보

이 통합 프레임워크를 훈련시키기 위해 연구팀은 사람, 물체, 의류 삽입과 같은 다양한 삽입 작업을 포함하는 약 120,000개의 프롬프트-이미지 쌍을 포함하는 AnyInsertion 데이터셋을 만들었습니다. 이 데이터셋은 마스크 기반 및 텍스트 기반 카테고리로 나뉘며, 각각은 액세서리, 물체, 사람 하위 카테고리로 더 세분화됩니다.

데이터셋의 이미지 쌍은 인터넷 리소스, 인물 비디오 및 다중 뷰 이미지에서 가져왔습니다. 데이터셋은 다양한 삽입 시나리오를 다룹니다:

  • 가구 및 인테리어 장식
  • 일상 필수품
  • 의류 및 액세서리
  • 교통 수단
  • 사람

오픈소스 및 사용법

Insert Anything 프로젝트는 GitHub에서 오픈소스로 공개되었으며, 누구나 자유롭게 다운로드하고 사용할 수 있습니다:

이 프로젝트는 여러 사용 방법을 제공합니다:

  • 명령줄 추론 스크립트
  • Gradio 인터페이스
  • ComfyUI 통합 노드

하드웨어 요구사항

Insert Anything은 두 가지 버전을 제공합니다:

  • 표준 버전: 26GB 또는 40GB VRAM 필요
  • 경량 버전: Nunchaku 기반으로 최적화된 버전, 10GB VRAM만 필요

향후 계획

공식 GitHub 저장소 정보에 따르면, 팀은 다음을 계획하고 있습니다:

  • 훈련 코드 공개
  • HuggingFace에 AnyInsertion 텍스트 프롬프트 데이터셋 공개

관련 링크

이 오픈소스 프레임워크의 출시는 창작자, 디자이너 및 콘텐츠 제작자에게 더 유연하고 정밀한 이미지 편집 효과를 달성할 수 있는 강력한 도구를 제공할 것입니다.