Step1X-Edit: 오픈소스 AI 이미지 편집 프레임워크
2025. 04. 28.
Step1X-Edit: 오픈소스 AI 이미지 편집 프레임워크
Step1X-Edit은 다중모달 대규모 언어 모델을 사용하여 참조 이미지와 사용자의 편집 지시를 처리하고, 잠재적 임베딩을 추출하여 확산 이미지 디코더와 통합함으로써 대상 이미지를 얻는 새로운 오픈소스 이미지 편집 프레임워크입니다. 이 프로젝트는 GPT-4o 및 Gemini2 Flash와 같은 비공개 모델에 필적하는 성능을 제공하는 것을 목표로 합니다.
주요 특징
- 자연어 편집: “미화하기”, “배경 변경” 또는 “픽셀 아트 스타일로 변환”과 같은 자연어 지시를 통한 이미지 편집 지원
- 오픈소스 및 상업적 사용 가능: Apache 2.0 라이선스로 발표되어 자유롭게 상업적 사용 가능
- 유연한 하드웨어 요구 사항: 메모리 요구 사항을 줄이기 위한 FP8 양자화 버전 제공
- 커뮤니티 지원: FP8 양자화 모델을 포함한 여러 커뮤니티 버전이 이미 존재
기술 사양
Step1X-Edit은 다양한 하드웨어 구성에 맞게 여러 버전을 제공합니다:
모델 버전 | 최대 GPU 메모리(512/786/1024 해상도) | 28단계 생성 시간(초) |
---|---|---|
표준 버전 | 42.5GB / 46.5GB / 49.8GB | 5초 / 11초 / 22초 |
FP8 양자화 버전 | 31GB / 31.5GB / 34GB | 6.8초 / 13.5초 / 25초 |
표준 버전+CPU 오프로드 | 25.9GB / 27.3GB / 29.1GB | 49.6초 / 54.1초 / 63.2초 |
FP8 양자화 버전+CPU 오프로드 | 18GB / 18GB / 18GB | 35초 / 40초 / 51초 |
공식적으로는 최고의 성능과 효율성을 위해 80GB 메모리의 GPU 사용이 권장되지만, FP8 양자화 및 CPU 오프로드 기술을 통해 Step1X-Edit은 메모리가 적은 그래픽 카드에서도 실행할 수 있습니다.
온라인 데모
다음 링크를 통해 Step1X-Edit을 직접 체험할 수 있습니다:
Step1X-Edit
향후 계획
Step1X-Edit 팀이 이미 완료한 사항:
- 추론 코드 및 모델 가중치 공개
- 온라인 데모(Gradio)
- FP8 양자화 가중치
계획 중인 기능:
- Diffusers 통합
- ComfyUI 통합
관련 링크
이 오픈소스 프로젝트의 출시로 더 많은 사용자가 비공개 모델에 의존하지 않고 고품질 AI 이미지 편집 기능을 사용할 수 있게 되었으며, 상업적으로 사용 가능한 특성은 개발자들에게 더 많은 가능성을 제공합니다.