Black Forest Labs, FLUX.1 Kontext 출시: 컨텍스트 인식 이미지 편집 모델 스위트

2024년 5월 29일, Black Forest Labs는 이미지 생성과 편집을 위해 특별히 설계된 생성적 플로우 매칭 모델 스위트인 FLUX.1 Kontext를 공식 출시했습니다. 기존의 텍스트-투-이미지 모델들과 달리, FLUX.1 Kontext 시리즈는 컨텍스트 인식 이미지 생성을 수행할 수 있어, 사용자가 텍스트와 이미지 모두를 입력으로 사용하여 시각적 개념을 원활하게 추출하고 수정하여 새롭고 일관성 있는 렌더링을 생성할 수 있습니다.

FLUX.1 Kontext의 세 가지 모델 버전

FLUX.1 Kontext [pro] - 빠른 반복 편집

빠른 반복 이미지 편집의 선구적 모델로서, FLUX.1 Kontext [pro]는 로컬 편집, 생성적 컨텍스트 수정, 그리고 클래식한 텍스트-투-이미지 생성 기능을 단일 모델에 통합하면서 FLUX.1의 특징적인 고품질 출력을 유지합니다. 이 모델은 텍스트와 참조 이미지를 입력으로 처리할 수 있으며, 특정 이미지 영역에서의 타겟 로컬 편집과 전체 장면의 복잡한 변환을 원활하게 달성합니다.

FLUX.1 Kontext [max] - 최대 성능

실험적 모델로서, FLUX.1 Kontext [max]는 프롬프트 준수와 텍스트 생성에서 상당한 개선을 보여주며, 속도의 타협 없이 편집 일관성에서 뛰어난 성능을 발휘합니다.

FLUX.1 Kontext [dev] - 오픈소스 개발 버전

FLUX.1 Kontext [dev]는 커스터마이제이션에 적합한 경량 12B 확산 트랜스포머로, 이전 FLUX.1 [dev] 추론 코드와 호환됩니다. 이 버전은 현재 프라이빗 베타 테스트 중이며, 연구자들은 kontext-dev@blackforestlabs.ai를 통해 액세스를 신청할 수 있습니다.

핵심 기술 특징

FLUX.1 Kontext의 주요 기술 능력은 다음과 같습니다:

캐릭터 일관성 보존: 여러 장면과 환경에 걸쳐 이미지 내의 독특한 요소들(참조 캐릭터나 객체 등)의 일관성을 유지하는 기능으로, 전통적인 이미지 편집 도구로는 달성하기 어려운 기능입니다.

로컬라이즈된 편집: 다른 부분에 영향을 주지 않고 이미지 내의 특정 요소에 타겟 수정을 가하는 능력으로, 정밀한 로컬 조정을 달성합니다.

스타일 참조: 텍스트 프롬프트의 가이드에 따라 참조 이미지의 독특한 스타일을 유지하면서 새로운 장면을 생성합니다.

인터랙티브 속도: 이미지 생성과 편집 모두에서 극도로 낮은 지연시간을 실현하여 실시간 작업을 지원합니다.

반복 편집 능력: 사용자는 이전 편집을 기반으로 지시사항을 계속 추가하여 이미지 품질과 캐릭터 일관성을 유지하면서 창작물을 단계적으로 다듬을 수 있습니다.

성능 벤치마크 결과

모델 성능을 검증하기 위해, Black Forest Labs는 광범위한 성능 평가를 실시하고 크라우드소싱된 실제 사용 사례로부터 얻은 벤치마크인 KontextBench를 편찬했습니다. 평가 결과는 다음을 보여줍니다:

FLUX.1 Kontext [pro]는 모든 6개의 컨텍스트 이미지 생성 작업에서 우수한 성능을 발휘
텍스트 편집과 캐릭터 보존에서 최고 점수를 달성
추론 속도에서 기존 고급 모델들(GPT-Image 등)보다 8배 빠른 속도를 실현
미학, 프롬프트 준수, 텍스트 생성, 리얼리즘을 포함한 여러 품질 차원에서 경쟁력을 보임

사용 제한 및 고려사항

FLUX.1 Kontext는 현재 구현에서 몇 가지 제한사항이 있습니다:

다중 턴 편집 제한: 과도한 다중 턴 편집 세션은 시각적 아티팩트를 도입하고 이미지 품질을 저하시킬 수 있습니다. 공식 데모에 따르면, 6번 이상의 반복 편집 후에는 생성된 이미지가 시각적 퇴화와 명백한 아티팩트를 보일 수 있습니다.

지시 준수 정확성: 모델은 때때로 지시를 정확히 따르지 못할 수 있으며, 드문 경우에 특정 프롬프트 요구사항을 무시할 수 있습니다.

세계 지식 제한: 모델의 세계 지식은 여전히 제한적이어서 컨텍스트적으로 정확한 콘텐츠를 생성하는 능력에 영향을 미칩니다.

증류 과정 영향: 증류 과정이 출력 충실도에 영향을 미치는 시각적 아티팩트를 도입할 수 있습니다.

BFL Playground 공식 출시

사용자가 모델 기능을 더 쉽게 테스트하고 시연할 수 있도록, Black Forest Labs는 동시에 FLUX Playground 플랫폼을 출시했습니다. 이 간소화된 인터페이스는 개발자와 팀이 기술적 통합 없이 가장 발전된 FLUX 모델들을 테스트할 수 있게 합니다.

Playground는 개발자에게 사용 사례 검증, 이해관계자에 대한 기능 시연, 실시간 고급 이미지 생성 실험의 능력을 제공합니다. 기술적 실현 가능성을 평가하든 의사결정자에게 결과를 보여주든, Playground는 완전한 API 구현에 들어가기 전에 FLUX의 능력을 평가할 수 있는 즉각적인 액세스를 제공합니다.

플랫폼 지원 및 생태계

FLUX.1 Kontext는 현재 여러 플랫폼을 통해 액세스할 수 있습니다:

직접 지원 플랫폼: KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI

인프라스트럭처 파트너: FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg

OpenArt와 KreaAI가 선호도 데이터 수집을 위한 지원을 제공했습니다.

기술적 의의와 영향

FLUX.1 Kontext의 출시는 이미지 편집 기술에서 중요한 진전을 의미합니다. 이 모델 스위트는 텍스트 기반 즉석 이미지 편집과 텍스트-투-이미지 생성 기능을 통합하여 사용자에게 전례 없는 창작적 유연성을 제공합니다.

멀티모달 플로우 모델로서, FLUX.1 Kontext는 고급 캐릭터 일관성 보존, 컨텍스트 이해, 로컬 편집 능력을 강력한 텍스트-투-이미지 합성 기능과 결합하여 전문 디자이너와 창작자에게 강력한 도구를 제공합니다.