텐센트, 훈위안 이미지 3.0 오픈소스 공개 - 세계 최대의 오픈소스 텍스트-이미지 생성 모델
2025. 09. 27.
텐센트, 훈위안 이미지 3.0 출시 - 세계 최대의 오픈소스 텍스트-이미지 생성 모델
텐센트는 9월 28일에 공식적으로 훈위안 이미지 3.0(HunyuanImage-3.0)을 오픈소스로 공개했습니다. 이는 최초로 공개된 상용 수준의 오픈소스 네이티브 멀티모달 이미지 생성 모델로, 현재까지 가장 파라미터 규모가 큰 오픈소스 이미지 생성 모델이며 총 파라미터 수는 80B에 달합니다.
주요 특징
전례 없는 파라미터 규모
훈위안 이미지 3.0은 총 80B 파라미터와 13B 활성 파라미터를 보유하며, 64개 전문가를 가진 MoE(Expert Mix, 전문가 혼합) 아키텍처를採用해 현재 세계 최대의 오픈소스 텍스트-이미지 생성 모델입니다.
세계 지식 추론 능력
이 모델은 세계 지식을 기반으로 추론하는 네이티브 멀티모달 기능을 갖추고 있으며, 상식과 전문 지식을 결합하여 보다 정확하고 풍부한 이미지 콘텐츠를 생성할 수 있습니다. 모델은 다음을 수행할 수 있습니다:
- 9개의 칸에 나눈 스케치 튜토리얼 및 알고리즘 플로우 시각화 생성
- 물리 원리, 역사적 사건, 생물 과정 설명
- 문학 작품 및 시를 기반으로 한 시각적 작품 제작
수천 단어의 복잡한 의미 이해
훈위안 이미지 3.0은 1000자 이상의 복잡한 의미 이해를 지원하며, 유사한 오픈소스 모델 중에서는 극히 드문 기능입니다. 모델은 다음을 수행할 수 있습니다:
- 복잡한 장면 설명 처리
- 다단계의 디테일 요구 사항 이해
- 중국어 및 영어 이중 언어 입력 지원
정확한 텍스트 렌더링
모델은 이미지 내 텍스트 생성 분야에서 뛰어난 성능을 보이며 다음을 지원합니다:
- 포스터 디자인에 포함된 제목 텍스트
- 인포그래픽에 포함된 주석 텍스트
- 브랜드 로고 및 상표
- 다양한 언어의 텍스트 혼합
기술 아키텍처
훈위안 이미지 3.0은 혁신적인 MoE+Transfusion 아키텍처를 채택하여 멀티모달 이해 및 생성 능력을 통합했습니다. 기존 DiT 아키텍처와 달리 이 모델은 통합된 자기회귀 프레임워크를 사용하여 텍스트와 이미지 모달 간의 심도 있는 통합을 실현했습니다.
학습 데이터
- 50억 개의 이미지-텍스트 쌍
- 6T 텍스트 토큰
- 점진적 학습 전략
- 강화 학습 후 학습 최적화
사용 요구사항
하드웨어 구성
이 모델은 일반적인 소비자용 GPU에 상당한 부담이 될 수 있으며, 80B 파라미터라는 거대한 규모를 고려할 때, 양자화된 버전조차도 일반적인 소비자용 GPU에서는 원활하게 작동하기 어려울 수 있습니다.
- GPU: ≥3×80GB VRAM (권장 4×80GB)
- 저장 공간: 170GB 사용 가능 공간
- 메모리: 64GB 이상 시스템 RAM
- 시스템: Linux + CUDA 12.8
오픈소스 계획
훈위안 이미지 3.0은 다음과 같은 완전한 오픈소스 솔루션을 제공합니다:
- 추론 코드 및 모델 가중치
- 훈위안이미지-3.0 기본 버전
- 훈위안이미지-3.0-인스트럭트 지시 버전(추론 기능 지원)
- 향후 이미지-이미지 생성, 다중 회전 대화 등의 기능 지원 예정
오픈소스 라이선스
훈위안 이미지 3.0은 Tencent Hunyuan Community License Agreement 오픈소스 라이선스를 채택합니다. 이 라이선스는 다음을 허용합니다:
- 개인 및 기업이 모델을 무료로 사용, 복사, 배포 및 수정할 수 있음
- 상업적 사용 및 파생작품 개발 지원
- API 또는 다른 수단을 통한 호스팅 서비스 제공 허용
중요 제한 사항
- 지리적 제한: 이 라이선스는 EU, 영국 및 한국 지역에는 적용되지 않습니다.
- 사용자 규모 제한: 귀하의 제품 또는 서비스의 월간 활성 사용자가 1억 명을 초과하는 경우, 텐센트에 추가 라이선스를 신청해야 합니다.
- 사용 제한: 모델 출력을 다른 AI 모델(훈위안 시리즈 제외) 개선에 사용하는 것을 금지합니다.
- 준수 요구 사항: 각국의 법률 및 규정과 허용되는 사용 정책을 준수해야 합니다.
관련 링크
- 공식 웹사이트: https://hunyuan.tencent.com/image
- GitHub 저장소: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- HuggingFace 모델: https://huggingface.co/tencent/HunyuanImage-3.0
- 기술 보고서: HunyuanImage 3.0 기술 보고서