AIGC 최신 뉴스
최신 AIGC 뉴스와 업데이트를 확인하세요.
마이크로소프트, ART 다층 투명 이미지 생성 기술 공개
마이크로소프트 리서치가 전역 텍스트 프롬프트 기반의 지능형 레이어 생성 솔루션을 선보이며 50+ 독립 레이어를 포함한 투명 이미지 제작 지원
텐센트, 이미지-비디오 생성 오픈소스 모델 HunyuanVideo-I2V 공개
텐센트 후니위안 팀이 단일 이미지로 5초 비디오 생성이 가능한 오픈소스 모델 출시. 지능형 모션 생성과 맞춤형 효과 기능 제공
알리바바, 시각 문서 분석 도구 ViDoRAG 오픈소스 공개
문서 내 텍스트와 이미지를 동시에 이해하는 AI 시스템, 복잡 문서 처리 효율 10% 이상 향상

지푸AI팀(THUDM) CogView4 오픈소스 공개 - 중국어 네이티브 지원 DiT 텍스트-이미지 모델
지푸AI팀(THUDM)이 중영 이중언어 입력 및 한자 생성이 가능한 CogView4 오픈소스 이미지 생성 모델 공개, 다수 벤치마크에서 선두 성적
Sesame, CSM 음성 모델 공개로 음성 인터랙션 혁신
Sesame 연구팀이 이중 Transformer 아키텍처 기반 대화형 음성 모델 CSM 공개, 실시간 음성 상호작용 구현 및 오픈소스 코어 제공
알리바바 통의 만상 Wan2.1 비디오 생성 모델 공식 오픈 소스
알리바바가 최신 비디오 생성 모델 Wan2.1을 공식 오픈 소스화했습니다. 이 모델은 8GB의显存만으로도 실행할 수 있으며, 고화질 비디오 생성, 동적 자막 및 다국어 더빙을 지원합니다. VBench 순위표에서 86.22%의 총점으로 Sora 등 모델을 초월했습니다.
알리바바, ComfyUI Copilot 오픈소스 발표: AI 기반의 스마트 워크플로우 어시스트
알리바바 국제 디지털 상업 그룹(AIDC-AI)은 ComfyUI Copilot 플러그인을 발표했습니다. 이는 ComfyUI 프레임워크 기반으로 개발된 스마트 어시스트 도구로, 자연어 상호작용과 AI 기반 기능을 통해 ComfyUI 사용 경험을 단순화합니다. 중국어 상호작용 지원 및智能 노드 추천 등의 기능을 제공합니다.
알리바바 통의 만상 비디오 생성 모델 WanX 2.1이 오픈 소스로 출시될 예정
알리바바는 2025년 2분기에 최신 비디오 생성 모델인 WanX 2.1을 오픈 소스로 출시할 예정이라고 발표했습니다. 이 모델은 고해상도 비디오 생성, 동적 자막 및 다국어 더빙을 지원하며, VBench 순위에서 84.7%의 총점으로 1위를 차지했습니다.
구글이 PaliGemma 2 mix를 출시합니다: 다중 작업을 지원하는 오픈 소스 시각 언어 모델
구글이 새로운 PaliGemma 2 mix 모델을 출시하여 이미지 설명, OCR, 목표 감지 등 다양한 시각 작업을 지원하고, 3B, 10B, 28B 세 가지 스케일 버전을 제공합니다.
Skywork 오픈소스 SkyReels-V1: AI 단편 영화 제작에 특화된 비디오 생성 모델
Skywork가 오픈소스 비디오 생성 모델 SkyReels-V1을 발표했습니다. 텍스트 생성 비디오와 이미지 생성 비디오를 지원하며, 영화 수준의 조명 효과와 자연스러운 동작 표현을 갖추고 있으며, 상용화되었습니다.
Light-A-Video - 훈련 없이 가능한 비디오 재조명 기술
연구자들이 새로운 비디오 재조명 방법인 Light-A-Video를 제안하였으며, 일관된 조명 주의(CLA)와 점진적 조명 융합(PLF)을 통해 시간적으로 매끄러운 비디오 재조명 효과를 구현하였습니다.
StepFun 오픈소스 Step-Video-T2V: 300억 파라미터 텍스트 기반 비디오 모델 발표
StepFun이 오픈소스 텍스트 기반 비디오 모델 Step-Video-T2V를 발표하였으며, 300억 파라미터를 보유하고 204프레임까지의 고품질 비디오 생성을 지원하며 온라인 체험 플랫폼을 제공합니다.
Kuaishou(快手)がCineMasterを発表:3D認識による画期的な動画生成フレームワーク
Kuaishouが3D認識技術による高品質な動画コンテンツ制作を実現するCineMasterテキスト→動画生成フレームワークを正式リリース
알리바바, InspireMusic 오픈소스 공개: 혁신적인 음악, 노래 및 오디오 생성 프레임워크
알리바바의 최신 오픈소스 프로젝트 InspireMusic은 FunAudioLLM 기반의 통합 오디오 생성 프레임워크로, 음악 제작, 노래 생성 등 다양한 오디오 합성 작업을 지원합니다.
알리바바, ACE++ 오픈소스 공개: 학습 없이 캐릭터 일관성 이미지 생성 구현
알리바바 연구소가 이미지 생성 도구 ACE++를 오픈소스로 공개. 문맥 인식 콘텐츠 채우기 기술을 통해 단일 입력에서 캐릭터 일관성이 있는 새로운 이미지 생성을 지원하며, 온라인 체험과 3가지 전용 모델을 제공.
ByteDance, OmniHuman 발표: 차세대 인체 애니메이션 생성 프레임워크
ByteDance 연구팀이 OmniHuman-1 인체 애니메이션 생성 프레임워크를 발표하여, 단일 이미지와 모션 신호만으로 고품질 인체 비디오 애니메이션 생성이 가능해졌습니다.
DeepSeek, Janus-Pro-7B 멀티모달 AI 모델 오픈소스 공개
텐센트, Hunyuan3D 2.0 출시: 오픈소스 고품질 3D 생성 모델과 엔드투엔드 제작 엔진
텐센트가 Hunyuan3D 2.0을 출시하며, 완전한 DiT 모델을 오픈소스로 공개하고 스켈레탈 애니메이션과 스케치-투-3D 등 혁신적인 기능을 포함한 원스톱 3D 제작 엔진을 출시하여 메타버스와 게임 콘텐츠 제작에 혁명을 가져옴
ComfyUI 프로젝트 2주년 기념
ComfyUI는 개인 프로젝트에서 세계에서 가장 인기 있는 생성적 AI 비주얼 도구로 발전하며 두 번째 생일을 맞이합니다. ComfyUI 생일 축하합니다!
NVIDIA 오픈소스 Sana - 효율적인 4K 이미지 생성 AI 모델
NVIDIA는 새로운 Sana 모델을 출시했습니다. 이 모델은 일반 노트북 GPU에서 최대 4K 해상도의 이미지를 빠르게 생성할 수 있으며, ComfyUI 통합을 지원합니다.
바이트댄스, LatentSync 오픈소스 공개 - 확산 모델 기반 고정밀 립싱크 기술
바이트댄스가 오픈소스 립싱크 도구 LatentSync를 공개했습니다. 오디오 조건부 잠재 공간 확산 모델을 기반으로 실제 인물과 애니메이션 캐릭터의 정확한 립싱크를 구현하고 기존 방식의 프레임 지터 문제를 해결했습니다

VMix: 바이트댄스가 선보인 혁신적인 텍스트-이미지 생성 모델의 미학적 향상 기술
바이트댄스와 중국과학기술대학이 공동으로 VMix 어댑터를 출시하여 교차 주의력 혼합 제어 기술을 통해 AI 생성 이미지의 미학적 품질을 향상시키고, 재학습 없이도 기존 모델과 완벽하게 통합
텐센트, StereoCrafter 오픈소스 공개: 일반 동영상을 3D 동영상으로 원클릭 변환
텐센트 AI Lab과 ARC Lab이 공동 개발한 StereoCrafter 모델이 오픈소스로 공개되었습니다. 이 모델은 모든 2D 동영상을 고품질 입체 3D 동영상으로 변환할 수 있으며, Apple Vision Pro를 포함한 다양한 3D 디스플레이 장치를 지원합니다.
LuminaBrush: ControlNet 제작자가 출시한 AI 조명 편집 도구
ControlNet과 IC-Light 제작자 lllyasviel이 새로운 LuminaBrush를 출시했습니다. 2단계 프레임워크를 통해 정밀한 조명 효과 제어를 구현하고 직관적인 브러시 상호작용 경험을 제공합니다
Genesis: 혁신적인 범용 물리 엔진과 생성형 AI 플랫폼 출시
Genesis 프로젝트가 물리 시뮬레이션, 로봇 제어, 생성형 AI 기능을 통합한 새로운 범용 물리 엔진과 생성형 AI 플랫폼을 출시하여 로봇과 물리 AI 애플리케이션을 위한 종합 솔루션 제공
Odyssey, Explorer 출시 - 혁신적인 생성형 월드 모델
Odyssey가 2D 이미지를 완전한 3D 세계로 변환할 수 있는 최초의 생성형 월드 모델 Explorer를 출시하여 동적 효과와 주류 창작 도구 편집을 지원하며, 영화, 게임 등 분야에 혁명적인 변화를 가져올 예정입니다

ComfyUI Impact-Pack 플러그인에서 채굴 바이러스 발견 - 긴급 조치 필요
ComfyUI 커뮤니티의 인기 플러그인 Impact-Pack이 Ultralytics 패키지를 통해 채굴 멀웨어를 포함하고 있는 것으로 발견되어 많은 사용자에게 영향을 미치고 있습니다. 이 글에서는 바이러스 상황과 해결책을 자세히 설명합니다.
Luma, 혁신적인 AI 이미지 생성 모델 Photon 출시
Luma가 혁신적인 Photon과 Photon Flash 이미지 생성 모델을 출시하여 뛰어난 가성비와 우수한 이미지 품질로 AI 창작 분야를 재정의
텐센트, HunyuanVideo 동영상 생성 대규모 모델 오픈소스 공개 - 동영상 생성의 새로운 시대를 열다
텐센트가 업계 최대 규모의 동영상 생성 대규모 모델 HunyuanVideo를 공식 오픈소스로 공개했습니다. 130억 개의 매개변수를 보유하고 있으며, 동영상 품질과 동작 안정성 등에서 선도적인 수준을 달성했습니다
Stability AI, Stable Diffusion 3.5 Large ControlNet 모델 출시
Stability AI가 Stable Diffusion 3.5 Large를 위한 세 가지 새로운 ControlNet 모델을 출시했습니다. Blur, Canny, Depth를 포함하여 이미지 생성에 대한 더 정밀한 제어 기능을 제공합니다
NVIDIA Edify 3D 출시 - 혁신적인 3D 자산 생성 기술
NVIDIA는 새로운 Edify 3D 기술을 출시하여, 2분 만에 고품질의 3D 자산을 생성할 수 있습니다. 이 기술은 상세한 기하학, 명확한 토폴로지, 고해상도 텍스처 및 PBR 재료를 포함합니다.

Lightricks, 실시간 비디오 생성 모델 LTX-Video 출시
Lightricks는 DiT 기반의 실시간 비디오 생성 모델 LTX-Video를 출시하였으며, 고품질 비디오의 실시간 생성을 지원하며 GitHub와 Hugging Face에서 오픈 소스로 제공됩니다.

InstantX, FLUX.1-dev IP-Adapter 모델 출시
InstantX 팀이 FLUX.1-dev 기반의 IP-Adapter 모델을 출시하여 FLUX 모델에 더 강력한 이미지 참조 기능을 제공
FLUX 공식 도구 모음 출시
Black Forest Labs는 로컬 리드로우, ControlNet, 이미지 스타일 변환을 포함한 다양한 FLUX 공식 도구를 출시합니다
IC-Light V2 출시: 향상된 이미지 편집 기능
IC-Light V2는 Flux 기반의 이미지 편집 모델로, 유화 및 애니메이션 스타일을 포함한 다양한 스타일화된 이미지 처리를 지원합니다. 이 문서는 IC-Light V2의 새로운 기능과 응용에 대해 설명합니다.

Stable Diffusion 3.5 출시: AI 이미지 생성의 새로운 시대
Stability AI가 Stable Diffusion 3.5를 출시하여 다양한 강력한 모델 변형을 제공하고, 상업적 사용을 지원하며, 이미지 품질과 프롬프트 준수에서 시장을 선도합니다.
ComfyUI V1 출시: 원클릭 설치가 가능한 크로스 플랫폼 데스크탑 앱
ComfyUI가 버전 1을 출시하여 원클릭 설치가 가능한 크로스 플랫폼 데스크탑 애플리케이션과 새롭게 디자인된 사용자 인터페이스, 다양한 기능 개선을 통해 사용자 경험을 크게 향상시켰습니다.
Kuaishou와 PKU, 피라미드 플로우 매칭 비디오 생성 모델 공동 출시
Kuaishou Technology와 Peking University가 공동으로 개발한 피라미드 플로우 매칭 모델은 플로우 매칭 기반의 자기회귀 비디오 생성 기술로, 고품질의 장시간 비디오 콘텐츠를 생성할 수 있습니다.
Jasperai, Flux.1-dev ControlNet 모델 시리즈 출시
Jasperai는 Flux.1-dev를 위한 ControlNet 모델 시리즈를 소개하며, 표면 법선, 깊이 맵, 초해상도 모델을 포함하여 AI 이미지 생성에 대한 더 정밀한 제어를 제공합니다.
ComfyUI-PuLID-Flux: ComfyUI에서 PuLID-Flux 구현하기
ComfyUI-PuLID-Flux는 PuLID-Flux를 ComfyUI에 통합하여 강력한 이미지 생성 및 편집 기능을 제공하는 오픈 소스 프로젝트입니다.
Meta, Movie Gen 소개: 비디오 및 오디오 생성 AI 모델
Meta는 비디오 생성, 오디오 생성 및 개인화된 비디오 편집 기능을 포함한 Movie Gen 시리즈 모델을 소개하여 AI 콘텐츠 생성의 새로운 지평을 열었습니다.
ostris, OpenFLUX.1 출시: FLUX.1-schnell의 상업적으로 사용 가능한 디-디스틸드 버전
ostris는 FLUX.1-schnell 모델의 디-디스틸드 버전인 OpenFLUX.1을 출시했으며, 이는 미세 조정이 가능하고, 일반적인 CFG 값을 사용하며, 상업적 라이선스를 유지합니다.
Black Forest Lab, FLUX 1.1 [Pro] 출시
Black Forest Labs는 초고속 생성, 우수한 이미지 품질, 2K 초고해상도 생성을 특징으로 하는 생성 AI 모델 FLUX1.1 [pro]를 소개하여 창작자, 개발자 및 기업에 전례 없는 기회를 제공합니다.
THUDM, 새로운 이미지 생성 모델 오픈 소스화: CogView3 및 CogView-3Plus
THUDM은 최신 이미지 생성 모델 CogView3 및 CogView-3Plus-3B를 오픈 소스화하여 뛰어난 성능과 효율성을 선보였습니다. CogView3는 계단식 확산 기술을 활용하며, CogView-3Plus-3B는 DiT 아키텍처 기반의 경량 모델로, 텍스트-이미지 생성 분야에 중요한 돌파구를 제공합니다.