OpenMOSS, MOVA 출시 - 오픈소스 동영상·오디오 동기화 생성 모델
2026. 01. 29.
Moonshot AI, Kimi K2.5 출시 - 1T 파라미터 네이티브 멀티모달 에이전트 모델
2026년 1월 27일, Moonshot AI는 차세대 멀티모달 대규모 모델 Kimi K2.5를 정식으로 출시하고 오픈소스화했습니다. 동사 역사상 가장 지능적이고 다기능한 모델로서, K2.5는 네이티브 멀티모달 아키텍처 설계를 채택하여 비주얼과 텍스트 입력, 사고 모드와 비사고 모드, 대화와 에이전트 작업을 모두 지원하며, 에이전트, 코딩, 이미지, 동영상 및 일반 지능 작업에서 뛰어난 성능을 발휘합니다.
모델 아키텍처
네이티브 멀티모달 설계
Kimi K2.5는 **1T 파라미터의 혼합 전문가 모델(MoE)**로, 실제로 활성화되는 파라미터는 약 32B입니다. 모델은 약 15조 개의 혼합 비주얼·텍스트 토큰으로 지속적으로 사전 학습되어 진정한 네이티브 멀티모달 능력을 실현했습니다.
모델은 자체 개발한 MoonViT 비전 인코더(400M 파라미터)를 채택하여 비주얼과 언어 이해를 원활하게 통합하고, 이미지와 동영상 입력을 지원하며, 비주얼 지식, 크로스 모달 추론, 비주얼 입력 기반 에이전트 도구 사용에서 뛰어난 성능을 발휘합니다.
Agent Swarm 메커니즘
K2.5는 혁신적인 Agent Swarm(에이전트 군집) 메커니즘을 도입하여 단일 에이전트 스케일링에서 자율적으로 협조하는 군집 실행 모드로 전환했습니다. 모델은 복잡한 작업을 병렬 하위 작업으로 분해하고, 동적으로 인스턴스화된 도메인 전용 에이전트에 의해 실행되어 보다 효율적인 작업 처리를 실현합니다.
핵심 기능
비주얼 이해 및 코드 생성
K2.5는 비주얼 이해에서 뛰어난 성능을 발휘합니다:
- 이미지 이해: MMMU-Pro 점수 78.5, CharXiv (RQ) 점수 77.5
- 수학 비전: MathVision 점수 84.2, MathVista (mini) 점수 90.1
- OCR 능력: OCRBench 점수 92.3, OmniDocBench 1.5 점수 88.8
- 동영상 이해: VideoMMMU 점수 86.6, VideoMME 점수 87.4
모델은 비주얼 사양(UI 디자인, 동영상 워크플로우)에서 코드를 생성하고, 비주얼 데이터 처리를 위한 도구를 자율적으로 조율할 수 있습니다.
코딩 능력
K2.5는 프로그래밍 작업에서 뛰어난 성능을 발휘합니다:
- SWE-Bench Verified: 76.8% (Gemini 3 Pro 초과)
- SWE-Bench Multilingual: 73.0% (GPT 5.2 및 Gemini 3 Pro 초과)
- LiveCodeBench (v6): 85.0%
- Terminal Bench 2.0: 50.8%
에이전트 및 검색 능력
K2.5는 에이전트 및 검색 작업에서 강력한 능력을 발휘합니다:
- BrowseComp: 기본 점수 60.6%, Agent Swarm으로 78.4%로 향상
- WideSearch (item-f1): 기본 점수 72.7%, Agent Swarm으로 79.0%로 향상
- DeepSearchQA: 77.1%
HLE(인류 최후의 시험), BrowseComp, DeepSearchQA 등 여러 에이전트 평가에서 글로벌 오픈소스 모델 최고 성적을 달성했습니다.
추론 및 지식
- HLE-Full: 30.1% (도구 없음), 50.2% (도구 있음)
- AIME 2025: 96.1%
- HMMT 2025 (Feb): 95.4%
- GPQA-Diamond: 87.6%
- MMLU-Pro: 87.1%
기술적 특징
듀얼 모드 지원
K2.5는 두 가지 모드를 모두 지원합니다:
- 인스턴트 모드: 일상 대화 및 간단한 작업을 위한 빠른 응답
- 사고 모드: 복잡한 문제 해결을 위한 깊은 추론
긴 컨텍스트 능력
- Longbench v2: 61.0%
- AA-LCR: 70.0%
모델은 긴 텍스트와 긴 동영상 콘텐츠를 효과적으로 처리할 수 있습니다.
응용 시나리오
Kimi K2.5는 특히 다음 시나리오에 적합합니다:
- 비주얼 프로그래밍: UI 디자인 이미지나 동영상 데모에서 직접 코드 생성
- 복잡한 작업 자동화: Agent Swarm을 통한 여러 하위 작업의 병렬 처리
- 문서 이해: 고정밀 OCR 및 문서 분석
- 동영상 분석: 긴 동영상 콘텐츠 이해 및 추론
- 지능형 검색: 심층 웹 검색 및 정보 통합
- 멀티모달 대화: 이미지·동영상을 결합한 지능형 대화
오픈소스 및 가용성
Kimi K2.5는 완전히 오픈소스화되어 상업적 및 비상업적 사용을 모두 지원합니다. 개발자는 다음을 수행할 수 있습니다:
- 로컬에서 배포 및 실행
- 파인튜닝 및 커스터마이징
- 다양한 애플리케이션에 통합
기술적 돌파구
Moonshot AI 창업자 겸 CEO인 양즈린(杨植麟)은 다음과 같이 말했습니다: “우리는 강화 학습 인프라를 재구축하고 훈련 알고리즘을 특별히 최적화하여 궁극적인 효율성과 성능을 달성할 수 있도록 했습니다.”
K2.5의 출시는 멀티모달 에이전트 모델의 중요한 이정표를 나타내며, 비주얼 이해, 코드 생성, 에이전트 협업 등의 능력을 단일 모델에 통합하여 AI 애플리케이션 개발을 위한 강력한 기반을 제공합니다.
관련 링크
- HuggingFace 모델: https://huggingface.co/moonshotai/Kimi-K2.5
- 기술 보고서: https://www.kimi.com/blog/kimi-k2-5.html
- NVIDIA Build 플랫폼: https://build.nvidia.com/moonshotai/kimi-k2.5