Moonshot AI lanza Kimi K2.5 - Modelo de agente multimodal nativo de 1T parámetros

El 27 de enero de 2026, Moonshot AI lanzó oficialmente y publicó como código abierto el modelo multimodal de próxima generación Kimi K2.5. Como su modelo más inteligente y versátil hasta la fecha, K2.5 presenta un diseño de arquitectura multimodal nativa, compatible con entrada visual y de texto, modos de pensamiento y no pensamiento, tareas de diálogo y agente, con rendimiento líder en agente, codificación, imágenes, videos y tareas de inteligencia general.

Arquitectura del modelo

Diseño multimodal nativo

Kimi K2.5 es un modelo de mezcla de expertos (MoE) de 1T parámetros con aproximadamente 32B parámetros activados. El modelo se sometió a pre-entrenamiento continuo en aproximadamente 15 billones de tokens mixtos visuales y de texto, logrando capacidades multimodales nativas verdaderas.

El modelo emplea un codificador de visión MoonViT de desarrollo propio (400M parámetros), integrando sin problemas la comprensión visual y del lenguaje, compatible con entrada de imágenes y videos, con excelente rendimiento en conocimiento visual, razonamiento cross-modal y uso de herramientas de agente basadas en entradas visuales.

Mecanismo Agent Swarm

K2.5 introduce un innovador mecanismo Agent Swarm (enjambre de agentes), transitando del escalado de agente único a un esquema de ejecución tipo enjambre auto-dirigido y coordinado. El modelo puede descomponer tareas complejas en subtareas paralelas ejecutadas por agentes específicos de dominio instanciados dinámicamente para un procesamiento de tareas más eficiente.

Capacidades principales

Comprensión visual y generación de código

K2.5 demuestra excelente comprensión visual:

Comprensión de imágenes: Puntuación MMMU-Pro 78.5, CharXiv (RQ) puntuación 77.5
Visión matemática: MathVision puntuación 84.2, MathVista (mini) puntuación 90.1
Capacidad OCR: OCRBench puntuación 92.3, OmniDocBench 1.5 puntuación 88.8
Comprensión de video: VideoMMMU puntuación 86.6, VideoMME puntuación 87.4

El modelo puede generar código a partir de especificaciones visuales (diseños de UI, flujos de trabajo de video) y orquestar autónomamente herramientas para procesamiento de datos visuales.

Capacidades de codificación

K2.5 tiene un excelente rendimiento en tareas de programación:

SWE-Bench Verified: 76.8% (superando a Gemini 3 Pro)
SWE-Bench Multilingual: 73.0% (superando a GPT 5.2 y Gemini 3 Pro)
LiveCodeBench (v6): 85.0%
Terminal Bench 2.0: 50.8%

Capacidades de agente y búsqueda

K2.5 demuestra capacidades poderosas en tareas de agente y búsqueda:

BrowseComp: Puntuación base 60.6%, mejorada a 78.4% con Agent Swarm
WideSearch (item-f1): Puntuación base 72.7%, mejorada a 79.0% con Agent Swarm
DeepSearchQA: 77.1%

Logró los mejores resultados de modelos de código abierto globales en múltiples evaluaciones de agentes incluyendo HLE (Último Examen de la Humanidad), BrowseComp y DeepSearchQA.

Razonamiento y conocimiento

HLE-Full: 30.1% (sin herramientas), 50.2% (con herramientas)
AIME 2025: 96.1%
HMMT 2025 (Feb): 95.4%
GPQA-Diamond: 87.6%
MMLU-Pro: 87.1%

Características técnicas

Soporte de modo dual

K2.5 soporta ambos:

Modo instantáneo: Respuesta rápida para conversaciones diarias y tareas simples
Modo de pensamiento: Razonamiento profundo para resolución de problemas complejos

Capacidad de contexto largo

Longbench v2: 61.0%
AA-LCR: 70.0%

El modelo puede procesar eficazmente contenido de texto largo y video largo.

Escenarios de aplicación

Kimi K2.5 es particularmente adecuado para:

Programación visual: Generar código directamente desde imágenes de diseño UI o demostraciones de video
Automatización de tareas complejas: Procesamiento paralelo de múltiples subtareas a través de Agent Swarm
Comprensión de documentos: OCR de alta precisión y análisis de documentos
Análisis de video: Comprensión y razonamiento de contenido de video largo
Búsqueda inteligente: Búsqueda web profunda e integración de información
Diálogo multimodal: Conversaciones inteligentes combinando imágenes y videos

Código abierto y disponibilidad

Kimi K2.5 es completamente de código abierto, compatible con uso comercial y no comercial. Los desarrolladores pueden:

Implementar y ejecutar localmente
Ajustar finamente y personalizar
Integrar en varias aplicaciones

Avance técnico

El fundador y CEO de Moonshot AI, Zhilin Yang, declaró: “Reconstruimos la infraestructura de aprendizaje por refuerzo y optimizamos específicamente los algoritmos de entrenamiento para garantizar que pueda lograr la máxima eficiencia y rendimiento.”

El lanzamiento de K2.5 marca un hito importante para los modelos de agentes multimodales, integrando capacidades de comprensión visual, generación de código y colaboración de agentes en un solo modelo, proporcionando una base poderosa para el desarrollo de aplicaciones de IA.

Enlaces relacionados

Modelo HuggingFace: https://huggingface.co/moonshotai/Kimi-K2.5
Informe técnico: https://www.kimi.com/blog/kimi-k2-5.html
Plataforma NVIDIA Build: https://build.nvidia.com/moonshotai/kimi-k2.5