OpenMOSS lanza MOVA - modelo de generación sincronizada de video y audio de código abierto
29/01/2026
Moonshot AI lanza Kimi K2.5 - Modelo de agente multimodal nativo de 1T parámetros
El 27 de enero de 2026, Moonshot AI lanzó oficialmente y publicó como código abierto el modelo multimodal de próxima generación Kimi K2.5. Como su modelo más inteligente y versátil hasta la fecha, K2.5 presenta un diseño de arquitectura multimodal nativa, compatible con entrada visual y de texto, modos de pensamiento y no pensamiento, tareas de diálogo y agente, con rendimiento líder en agente, codificación, imágenes, videos y tareas de inteligencia general.
Arquitectura del modelo
Diseño multimodal nativo
Kimi K2.5 es un modelo de mezcla de expertos (MoE) de 1T parámetros con aproximadamente 32B parámetros activados. El modelo se sometió a pre-entrenamiento continuo en aproximadamente 15 billones de tokens mixtos visuales y de texto, logrando capacidades multimodales nativas verdaderas.
El modelo emplea un codificador de visión MoonViT de desarrollo propio (400M parámetros), integrando sin problemas la comprensión visual y del lenguaje, compatible con entrada de imágenes y videos, con excelente rendimiento en conocimiento visual, razonamiento cross-modal y uso de herramientas de agente basadas en entradas visuales.
Mecanismo Agent Swarm
K2.5 introduce un innovador mecanismo Agent Swarm (enjambre de agentes), transitando del escalado de agente único a un esquema de ejecución tipo enjambre auto-dirigido y coordinado. El modelo puede descomponer tareas complejas en subtareas paralelas ejecutadas por agentes específicos de dominio instanciados dinámicamente para un procesamiento de tareas más eficiente.
Capacidades principales
Comprensión visual y generación de código
K2.5 demuestra excelente comprensión visual:
- Comprensión de imágenes: Puntuación MMMU-Pro 78.5, CharXiv (RQ) puntuación 77.5
- Visión matemática: MathVision puntuación 84.2, MathVista (mini) puntuación 90.1
- Capacidad OCR: OCRBench puntuación 92.3, OmniDocBench 1.5 puntuación 88.8
- Comprensión de video: VideoMMMU puntuación 86.6, VideoMME puntuación 87.4
El modelo puede generar código a partir de especificaciones visuales (diseños de UI, flujos de trabajo de video) y orquestar autónomamente herramientas para procesamiento de datos visuales.
Capacidades de codificación
K2.5 tiene un excelente rendimiento en tareas de programación:
- SWE-Bench Verified: 76.8% (superando a Gemini 3 Pro)
- SWE-Bench Multilingual: 73.0% (superando a GPT 5.2 y Gemini 3 Pro)
- LiveCodeBench (v6): 85.0%
- Terminal Bench 2.0: 50.8%
Capacidades de agente y búsqueda
K2.5 demuestra capacidades poderosas en tareas de agente y búsqueda:
- BrowseComp: Puntuación base 60.6%, mejorada a 78.4% con Agent Swarm
- WideSearch (item-f1): Puntuación base 72.7%, mejorada a 79.0% con Agent Swarm
- DeepSearchQA: 77.1%
Logró los mejores resultados de modelos de código abierto globales en múltiples evaluaciones de agentes incluyendo HLE (Último Examen de la Humanidad), BrowseComp y DeepSearchQA.
Razonamiento y conocimiento
- HLE-Full: 30.1% (sin herramientas), 50.2% (con herramientas)
- AIME 2025: 96.1%
- HMMT 2025 (Feb): 95.4%
- GPQA-Diamond: 87.6%
- MMLU-Pro: 87.1%
Características técnicas
Soporte de modo dual
K2.5 soporta ambos:
- Modo instantáneo: Respuesta rápida para conversaciones diarias y tareas simples
- Modo de pensamiento: Razonamiento profundo para resolución de problemas complejos
Capacidad de contexto largo
- Longbench v2: 61.0%
- AA-LCR: 70.0%
El modelo puede procesar eficazmente contenido de texto largo y video largo.
Escenarios de aplicación
Kimi K2.5 es particularmente adecuado para:
- Programación visual: Generar código directamente desde imágenes de diseño UI o demostraciones de video
- Automatización de tareas complejas: Procesamiento paralelo de múltiples subtareas a través de Agent Swarm
- Comprensión de documentos: OCR de alta precisión y análisis de documentos
- Análisis de video: Comprensión y razonamiento de contenido de video largo
- Búsqueda inteligente: Búsqueda web profunda e integración de información
- Diálogo multimodal: Conversaciones inteligentes combinando imágenes y videos
Código abierto y disponibilidad
Kimi K2.5 es completamente de código abierto, compatible con uso comercial y no comercial. Los desarrolladores pueden:
- Implementar y ejecutar localmente
- Ajustar finamente y personalizar
- Integrar en varias aplicaciones
Avance técnico
El fundador y CEO de Moonshot AI, Zhilin Yang, declaró: “Reconstruimos la infraestructura de aprendizaje por refuerzo y optimizamos específicamente los algoritmos de entrenamiento para garantizar que pueda lograr la máxima eficiencia y rendimiento.”
El lanzamiento de K2.5 marca un hito importante para los modelos de agentes multimodales, integrando capacidades de comprensión visual, generación de código y colaboración de agentes en un solo modelo, proporcionando una base poderosa para el desarrollo de aplicaciones de IA.
Enlaces relacionados
- Modelo HuggingFace: https://huggingface.co/moonshotai/Kimi-K2.5
- Informe técnico: https://www.kimi.com/blog/kimi-k2-5.html
- Plataforma NVIDIA Build: https://build.nvidia.com/moonshotai/kimi-k2.5